Workflow
腾讯研究院
icon
搜索文档
当AI回答一切,企业家最该问什么?
腾讯研究院· 2025-10-15 09:33
节目背景与核心理念 - 2025年AI发展进入产业深度落地的淘金时代 企业关注点从模型参数转向产业价值创造 [2] - 企业独有的高质量数据及行业经验成为驱动AI进化的核心燃料 从业务副产品变为核心生长力 [2] - 《一问》节目由腾讯集团高级管理顾问杨国安发起 腾讯青腾与腾讯新闻小满工作室联合出品 旨在探讨时代前沿商业命题 [2] - 节目第四季以AI时代的企业创新与转型为主旨 邀请行业领军企业分享破题思路 [3] 受访企业案例与创新方向 - 节目聚焦7家处于AI创新前沿的标杆企业 涵盖AI原生企业与传统行业转型代表 [7][9] - AI原生企业代表包括:Rokid探索AI+AR重新定义人机交互 BrainCo将脑机接口从医疗延伸至大健康等领域 Manus作为智能体先行者推动AI从工具化向代理化范式转移 [10][11][12] - 转型企业代表包括:美图通过AIGC技术重塑产品与流程 实现用户与利润双增长 高途探索AI时代教育本质 和睦家研究AI在医疗领域的精准应用 理想汽车开发智能汽车作为移动家园的新场景 [13][14] 企业面临的战略与组织挑战 - 企业需从利用AI工具降本增效的防守战 转向将AI纳入战略与产业智慧共创的进攻战 [16] - 核心问题是如何利用独特产业know-how与数据资产 完成从AI使用者到AI创变者的关键跨越 [17] - 具体挑战包括战略迷思(业务切入点与投入边界) 组织阵痛(架构流程阻力) 文化冲突(效率与探索平衡) 人才焦虑(顶尖人才争夺与需求定义) [18]
人类不能放弃写作
腾讯研究院· 2025-10-15 09:33
人工智能写作技术发展现状 - 大型语言模型或其后继者有望解决当前AI写作挑战,包括生成篇幅长、无重复、风格有趣、事实准确且始终切题的文本[1] - 生成文本质量可达到与人类作品难以区分的水平,但需要区分技术潜力与实际应用效果[1] - 人工智能工具已在文本生成、编辑和校对领域实现商业化应用,如Sudowrite、Jasper和Wordtune等程序[44] 人工智能与人类写作关系 - 人工智能增强而非取代人类认知成为技术发展新目标,需要找到机器与人类之间的正确平衡点[6] - 人类下棋等思维活动能培养运筹帷幄、处理问题和从错误中学习的能力,这些技能在多个生活领域具有价值[5] - 写作本质上是一种独奏活动,保持人类独特的写作方式和思维过程至关重要[15][18] 教育领域应用与挑战 - ChatGPT推出后引发教育界广泛关注,挪威教育机构担心AI文本生成威胁学生写作和阅读技能发展[22] - 美国教育工作者建议通过设计特殊任务来暴露AI使用行为,如要求包含观察结果整理和意义创造过程[22][23] - 技术公司开发检测工具应对学术诚信问题,如GPTZero被集成到Canvas和Blackboard等学习管理系统中[27] 知识产权与法律问题 - 商业领域存在AI生成内容的知识产权归属争议,艺术家和程序员担心作品被AI工具未经授权使用[28] - Shutterstock设立基金补偿其平台原创艺术作品被用于AI生成图像的人类创作者[28] - 法律界需要明确AI生成作品的版权归属,目前美国法律不承认非人类实体的版权主张[29][30] 职业影响与行业趋势 - 新闻、法律和翻译等以写作为基础的专业面临AI技术冲击,但就业前景预测存在分化[35][36] - 放射科医生等专业领域呈现"使用AI的专业人员将取代不使用AI者"的发展趋势[38] - 翻译行业岗位数量因全球化继续增长,但工作质量可能受到AI工具普及的影响[37] 技术应用伦理规范 - 斯坦福大学提出以人为中心的人工智能发展目标,强调改善人类生活而非取代人类[42] - 加州通过BOT法案要求自动程序在影响商业或投票时进行披露,为AI生成内容标识提供法律先例[45] - 出版界出现AI署名争议,部分出版商拒绝承认AI工具满足研究作者标准[46][47]
腾讯研究院AI速递 20251015
腾讯研究院· 2025-10-14 16:01
英伟达发布个人AI超算 - 英伟达正式发布DGX Spark个人AI超级计算机,售价3999美元,搭载Grace Blackwell GB10超级芯片,提供1 Petaflop AI计算性能和128GB统一内存 [1] - 该设备采用NVLink-C2C技术实现CPU与GPU无缝连接,带宽是PCIe 5代的5倍,可在本地运行2000亿参数大模型,两台联机可处理4000亿参数模型 [1] - 预装完整NVIDIA AI软件栈,10月15日起通过官网及全球合作伙伴正式发售 [1] AI模型与算法开源进展 - AI大神Andrej Karpathy发布开源项目nanochat,8000行代码实现从零训练ChatGPT克隆版全流程,发布12小时内获得近5000颗GitHub星标 [2] - nanochat项目覆盖分词器训练到推理引擎全部功能,仅需100美元成本(8×H100训练4小时)即可训练出能聊天的迷你模型,更适合学习研究 [2] - 腾讯优图实验室开源通用文本表示模型Youtu-Embedding,可胜任文本检索、意图理解等六大主流任务,在CMTEB中文语义评测基准上以77.46分登顶 [4] - Youtu-Embedding模型从零开始训练使用3万亿Token中英文语料,采用创新微调框架,支持集成至主流框架开箱即用,降低企业级RAG系统开发门槛 [4] 科技巨头AI产品与技术突破 - 微软推出首款完全自研文生图模型MAI-Image-1,首次亮相以1096分排在LMArena文生图榜单第9名,在光影效果、自然景观等超写实图像生成上表现突出 [3] - MAI-Image-1将集成至Copilot和Bing Image Creator等微软核心产品,是微软打造多模态自主技术矩阵的重要一步 [3] - QQ浏览器电脑端新增“较真AI”功能,基于腾讯新闻较真平台10年查证经验及百万级辟谣数据库,可快速辨别信息真伪并输出可信度评分 [7] - QQ浏览器同步上线“AI视频助理”,支持智能总结、16种语言识别翻译和一键导出带字幕视频,依托腾讯混元翻译模型解决外语视频理解难题 [7] 前沿科技与航天进展 - SpaceX完成星舰第十一次综合飞行测试,使用二手助推器B15.2和S38飞船,为第三代星舰收集着陆燃烧配置和动力数据 [8] - 助推器验证了13台发动机初始点火、5台发动机转向和3台发动机悬停的配置切换,飞船完成了动态倾斜机动、太空点火和隔热极限测试 [8] - 第三代星舰组合体高度将超124米,采用第三代猛禽发动机单台推力提升至280吨,有效载荷达100吨,预计2025年底开展地面测试 [8] AI行业趋势与战略洞察 - ARK Invest创始人Cathie Wood预测未来十年全球实际GDP增速将从3%提升至7%以上,通胀率降至0%甚至负值,AI等五大技术平台成熟将重新定义生产率 [9] - 她预计真正的颠覆式创新资产未来五年在资本市场年化回报率可能达40%-50% [9] - n8n创始人认为AI浪潮要么是巨大机遇要么是公司终结,n8n选择让用户能用其构建AI驱动应用而非只添加AI功能,成为AI编排层,公司收入在8个月内增长4倍 [12] AI交互研究与人才培养 - 宾夕法尼亚州立大学研究显示,对LLM使用粗鲁语气提问时,GPT-4o正确率达84.8%,而特别客气时正确率仅80.8%,粗鲁表达更直接能让AI精准抓住核心任务 [5][6] - 腾讯启动“青云奖学金”,面向AI前沿的硕博研究生,首届预计评选15位优秀学子,每人总支持高达50万元,包括20万元现金奖励和30万元云异构算力资源 [10]
本地化新闻,AI无法抵达的“最后一公里”
腾讯研究院· 2025-10-14 08:33
文章核心观点 - AI技术的局限性(如数据偏好、时效延迟、信任缺失)为本地新闻的价值重估创造了结构性机遇,使其在信息过剩时代重新获得生存和发展空间 [4][6][7][9] - 社会和受众需求正重新回归“附近”,全国性媒体的报道盲区与人们对社区认同感的渴求,共同构成了本地新闻复兴的沃土 [12][13][15] - 本地新闻的未来在于与AI技术协同进化,从单纯的新闻报道者转型为多元的社区服务者,并通过深度、精准的“小而美”商业模式建立可持续性 [16][17][19][20] AI的盲区:算法无法抵达的“最后一公里” - AI大语言模型存在“宏大叙事偏好”,其训练数据集中于全球性议题,而大量非结构化的本地信息(如街道会议纪要、社区活动安排)处于其视野之外,难以被消化和理解 [6] - 本地新闻的生命力在于以“小时”或“分钟”为单位的即时性,而主流LLM存在知识截止日期,在报道刚发生的本地事件时易产生信息过时或幻觉,这在新闻领域是致命的 [7][9] - 新闻的本质是基于信任的关系,人类记者通过长期社区深耕建立的信源网络、同理心及对事件背后“为什么”的深度洞察,是AI无法编码和替代的核心价值 [9][10] 需求的回归与本地新闻的价值重估 - 全国性媒体追求流量规模效应,系统性地忽视与人们日常生活福祉息息相关的本地话题(如学区划片、公园建设),形成了巨大的内容缺口 [13] - 本地新闻扮演社区“粘合剂”角色,通过设置共同议程促进公民参与和身份认同,是抵御社会疏离感、重建公共生活的重要力量 [13][15] - 新一代本地新闻正从“新闻报道者”进化为“社区服务者”,提供实用的生活指南、政府福利申请流程等具体服务,赢得无可替代的忠诚度 [15] 本地新闻的未来 - AI是提升效率的工具而非威胁,可将记者从重复性工作中解放出来(如自动处理政府文件、转录采访录音),使其专注于深度调查和高价值工作 [17] - 商业模式将趋向“小而美”,专注于特定城市、区县或垂直领域的高度精准内容,并通过会员制、知识付费及社群活动建立深度连接 [19][20] - 本地新闻机构将重塑为社区的“信息枢纽”和“连接中心”,其价值将通过建立的信任和社区作用来衡量,而非简单的流量数字 [20]
腾讯研究院AI速递 20251014
腾讯研究院· 2025-10-13 17:53
OpenAI芯片战略合作 - OpenAI与博通达成战略合作,将部署100亿瓦OpenAI设计的定制AI芯片,计划于2026年下半年开始部署并于2029年底完成 [1] - 这是OpenAI一个月内与第三家芯片巨头的交易,此前已宣布获得英伟达1000亿美元投资以及与AMD达成的60亿瓦GPU部署协议 [1] - 双方过去18个月一直在设计新芯片,消息公布后博通股价一度涨超10% [1] 谷歌Gemini 3.0技术更新 - 谷歌Gemini 3.0预计10月22日发布,内测显示其前端开发能力强大,可一键生成网页、游戏、原创音乐等 [2] - 模型采用MoE架构,超万亿参数,每次查询激活150-200亿参数,上下文长度从100万跃升至数百万token,可处理整本书和代码库 [2] - 2025年9月Gemini环比增长率达46.24%,在特定测试中表现断档领先 [2] LiblibAI平台升级 - LiblibAI(哩布哩布)2.0升级接入海螺、通义万相、可灵、Pixverse、vidu等10多个热门视频模型和大量生图模型 [3] - 新增视频特效一键同款功能,接入Midjourney V7、Qwen-image、Seedream 4.0等常用生图模型,支持图生视频无缝切换 [3] - 增加资产管理菜单和AI工具箱入口,集合高清放大、抠图、产品精修等大量模型工作流,提供一站式AI体验 [3] Mamba-3架构创新 - Mamba-3已进入ICLR 2026盲审,采用梯形规则离散化、复数状态空间、多输入多输出设计三大创新 [4] - 通过引入复数隐状态实现"钟摆"记忆能够处理周期模式,MIMO设计显著提高算术强度使GPU满负荷运行 [5] - 在超长上下文信息检索测试中表现优异,推理延迟大幅降低,适合长文本处理、实时交互和边缘计算 [5] SAM 3分割技术突破 - SAM 3论文登陆ICLR 2026,实现可提示概念分割,用户通过简单名词短语或图像范例即可分割所有匹配实例 [6] - 在SA-Co基准上性能比之前系统提升至少2倍,在LVIS数据集零样本掩码平均精度达47.0,超越之前38.5的纪录 [6] - 采用双编码器-解码器Transformer架构,构建包含400万独特短语和5200万掩码的高质量训练数据,单H200 GPU处理100+物体图像仅需30毫秒 [6] 谷歌ReasoningBank记忆框架 - 谷歌提出ReasoningBank创新记忆框架,从智能体成功和失败经验中提炼记忆项形成闭环自我进化系统 [7] - 引入记忆感知的测试时扩展通过并行和顺序设置生成多样探索,使记忆合成更具普遍性 [7] - 在多项基准测试中,ReasoningBank有效性相对提高达34.2%,交互步骤减少16.0% [7] 大模型科学推理能力 - GPT-5和Gemini 2.5 Pro在国际天文学和天体物理学奥林匹克竞赛中均获金牌成绩,GPT-5在理论考试平均得分84.2% [8] - 两大模型在理论考试表现优于当届最佳学生,但在几何/空间问题上准确率(49-78%)明显低于物理/数学问题(67-91%) [8] - 标志着AI在天文、天体物理等多科学领域展现出接近顶尖人类水平的综合能力 [8] 人形机器人技术进展 - 宇树G1机器人展示空中翻转、连续后空翻、单手侧后翻等高难度动作,并演示功夫拳法和顶膝动作 [10] - 公司计划今年下半年推出身高1.8米的人形机器人,已申请近10项人形机器人相关专利 [10] - 今年上半年国内机器人行业平均增长率达50%-100%,算法升级后机器人理论上可完成各种舞蹈和武术动作 [10] 苹果智能眼镜产品规划 - 苹果智能眼镜可能与Mac配对时运行完整visionOS,与iPhone配对时切换至轻便移动界面,计划2026-2027年发布 [11] - 公司已放弃开发"Vision Air"头戴设备,将工程师精力集中转向智能眼镜开发,直接对标Meta的Ray-Ban Display [11] - 第一代产品将不配备显示功能,但包含音乐扬声器、摄像头、语音控制和可能的健康功能 [11] OpenAI发展现状与展望 - Sam Altman表示AI会改变工作性质但不会消灭真正的工作,未来工作形式可能更轻松 [12] - GPT-6开发重点是更智能的模型、更长上下文和更好记忆能力,Codex已能完成整天任务 [12] - OpenAI当前每周活跃用户达8亿,团队正在研发全新语音交互设备但短期内不会透露 [12]
所有AI的馈赠,早已在暗中标好了价格
腾讯研究院· 2025-10-13 10:00
文章核心观点 - 生成式AI对劳动力市场和人类创造力产生了显著的“双刃剑”效应,并未实现预期的“工作平权”,反而加剧了资历偏向和思想同质化 [5][9][11][25][29][40][42][44][45] 劳动力市场影响 - 2023年后,初级和高级岗位的就业增长曲线出现分叉,高级岗位继续增长,初级岗位数量开始下降 [11] - 深度拥抱AI的企业,其初级岗位数量在六个季度内相对下降7.7%,而高级岗位基本不受影响甚至略有增长,主因是招聘大幅减少而非大规模裁员 [11] - 生成式AI正以“资历偏向”的方式重塑劳动力市场,加剧了马太效应 [9][11] 学术知识生产影响 - 分析ChatGPT-3.5发布前后横跨21个学科门类的419,344篇论文,发现AI发布后学术产出的创造力和同质性均出现急剧拉升 [12][15][16] - 学者人均年发表量增加0.9篇,发表期刊质量平均提升6%,但语言风格相似度平均每年惊人地增加79%,内容主题出现显著趋同 [22] - 物理科学、艺术与人文学科的同质化现象最为严重 [22] 个体创造力长期影响 - 通过为期60天的纵向行为实验发现,AI带来的创造力提升是短暂且不可持续的,一旦AI被撤走,优势便消失 [32][33][38] - 在实验第60天的聚合思维测试中,AI实验组参与者表现甚至显著差于从未用过AI的对照组 [38] - 思想的同质化表现出惊人的“粘性”,停止使用AI两个月后,实验组的产出内容在语义和语言风格上依然比对照组有显著更高的相似度 [40] 行业启示与应对 - AI的输出对使用者产生强大的“锚定效应”,导致群体层面的思想收敛 [42] - 建议将AI当作“思想陪练”进行头脑风暴,但最终的筛选、深化和决策必须由个人负责 [47] - 建议刻意练习“认知摩擦”以对抗锚定效应,并设置“无AI时间”以确保大脑核心创造与推理能力不会退化 [47]
腾讯研究院AI速递 20251013
腾讯研究院· 2025-10-12 20:56
AI模型能力评估 - 陶哲轩使用GPT-5 Pro挑战数学开放问题,发现AI在小尺度具体计算推导和宏观尺度整体问题结构把握方面表现出色[1] - 在中尺度策略选择和方向判断层面,AI帮助有限甚至产生干扰,因过度认同用户思路而未能指出关键假设错误[1] - AI成功推导出Minkowski第一积分公式等工具,但在复杂非圆几何形态分析上存在明显局限[1] 全球AI竞争格局变化 - 硅谷顶级投资人Chamath Palihapitiya公开表示其公司已将大量工作负载转向中国Kimi K2模型,因性能足够强且比OpenAI和Anthropic便宜太多[2] - Vercel、Cursor、Perplexity等美国开发者生态重要平台已集成Kimi K2,开发者用代码进行"投票"成为市场证明[2] - State of AI Report 2025首次将中国AI从"追赶者"提升为"平行竞争者"[2] AI在医疗领域的应用突破 - 宾大医学院教授David Fajgenbaum创立非营利组织Every Cure打造AI系统MATRIX,在7500万种药物与疾病组合中寻找治疗方案[3] - MATRIX利用生物医学知识图谱为每个药物-疾病组合打分,生成7500万个分数时间从100天缩短至17小时[3] - 该系统已帮助多位罕见病患者,优先攻克"最糟糕的病"[3] AI人才流动与产业动态 - AI领域传奇人物Andrew Tulloch离开Thinking Machines Lab重返Meta担任重要职位,曾拒绝Meta超10亿美元报价[4] - Thinking Machines Lab于今年7月完成20亿美元种子轮融资,由a16z领投,英伟达、AMD等参与投资[4] - Andrew Tulloch在Meta工作11年6个月后加入OpenAI深度参与GPT-4o和GPT-4.5研发,2025年与前OpenAI CTO共同创立Thinking Machines[4] 中国科技创新全球影响力 - 《时代周刊》2025年度最佳发明榜单史无前例评出300项发明,华为、DeepSeek、宇树科技、追觅科技等多家中国品牌产品上榜[5][6] - 生成式AI领域DeepSeek R1以极低成本实现顶尖模型实力,机器人领域宇树R1双足机器人售价仅5900美元面向研究人员[6] - 榜单涵盖36个品类包括AI、机器人、芯片等领域,中国力量在全球科技创新中地位显著提升[6] AI技术演进新路径 - 斯坦福大学等机构提出Agentic Context Engineering技术,让语言模型无需微调也能自我提升,适应延迟平均降低86.9%[7] - ACE通过"生成-反思-整合"架构将上下文视为不断演化的作战手册,在AppWorld基准上性能提升17.1%使开源小模型接近最强商用系统[7] - 在金融推理任务中平均性能提升8.6%,引入专职反思者模块和增量Delta更新机制[7] AI产业风险与挑战 - 强化学习之父Rich Sutton认为LLM过度依赖模仿有限人类知识,预测其发展将很快遇到瓶颈[8] - 巨额资本投入正在深刻影响科学研究方向,如果这些技术不能在3年内产生足够回报,就可能引发信心崩盘和泡沫破裂[8] - LLM直接模仿"行动"本身而非人类发现过程,可能永远无法通向对世界因果关系的真正理解[8] AI产业发展现状 - NVIDIA市值突破4万亿美元几乎垄断AI算力,中国DeepSeek等开源模型全面反超Meta占据Hugging Face 40%以上份额[9] - AI发展已进入"电力决定路线图"时代,部分AI基础设施的边际成本已由GPU价格转向千瓦时电价[9] - State of AI Report 2025称2025年为"AI推理元年",但研究发现推理进步多数落在模型波动自然范围内,存在严重脆弱性[9] AI意识与安全议题 - 深度学习先驱Hinton表示AI或许早已拥有"主观体验",只是因人类对意识理解错误未能反映[10] - Hinton认为目前最紧迫的是AI滥用风险和生存风险,强调在防止AI接管问题上所有国家利益一致[10] - 国际合作可能由欧洲和中国引领,概念就像"政治联盟"是一组神经元共同激活形成[10]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-12 02:34
芯片技术进展 - 英特尔在2纳米制程芯片技术方面取得进展 [3] 大语言模型与AI模型 - Thinking Machines发布第二篇论文及Tinker模型 [3] - OpenAI经历「GPT门」事件并推出系列重大更新 [3] - DeepSeek发布DeepSeek-V3.2-Exp模型 [3] - 谷歌推出Gemini 3.0 Pro模型 [3] - Claude发布Sonnet 4.5模型 [3] - 智谱发布GLM-4.6模型 [3] - 蚂蚁集团发布Ling-1T模型 [3] - AI21 Labs发布3B推理模型 [3] - Sora发布Sora 2模型 [4] - xAI发布Imagine v0.9模型 [4] AI应用与产品 - OpenAI为ChatGPT推出Pulse功能 [3] - 谷歌推出Gemini Robotics 1.5及Gemini Enterprise [3][4] - 谷歌DeepMind推出Computer Use功能及Banana更新 [4] - Kimi推出OK Computer应用 [3] - 腾讯推出Hunyuan3D-Part、混元图像3.0及混元3D-Omni应用 [3][4] - AI电影国际峰会关注AI电影应用 [3] - 苹果为其系统增加MCP支持 [3] - 快手推出KAT系列应用 [4] - 好未来推出AI教师应用 [4] - 智源推出RoboBrain-X0应用 [4] - Anthropic为Claude推出Claude Code插件系统 [4] - Sand.ai推出GAGA-1应用 [4] - Lovart接入Sora 2模型 [4] - vivo推出OriginOS 6系统 [4] 前沿科技与研究 - 上海AILab研发Imaging-X技术 [4] - Meta推出Metabot [4] - 加州理工在量子阵列技术方面取得进展 [4] - 英伟达开源其机器人技术 [4] - Figure发布Figure 03机器人 [4] 行业观点与洞察 - 红杉资本提出AI生产力悖论观点 [4] - Richard Sutton提出LLM起点错误观点 [4] - 陈丹琦提出RLMT方法观点 [4] - DeepMind揭秘Veo 3技术观点 [4] - 英伟达黄仁勋强调AI基础设施重要性观点 [4] - AlphaGo大神提出AI融入经济观点 [4] - Flash Attention作者提出英伟达统治终结观点 [4] - 施密特提出人形机器人趋势观点 [4] - OpenAI的Sam Altman提出垂直整合AGI观点 [4] - Figure提出"卡脖子"关键技术观点 [4] - 谷歌提出智能体设计模式观点 [4] - 美图提出AI时代组织进化观点 [4] - a16z提出AI资本投入观点 [5]
腾讯研究院AI速递 20251011
腾讯研究院· 2025-10-10 16:01
英特尔Panther Lake处理器 - 英特尔发布基于18A工艺的首款量产处理器Panther Lake,相比前代CPU多核性能提升超50%,图形性能提升超50%,整体功耗降低30% [1] - 处理器采用全新Cougar Cove性能核与Darkmont能效核架构,配备第五代NPU提供50 TOPS算力,整体平台AI算力高达180 TOPS [1] - 通过RibbonFET晶体管、PowerVia背面供电和Foveros封装等创新技术,实现15%性能提升和30%芯片密度改进,预计2026年1月正式发布 [1] Claude Code插件系统 - Anthropic为Claude Code推出插件系统进入公测,用户可通过一行命令安装自定义命令、智能体、MCP服务器和钩子等四类插件 [2] - 插件系统可打包团队标准化流程、开发环境配置和工作流,解决新人入职配置环境复杂、团队标准难统一等痛点问题 [2] - 任何人都可创建插件市场,只需GitHub仓库或URL放置正确格式的marketplace.json文件,无需申请权限或审核流程 [2] 国产视频模型GAGA-1 - Sand.ai团队推出音画同步视频模型GAGA-1,专注人物表演和带台词表演,在单纯人物表演方面达到影视级别水平 [3] - 模型支持5秒和10秒两种时长,可实现精准的情绪表达和动作表演,支持中文、英文等多语言台词,但需注意台词不宜超过20字 [3] - 目前GAGA-1全员免费使用无水印,未来价格承诺将远低于Sora2和Veo3,适用于短剧、互动影游NPC对话等场景 [3] Lovart平台集成Sora 2 - 设计平台Lovart正式接入OpenAI的Sora 2模型,提供无水印商用级视频生成服务,10月12日前可免费试用 [4] - 结合Lovart接入的NanoBanana等图像模型,实现从静态图像到动态视频的无缝衔接,支持一键生成最长1分钟的宣传片 [4] - 平台提供无边画布Canvas功能,用户可像导演一样先生成分镜图再转化为连贯视频片段,真正实现"所见即所创" [4] vivo OriginOS 6操作系统 - OriginOS 6集成蓝心大模型能力实现全场景AI智能化,新增屏幕自动感知功能可识别内容并精准推荐服务,支持Live Photo的AI消除 [5] - 蓝心小V具备深度思考和深度研究能力,可在十几分钟内完成广泛信息调研生成数千字报告,语音交互更自然无需唤醒词 [6] - 通过蓝河流畅引擎重构安卓底层核心,推出超核计算、存储融合技术升级和双渲染架构,三年古董机应用响应速度反超新机63% [6] 谷歌Gemini企业服务 - 谷歌推出面向企业的Gemini订阅服务,Enterprise版每用户每月30美元,Business版每用户每月21美元,提供预制AI代理和自定义构建工具 [7] - 新服务引入Model Armor功能可检测屏蔽AI聊天中的请求与响应,并支持Box、Microsoft、Salesforce等平台数据集成 [7] - 现有Agentspace客户将在合同期内免费升级至新服务,谷歌云二季度收入同比增速重新回升至30%以上,直接挑战Microsoft Copilot [7] Figure 03人形机器人 - Figure公司发布第三代人形机器人Figure 03,配备毫克级力敏感触觉传感器能感知3克压力变化,相当于一枚回形针重量 [8] - 搭载视觉-语言-动作AI系统Helix,配备全新视觉系统实现两倍帧率、四分之一延迟和60%视场角拓宽,手部集成掌心摄像头提供近距离视觉反馈 [8] - 首款以高产量制造为前提设计的型号,初期规划年产能12000台,长期目标四年内累计生产10万台 [8] 美图AI组织进化 - 美图秀秀凭借AI合照功能荣获欧洲14个国家App Store总榜第一,公司通过RoboNeo项目实践"反惯性工作流" [9] - 公司推出"AI创新工作室"机制,鼓励小团队以创业模式验证产品想法并享受利润分红,目前AI编码普及率达86%,设计效率提升50%以上 [9] - 发布升级版价值观"文化六边形":热爱影像、追求极致、着眼全球、求真务实、打破惯性、爱拼能赢,期待培养更多"六边形战士" [9] AI行业投资与市场前景 - AI已在以十分之一成本提供十倍产品体验,到2030年AI计算能力累计投资预计超3万亿美元,过去3年智能成本每年下降超10倍 [10] - AI公司有能力进攻6万亿美元白领服务市场,规模是美国企业软件支出的20倍,ChatGPT用户每天在平台花费约20分钟且拥有超10亿月活 [10] - AI公司约2年内完成SaaS需要10年才能实现的增长,Cursor从200万美元增长到3亿美元,基于结果的定价模型开始挖掘新市场 [11] 大语言模型安全研究 - Anthropic联合英国AI安全研究所和图灵研究所发现,仅需250份恶意文档就可能在大型语言模型中制造后门漏洞,与模型规模无关 [12] - 研究训练了600M到13B参数的四种规模模型,发现投毒攻击成功与否取决于被投毒文档的绝对数量而非其占训练数据的比例 [12] - 测试针对使模型输出无意义文本的"服务拒绝"攻击,当投毒文档数量达250篇及以上时不论模型规模均能可靠触发后门效果 [12]
专访汤道生:元宝重兵投入这半年
腾讯研究院· 2025-10-10 08:33
AI市场变化与腾讯战略调整 - 国内大模型市场更集中,开源成为重要战略,DeepSeek横空出世[7] - 腾讯产品服务从只基于混元大模型变为开放整合多家大模型[8] - AI产品赛道兴起,公司调整组织架构,CSIG承担前端产品责任,TEG提供底层技术支持[8] 元宝业务接管决策 - 2023年12月汤道生主动举手接管元宝业务,认为AI Chatbot已变成用户频繁使用的产品[9][10][13] - CSIG具备To C产品资源与经验,与TEG在云服务合作基础上再度联手[10][11] - 任命原腾讯会议负责人Lori Wu带领元宝,加速产品从0到1建设[12] DeepSeek接入决策过程 - DeepSeek R1发布后用户需求强烈,但DeepSeek自有App限制较多[8] - Pony马化腾在群聊中建议元宝接入DeepSeek,总办讨论仅两三天就达成共识[23][24][27] - 尽管初期团队有顾虑,但最终以用户需求为导向快速推进[25][26][30] - 腾讯成为国内最快动手接入DeepSeek的大厂,企业客户和用户反馈正面[27] 产品整合与资源调配 - 微信给予元宝前所未有支持,包括广告位、新闻插件及视频号公众号联动[35] - 腾讯新闻、QQ、游戏、浏览器、输入法等产品逐步与元宝联动[36] - 团队重建需要大量招聘大模型产品经理、搜索专家和研究人员[40] - 产品持续补足能力,改善搜索准确性、语音识别和图片修改等功能[40] AI Chatbot产品定位 - 元宝目标是成为C端搜索信息新入口,公司已将浏览器、搜狗与输入法等工具类产品转到CSIG[16] - 产品呈现专业助手定位,特别在高知用户群体中受欢迎[68][69] - 微信内元宝更人性化风趣,App版本更正式解决问题导向[67][73] - 公司希望服务年轻用户和所有积极使用AI的人群,实现智能平权[70][71][72] 搜索与大模型关系演进 - 新一代搜索服务转向智能体驱动方式,由大模型理解意图再针对性获取内容[17] - 两种路径并存:先搜再解读和模型先理解再搜索,需要大模型判断适用场景[43] - 元宝可使用微信公众号、视频号等公开内容,通过RAG方式输出答案[44] - 但微信个人信息不会用于大模型训练,模型训练需要高质量知识内容[45] 组织管理与考核方式 - 元宝采用扁平化管理,不给团队设定期例会,通过日报数据和产品体验反馈管理[57][60] - 考核关注DAU和每个功能使用量,以及答案准确性和产品体验主观感受[63] - 团队大量启用毕业3-5年年轻人,鼓励敢想敢拼敢试错的文化[63] - 产品与模型研发适度解耦,混元按自己节奏迭代,元宝基于稳定版本做产品[113] AI Chatbot市场竞争格局 - Chatbot战役是集全集团之力,继移动互联网后的关键战役[122][123] - 预计不会出现微信式大一统格局,市场将更分散,不同产品找到目标用户[89][91][92] - 产品形态仍以对话为核心,但会涌现不同产品形态和玩家侧重[96][97] - AI可视为"生活上的操作系统",比传统操作系统更智能强大[98][99] To B市场AI应用 - AI在To B是激烈战场,云厂商通过配套云服务实现收入增长[133] - 企业关注模型应用落地,实现业务降本增效,营销是最愿意花钱场景[133][135] - 腾讯云智能体开发平台支持超过140个MCP插件服务,扩展智能体工具能力[140] - 公司聚焦平台建设,生态伙伴负责最后一公里服务交付[144] 行业趋势与创业建议 - 大数据市场高速增长,驱动因素包括湖仓一体、大数据+ML融合和大数据+LLM/Agent[152][153] - 创业公司难避巨头竞争,建议在大厂生态找机会或专注海外市场[149][150] - 海外用户付费意愿更高,很多创业团队选择做海外市场[147] - 腾讯元宝暂未计划出海,先聚焦服务国内用户[148]