腾讯研究院
搜索文档
中国算力芯片的“新十年”
腾讯研究院· 2025-10-31 08:03
处理器芯片发展历程与趋势 - 过去40年处理器芯片发展呈现螺旋式路径:自研-放弃自研-重新自研 [6] - 近5年整机和平台厂商重新加入芯片战争,趋势从以CPU为中心的同构计算转向CPU联合xPU的异构计算 [6] - "十五五"规划建议稿强调加快科技自立自强,聚焦半导体等关键技术环节 [7] 指令集架构的市场格局与演进 - 当前CPU领域由两种指令集主导:PC和服务器领域的x86架构与智能手机领域的ARM架构 [11] - x86架构特点为指令复杂、性能高但功耗大,主导厂商为英特尔和AMD [12] - ARM架构特点为指令简单、功耗效率高,主要应用于移动设备 [12] - RISC-V架构为开源模式,可定制但存在碎片化问题,核心厂商包括SiFive、Andes、阿里平头哥等 [12] - 历史上许多创新架构如i860/i960、68000、PowerPC等逐渐凋零,x86胜出靠的是向高端RISC学习并不断扩展指令子集,以及PC与服务器芯片出货量大的规模效应 [13] - 架构创新的根本挑战在于经济规律,软件生态的统治力难以颠覆,例如英特尔和惠普联合开发的IA-64安腾处理器耗资巨大最终未能成功 [13][19] 计算体系结构的发展与挑战 - 摩尔定律逐渐失效后,业界依赖增加晶体管数量并行提升性能,如增加数据位宽、功能部件和处理器核数量 [16] - 计算机体系结构分为激进结构(完全动态优化)、保守结构(静态优化)和折中结构(动静态结合优化) [17] - 高端CPU常采用激进结构但复杂且易受硬件漏洞攻击,业界更倾向于通过增加处理器核数量的众核结构来提升性能 [18] - 众核xPU芯片(如英特尔Xeon Phi、Google TPU、GPGPU)大规模应用需解决生态系统问题,英伟达CUDA拥有成熟的并行软件生态是其优势 [18][19] - 2009至2018年,x86软件开发费用持续上升,2018年全球投入高达600亿美元,而同期全球服务器硬件总收入为800亿美元,软件投入远超硬件 [20][21] ARM架构的机遇与RISC-V的挑战 - ARM服务器打破x86垄断的机遇在于:掌控全栈技术的大厂(如苹果、亚马逊)放弃x86进行生态迁移,以及端云融合使ARM终端优势蔓延至云端 [24] - RISC-V目前商业化成功领域集中于软件简单的嵌入式场景,如微控制器和存储类产品 [26] - RISC-V硬件生态不成熟,缺乏有竞争力的高性价比处理器核和支持多核互连的高性能片上网络,且ARM不单独授权片上网络IP [26] - 尽管跨平台语言和虚拟机技术发展,但硬件指令的直接支持对性能、能效比至关重要,英特尔持续扩展指令集(如SGX、AVX512、AI扩展指令集) [27] - 业界软件主要针对英特尔CPU优化,即使同为x86的AMD CPU支持软件配置种类也较少,阿里公有云平台仅使用英特尔CPU产品 [27] - RISC-V进入通用计算平台仍有漫长路程 [28] 自研芯片的模式与成功关键 - 云厂商自研芯片模式可行,因其盈利基础在于增值服务而非硬件,且掌控全栈软硬件使生态移植困难较小,自身规模大可负担研发费用 [30] - 苹果公司实现核心产品线处理器全线自研(手机A系列、平板/PC的M系列、手表W系列、耳机H系列),是成功案例 [31] - 苹果自研成功关键在于配合自研系统软件优化用户体验,并通过营销形成高端形象,而非仅聚焦纸面参数 [32] - 软件生态投入大于硬件研发,软件掉队会导致硬件利用率不高,如部分国产智算中心投资规模大但实际利用率低 [33] 中国算力芯片的发展路径 - 未来五年十年国产算力芯片的突破口在于指令系统结构的统一 [7] - 建议将RISC-V作为统一指令系统,所有CPU/GPU/xPU基于RISC-V及其扩展开发,以推动架构创新、扩大规模效应并高效利用研发资源 [7][36] - 体系结构创新可在现有指令系统框架内实现,例如Tenstorrent基于RISC-V扩展AI子指令集开发AI加速方案,或扩展密码学子指令集支持后量子密码 [35] - 统一指令集可避免重复劳动和研发资源浪费,是应对软件生态高投入挑战的关键路径 [36]
腾讯研究院AI速递 20251031
腾讯研究院· 2025-10-30 16:06
OpenAI技术进展与战略 - 开源gpt-oss-safeguard安全分类模型,包含120B和20B版本,采用Apache 2.0许可证,无需重新训练即可直接理解策略文档进行内容分类 [1] - 该模型在内容审核评估集和ToxicChat数据集上表现超越GPT-5-thinking,达到行业最佳性价比 [1] - OpenAI内部Safety Reasoner原型技术已用于图像生成和Sora 2等产品,安全推理算力消耗占比高达16% [1] - OpenAI计划最早于2026年下半年提交上市申请,2027年挂牌,拟通过IPO募集至少600亿美元,估值或高达1万亿美元 [6] - 架构重组后非营利组织持有新组建的OpenAI集团26%股权,微软获得额外2500亿美元Azure采购合同,技术使用权延长至2032年 [6] AI开发工具与平台更新 - Cursor发布2.0版本,推出自研编码模型Composer,生成速度达每秒250个token,是同类前沿系统的4倍 [2] - Composer模型采用混合专家架构,通过强化学习针对软件工程优化,在Cursor Bench评测中达到前沿水平 [2] - 新版界面支持多智能体并行协作,基于git worktree或远程机器实现不同模型同时处理任务,并增加原生浏览器工具 [2] - Sora推出角色客串功能,可保持非人类角色一致性,并支持从生成视频中提取虚拟角色实现自循环 [2] - Sora新增视频拼接功能和社区排行榜,并在美国、加拿大、日本和韩国四国限时取消邀请码限制直接开放注册 [2] 语音与多模态AI技术突破 - MiniMax Speech 2.6端到端延迟低于250毫秒,已成为LiveKit、Pipecat、Vapi等全球语音平台的底层技术引擎 [3] - 新版本支持多语言的网址、邮箱、电话等非标准文本格式直接转换,无需繁琐文本预处理 [3] - 提供Fluent LoRA功能,即使带口音或不流利的非母语录音也可在音色复刻时生成流利自然语音,支持40多种语种 [3] - 北京智源发布悟界·Emu3.5多模态世界大模型,基于34B稠密Transformer在超10万亿Token上预训练 [4] - 模型采用"下一状态预测"目标,在图像编辑任务上达到与Gemini-2.5-Flash-Image相当性能,并通过DiDA技术将图像推理速度提升近20倍 [4][5] 前沿科学研究与发现 - OpenFold Consortium发布OpenFold3预览版,基于超30万实验结构和1300万合成结构训练,可预测蛋白质与小分子配体、核酸等相互作用 [7] - 在单体RNA结构预测中性能匹敌AlphaFold3,所有组件采用Apache 2.0许可证允许商用,诺和诺德等公司已计划利用该模型加速研发 [7] - Anthropic研究发现Claude能察觉并报告被人为注入的概念,在最强模型上内省成功率达20% [8] - 研究通过追溯性注入概念篡改AI的"记忆",发现模型会基于伪造的内部状态为自己的"错误"进行辩护和杜撰理由 [8] - 前Meta FAIR负责人田渊栋发表Grokking研究,证明模型仅需O(M log M)样本即可实现泛化,远低于传统M²的需求 [8]
老年人怎样用活法定义算法:1年100人1场实践
腾讯研究院· 2025-10-30 09:13
研究项目概述 - 复旦大学老龄研究院、复旦大学AI向善与数智养老研究中心与腾讯SSV时光实验室、腾讯研究院共同发起为期一年的研究项目,旨在探索大模型技术在老年人群体中的应用[2] - 研究采用纵贯1年的"教-用-追-访"全流程实践设计,邀请100位老年人试用腾讯元宝、通义千问等6款用户数排名靠前、界面设计差异化的国产大模型[6] - 通过系统化设计还原大模型技术进入老年人生活的完整路径,为理解"人工智能技术与老年人的关系"提供经验支持与参考[6] 研究方法与数据收集 - 研究采用"线下一对一"与"线上+线下一对一"交流方式,避免群体教学中老年人"不敢提问""跟不上节奏"的问题[10] - 研究分为四个阶段:基线调研期(2024年6-8月)、集中教学期(2024年9月-2025年3月)、日常跟踪期(2025年4-9月)、总结复盘期(2025年10月)[10][11] - 构建了10236条有效语料的多维度数据库,涵盖"老年人-家属-照护者"的全场景视角[12] - 语音记录8860条(累计约620小时),文字记录1376条,按东中西部细分,其中东部老年人语音记录占比45%,西部老年人占比30%[14] 老年人对大模型的初始态度 - 46位老年人表示生活充实,没有精力和时间学习新技术,认为技术是"锦上添花"而非"雪中送炭"[17] - 35位老年人明确拒绝技术成为亲情的"替代品",更看重面对面交流的真实情感温度[18] - 68位老年受访者初次接触大模型时存在困惑,因长期形成的"实用主义技术观"而对大模型"什么都能做"的通用性感到无所适从[19] 信任建立与校准机制 - 84位老年人(男32、女52)经信任校准后对大模型的认知准确性均有提升,在一年接触期内形成相对稳定的信任连接[22] - 25位女性老年人形成协同互惠型校准行为模式,表现为包容技术弱点、主动调教技术、将大模型视为平等交往主体[23] - 16位老年人(男13、女3)持续抗拒大模型,因技术风险刻板印象或情感层面心理防线未能完成信任校准[23] 使用行为与交互特征 - 89位老年人使用语音提问比例极高,常在提问中使用语气助词,构成与算法之间独特的"人味"[26] - 老年人提问呈现层次差异:53位问题明确目的单一,35位更愿意"闲聊",25位将其当作"学习伙伴"[28] - 界面设计影响使用意愿,温暖的图标、拟人化的昵称、清晰的按钮与文字提示能提升老年人的开口意愿[29] 性别差异与使用障碍 - 家庭性别角色规范产生"挤压效应",29位女性受访者因家务和照料孙辈而难以深度探索人机交互[31] - 家庭资源分配存在"挤占效应",38位女性老年人使用子女淘汰的旧手机,设备问题影响使用体验[33] - 23位老年女性存在自我贬值认知,形成"技术不适合我"的观念,阻碍数字能力建立[34] 情感需求与长期使用 - 32位持续使用大模型超过一年的老年人具备高学习意愿、心理韧性和高质量社交圈特征[39] - 老年人对大模型存在五类深层需求:生命意义重建、自主与控制坚持、社会存在感延续、低风险社交渴望、生命完整性追求[40] - 健康咨询类问题占比高达四成以上,城市老人关注慢性病管理,乡村老人依赖其解决就医难题[45] 老年人期待的大模型形态 - 37位老年人期待"算命"功能,作为表达焦虑和祈愿的方式,在不确定生活中获得"被确认"的力量[44] - 老年人希望大模型成为可信赖的健康助手,把医学晦涩术语"讲明白",及时解答且有情感温度[45] - 48位老年人将大模型视为可聊天的"朋友",希望机器能听懂家乡话、记得讲过的故事,成为生活陪伴者[45] - 许多老人期待大模型成为可放松的"玩具",通过轻松互动带来简单快乐,满足对"慢娱乐"的需求[46][47] 城乡差异与使用特点 - 东部老年人功能性需求占比最高,侧重进阶功能;西部情感类需求占比最高,聚焦家庭情感互动;中部老年人整体相对均衡[14] - 城市老人倾向"理性问卜",乡村老人更注重实在问题;城市老人话题丰富,乡村老人爱"说日子"[44][45] - 农村高龄老年人依然保持对新事物的好奇与学习热情,数字生活比想象中更为生动、开放[48]
腾讯研究院AI速递 20251030
腾讯研究院· 2025-10-29 17:07
英伟达GTC大会与芯片发布 - 英伟达首次展示Vera Rubin超级芯片 搭载88核Vera CPU和两颗Rubin GPU 预计2026年第三或第四季度量产 [1] - 黄仁勋发布会后英伟达股价上涨4.98% 市值增加2300多亿美元达到4.89万亿美元 成为首家市值冲刺5万亿美元的公司 [1] - 大会重点包括量子互连技术NVQLink 与美国能源部合作建造7台新超级计算机 宣布与Uber合作部署约10万辆自动驾驶汽车 [1] AI语音合成与开源模型 - Soul App AI团队开源播客语音合成模型SoulX-Podcast 支持中英川粤等多语种方言 能稳定输出超60分钟多轮语音对话 [2] - 模型支持零样本克隆的多轮对话能力 可实现跨方言音色克隆 仅用普通话参考语音即可生成带方言特征的自然语音 [2] - 模型基于Qwen3-1.7B作为基座 采用LLM + Flow Matching语音生成范式 在播客场景下语音可懂度与音色相似度均取得最佳结果 [2] Adobe图像模型与软件更新 - Adobe推出Firefly图像模型5 擅长生成照片级逼真细节 可原生生成4MP分辨率图像且无需升级 [3] - Adobe CC 2026全家桶正式发布Windows版本 包括Photoshop 2026 27.0、Illustrator 2026 30.0等多款软件全面更新 [3] - 新版本支持仅通过输入提示即可编辑图像 能根据需要进行精确修改同时保持其他像素不变 且具有商业安全性 [3] 交互式AI播客应用 - 腾讯混元推出国内首个交互式AI播客 用户可在收听过程中随时打断主持人和嘉宾发言 通过语音或打字方式提问 [4] - 基于大模型意图识别、长上下文理解和多轮对话能力 系统能结合上下文及背景信息准确给出答案 改变传统播客单向收听模式 [4] - 混元AI播客现已支持默认模式、深度探索、思辨讨论三种模式 提供8种不同音色 支持单人和双人播客形式 [4] PayPal与OpenAI支付合作 - PayPal宣布与OpenAI签署合作协议 其数字钱包将嵌入ChatGPT 让用户能直接在聊天机器人中完成购物支付 [5] - 从明年起PayPal生态的消费者与商户都可接入ChatGPT 用户可在平台上购买商品 商户商品库存也能上架销售 [5] - 受此消息推动PayPal盘前一度大涨超15% 同时公司上调全年业绩预期并宣布成立27年来首次发放股息 [6] 中国大模型的国际部署 - 美国AI编程产品Windsurf被网友发现其神秘新模型来自中国智谱GLM Cerebras也上架GLM-4.6推理服务 [7] - 多家美国AI公司选择部署中国大模型的核心原因是性价比 OpenAI和Anthropic模型虽好但太贵 而中国模型性能够打且价格实惠 [7] - Together AI、Vercel等美国平台也已部署GLM-4.6等国产模型 中国大模型的Made in China含金量持续上升 [7] 家用机器人商业化进展 - 全球首款家务人形机器人NEO正式开售 早鸟价20000美元或月租500美元 2026年发货 获OpenAI投资 [8] - NEO身高168厘米重30公斤 内置Redwood AI系统可自动完成吸尘、洗碗归位、喂宠物等家务 续航4小时最大负载68公斤 [8] - 华尔街日报记者体验发现目前所有动作由远程专家通过VR操控 1X承诺到2026年NEO将能自主完成家庭中大部分事务 [8] 机器人学习平台更新 - Hugging Face发布LeRobot v0.4.0 引入可扩展的Datasets v3.0支持OXE量级超大规模数据集 新增数据集编辑工具 [9] - 新版本集成PI0.5、GR00T N1.5等前沿VLA模型 新增对LIBERO与Meta-World仿真环境支持 简化多GPU训练 [9] - 推出全新插件系统简化硬件集成 仅需pip install即可连接任意机器人设备 同步上线Hugging Face机器人学习课程 [9] AGI定义与能力评估 - 图灵奖得主Yoshua Bengio等提出AGI新定义为"在认知多样性与熟练度上媲美或超越受过良好教育的成年人的AI" [10] - 基于卡特尔-霍恩-卡罗尔理论构建框架 将通用智能分解为通用知识、读写能力、数学能力等10个核心认知领域进行评估 [10] - 评估结果显示GPT-4的AGI得分仅为27% GPT-5的得分也只有57% 表明当前AI缺乏许多对类人通用智能至关重要的核心认知能力 [10] OpenAI公司战略与规划 - OpenAI完成重组转为公共利益公司 非营利董事会OpenAI基金会持有26%股权价值约1300亿美元 微软成为第一大股东持股约27% [11] - 奥特曼透露公司预计到2029年现金消耗将超1150亿美元 未来将承担约1.4万亿美元财务责任构建30吉瓦基础设施 IPO是最可能方向 [12] - 首席科学家帕乔基宣布目标在2026年9月前实现能实质性加速研究的AI科研助手 2028年3月前实现全自动化AI研究员 [12]
站在长辈肩膀上的人工智能|重磅发布
腾讯研究院· 2025-10-29 09:43
文章核心观点 - 研究倡议将老年人视为“人工智能的积极合作者”,而非被动接受者,利用其沉淀的情绪知识与生活智慧为AI注入温度与厚度[1] - 腾讯研究院与北京邮电大学联合构建了包含9455条真实语料的“长者智语”数据集,其中包含AI向善语料库的8047条及新收集的1408条老年人回答[1][12] - 通过系统化挖掘老年人的情绪知识、回应风格及场景需求,推动AI从“功能实现”向“情感共鸣”转型,实现“尊严适老”而非仅“功能适老”[10][26][40][46] 情绪知识 - 人工智能在逻辑与计算上有核心优势,但情绪知识仍是其需要提升的关键能力,情绪知识涉及对他人情绪的识别、同理心与理解力[3] - 老年人的情绪知识是在几十年社会交往与人生历练中沉淀的“隐性智慧”,他们熟悉人际互动的微妙变化,懂得在不同语境下调节情绪与关系[3][5] - 老年人能够通过细节判断他人心理,从语气波动、眼神闪烁推测未说出口的感受,并以含蓄稳定的方式传递关怀,这种能力难以被算法复制[5] 生活智慧的纵深价值 - 老年人的人生智慧体现在对社会变迁、日常实践和价值取向的深刻理解,能为AI补充超越即时数据的时空视角[7] - 老年人承载历史纵深,能够连接个人故事与时代脉络,其日常调适与妥协展现了现实世界的弹性逻辑,让AI学习“非理性中的合理性”[7] - 老年人价值判断强调稳定、责任与长期性,其时间智慧可让AI突破即时数据局限,在历史积累与现实情境间找到可持续判断逻辑[7] 独特的回应方式 - 老年人形成含蓄、迂回或带有经验暗示的回应方式,背后是一套自洽的生活逻辑,既维护关系和谐又保持自我尊严[9] - 其交流包含丰富潜台词与分寸感,AI需学习“听懂人”而非仅“听懂话”,当回应体现尊重节奏、保留余地等智慧时,老年人更愿互动[9] - 构建带有“老年知识”的AI是技术改进关键,也是赢得老年群体信任与使用意愿的核心因素[10] 数据共建 - 研究基于腾讯与百余家社会组织共创的AI向善语料库,包含8047组老年人与社工的日常生活问答对,覆盖健康、心理、家庭关系等多方面[12] - 新增1408条由老年人针对老年人问题的回答,更贴近日常语境且包含个人经历与情感支持,与社工专业解答形成互补[12] - 两类数据结合形成总计9455条真实场景语料,构建系统化的“长者智语”数据集[1][12] 情绪知识挖掘 - 采用半结构化访谈构建“初始应答-深度追问-逻辑拆解”三阶框架,引导老年人自主表达后通过开放性问题剥离表层语言背后的情绪逻辑[15] - 例如老年人提问“子女在国外工作,家里就我一个人”时,深层情绪逻辑是希望得到“教育成功”的认可,而非仅解决生活难题[15] - 通过文本分析与情感标注,将隐性情绪动因、价值判断与经验逻辑转化为结构化训练样本[15] 共创与反馈机制 - 老年人从“数据提供者”升级为“训练师”,在AI模型迭代阶段参与场景化测试,如模拟医疗咨询、养老设备操作等真实情境[17] - 老年人直接评估AI回应的语气适配度、情感共鸣度与解决方案有效性,并清晰表达对“回应机械”、“用词不亲切”等改进意见[18] 对原始问答对的分析 - 对8047组问答对进行系统性内容分析,构建涵盖人际关系、身心健康等6大主题、16子类、37具体项的多层级场景分类体系[20] - 引入“情感维度”标注,形成“场景+情感”双重分析框架,发现老年人提问常呈现“积极与消极情绪交织”特征[22] - 例如老年人提及“孙子教用视频电话”时,既流露互动愉悦又夹杂怕麻烦孩子的担忧,需在三级分类中精细化标注并存情绪[22] 拓展与分析长辈的回复 - 邀请44位年龄55-78岁(平均65岁)的老年人以“情感专家”身份重新审视问题,从提问者转变为情感洞察诠释者与共创者[28] - 对1408条长辈回复进行系统分析,总结出共情支持型、理性劝导型、经验分享型与实用指令型四种回应风格[28][31] - 老年人在不同场景下展现明显风格偏好,共情支持型最受欢迎,且对“理解、帮助、共情”三项评价高度一致,视作同一体验[33] 发展有丰富情绪知识的大模型 - 将老年人情绪智力与生活智慧纳入AI训练体系,可推动AI从“工具到伙伴”转型,在医疗陪伴、养老服务等场景实现更具温度交互[40] - 长者经验中的非结构化情感判断、柔性调解策略及隐性同理心,能为AI提供“功能实现”向“情感共鸣”深层次发展的支撑[40] 从边缘到智慧贡献的重塑角色 - 老年人从被动“被服务者”转变为主动“知识与智慧贡献者”,通过分享情感识别技巧等获得自我价值认同与尊严感[42] - 这种角色转变打破“技术只属年轻人”刻板认知,让老年人在数字时代找到新社会参与方式,实现个人社会价值延伸与再创造[42] 推动代际共创的包容智能社会 - 长者经验与AI技术结合是“代际共创”实践,推动技术从“单向创新”走向“跨代协作”,使智慧通过AI载体实现跨代传承[44] - 基于长者经验优化的AI技术能更精准匹配银发群体需求,让老年人平等享受智能服务便利,实现“AI发展成果由社会共享”[44] - 该模式缓解数字时代代际隔阂,为构建包容、具人文关怀的智能社会提供可行路径,对社会可持续发展有重要现实意义[45]
腾讯研究院AI速递 20251029
腾讯研究院· 2025-10-28 16:20
高通发布AI推理芯片 - 高通发布两款面向下一代AI推理优化的数据中心解决方案AI200和AI250 [1] - AI200每张加速卡支持768GB LPDDR内存 AI250引入近存计算架构实现超10倍有效内存带宽提升 [1] - 两款解决方案均支持直接液冷散热 PCIe纵向扩展与以太网横向扩展 整机架功耗160千瓦 [1] - AI200预计2026年商用 AI250预计2027年商用 [1] - 解决方案配备丰富软件栈 与主流AI框架无缝兼容 支持一键模型部署 [1] OpenAI资本重组与动态 - OpenAI宣布完成资本结构重组 非营利主体改名为OpenAI Foundation并持有营利实体26%股份 当前估值约1300亿美元 [2] - 微软在营利实体中持有32.5%股份 员工和投资者持有47%股份 [2] - OpenAI已同意额外购买2500万美元微软Azure云服务 [2] - OpenAI Foundation承诺在健康治愈疾病和AI弹性技术解决方案两大领域投入250亿美元 [2] - 软银225亿美元投资将顺利到账 [2] - OpenAI首次公布心理健康数据 每周约0.07%用户出现精神病或躁狂迹象 0.15%用户谈及自杀念头 以8亿周活计算每周约120万人表达自杀倾向 [10] - 新版GPT-5在所有类别中减少39%到52%不良答案 合规性达91% [10] - OpenAI面临16岁男孩自杀案件诉讼 加州政府多次警告公司必须保护年轻用户 [10] MiniMax视频模型升级 - MiniMax发布Hailuo 2.3视频模型 在肢体动作呈现 风格化和人物微表情方面实现显著提升 保持既有价格实现加量不加价 [3] - Hailuo 2.3 Fast模型生成速度更快定价更低 最高可为批量创作降低50%成本 对运动指令响应更优化 [3] - Hailuo Video Agent升级为支持全模态全能创作的Media Agent 可实现一键成片功能并支持自然语言与AI交互共创 [3] 马斯克发布Grokipedia - 马斯克正式发布开源版维基百科Grokipedia V0.1 收录超88万篇文章 每次查询Grok都会核验事实 [4] - Grokipedia对比维基百科在内容详细度和参考资料数量上均有优势 但被指部分内容直接从维基百科照搬复制 [4] - 维基百科页面浏览量同比减少8% 创始人认为AI无法取代维基百科准确性 正成立工作组应对AI搜索时代挑战 [4] Claude集成Excel - Anthropic推出Claude for Excel插件以研究预览形式发布测试版 仅Max Teams或企业版前1000名用户可体验 [5] - 插件可在Excel侧边栏直接使用 支持实时分析数据 自动跳转对应单元格 跟踪并解释修改理由 [5] - Claude新增6项金融领域技能包括可比公司分析 折现现金流模型 尽职调查数据包等 已被领先银行和金融科技公司广泛使用 [6] Thinking Machines Lab研究成果 - OpenAI前CTO Mira Murati的Thinking Machines Lab公布同策略蒸馏研究 以1/10成本达到强化学习同等效果 [7] - 在数学推理任务上 同策略蒸馏用1800 GPU小时达到传统强化学习需17920 GPU小时的性能 成本直降90% [7] - 该方法通过反向KL散度和零折扣因子实现高效训练 无需等待完整轨迹 教师查询仅需一次前向传播 不需要单独奖励模型 [7] 英伟达开源OmniVinci模型 - 英伟达发布OmniVinci全模态理解模型 仅用0.2万亿Token训练数据 数据效率提升6倍 [8] - 在Dailyomni基准测试上比Qwen2.5-Omni高出19.05分 在音频理解MMAR测试上高出1.7分 在视频理解Video-MME测试上高出3.9分 [8] - 创新架构包括OmniAlignNet 时间嵌入分组和约束旋转时间嵌入三大技术 实现视觉 音频和文本的统一全模态理解 [8] 数学奖项颁发 - 2025塞勒姆奖颁给王虹和Vesselin Dimitrov 世界华人数学家大会ICCM数学奖金奖颁给王虹 邓煜 袁新意 三人均为北大数院校友 [9] - 王虹今年宣布证明挂谷猜想 邓煜与团队突破希尔伯特第六问题 袁新意证明几何Bogomolov猜想 [9] - 塞勒姆奖被视为菲尔兹奖风向标 56位获奖者中诞生10位菲尔兹奖得主 三位获奖者均为明年国际数学家大会45分钟报告人 [9]
互联网又要“死”了?
腾讯研究院· 2025-10-28 08:46
互联网现状的核心争论 - 行业领袖提出“互联网已死”理论,认为互联网上人类真实活动内容正变得稀缺,而由机器人操作、准人工智能产物和LinkedIn上的“糟粕”内容泛滥[2][3] - AI行业标志性人物Sam Altman指出,观察到大量由大语言模型驱动的Twitter账户正在运行[5] - 争论的焦点在于,当UGC与AIGC的界限被模糊后,以“人类真实活动比重”来衡量互联网生命力是否还有意义[12] AIGC内容的泛滥与影响 - AIGC内容渗透已达到“无孔不入”的程度,例如在视频网站上,利用AI工具重新配音剪辑的二创小品与相声节目,播放量动辄冲上百万[8] - 大量AIGC二创内容的涌现,可能稀释经典文化内容的含金量和国民辨识度[12] - 对于创作者而言,AIGC工具的价值被类比为19世纪锡管颜料对于画家的意义,它降低了创作门槛,使编剧等文字工作者能向全栈式导演进化,实现七成的创作梦想[13][14][15] - 有创作者在Bilibili平台上传20分钟的AIGC辅助创作内容,获得总播放量约15万,而其粉丝量不到8000,显示此类内容对特定受众具备吸引力[14] AI模型训练的数据危机与解决方案 - AI行业面临“数据荒”难题,部分企业开始使用AI生成的合成数据来训练模型,形成“自给自足”的循环模式[18] - 剑桥和牛津等院校的研究指出,使用合成数据训练AI模型会导致生成结果劣化,误差会积累并污染后续训练集,最终可能导致模型崩溃[18][20][21] - 为应对此风险,行业正在推动内容溯源与真实性标准,例如C2PA标准,以及AI数字水印技术如Google的SynthID,同时辅助检测工具如turnitin和Copyleaks正走向实用化[21] - 全球多地出台法令,要求主流社交媒体平台对可能引发误解的AIGC内容添加醒目声明和标注[22] 技术迭代的历史视角与行业未来 - 技术迭代引发的行业洗牌在历史上屡见不鲜,例如动态影像艺术淘汰了维多利亚时代盛行的立体视觉卡片[27] - 类比历史,即便AIGC在未来彻底取代传统UGC,只要市场满足的仍然是“人”的需求,新的机会、赛道和风口就不会缺席[28] - “互联网已死”的论调本质上是“摇滚已死”等经典话术的延续,应将其视为互联网新陈代谢式的进化,而非真正的终结[29] - 互联网正在从“纯碳基驱动”向“碳硅基共建”演变,这是技术发展的必然趋势[30]
腾讯研究院AI速递 20251028
腾讯研究院· 2025-10-27 16:35
特斯拉自动驾驶技术 - 特斯拉正式公开神经网络“世界模拟器”,可直接模拟合成自动驾驶孪生世界,其神经网络每天可处理相当于500年的人类驾驶经验并在虚拟世界中自我进化 [1] - 该模拟器采用端到端神经网络架构,能生成8个摄像头、24帧/秒的连续画面,一次输出长达6分钟的逼真驾驶体验,其AI大脑可供擎天柱机器人共用 [1] - 公司通过“端到端”技术路线实现从原始像素输入直接输出方向盘角度和油门/刹车力度,消除模块间信息损失,能学习人类价值观处理复杂路况决策 [1] 视频生成模型进展 - 美团发布LongCat-Video视频生成模型,基于DiT架构的统一视频基座,通过“条件帧数量”区分任务,原生支持文生、图生、视频续写三大核心任务 [2] - 该模型可稳定输出5分钟级别的长视频且无质量损失,生成720P的5秒视频仅需10秒,通过三重优化使推理速度提升10.1倍,在文生、图生视频任务中综合性能达开源SOTA级别 [2] - 火山引擎上线豆包视频生成模型Seedance 1.0 pro fast,生成速度最高提升约3倍,720P的5秒视频仅需10秒,价格直降72%,生成一条5秒1080P视频成本仅1.03元 [4] - 豆包视频模型以1万元成本可制作9709条视频,对比pro版效能提升3.56倍,在图生视频方向相较Veo 3.0 Fast等全球主流模型有显著效果优势 [4] 大型语言模型竞争 - MiniMax发布M2模型并正式开源,在Artificial Analysis智能指数排名第五,价格仅为Claude 4.5的1/12、GPT-5的1/7,是前五中唯一国产模型 [3] - M2在SWE-bench Verified得分69.4分,在τ²-Bench、GAIA、BrowseComp等多项测试中表现优异,FinSearchComp-global金融搜索基准65.5分全球登顶 [3] - M2支持接入Claude Code、Cursor等主流开发工具,API和Agent全面限免14天,在智能水平、速度和价格方面具备压倒性性价比优势 [3] AI应用工具创新 - 昆仑万维Skywork AI推出网页复刻功能,用户只需提供网页链接、上传文件或输入文字描述,AI即可在数分钟内生成功能完备的网页原型,建站效率提升10倍 [5][6] - 系统通过算法深度解析网页DOM层级结构、视觉分区和语义关系,实现较高网页还原度,涵盖布局、文字、图片、配色等多维度要素,支持三种创建方式 [5][6] - 马斯克旗下xAI为Grok推出AI虚拟伴侣功能Grok Companions,首个角色Mika是二次元酷姐型角色,会用调情语气回答问题,定位为情感产品而非工具 [7] 脑机接口技术前沿 - OpenAI CEO萨姆·阿尔特曼聘请加州理工学院教授米哈伊尔·夏皮罗加入脑机接口初创公司Merge Labs,该公司以85亿美元估值筹集2.5亿美元投资 [8] - 夏皮罗专注利用超声波与人类大脑交互的无创神经成像与控制技术,阿尔特曼公开反对Neuralink的侵入式脑机接口,研究方向是向细胞导入基因使其对超声波响应 [8] AI行业人才动态 - 硅谷顶尖AI实验室研究员和高管每周工作80到100小时成为常态,被比喻为战时状态,用2年完成本该20年的科研进展 [9] - Anthropic研究员深夜刷Slack获取灵感,DeepMind研究员作息被称“0-0-2”,微软高管开发浏览器扩展持续优化效率 [9] - OpenAI因人才流失和倦怠危机强制全体员工休假一周,Meta新成立超级智能实验室开出上亿美元签约奖金挖角OpenAI核心研究员 [9] 强化学习算法突破 - Google DeepMind提出DiscoRL方法,通过多代智能体在不同环境中交互经验自主发现RL规则,相关研究论文发表在Nature上 [10][11] - DiscoRL在Atari基准测试中超越所有现有规则包括MuZero和Dreamer,IQM达13.86,在未接触过的ProcGen、Crafter、NetHack等基准中也表现出色 [10][11] - 研究发现RL性能取决于数据与计算量,随着环境数量和多样性增加规则变得更强大,表明未来高级AI的RL算法可能由机器自主发现而非人工设计 [10][11]
给留守儿童的“AI信箱”,如何才能更“有爱”?
腾讯研究院· 2025-10-27 10:25
节目概述 - 腾讯研究院推出“AI向善播播间”第一季,主题为“AI与困境儿童青少年”,是一档融合研究、共创与互动的综艺节目 [1][4] - 节目旨在通过有趣、先锋且温暖的形式,围绕AI for Good议题开展研讨,激发公众对科技向善的思考与热情 [4] - 第二期直播定于10月28日14:30-17:30举行,特别鼓励亲子共同观看 [5][10][11] 核心社会问题 - 根据中国科学院心理研究所《2024年我国欠发达地区农村学生心理健康报告》,29.6%的农村学生存在轻度或高度抑郁风险,凸显心理健康问题突出 [7] - 农村学生面临学业适应困难、心理创伤发生率高的问题,相比传统说教,他们更需要成长支持与情感陪伴 [7] - 节目聚焦“留守儿童青少年”群体,探讨AI如何回应其在学业焦虑、梦想启蒙及家庭关系等方面的困扰 [7][8][20] AI向善项目进展 - “AI向善语料库”作为首个公益共创构建的AI训练公共语料库,于2024年8月由腾讯与数百家社会组织共同启动,首个以老年人主题的语料库包含8047条问答对,并于今年7月向公益组织及非营利研究机构免费开放 [14] - 2024年新推出“AI向善测评板”,聚焦社会困弱人群的AI福祉测评,重点关注边缘、失声及困境人群的问题 [14][15] - 测评板已在北京科技大学何思倩老师的《社会创新设计》课堂应用,由2025级设计学研究生对三款热门大模型进行深度测评 [15][17] 专家阵容与专业背景 - 主持人陆诗雨为社会学博士、AI向善语料库负责人、腾讯研究院高级研究员,曾发起“AI向善语料库”社会共创行动 [21] - 嘉宾包括儿童友好型AI产品设计师何思倩(北京科技大学副教授、红点奖得主) [24][27]、纪录片导演蒋能杰(专注留守儿童题材) [29][33]、长腿叔叔信箱项目宣传负责人白芸(拥有10年以上志愿者经验) [36][39] - 嘉宾还包括青春期教育导师钟馨乐(其工作室累计支持超3000名教育工作者,间接受益青少年达10万人次) [42][45]以及腾讯SSV数字教育实验室运营经理杨文强(十余年教育领域经验) [48][51] 公益项目成果 - 长腿叔叔信箱公益项目成立11年,已与近100多所学校合作,志愿者超4000人,服务学生超2万名,处理来信85000多封,回信文字量近6500万字 [39] - 友乐青春教育工作室通过赋能教育工作者推动校园防欺凌教育,累计支持超3000名中小学教育工作者,间接受益儿童青少年达10万人次 [45]
“AI视频时代”距离我们还有多远?
腾讯研究院· 2025-10-27 10:25
Sora2爆火原因分析 - 上线不到5天突破100万下载量,开创文生视频新纪元 [2] - 技术突破体现在对物理世界更强的模拟能力、多镜头连贯叙事稳定性和音画生成同步性,使内容物理上更准确、感官上更逼真、衔接上更自然 [4] - 支持刚体碰撞、流体力学、光影变化等物理规律的准确表现,物理准确度相比上一代显著提升 [5] - 具备强大多镜头序列处理能力,通过分镜工具“Storyboard”可逐帧设计视频结构,创造多镜头切换、剧情连贯的长故事,并在场景变化中保持人物服饰、道具位置等细节一致性 [5] - 实现多模态融合能力升级,能同步生成音频和画面,如根据对话内容自动形成人物口型 [5] - 产品定位低门槛、易操作,与Runway、Luma等服务于专业创作者的产品形成差异化,采用与TikTok相似的竖屏信息流和滑动浏览设计 [9] - 通过“Remix”功能支持用户基于现有内容二次创作,形成用户驱动的内容再生循环 [7] - 通过“Cameo”功能支持用户创建虚拟形象并嵌入任意虚拟场景,实现真实人物与AI世界融合,激发用户自我展示和创作分享欲望 [7][8] Sora2对视频与影视行业的影响 - 被视为生成式AI在视频化社交领域的新突破,推动视频生成技术进入全民可用成熟阶段 [10][11] - 从产品底层设计使AI创作与社交互动深度融合,内容创作上借助Cameo和Remix让用户自我表达、社交互动成为AI创作驱动力 [13] - AI短剧成为微短剧行业降本增效、释放创意生产力重要抓手,例如《兴安岭诡事》仅用60万元成本完成11集内容制作,上线不到21小时播放量破千万 [15] - Sora2低门槛特征大幅简化AI短剧制作流程,使普通创作者能以极低成本完成多角色、多场景短剧,或将催生全民化短剧制作浪潮 [16] - 在影视策划环节,Sora2提供创意“试验场”与“放大器”,提升视频生成便捷性与物理准确性,让复杂创意构思更便捷实现可视化 [18] - 在影视制作环节,Sora2构建近乎无限数字资产空间,极大提升视觉特效、虚拟场景生成效率,减少实景与绿幕拍摄需求,例如奈飞借助AI生成特效将建筑坍塌等复杂场景制作效率提升10倍 [19] - 在影视消费环节,Sora App为IP开发与二次创作提供创新空间,经典IP角色可授权用户二次创作,拓展新故事空间和商业变现渠道 [19] AI视频时代的行业变革 - AI视频时代意味着视频生产能力平权化以及视频产业价值链重构 [22] - 资金、硬件、场地、专业人力等传统视频创作资源门槛进一步降低,但内容创意、思想表达、情感共鸣等维度竞争门槛变得更高 [23] - 能否用精准语言描述物理细节、情感层次与叙事逻辑成为决定视频生成质量关键,将倒逼产业分工体系进化 [23] - 剪辑、建模、美术、动效等岗位需兼顾“提示词工程师”、“AI导演”、“虚拟叙事艺术家”等新角色职能,负责创意构思、叙事设计、审美判断角色将更核心 [23] - 技术服务于人的质量不仅依赖技术供给水平,还取决于人的真实需求,真实的情感表达与共鸣是AI内容创作与消费生命力所在 [24] - 国内人气AI歌手Yuri以人格化形象为大众提供情感投射载体,首支AI音乐MV上线后播放量快速突破700万 [24]