机器之心
搜索文档
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了
机器之心· 2025-12-12 04:31
文章核心观点 - AI视频生成公司Runway发布了一系列重大更新,标志着行业正从单纯的“视频生成”迈向“世界模拟”的新阶段 [34] - 此次更新不仅发布了旗舰视频生成模型Gen-4.5,更首次对外展示了其在通用世界模型上的战略布局,旨在让AI理解并模拟物理世界的运行规律 [3][35] - 英伟达CEO黄仁勋专门发来祝贺视频,暗示了算力与前沿AI算法发展的深度绑定 [4][21][35] 产品更新:Gen-4.5 旗舰视频生成模型 - **核心能力提升**:Gen-4.5是Runway最新的旗舰视频生成模型,在画质惊人的基础上,引入了原生音频生成与编辑功能 [6][13] - **精确遵循提示**:模型实现了极高的物理精度和视觉精确度,物体运动符合逼真的重量、动量和力量,液体流动动力学正确,发丝和材料纹理等精细细节在运动和时间中保持连贯 [9] - **风格控制与一致性**:能够处理从照片级真实感、电影感到风格化动画的多种美学风格,同时保持连贯的视觉语言 [11] - **新增编辑功能**:支持多镜头编辑,用户可以对初始场景进行更改,并将该更改应用到整个视频中 [14] - **访问计划**:公司正在逐步开放对Gen-4.5的访问权限,将在未来几天内向所有人开放 [16] 战略布局:通用世界模型GWM-1及其变体 - **模型定位**:GWM-1是Runway的首个通用世界模型,被视为理解物理世界运行规律的基石,基于Gen-4.5构建但采用自回归的逐帧预测方式 [6][18][19] - **战略意义**:公司认为世界模型处于AI进步的前沿,是解决机器人技术、疾病、科学发现等棘手问题的关键,为通用模拟提供了最清晰的路径 [21] - **当前变体**:目前GWM-1有三种单独的后训练变体,公司正致力于将它们统一到一个单一的基础世界模型之下 [21] GWM Worlds:实时环境模拟器 - **产品定义**:GWM Worlds是一个基于GWM-1的环境模拟器,允许用户在无限的数字世界中实时探索 [6][23] - **核心特性**:关键在于保持空间连贯性,在长时间的移动序列中,环境能保持一致性并对用户的指令做出准确响应 [23][24] - **应用场景**:可用于交互式体验、游戏、可探索世界等沉浸式环境,也可作为训练AI系统在现实世界中导航和行动的沙盒模拟器 [24] GWM Robotics:机器人训练模拟器 - **产品定义**:GWM Robotics是一个打破物理瓶颈,为机器人训练提供合成数据的学习型模拟器 [6] - **核心功能**:支持合成数据增强策略训练,利用世界模型生成合成数据以提升机器人策略的泛化能力;支持策略模拟评估,允许在模型中直接测试策略模型,方式更快、更安全 [27][28] - **配套工具**:公司发布了GWM-1 Robotics SDK,这是一款面向其机器人世界模型API的Python SDK,支持多视角视频生成和长上下文序列 [27] GWM Avatars:音频驱动交互式视频模型 - **产品定义**:GWM Avatars是一个音频驱动的交互式视频生成模型,可让数字人拥有自然的灵魂 [6][29] - **核心表现**:模型能针对任意角色模拟自然的人类动作和表情,包括逼真的面部表情、眼球运动、口型同步和手势,在长时间对话中质量不下降 [30] - **应用潜力**:应用场景广泛,包括实时辅导与教育、客户支持与服务、培训模拟以及互动娱乐与游戏 [31][32] - **发布计划**:该模型即将登陆Runway网页产品和API,以便用户集成到自己的产品和服务中 [31]
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心· 2025-12-12 03:41
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合已成为具身智能领域极具前景的研究方向,该方法能有效克服单纯模仿学习的局限,使机器人通过试错持续进步并提升鲁棒性 [1][4] - 行业面临将强化学习直接应用于大型VLA模型的三大难点:物理环境探索困难、模型易出现灾难性遗忘与训练不稳定、以及巨大的算力负担 [5][6] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”与“探索-内化”循环迭代,为上述难题提供了稳定、经济且高效的解决方案,并在仿真与真实世界实验中验证了其显著优势 [10][13][22] 一、VLA+RL的重要性与背景 - 在具身智能领域,将视觉-语言模型应用于机器人底层控制形成VLA模型,当前主流方法是通过模仿人类专家数据进行监督微调 [2] - 仅靠模仿学习存在局限,当遇到未见情况或专家数据不完美时,机器人表现会受限,难以实现鲁棒、持久的工作 [4] - 在线强化学习允许智能体通过试错发现更优解,超越离线强化学习受限于演示数据质量的瓶颈,是提升VLA模型能力的关键 [4] 二、强化学习应用于VLA的难点 - **环境差异**:与在离线数据集上训练的大语言模型不同,机器人需在物理世界实时探索,且物理任务周期长、奖励稀疏,学习困难 [6] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易导致“灾难性遗忘”或训练崩溃,性能可能倒退 [6] - **算力负担**:在本地对大型模型进行全量梯度更新,硬件要求极高,通常超出机器人控制器的算力极限 [6] 三、行业解决方案与iRe-VLA方法 - 行业存在三种解决VLA强化学习困境的路径:外挂式干预、暴力美学式全量微调、以及从探索到内化的循环 [7][13] - iRe-VLA方法属于第三种路径,其核心是设计了一个两阶段循环迭代的学习流程,分而治之,动静结合 [10][22] - **模型架构**:VLA模型由负责理解与知识的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术避免全量微调 [11][12] - **第一阶段(在线强化学习探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人探索并找到成功轨迹 [15][18] - **第二阶段(监督学习内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合新探索的成功轨迹与原始专家数据,有效防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [24] - **流程总结**:机器人先在“小参数模式”下大胆探索,找到方法后再在“全参数模式”下把经验固化到大脑中,循环往复 [22] 四、实验结果与分析 - **训练稳定性**:实验显示,直接用PPO算法微调VLA模型会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数对稳定训练至关重要 [27] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA不仅在已学任务上表现更好(例如从43%提升到83%),还能学会完全没见过的任务 [30] - **具体数据对比**: - 在MetaWorld的Button-Press-new任务上,SFT策略成功率为0.56,PPO-Replay为0.80,iRe-VLA达到1.00 [31] - 在Franka Kitchen的Slide-door-open任务上,SFT策略成功率为0.86,PPO-Replay为0.96,iRe-VLA达到0.99 [31] - **真实世界挑战**:在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠SFT的机器人成功率约35%,经过iRe-VLA在线学习后,成功率飙升到80% [32][34] - **泛化能力**:训练后的模型去抓取完全未参与训练的第三类物体,成功率也从37%提升到了61% [34] - **消融实验**:如果在第二阶段不解冻VLM主干,模型性能提升会遇到瓶颈,证明了解冻大模型参数对于利用其深层特征掌握复杂技能和提升泛化性是必要的 [35] 五、结论与意义 - **稳定性与经济性**:iRe-VLA方法解决了大模型直接进行强化学习容易训练崩溃的问题,并通过巧妙的算力分配(本地轻量探索、云端重量消化),符合实际部署场景 [37][42] - **持续学习能力**:该方法证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [42] - **行业影响**:星动纪元的iRe-VLA与海外的PI π*0.6等工作,共同揭示了VLA在线强化学习技术的发展前景,为行业指明了方向 [40]
Meta「内战」升级:做「神一般的AI」,还是守住「社交帝国」?
机器之心· 2025-12-12 03:41
公司战略重心转移 - 公司战略重心已从“元宇宙”全面转向人工智能[1] - 为支持人工智能雄心,正在进行大规模资源重新分配,主要削减对象是负责VR、AR及元宇宙业务的Reality Labs部门[8] 内部冲突与团队摩擦 - 新组建的顶尖人工智能团队与公司原有核心业务部门在资源分配、发展目标及文化融合上产生摩擦[2] - 冲突核心在于人工智能发展的优先事项:长期高管希望利用Instagram和Facebook数据训练模型以优化社交媒体和广告业务;而新团队领导Alexandr Wang认为首要目标是追赶OpenAI和Google,致力于开发超级智能,而非过早关注具体产品应用[5] - 新团队研究人员认为现有高管只在乎改善社交媒体业务,会拖慢前沿人工智能模型的开发进度[5] - 新团队领导曾推动将新人工智能模型设为“闭源”,这与公司以往的开源策略产生争执[5] - 公司发言人否认内部冲突,称管理层在构建超级智能与发展核心业务的目标上保持一致[11] 资源与投资调整 - 公司重组了人工智能业务,并以约143亿美元战略投资了初创公司Scale AI,其创始人随后加入并领导名为“TBD Lab”的新研究团队[4] - 计划将Reality Labs部门明年的预算削减高达30%(约40亿至60亿美元),并可能最早在明年1月进行裁员[11] - Reality Labs部门负责人已被要求从其部门预算中削减20亿美元,这些资金将转移给新的人工智能团队[11] - 公司预计今年在人工智能领域的支出(涵盖数据中心、模型开发等)在660亿至720亿美元区间,这一数字几乎等同于元宇宙业务近年来的亏损总额[11] - 自2020年末以来,Reality Labs已累计亏损超过700亿美元[11] 市场反应与历史背景 - 资源重新分配的消息传出后,公司股价上涨,投资者长期以来一直批评元宇宙投资是昂贵的干扰[11] - 公司早期曾以Llama定义了开源模型的标准,但随着Llama 4的口碑崩盘和人工智能竞赛的日益激烈,开始了大刀阔斧的内部改革[15] - 公司曾同时陷入三场昂贵战役:元宇宙每年烧掉百亿、在短视频存量市场死磕TikTok、在人工智能领域试图追赶Google和OpenAI,资源的极度分散导致了战略焦点的模糊[19] - 外界质疑长期向元宇宙倾斜的算力资源分配,是否拖慢了人工智能团队在关键时刻的冲刺速度[19] 公司面临的挑战与愿景 - 内部紧张局势持续,一部分员工认为公司算力应优先服务于作为“摇钱树”的社交媒体业务,而新晋的人工智能精英则在追求更宏大的技术愿景[12] - 在移动互联网时代,公司受制于Apple和Google的操作系统规则损失惨重,这使其决心在人工智能时代通过构建核心技术平台来“掌握自己的命运”[17] - 公司开源Llama并非为了慈善,而是一套行之有效的成功公式,旨在将自己的技术确立为行业标准,并利用外部生态系统的力量反哺模型[18] - 公司内部“老臣”与“新贵”之间的对立,以及Yann LeCun因理念不合而离职,都预示着组织文化的剧烈阵痛[21] - 目前硅谷闭源模型陷入“无限战争”,没有任何一家厂商能够建立绝对的技术统治力[13]
NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈
机器之心· 2025-12-12 03:41
然而,现有的微调方法(如 LoRA、AdaLoRA)大多采用「静态」策略:无论模型处于去噪过程的哪个阶段,适配器(Adapter)的参数都是固定不变的。这种 「一刀切」的方式忽略了扩散生成过程内在的时序物理规律,导致模型在处理复杂结构与精细纹理时往往顾此失彼。 针对上述问题, 新加坡国立大学 LV Lab(颜水成团队) 联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架: 首次从 频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的「低频到高频」演变规律,并据此设计了动态路由机制。 FeRA 摒弃了传统的静态微调思路,通过实时感知潜空间(Latent Space)的频域能量分布,动态调度不同的专家模块。实验结果显示, FeRA 在 SD 1.5、SDXL、 Flux.1 等多个主流底座上,于风格迁移和主体定制任务中均实现了远超 baseline 的生成质量。 尹博:NUS 计算机工程硕士生、LV Lab 实习生,研究方向是生成式 AI,及参数高效率微调(PEFT)。 胡晓彬:NUS LV Lab Senior Research ...
刚刚,GPT-5.2满分屠榜,OpenAI十周年王者归来
机器之心· 2025-12-11 23:48
机器之心报道 机器之心编辑部 谷歌的领先优势,只保持了不到一个月。 今天是 OpenAI 的十周年纪念日,十周年之际,来点大的。 在「红色警报」后,OpenAI 在北京时间本周五拿出了最新的顶级模型 GPT-5.2 系列 —— 迄今为止在专业知识工作上最强大的模型系列。 GPT-5.2 Thinking ,为专业级工作全面提升标准: 业界最先进的长上下文推理能力 与 GPT-5.1 一样温暖、对话自然 更清晰的讲解,把关键信息提前呈现 改进的操作指南与分步骤讲解 更强的技术写作与翻译能力 更好地支持学习与职业规划 GPT-5.2 Pro ,在面对困难问题时最聪明、最值得信赖的模型: GPT-5.2 的设计目标,就是为人们创造更多经济价值:它在制作电子表格、构建演示文稿、编写代码、理解图像、处理超长上下文、使用工具,以及执行 复杂的多步骤项目方面都有显著提升。 真正的生产力不是空口无凭,让我们来看看数据,GPT-5.2 到底有多强。 在如图所示的众多基准测试中,GPT-5.2 均刷新了最新的 SOTA 水平。 简而言之,OpenAI 本次推出: GPT-5.2 Instant ,为日常工作与学习而打造: | | ...
谷歌发布智能体Scaling Law:180组实验打破传统炼金术
机器之心· 2025-12-11 23:48
文章核心观点 - 谷歌通过大规模实证研究,首次为智能体系统发现了可量化的扩展原则,使智能体架构设计从依赖经验转向有原理可依,其预测模型在未见任务上选择最佳架构的准确率达到87% [1][7][26] 实验设计与评估基准 - 研究定义了智能体数量、协作结构、模型能力和任务属性之间的相互作用为扩展原则 [3] - 在四个基准测试中进行评估:Finance-Agent、BrowseComp-Plus、PlanCraft和Workbench [3] - 使用了五种典型智能体架构:单智能体系统以及独立型、中心化、去中心化、混合型四种多智能体系统 [4] - 在OpenAI、Google、Anthropic三大模型家族中实例化,对180种配置进行了受控评估,标准化了工具、提示和token预算以隔离架构效应 [4][11] 关键研究发现:任务与架构的适配性 - 在金融分析任务中,多智能体协作效果显著,中心化架构能使性能提升80.9% [14] - 在游戏规划任务中,多智能体架构表现不佳,性能下降39%到70% [14] - 工具-协作权衡:当任务需要大量工具时,多智能体协作会因巨大沟通开销导致效率降低 [15] - 能力饱和效应:当单智能体基线准确率超过45%时,增加智能体协作往往带来负收益 [16] - 错误放大:在独立型多智能体架构中,错误会被放大17.2倍;而中心化管理可将其控制在4.4倍 [18] 不同模型家族的协作特性 - Google Gemini:擅长层级管理,在中心化架构下表现突出,在金融任务中带来+164.3%的性能提升 [19] - OpenAI GPT:擅长复杂沟通,在混合型架构中表现最佳,能驾驭复杂的交互网络 [19] - Anthropic Claude:对协作开销敏感,最适合简单直接的中心化架构,且在异构混合模式下展现出独特的容错性 [20] 定量扩展原则与预测模型 - 研究推导出一个基于效率、开销、错误放大率等指标的预测模型,交叉验证R²为0.513 [6] - 该模型能以87%的准确率预测保留任务的最佳架构 [7][25] - 提供了不同架构下的关键性能指标数据,例如:单智能体成功率为0.466,独立型架构错误放大率为17.2,混合型架构的通信开销高达515% [25]
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 10:00
论文获奖与演讲背景 - 任少卿、何恺明、Ross Girshick和孙剑合著的论文《Faster R-CNN》在NeurIPS 2025会议上获得了“时间检验奖” [1] - 该论文自2015年发表以来,奠定了现代目标检测框架的核心范式,并深刻影响了随后十年的视觉模型发展方向 [1] - 何恺明在大会上发表了题为《视觉目标检测简史》的演讲,总结了30年来该领域的发展历程 [5][6] 早期目标检测:手工特征时代 - 在深度学习爆发前,计算机视觉依赖手工设计的特征和分类器,如SVM,这种方法速度慢且难以适应复杂场景 [12] - 关键里程碑包括:1996年基于神经网络的人脸检测、1997年SVM用于人脸检测、2001年Viola-Jones框架、1999年SIFT特征、2003年视觉词袋模型、2005年HOG特征与金字塔匹配核、2006年空间金字塔匹配、2008年可变形部件模型DPM [14] 深度学习破晓:从AlexNet到R-CNN - 2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,证明了深层卷积神经网络提取特征的能力远超手工设计 [15] - 2014年,Girshick等人提出划时代的R-CNN,其思路是先用传统算法生成约2000个候选区域,再将每个区域送入CNN提取特征并用SVM分类 [17][19] - R-CNN的瓶颈在于每个候选框都需单独通过CNN,计算量巨大 [18] 速度进化:从Fast R-CNN到Faster R-CNN - 2014年,何恺明团队提出SPP-Net,引入空间金字塔池化层,允许网络处理任意大小图片并只计算一次全图特征,大大加速检测 [19] - 2015年,Girshick借鉴SPP-Net提出Fast R-CNN,引入RoI Pooling,将特征提取、分类和回归整合到一个可端到端训练的网络中 [19] - 2015年,何恺明团队最终提出Faster R-CNN,核心是引入了区域提议网络,从特征图上通过预设的Anchor直接预测物体位置,取代了传统的Selective Search算法,实现了真正的端到端实时检测 [25] 后Faster R-CNN时代:多样化发展与范式变迁 - 2016年,YOLO和SSD问世,采用单阶段检测范式,直接在全图上输出物体位置和类别,速度极快 [32] - 2017年,何恺明团队提出Focal Loss,解决了单阶段检测中正负样本不平衡的问题,并推出了RetinaNet [32] - 2017年,Mask R-CNN在Faster R-CNN基础上增加分割分支,实现实例分割,并引入了RoI Align解决像素对齐问题 [32] - 2020年,DETR将Transformer架构引入目标检测,完全抛弃了Anchor和非极大值抑制等后处理步骤 [32] - 2023年,SAM模型展示了视觉大模型的雏形,能够进行不限类别的通用分割 [32] 总结与启示 - 何恺明在演讲中以“驶入迷雾”比喻科学探索,强调没有预先画好的地图,甚至不知道终点是否存在 [34][36] - 从手工特征到CNN,再到Transformer,每一次飞跃都是对旧有瓶颈的突破,Faster R-CNN的核心启示在于:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它 [35]
效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决
机器之心· 2025-12-11 10:00
文章核心观点 - 字节跳动Seed团队的研究通过提出“共享自主”框架,将人类操作员与AI系统的控制职责合理划分,显著降低了高质量机器人操作数据的采集难度和成本,为解决视觉-语言-动作模型训练的数据瓶颈提供了关键方案,并推动了灵巧操作技术向工业应用的迈进 [2] 技术体系与核心模块 - 研究构建了一个由四大核心模块组成的完整技术闭环,旨在高效采集高质量演示数据以训练通用的臂手协同VLA策略 [5][8] - **核心策略 DexGrasp-VLA**:这是一个专为灵巧手设计的多模态VLA模型,集成了语言指令、视觉、本体感知和关键的触觉反馈,能够实现根据物体形态动态调整握力的力适应性抓取 [9] - **共享自主框架**:该框架将控制任务按运动域拆分,人类通过VR遥操作控制机械臂(负责高层定位和避障),而DexGrasp-VLA自主控制灵巧手(负责精细抓握),从而大幅减轻操作员负担,高效采集高质量臂手协同数据 [12][14][15] - **臂手特征增强模块**:该模块采用三流架构(共享任务表示、手臂专用编码器、手部专用编码器),通过建模和融合臂与手在运动学上的差异特征,实现了更自然、更鲁棒的宏观-微观动作协调 [16][19] - **纠正性人机闭环机制**:当机器人操作失败时,人类操作员可立即接管并演示正确方法,系统将失败与纠正后的成功数据作为“难题案例”加入训练集,使策略能持续迭代优化,学会应对各种边缘案例 [20][21] 硬件配置与实验效果 - **硬件平台**:主要集成星动纪元星动XHAND1灵巧手(全直驱12自由度,指尖集成高分辨率触觉传感器)和UR3e机械臂,并使用3台RGB-D相机提供多视角视觉输入 [23][25] - **触觉感知的有效性**:星动XHAND1提供的触觉反馈是鲁棒抓取的关键,实验数据显示,在抓取超过50种日常物品的测试中:无触觉时成功率仅为21%;仅有触觉合力反馈时成功率提升至70%;结合合力反馈与空间触觉分布(120点阵列)时,成功率高达90% [25][27][29] - **臂手特征增强模块的有效性**:实验表明,使用该模块后,策略在星动XHAND1上的性能从88提升至95,在RY-H2灵巧手上从71提升至81,在相机被遮挡时从19大幅提升至58,证明了其对策略协调性和鲁棒性的显著提升 [30][31] - **算法与硬件的协同**:相比欠驱动的RY-H2手,算法能更充分地利用星动XHAND1全直驱设计的关节灵活性,实现更自然的协调动作 [30] 数据采集效率与应用前景 - **数据采集效率提升**:共享自主框架将灵巧操作高质量数据采集效率提升了25%,使单人每小时可采集更多数据,并将完整开发-部署周期压缩至一天以内,从根本上解决了VLA模型训练的数据瓶颈问题 [32][33] - **接近工业标准的性能**:研究在超过50种物体上实现了约90%的抓取成功率,这一性能水平推动了灵巧操作技术从概念验证向实际部署的关键跨越 [33] - **未来研究方向**:包括将框架拓展至物体重定向、精密插放等更复杂场景;探索更智能的多模态感知融合机制;以及借助强化学习实现更自主的错误识别与恢复,减少人工介入,向完全自主过渡 [36]
大模型的第一性原理:(一)统计物理篇
机器之心· 2025-12-11 10:00
机器之心发布 作者: 白铂 博士 白铂 博士,华为 2012 实验室理论研究部主任 信息论首席科学家 2022 年底,ChatGPT 横空出世,其能力震惊了整个世界。2024 年底,DeepSeek 以极低的训练成本和极高的性能再次震惊了世界。短短几年间,大模型疯狂迭代, 能力不断提升,仅在美国,AI 领域的投资规模便超过了许多国家全年的 GDP!2025 年底,Google 强势推出 Gemini 3,模型能力突飞猛进,TPU 训练范式也对英 伟达的生态发起了颠覆式挑战。 业界普遍认为 Gemini 3 是迈向通用人工智能(Artificial General Intelligence,AGI) 和超级人工智能(ASI,Artificial Super Intelligence,ASI)的关键突破,是人类 和机器合作的惊人之作。然而,正如 Ilya Sutskever 于 11 月 26 日的访谈中指出:大模型 Scaling Law 和摩尔定律一样,迟早会因为物理限制而失效。因此,如何打 开大模型训练的炼丹炉,看清黑盒子背后的基本原理,回答大模型是否已逼近其能力极限就成为迫在眉睫的问题了。但是,前人对大模 ...
MIT最新发现:这十年,算法进步被高估了
机器之心· 2025-12-11 02:47
文章核心观点 - 过去十年AI的进步由计算预算增长和算法创新共同推动,但算法进步的量化及其来源尚不清晰 [2] - 一项2024年的研究发现,算法进步在过去十年贡献了超过4个数量级的有效计算量提升,而计算规模本身增长了7个数量级 [2] - 研究通过三种互补方法得出结论:大多数算法创新带来的效率提升有限且与规模无关,而少数强烈依赖规模的创新(如LSTM到Transformer,Kaplan到Chinchilla)贡献了绝大部分的效率提升,且算法进步的速度和幅度高度依赖于所选的参考基线 [3][4][6] 算法进步的量化与总体影响 - 所有算法创新加起来使模型效率提高了约22,000倍,理论上可用少得多的浮点运算次数达到相同性能 [3] - 在总计21,400倍(相对于LSTM模型)的性能提升中,从LSTM转向Kaplan Transformer模型贡献了846倍的提升,Chinchilla训练策略贡献了近10倍的提升,这两项创新共同构成了总相对效率提升的91% [4][22] - 与规模无关的算法进步总体计算效率提升不到10倍,在推算到2025年计算能力极限(2 × 10²³ FLOPs)时,这些提升仅占总改进的不到10% [4] 算法进步的特性与模式 - 大多数经过实验评估的算法创新只带来小幅的、与规模无关的效率提升,提升倍数极不均匀,主要集中在少数几项改进上(如Adam优化器、pre-RMSNorm带来约2倍提升)[4][11] - 算法进步呈现断裂或不连续的模式:多年小幅改进之后,会出现一次较大的算法跃迁 [12] - 原始论文所声称的效率提升,往往远高于后续文献给出的估计以及该研究本身的实验结果 [9] 规模依赖型算法创新 - 研究发现有两项强烈依赖规模的算法创新:从LSTM到Transformer,以及从Kaplan到Chinchilla训练策略 [4] - 神经网络架构的改进具有随规模增加而回报提升的特性,并非规模不变 [20] - 从小模型LSTM切换到现代Transformer的总效率提升为6.28倍,切换到Retro Transformer的效率提升为4.69倍,这远低于此前文献估计的约60倍提升 [11] 算法进步与计算规模的关系 - 算法进步可能本质上就是依赖规模的,要真正体现其效益需要不断增长的计算规模 [6] - 算法进步对大模型开发者的益处远大于对小规模参与者的益处 [6] - 前沿模型的计算预算正以每年4.2倍的速度呈指数增长,算法进步的速率可能更多受算力扩张推动,而非不断涌现的算法创新 [22] 算法进步速度的参照系依赖 - 算法进步的速度强烈依赖于所选择的参考算法 [4] - 以LSTM为参照,Transformer系列(尤其是更大模型)会显得算法进步是指数增长的(论文测到一年增长率大约63%);但以Transformer自身为参照,随着规模变大,算法进步幅度很小(只比以前好约2倍)[24][25] - 换个对照组,算法进步的速度评估结果会从指数增长变为增长幅度很少 [26]