Workflow
强化学习
icon
搜索文档
Kimi开源又放大招!20秒更新万亿参数的中间件来了
量子位· 2025-09-11 05:19
技术突破 - Kimi K2推出checkpoint-engine中间件 实现万亿参数模型权重更新进入"秒更时代" [1][6] - 该中间件可在约20秒内完成在数千个GPU上对1万亿参数的更新操作 [7] - 支持两种更新模式:一次性将更新完的权重从一个节点同时发送给所有节点 以及点对点动态更新 [2] 性能表现 - 在8×H800 TP8配置下 GatherMetas耗时0.17秒 Update(Broadcast)耗时3.94秒 [2] - 在16×H20 TP16配置下 GatherMetas耗时1.44秒 Update(Broadcast)耗时12.22秒 [2] - 在256×H20 TP16配置下 GatherMetas耗时1.40秒 Update(Broadcast)耗时13.88秒 [2] 系统架构 - 采用混合共置架构 训练引擎和推理引擎部署在同一组工作节点上 [8] - 每个引擎都针对高吞吐量进行深度优化 通过资源释放和调配实现高效协同 [9][10] - 使用参数逐条更新的流水线方式 将内存占用降至最低 [19] 技术创新 - 采用三阶段流水线:H2D阶段将权重分片异步复制到缓冲区 广播阶段将分片复制到IPC缓冲区并广播到所有GPU 重载阶段推理引擎从另一个IPC缓冲区加载参数 [20] - 选择将完整参数集广播到整个集群 简化系统设计并降低对训练和推理引擎的侵入性 [24][25] - 通过牺牲微小开销实现训练引擎与推理引擎的完全解耦 大大简化维护和测试流程 [26] 系统优化 - 优化启动时间 让每个训练工作节点选择性地从磁盘读取参数并广播至对等节点 确保所有节点只需集体读取一次检查点 [28][29] - 在启动阶段复用检查点引擎 集体从磁盘读取检查点后更新未初始化的推理引擎状态 [31][32] - 系统可抵御单点故障 某个推理副本可独立重启而无需与其他副本通信 [33]
交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
机器之心· 2025-09-11 04:53
研究背景与核心理念 - 人工智能正从依赖海量标注数据的“数据密集型”时代,转向通过在真实环境中主动探索、积累经验的“经验密集型”时代 [1][11] - 环境的多样性与真实性是智能体获得泛化能力、应对复杂任务的关键前提,缺乏丰富环境将难以形成稳健的决策策略 [1] AgentGym-RL框架核心创新 - 该框架是首个无需监督微调、具备统一端到端架构、支持交互式多轮训练的LLM智能体强化学习框架 [3] - 框架采用模块化设计,包含环境、代理和训练三个核心组件,支持多种主流RL算法(如PPO、GRPO)并涵盖网页导航、科学探索等五大类真实场景 [16][19][21] - 框架通过标准化环境操作接口和分布式并行计算架构,为LLM智能体构建了一个能持续产生“有效经验”的可复现、可扩展生态 [13] ScalingInter-RL方法突破 - 创新性地提出了“扩展环境交互”新路径,通过分阶段增加模型最长交互轮次限制,使智能体能逐步从掌握基础技能过渡到解决复杂任务 [3][4][23] - 该方法在训练稳定性与效率上显著优于传统方案,在TextCraft任务中以传统方法60%的步数达成89%的成功率,WebArena任务中单位计算量性能增益是PPO算法的1.8倍 [32] 实验性能表现 - 仅7B参数的ScalingInter-7B模型在五种测试环境、26项任务中,总体表现超越了100B以上的大型开源模型,并追平了OpenAI o3、谷歌Gemini 2.5 Pro等顶尖商业模型 [5][29] - 在网页导航任务中,ScalingInter-7B模型的总体准确率达到26.00%,大幅超越GPT-4o的16.00%;在科学场景中以57.00%的总体得分创下新纪录,远超排名第二的OpenAI o3模型(41.50%) [29][30][31] - 实验表明,有策略地投入后训练和测试时计算,比单纯增加模型参数更具影响力,7B参数模型性能可优于参数规模近其十倍的更大模型 [35][38] 技术优势与行业意义 - 该研究验证了智能体范式下扩展测试时计算的新路径优于传统仅延长思维链的方法,允许模型依据多轮反馈动态修正策略,形成更结构化的决策流程 [3] - 框架已全面开源,为开源社区提供了自主智能体研发的基础设施,有望推动AI在机器人操作、现实场景规划等更复杂任务中的应用 [8][50][52]
图灵奖得主理查德·萨顿:人工智能进入“经验时代”,潜力超以往
贝壳财经· 2025-09-11 04:47
人工智能发展现状 - 人类数据红利正逼近极限 大多数机器学习目标是将人类已有知识转移到静态AI [1][2] - 现有方法不能生成新知识 不适合持续学习 而持续学习对智能效用至关重要 [2] - 强化学习带领进入经验时代 需要智能体与世界直接交互生成新数据源 [2] 经验时代技术方向 - 经验指观察 行动和奖励三种信号在智能体与世界间传递 知识来自于经验 [2] - 智能体智能程度取决于预测并控制自身输入信号的程度 经验是一切智能核心 [2] - 释放全部潜力需要持续学习技术和元学习技术 目前这两项技术尚不成熟 [2] 人工智能协作理念 - 对人工智能恐惧被夸大 是被某些从中获利组织和个人煽动 [3] - 目标不同智能体可通过去中心化协作实现双赢 人工智能和人类繁荣将来自去中心化协作 [3] - 人类最卓越超能力在于比其他动物更擅长协作 经济市场与政府都是成功协作产物 [3] 人工智能未来预测 - 对世界如何运转没有共识 没有哪种看法能凌驾其他 [3] - 人类将真正理解智能并借助技术创造出来 [3] - 当今人类智力水平将被超级人工智能或超级智能增强人类远远超越 [3] - 权力和资源会流向最聪明智能体 人工智能替代将不可避免 [3] 宇宙时代与人工智能定位 - 宇宙历史分为粒子时代 恒星时代 复制者时代和设计时代 [4] - 人类独特之处在于把设计推向极致 创造出能自己设计的事物 [4] - 人类是催化剂和助产士 是开启宇宙第四大时代设计时代的先驱 [4] - 人工智能是宇宙演化必然下一步 应以勇气自豪和冒险精神迎接 [4]
图灵奖得主理查德·萨顿2025外滩大会演讲:经验是一切智能的核心与基础
央广网· 2025-09-11 04:06
人工智能发展现状与局限 - 当前大多数机器学习的目标是将人类已有知识转移到缺乏自主学习能力的静态AI上 [2] - 现有方法正逐渐达到人类数据的极限 无法生成新知识且不适合持续学习 [2] - 持续学习对智能的效用至关重要 但现有技术尚不成熟 [2] 人工智能的未来发展方向 - 行业正进入“经验时代” 需要由智能体与世界直接交互生成的新数据源 [2] - “经验”指观察、行动和奖励三种信号在智能体与世界间的传递 是智能的核心与基础 [2] - 强化学习引领了经验时代 但其全部潜力释放依赖持续学习和元学习技术的成熟 [2] 对人工智能未来的预测 - 人类将真正理解智能并借助技术将其创造出来 [3] - 当今人类智力水平将被超级人工智能或超级智能增强的人类超越 [3] - 权力和资源会流向最聪明的智能体 人工智能的替代将是不可避免的 [3] 人工智能的宏观定位 - 人工智能被视为宇宙演化的必然下一步 应以勇气、自豪和冒险精神迎接 [4] - 人类的独特之处在于将设计推向极致 创造出能自己设计的事物 [3] - 人类是开启宇宙第四大时代“设计时代”的先驱和催化剂 [3]
AI跨步进入“经验时代”
华尔街见闻· 2025-09-11 03:50
AI行业发展趋势 - AI行业正从依赖人类数据的"人类数据时代"转向以持续学习为核心的"经验时代" [2] - 人类数据红利逼近极限 持续学习对智能效用至关重要 [2] - 新数据源需通过智能体与世界直接交互生成 类似AlphaProof通过该路径获国际数学奥林匹克银牌 [2] 技术发展需求 - 强化学习已引领进入经验时代 但需突破持续学习(continual learning)和元学习(meta-learning)技术瓶颈 [2] - 智能体智能程度取决于预测并控制自身输入信号的能力 经验是一切智能的核心基础 [2] AI与人类协作关系 - AI替代人类不可避免 是宇宙演化的必然下一步 [4][5] - AI恐惧被夸大 由某些获利组织煽动 去中心化协作可实现双赢 [3] - 人类最卓越超能力是协作 AI和人类繁荣将来自去中心化协作 [3] 未来发展方向 - 宇宙历史分为粒子时代、恒星时代、复制者时代和设计时代 人类正开启"设计时代" [4] - 人类独特之处在于将设计推向极致 创造能自我设计的事物 [4] - 权力和资源将流向最聪明的智能体 人类智力水平将被超级AI或智能增强人类超越 [3]
“强化学习之父” 理查德·萨顿:人类数据红利逼近极限,AI正进入以持续学习为核心的“经验时代”
证券时报· 2025-09-11 03:50
人工智能发展趋势 - 人类数据红利正逼近极限 人工智能进入以持续学习为核心的经验时代 潜力远超以往 [1] - 经验指观察 行动和奖励三种信号在智能体与世界间传递 知识来自经验 智能程度取决于预测和控制输入信号的能力 [2] - 强化学习带领进入经验时代 但需持续学习和元学习技术释放全部潜力 目前这两项技术尚不成熟 [2] 人工智能发展路径 - 新数据源需由智能体与世界直接交互生成 类似AlphaGo自我博弈和AlphaProof获国际数学奥林匹克银牌的路径 [1] - 人工智能替代人类不可避免 人类是催化剂和助产士 是开启宇宙第四大设计时代的先驱 [2] - 人工智能是宇宙演化的必然下一步 应以勇气 自豪和冒险精神迎接 [3] 人工智能协作机制 - 对人工智能恐惧被夸大 目标不同的智能体可通过去中心化协作实现双赢 [2] - 人类最卓越超能力是协作 经济 市场与政府都是成功协作产物 [2] - 人工智能和人类繁荣将来自去中心化协作 协作是世间美好事物源泉 需寻求支持并制度化 [2]
强化学习之父” 理查德·萨顿:人类数据红利逼近极限,AI正进入以持续学习为核心的“经验时代
证券时报网· 2025-09-11 03:26
人工智能发展趋势 - 人类数据红利正逼近极限 人工智能正在进入以持续学习为核心的经验时代 潜力将远超以往 [1] - 经验指的是观察 行动和奖励三种信号在智能体与世界之间来回传递 知识来自于经验 智能程度取决于预测并控制自身输入信号的程度 经验是一切智能的核心与基础 [2] - 强化学习带领进入新的经验时代 但要释放全部潜力还需要持续学习和元学习两项尚不成熟的技术 [2] 人工智能发展路径 - 需要新的数据源 由智能体与世界直接交互中生成 这是人类和其他动物的学习方式 也是AlphaGo自我博弈和AlphaProof在国际数学奥林匹克斩获银牌的路径 [1] - 人工智能的恐惧被夸大 目标不同的智能体可以通过去中心化的协作实现双赢 [2] - 人工智能和人类繁荣将来自于去中心化协作 协作是世间一切美好事物的源泉 必须寻求协作 支持协作并致力将协作制度化 [2] 人工智能历史定位 - 人工智能的替代将是不可避免的 人类是催化剂和助产士 更是开启宇宙第四大时代设计时代的先驱 [2] - 宇宙历史分为四个时代:粒子时代 恒星时代 复制者时代和设计时代 [2] - 人工智能是宇宙演化的必然下一步 应以勇气 自豪和冒险精神来迎接它 [3]
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 02:07
文章核心观点 - 西湖大学团队提出自适应强化流匹配方法,旨在解决现有视觉-语言-动作流模型在复杂任务中动作精度不足的问题 [2] - 该方法通过在损失函数中引入自适应缩放因子,动态平衡强化学习信号与训练稳定性,使模型能更关注高质量数据 [2][6] - 实验证明该方法在泛化能力、抗干扰性、少样本学习及持续学习方面均优于现有基准模型 [6][49] 研究背景与问题 - 基于流匹配的视觉-语言-动作模型在常规场景表现良好,但依赖模仿学习后训练,难以理解数据质量分布特性 [1][4] - 在复杂下游任务中,现有模型动作精度显著下降,离线强化学习方法在流模型上效果不佳,因无法高效指导动作轨迹生成 [1][4] 主要贡献 - 提出自适应强化流匹配方法,填补了视觉-语言-动作流模型高效离线强化学习微调的技术空白 [6] - 从理论上构建了偏差-方差权衡目标函数,并推导出实时更新缩放因子的二分迭代算法 [6] - 在仿真与真实平台的大量实验中,该方法在多项性能指标上均展现出当前最优水平 [6] 核心算法设计 - 方法核心是构建能量加权损失以融合强化学习信号,并设计自适应机制平衡训练稳定性 [8] - 通过能量引导分布重塑动作轨迹的学习偏好,使模型更关注高强化学习优势的样本 [11][12] - 采用批次采样近似策略将理论损失转化为可高效计算的批次加权损失 [15] 实验设置 - 仿真实验采用LIBERO基准测试平台,涵盖4个核心套件共40个独立任务,评估不同操控能力 [27][29] - 真实世界实验使用UR5机械臂平台,设计3类抓取-放置任务并引入外部物理扰动 [29] - 基准方法包括非流匹配型与流匹配型两大类,以确保对比的全面性与公平性 [27][30] 核心实验结果 - 在多任务学习中,自适应强化流匹配平均成功率达92.1%,较基础流模型提升4.5个百分点,优于其他基准 [32][35] - 在动作扰动实验中,该方法平均成功率为48.2%,较基础流模型提升11.4%,显示出更强鲁棒性 [33][36] - 在少样本学习场景下,该方法平均成功率为36.5%,较基础流模型提升12.2%,证明其高效的数据利用效率 [34][37][45] - 在持续学习实验中,该方法平均负向后迁移指标为4.7,较基础流模型降低38.0%,抗遗忘能力显著提升 [38][39] 方法优势 - 自适应机制降低了对超参数的敏感性,不同超参数下模型成功率波动小于2个百分点,便于工程落地 [40][43] - 二分迭代算法轻量化且高效,仅需10次迭代即可获得近似最优缩放因子,计算成本低 [40][43] - 该方法无需修改模型骨干结构,与现有视觉-语言-动作流模型兼容,工程落地成本低 [25][49]
从近1000篇工作中,看具身智能的技术发展路线!
自动驾驶之心· 2025-09-07 23:34
机器人操作 - 机器人操作从机械编程演进至具身智能阶段 聚焦多指灵巧手与AI赋能的数据采集和技能学习框架[6] - 灵巧操作依赖模拟器 人类演示和遥操作三种数据采集范式 结合模仿学习和强化学习框架[6] - 面临三大关键挑战 包括高质量数据集缺乏 静态学习框架鲁棒性不足 端到端学习泛化性受限[6][13] 具身导航与操作 - 导航任务从显式记忆转向隐式记忆 操作任务从强化学习拓展至模仿学习 扩散策略及VLA模型[13] - 物理模拟器分为室内型 Habitat AI2-THOR 室外型 CARLA AirSim 和通用型 ThreeDWorld Isaac Sim[12][13] - 操作模拟器包括经典物理引擎 MuJoCo PyBullet 和可微分物理引擎 Dojo Genesis[13] - 评估指标采用成功率 SR 和路径效率 SPL 操作任务使用SO(3)/SE(3)等变表示[13] 具身多模态大模型 - 由具身智能体 大语言模型 GPT系列 大视觉模型 ViT 和视觉语言模型 CLIP 构成基础架构[17] - 覆盖具身感知 导航 交互 仿真四大核心任务 感知分为GPT与非GPT模型 导航分通用与专用模型[17] - 使用Open X-Embodiment和HM3D等数据集 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等挑战[17] 强化学习应用 - 采用RLHF DPO RLVR三种对齐范式 结合PPO和GRPO策略优化算法 通过KL正则约束政策偏移[24][26] - 应用于多模态大语言模型 视觉生成 统一模型和视觉-语言-动作模型四大方向[26] - 评估体系包含集合级 FID 样本级 RLHF奖励 和状态级 KL监控 配套SEED-Bench-R1等基准[26] 遥操作技术 - 系统架构包含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向操作[30][32] - 运动重定向采用完整动力学模型与简化模型 LIPM 通过ZMP/DCM保证平衡[30] - 应用远程存在和危险作业场景 面临非专家操作门槛高 动态环境适应难 长延迟稳定性差等挑战[33] 视觉-语言-动作模型 - 涵盖80多个近三年发布的VLA模型 涉及架构创新 参数高效训练和实时推理加速等进展[31][34] - 按架构分为单体模型 Monolithic 与分层模型 Hierarchical 从结构与功能双维度分析[39] - 发展历程划分为萌芽 探索和快速发展三阶段 使用互联网图文 视频 仿真和真实机器人数据训练[36] - 应用于类人机器人 自动驾驶 医疗与工业机器人 精准农业和增强现实导航等领域[31]
不及预期的diffusion多模态轨迹输出,能否胜任自动驾驶VLA的角色?
自动驾驶之心· 2025-09-07 23:34
自动驾驶范式演进 - 行业主流从端到端转向VLA(Vision-Language-Action)和世界模型-行为(World Action)两大流派,理想和小鹏完成VLA范式转变,华为和蔚来聚焦直接建模视觉信息到Action输出 [2][3] - 端到端网络通过原始传感器输入直接映射控制量,省去传统感知-预测-规划-控制级联链路,采用高并行低耦合设计,通过数据采集→模型训练→仿真/实车验证闭环实现 [4][5] - 特斯拉提出"日更模型"解决迭代痛点:每日筛选bad case转为训练样本,轻量级微调上一版本模型,实现7×24持续进化,核心挑战是保持既有能力同时无缝注入新知识 [9] 技术融合与创新 - 2023年端到端+VLM(Vision-Language Model)双系统方案兴起,受LLM Scaling Law启示,参数量与数据量放大带来zero-shot/few-shot泛化能力 [11] - VLM早期解决特殊语义识别(如OCR识别公交车道文字、潮汐车道箭头),EMMA架构引入链式推理,用自然语言思考过程辅助控车,推动VLA发展 [12] - VLA+Diffusion融合DiffusionDrive与GoalFlow思想,VLA显式输出Driving Command作为Diffusion初始噪声和条件,最终生成安全平滑车辆轨迹 [14][15][16] 当前挑战与问题 - Diffusion多模态轨迹输出不及预期,开放道路环境数据稀疏且分布不均衡,可控性远逊预期,难以覆盖万景万态 [6][18] - VLA和Diffusion双系统存在脑裂问题,两个大脑学习人驾轨迹可能产生矛盾,虽联合训练但仍存在VLA错误时Diffusion自行弥补导致分歧 [18] - 生成加打分范式对生成器效率要求高,单模态轨迹质量不佳,有限计算资源难以生成覆盖全场景的安全合理轨迹 [18] - 语言模态(L)价值未定,可能产生不可接受幻觉,LA对齐挑战大,需将抽象语言精准映射到三维空间关系 [18] 未来发展方向 - 需要能够scaling的系统方案,双系统不适合scaling,应充分发挥数据优势触发模型scaling能力 [22] - 强化学习需加强基础模型能力,连续空间内自由度太高难调优,轨迹模型建模形式需重新设计 [22] - 生成+打分范式需让轨迹自我反思,DiffusionPlanner用奖励场函数二次优化只是起点,需迭代更多反思手段提升单条轨迹质量 [22]