Workflow
强化学习
icon
搜索文档
腾讯优图提出Training-Free GRPO,8美元即可对DeepSeek-V3.2做强化学习
腾讯研究院· 2025-11-10 11:08
文章核心观点 - 腾讯优图实验室提出革命性方法Training-Free GRPO,实现不更新模型参数的强化学习,大幅降低成本并提升模型性能 [7][8][28] - 该方法核心思想是通过积累和迭代“经验知识”指导模型行为,而非修改模型参数,与强化学习之父Richard Sutton倡导的从经验中学习理念一致 [8] - 传统RL训练32B模型成本约1万美元,而Training-Free GRPO优化671B模型仅需8-18美元,实现成本数量级降低 [4][25] 技术原理与流程 - 方法分为四步:多路径探索生成多个解答路径、强化学习奖励进行客观评分、语义优势提炼比较不同解答优劣、经验库优化动态更新知识库 [12][14][15][17][20] - 整个过程冻结模型参数,通过多轮强化学习更新优化经验库,在推理时注入学习到的经验知识 [11] - 语义层面的洞察比单纯数值评分更有指导意义,模型能自我反思总结有效策略 [15][16] 性能提升效果 - 在数学推理任务上,仅用100个训练样本和约8-18美元成本,即在671B的DeepSeek-V3模型上实现AIME榜单性能提升 [4][18] - DeepSeek-V3.1-Terminus使用代码工具时,AIME25指标从67.9%提升至73.3%,提升5.4个百分点 [19] - 网页搜索场景中,DeepSeek-V3.1-Terminus的Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [22][23] - 训练过程中平均工具调用次数减少,表明方法能教会代理更高效使用工具 [22] 成本优势与应用场景 - 相比传统RL训练1万美元成本,新方法仅需8-18美元,降低三个数量级 [25] - 训练和推理仅需API调用,随用随付,无需准备专用GPU资源 [25] - 特别适合长尾细分场景适配、快速迭代需求以及预算有限的个人开发者、中小企业和研究机构 [26]
第八届 「GAIR 全球人工智能与机器人大会」即将启幕:穿越AI长夜,共睹群星闪耀
雷峰网· 2025-11-10 10:05
大会基本信息 - 第八届GAIR全球人工智能与机器人大会将于2025年12月12-13日举办 [2] - 大会地点为深圳南山·博林天瑞喜来登酒店 [2] 大会核心议题与焦点 - 大会将开设三个主题论坛,聚焦大模型、具身智能、算力变革、强化学习与世界模型等多个前沿议题 [3] - 将探讨强化学习的“策略优化”和世界模型的“心智模拟”等关键技术 [3] - 重点关注AI如何与物理世界深度融合、与现实共生,议题涵盖具身智能的实现 [4] 参会嘉宾与行业洞察 - 参会者包括年轻学者和已穿越多个AI周期的资深前辈,形成跨越代际的交流 [4] - 来自欧洲、美国、日本等地的顶尖学者将与中国同行共同探讨 [4] - 产业界参与者包括穿越“死亡谷”的创业者和持续校准方向的行业巨头,将分享AI商业化实践方法论 [4] 算力赛道的商业价值 - 算力被定义为万人竞逐、最早兑现价值的赛道 [4] - 大会将复盘大型算力基建在市场与政策中的发展,洞察芯片概念与资本热潮背后的逻辑 [4] - 将在激荡的Infra市场中寻找下一个值得被看见的破局者 [4] 大会历史与行业地位 - GAIR大会始于2016年,由高文院士、朱晓蕊、林军等人联合发起 [5] - 历届大会曾邀请多位图灵奖、诺贝尔奖得主,以及50位院士、30位人工智能国际顶会主席、100多位Fellow [5] - 2018年第三届GAIR成为国内首个突破5000名AI专家参会的人工智能论坛 [7]
关于理想VLA未来发展的一些信息
自动驾驶之心· 2025-11-10 03:36
理想VLA技术发展路线 - 短期目标:致力于打造训练的强化闭环,预计2025年底完成搭建,2026年初将展现出良好表现,使车辆具备持续成长的能力[2] - 中期目标:强化闭环完善后,可能在中国市场超越特斯拉,主要优势在于拥有比特斯拉更便利的闭环迭代环境[3] - 长期规划:VLA技术有望实现L4级别自动驾驶,但未来仍需新技术支持[4] - 业务流程变革:VLA结合强化学习不仅是技术变革,更是业务大变革,预计需要1-2年迭代周期,2027年行业将发生重大变化[3] 理想VLA技术实现路径 - 当前限制:由于安全考虑和潜在舆情风险,系统设置了较多安全限制,尚未实现训练的强化闭环[4] - 未来机制:强化闭环系统可自动识别问题(如用户接管、驾驶顿挫、急刹车),自动收集数据并回传进行强化训练,完成迭代后上线[4] - 技术倾向:认为驾驶所需智能程度相对较低[5];业务流程改革完成后,车端算力与模型参数需求不会要求过大[5] - 具体锚点:车端算力1000或2000TOPS,云端模型32B参数,认为将320B模型蒸馏成4B很不合适[6] 理想自动驾驶组织架构调整 - 组织变革:智驾部门调整为11个二级部门,负责人均具备业务背景而非纯管理出身[12] - 部门拆分:原模型算法团队拆分为基础模型部、VLA模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部[12] - 管理理念:智驾核心管理者从内部培养,Research/算法研究可从外部引进[12] - 取消封闭开发:因不再是追赶者且收益降低,同时体现员工关怀[12] 理想领导层与团队建设 - 李想参与:2025年2月底提出加快交付VLA,认为模仿学习本质不具备人类智能[11];每月与校招生沟通一次[11] - 团队传承:第一代骨干完成0到1突破后部分离职,目前第三代以詹锟、湛逸飞为主,加上9个二级部门负责人[13] - 领导作用:在资源投入、持续保障以及对AI技术路线的关键判断方面发挥核心作用[13] - 精力分配:50%精力用于日常管理,30%用于中长期战略规划,20%关注技术和业务进展[18] 行业竞争与技术观点 - 对VLA态度:认为友商反对VLA恰恰证明该技术方向的正确性[14] - 技术对标:非常关注FSD V14进展,团队将在美国进行实车体验;认为与Ashok在ICCV 2025演讲理念高度一致[18] - 模型对比:任少卿提到的世界模型与理想VLA模型属同一层级,华为的W Engine类似理想所说的世界模型[18] - 数据挑战:即使有大量数据也无法穷尽所有场景,需要系统具备人类思维推理能力而非简单泛化[18] 资源配置与发展规划 - 算力规划:推理算力与训练算力各占一半较为合理;2024年云端算力达8 EFLOPS,价值约10亿人民币[18] - 模型开发:正在研发42B云端模型,希望参数量不要过大[18] - 芯片策略:自研芯片若单颗效果不佳将采用两颗方案[18] - 团队规模:2023年公司主基调为扩招,但认为团队规模只需比特斯拉稍多即可[18] - 指标预期:2027年可能不再使用MPI指标,因接管率将普遍较低[18]
机器人训练,北京男大有了技能玩法
具身智能之心· 2025-11-10 00:02
文章核心观点 - 介绍了一种名为COLA的全新强化学习方法,该方法使人形机器人仅依赖本体感知即可实现与人类协作搬运物体,无需外部传感器[11][18][26] - 该方法通过统一策略实现机器人在协作中领导者与跟随者角色的自主切换,提升了协作的流畅性和稳定性[19][20] - 该技术降低了硬件成本和系统复杂度,并在仿真、真实世界及人类用户实验中验证了其有效性[30][32][41] 技术方法与创新 - COLA方法的核心创新在于摒弃了摄像头、激光雷达等外部传感器,仅利用机器人自身的关节角度、力度反馈等本体感知数据进行交互决策[18][24][28] - 该方法采用统一策略,使机器人能根据人类施力情况和物体状态,自主、无缝地在领导者和跟随者角色间切换,无需人工干预[19][20] - 训练过程在高度动态的闭环仿真环境中进行,模拟了人类突然转向、物体重量变化等多种突发状况,以增强模型的鲁棒性[21][22] - 通过残差教师微调与仿真训练结合知识蒸馏的技术路径,先训练强大的教师模型,再将其能力迁移至轻量级的学生策略,适用于实体机器人[34] 实验验证与性能 - 在仿真实验中,以领导者思路设计的COLA-L比跟随者COLA-F表现更突出,能更好地分担人类负载并保持物体稳定[33][36] - 真实世界测试显示,COLA在面对箱子、担架等不同物体以及直线、转弯等运动模式时,均能实现稳健的协作搬运[37][38] - 由23名人类参与者进行的评估结果显示,COLA方法在高度跟踪和平滑性两项指标上均获得最高分,分别为3.96分[41][42] 研发团队背景 - 该研究由北京通用人工智能研究院、北京理工大学、香港大学等国内机构的研究人员共同完成[43] - 核心团队成员包括Yushi Du、Yixuan Li和Baoxiong Jia(通讯作者),其他通讯作者为Wei Liang、Yanchao Yang和Siyuan Huang[44][47][50] - 团队成员在计算机视觉、强化学习、人形机器人控制、具身智能等领域有深厚积累,并有相关顶会论文发表[46][49][56][59]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 16:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 12:35
公司业务拓展 - 公司正积极拓展业务范围,从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请,计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征,涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求,求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向,包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场,以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]
机器人训练,北京男大有了技能玩法
量子位· 2025-11-08 04:10
技术突破 - 提出全新强化学习方法COLA,仅依赖机器人本体感知(关节角度、力度反馈、位置/速度等内部数据)实现人机协作搬运,无需摄像头、激光雷达等外部传感器[10][17][23][25] - COLA设计实现单一统一策略,机器人可自主切换领导者或跟随者角色,人类发力稳定时配合跟随,物体倾斜时主动调整维持平衡[18][19] - 训练采用高度动态闭环环境,模拟人类突然转向、物体重量变化、手部打滑等突发状况,形成决策-反馈-再决策循环[21] 性能优势 - 在真实世界测试中,COLA对所有物体类型(规则箱子、柔性担架等)和运动模式(直线、转弯)均实现稳健协作搬运[35][36] - 人类参与者实验显示,COLA在高度跟踪和平滑性评分均达3.96分,显著高于基线方法Locomotion(2.96/2.61)和Vanilla MLP(3.09/3.09)[39][40] - 以领导者思路设计的COLA-L表现突出,比跟随者COLA-F更能分担负载并保持稳定[34] 成本与适用性 - 摒弃外部传感器降低硬件成本和系统复杂度,避免采购和软硬件集成投入[29] - 本体感知设计使机器人免受光线昏暗等环境干扰,交互方式变为拍拍头、拉拉身体等直接物理互动,无需遥控或语音[8][24] 团队背景 - 核心团队来自北京通用人工智能研究院、香港大学、北京理工大学,成员包括Yushi Du、Yixuan Li、Baoxiong Jia等[41][42][43][46] - 通讯作者Wei Liang为北京理工大学教授,领导PIE实验室,研究方向含计算机视觉和虚拟现实[49][50] - 团队近年多篇论文入选顶会,如CoRL 2025接收统一力与位置控制研究[47]
强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”
机器之心· 2025-11-07 07:17
文章核心观点 - 大语言模型的“记忆”能力是实现长期智能的关键,但现有方案存在成本高、依赖人工规则等瓶颈 [2] - Mem-α 是首个将强化学习引入大模型记忆管理体系的方案,使模型能自主学习记忆的存储、更新和组织策略 [2] - 该方法将记忆构建转化为序列决策问题,通过端到端优化实现高效记忆管理,在性能、效率和泛化能力上均显著超越现有基线 [9][22][24] 技术方案与架构 - Mem-α 采用三层记忆架构:核心记忆(用户身份/目标)、情景记忆(时间线事件)、语义记忆(结构化知识) [15][19] - 通过强化学习优化记忆策略,奖励函数包含问答准确率、工具调用格式、记忆压缩和内容有效性四个维度 [12][13] - 训练数据集基于MemoryAgentBench构建,涵盖精确检索、测试时学习和长期理解三个维度 [17] 性能表现与实验结果 - 在验证集上,Mem-α平均性能达0.642,显著高于Long-Context(0.588)和RAG-Top2(0.567) [20] - 在测试集上,Mem-α-4B平均性能达0.592,优于Long-Context(0.461)和RAG-Top2(0.502) [21] - 记忆占用减少近50%,在BookSum任务中记忆使用仅2.2K,远低于Long-Context的15.4K [20][22] - 具备极强长度外推能力,训练仅用<30K tokens样本,可稳定泛化至超过400K tokens的超长文档 [24] 技术突破与行业意义 - 首次实现记忆建模领域的真正长度外推,证明模型学会的是通用记忆策略而非特定模式 [24] - 消融实验显示,经Mem-α训练后模型准确率从38.9%提升至64.2%,实现从“不会用记忆”到“自主管理记忆”的质变 [25] - 标志记忆管理从工程问题转向可学习问题,为多模态记忆、个性化策略等方向开辟新路径 [27]
强化学习教父重出江湖, 生成式AI的时代要结束了?
36氪· 2025-11-07 07:11
公司核心动态 - 强化学习奠基人、2024年图灵奖得主Richard Sutton以首席科学官身份加入ExperienceFlow AI,并创建“超级智能研究实验室”[5][6] - 公司定位为打造“经验驱动的去中心化超级智能”,总部位于旧金山[12] - 公司提出“自主企业”概念,旨在让AI系统能独立分析、规划、执行并优化流程[15] - 公司技术路线强调去中心化智能架构,允许企业与国家在自有计算资源和私有数据上构建独立智能体网络[16][20] 行业技术路线转向 - 生成式AI时代正接近终点,其依赖人类数据喂养的模式将面临极限,下一阶段将进入从经验中学习的新纪元[9][18] - 智能的核心从模型参数量转向“如何通过经验产生知识”,学习方式从模仿转向理解[13][18][34] - 强化学习的底层逻辑是智能体在环境中采取行动、获得奖励、调整策略,学习来自行动而非输入[9] - 真正的超级智能将推动制造、医疗、金融、零售、物流、机器人等关键行业的现实应用发展[15][26] 产品与市场愿景 - 公司技术旨在解决通往通用人工智能(AGI)的最后一道关键难题,推动持续学习、泛化能力及基于模型的层级规划[13] - 去中心化智能架构被视为下一轮算力与经济增长的引擎,将推动全球计算、硬件和数据生态的新一轮有机增长[16] - “自主企业”形态的公司将由能独立学习、协同判断的智能体构成,重新定义生产组织方式和企业概念[23][26] - 公司技术实现“AI主权”,让每个组织或国家都能训练出独具特色的智能,形成分布式的知识系统[21][28]
从转型和研究来看,什么方向更适合第一篇论文?
具身智能之心· 2025-11-06 11:47
研究方向选择 - 具身智能领域的研究方向包括视觉语言导航、视觉语言动作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的同学,视觉语言导航和视觉语言动作是较好的切入方向[1] - 拥有机械臂硬件的研究者可选择展开视觉语言动作研究,预算不足的研究者可利用仿真环境或低成本硬件如so-100进行实验[1] - 四足机器人和人形机器人更适合强化学习方向,而视觉语言动作的研究难度较高[1] 研究方法与支持 - 产生优秀的研究想法对新人研究者至关重要,但往往需要经历多次尝试[1] - 公司提供从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导服务[2] - 辅导服务覆盖中国计算机学会推荐A类到C类国际学术会议以及科学引文索引一区到四区期刊[2] - 导师团队由来自国内外名校的博士及头部企业研究员组成,具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的投稿和审稿经验[2] - 公司提供工业界与学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[3]