强化学习

搜索文档
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 01:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 12:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
具身智能之心· 2025-07-08 09:31
技术框架 - 提出"真实-仿真-真实"框架,通过多视角图像进行3D高斯溅射(3DGS)场景重建,构建兼具照片级真实感与物理交互特性的"数字孪生"仿真环境 [2] - 框架支持视觉导航与运动控制的协同学习,实现纯RGB输入的仿真到现实策略迁移 [2] 应用场景 - 方法在家庭和工厂场景中具有应用潜力,支持视觉目标追踪任务 [2] - 实验表明该方法能促进策略在新环境中的快速适应与高效探索 [2] 技术优势 - 解决"仿真与现实差距"问题,特别是缺乏真实感视觉渲染阻碍高阶任务的问题 [2] - 通过3DGS场景重建技术提升仿真环境的真实感与物理交互特性 [2] 相关资源 - 论文标题为《VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion》 [3] - 项目链接和论文链接已公开 [3]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 07:30
核心观点 - 字节与南洋理工大学联合开发的MMSearch-R1系统通过强化学习训练多模态模型实现自主按需搜索能力 在知识密集型视觉问答任务中性能超越同规模传统RAG模型 并减少32 9%搜索次数[1][3][21] - 该系统集成图像和文本搜索工具 采用GRPO强化学习算法 通过奖励函数优化搜索行为 构建了搜索需求均衡的FVQA数据集进行训练[11][13][14][15][17] - 实验显示7B参数的MMSearch-R1模型在FVQA-test和InfoSeek等任务中平均准确率比同规模RAG基线高3 同时达到32B模型RAG基线的性能水平[21][22] 研究方法 多模态搜索工具 - 集成Google Lens图像搜索工具 可匹配网页标题和缩略图以识别视觉元素[13] - 文本搜索工具链路由Google Search JINA Reader和语言模型组成 可获取相关网页内容摘要[13] 强化学习训练 - 采用GRPO算法实现多轮对话与搜索的Rollout过程 模型可选择调用搜索工具或直接回答[14] - 奖励函数包含0 9权重的准确性得分和0 1权重的格式得分 对依赖搜索的正确答案施加0 1惩罚因子[15] 数据集构建 - FVQA数据集通过MetaCLIP元数据采样 GPT-4o生成问答对 InfoSeek样本补充等方式构建 包含3400个需搜索样本和1600个无需搜索样本[17][19][20] 实验结果 - 7B模型在减少32 9%搜索次数(SR)情况下 准确率(Acc)达到54 6 超过同规模RAG基线51 6 接近32B模型RAG基线55 1[21][22] - 强化学习相比监督微调能以更少训练样本获得更大性能提升 搜索惩罚机制有效塑造按需搜索行为[24][25] - 模型同时提升RAG工作流性能(左图)和自主回答能力(右图) 显示更强的知识挖掘与结果处理能力[22]
RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
机器之心· 2025-07-08 04:09
强化学习新范式探索之夜活动概况 - 活动主题为强化学习新范式探索 聚焦从基础模型到Agent的进阶之路 [3] - 活动时间定于2025年7月26日19:00-21:10 与WAIC展会形成联动 [3] - 活动地点位于上海世博展览馆附近 采用12人封闭式深度交流模式 [3][7] 核心讨论议题 - 探讨强化学习与大模型智能体的协同效应 分析技术组合优势 [4] - 辩论训练推理环节的策略选择 平衡探索新方法与保持稳定性 [4] - 研究智能体对齐评估体系 提升智能体执行效率与可控性 [4] 参会专家阵容 - 清华大学交叉信息研究院助理教授吴翼 代表学术理论研究前沿 [5] - OPPO AI个性化实验室负责人周王春澍 提供产业落地实践经验 [5] - Pokee AI CEO朱哲清 分享创业公司技术商业化案例 [5] 目标参会群体特征 - 学术界研究人员需携带最新研究成果与未解决问题 [6] - 产业界从业者需准备实际应用案例与解决方案 [6] - 创业公司代表需提出产品技术痛点与合作需求 [6] 活动差异化价值 - 采用小众深度交流形式 确保每位参与者充分输出观点 [7] - 设置非正式交流场景 促进跨领域灵感碰撞 [7] - 覆盖学术到产业全链条资源 构建高质量技术社交网络 [7]
复盘国内外AI,兼论恒生科技
小熊跑的快· 2025-07-07 09:45
股市表现 - 纳斯达克累计涨幅32 9% 恒生科技指数ETF(513180)累计涨幅11 57% 上证涨幅12 16% A股整体涨幅不及美股且结构差异显著 [1] AI芯片趋势 - 资金从训练GPU转向推理ASIC芯片 H100和H200主力云上价格自2月28日后持续下行 [3] - 基础大模型迭代放缓 3月B200交付后模型升级速度明显下降 行业转向RL强化学习路径 [5] - H100和H200租赁价格下降因RL阶段算力需求减少及中国厂商减少高性能芯片堆叠 [5] 数据与推理需求 - GPT5训练数据中合成数据占比达50% 显著高于GPT4 未来高质量数据获取成关键 [6] - 微软25Q1 Token总量超100万亿同比增5倍 谷歌4月Token处理量从9 7万亿飙升至480万亿增幅50倍 国内豆包大模型5月日均Tokens达16 4万亿较24年底增4倍 [7] - 推理芯片价格持续上涨 L4和A10等传统推理芯片需求旺盛 显示模型精度已具备实用价值 [6] ASIC芯片发展 - OpenAI自去年10月启动ASIC设计 2025-2027年为ASIC快速发展期 博通等厂商受益 [7] - 英伟达推出柜式机争夺推理市场 寄望ASIC迭代失败后客户回归B200和GB300 [7] - ASIC芯片前两代即使存在瑕疵也会推进 最快2027年才可能宣告失败 期间行业刺激将持续 [10] 港股科技股 - 港股科技股反弹弱于美股 恒生科技指数成分股如阿里腾讯仍处低位 三季度ASIC芯片供应改善或带动capex触底反弹 [9] - 市场对云收入增长预期保守 但全年目标1350亿以上 Q2同比增速或超15% [9]
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 09:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 13:36
职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队 专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究:设计实现领先的具身多模态大模型 突破现有VLA框架 构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关:主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划:构建可泛化高效率的具身智能基座模型 支撑未来1-3年技术演进 探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设:与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题 在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景:需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验:需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力:需掌握3D计算机视觉/几何学/空间推理 熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力:需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文 或相关竞赛获奖 具备跨学科整合能力 [7] 加分项 - 技术基础:精通Python/PyTorch框架 具备大规模数据处理与高效模型训练能力 [10] - 专项经验:有World Model理论研究 亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献:在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主 少量上海职位 [9]