强化学习
搜索文档
算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性
机器之心· 2025-10-10 06:36
文章核心观点 - 提出一种名为马尔可夫式思考机(Markovian Thinker)的新范式,通过Delethink方法将推理LLM的思考过程重构为分块的马尔可夫过程,从而解决长思维链导致的二次级计算量增长问题 [3][9][10] - 该方法使模型思考长度与上下文大小解耦,实现线性计算复杂度和恒定内存消耗,显著降低训练成本并支持更长思考 [9][16][26] - 实验证明Delethink在多项基准测试中优于传统LongCoT方法,且具备与前沿大模型兼容的可扩展性 [20][23][30] 技术原理与设计 - 核心创新是将强化学习环境重构为固定大小区块(chunk)的序列生成过程,每个区块边界重置上下文,迫使策略维持文本状态跨区块推进思考 [10][12][13] - 与传统LongCoT环境相比,Delethink状态大小有界,避免注意力机制计算量随思考长度呈二次增长 [9][14][16] - 伪代码显示训练过程中生成和反向传播阶段均为线性缩放,而LongCoT为二次级缩放 [15][16][17] 性能与效率提升 - 使用Delethink训练的DeepSeek R1-Distill 1.5B模型以8K区块思考24K token时,数学基准测试表现超越LongCoT-RL [20] - 扩展至96K token思考长度后,在AIME'24达到49%准确度,解题过程平均长度36K token [23] - 计算效率显著提升:对于平均94K思考长度,LongCoT-RL需27个H100-月训练资源,Delethink仅需7个H100-月,节约74%资源 [26] 兼容性与可扩展性 - R1-Distill系列模型(1.5B-14B)在零样本情况下已能采样马尔可夫式轨迹,为强化学习提供有利初始化起点 [28] - GPT-OSS 120B模型在博士水平问题等多领域展现稳健的马尔可夫思考能力,证明方法与先进模型兼容 [30][31] - 方法支持非二次复杂度序列架构,为下一代推理模型进行数百万token思考提供可能 [32][33]
DemoGrasp:一次演示是怎么实现灵巧手通用抓取的?
具身智能之心· 2025-10-10 00:02
技术方法与核心创新 - 提出DemoGrasp方法 一种简单高效的通用灵巧抓取学习方法 仅需从抓取特定物体的单条成功演示轨迹出发 通过编辑轨迹中的机器人动作来适配新物体与新姿态 [2] - 将轨迹编辑过程构建为单步马尔可夫决策过程 在仿真环境中通过强化学习对适用于数百个物体的通用策略进行并行优化 奖励函数设计简洁 仅包含二元成功项与碰撞惩罚项 [2] - 该方法展现出优异的迁移能力 仅在175个物体上完成训练 却在6个未见过的物体数据集上 针对不同灵巧手硬件构型实现了84.6%的平均成功率 [2] 性能表现与实验结果 - 在仿真实验中 使用Shadow手操作DexGraspNet数据集物体时 DemoGrasp的成功率达到95% 性能超越现有最优方法 [2] - 借助基于视觉的模仿学习 该策略成功抓取了110个未见过的真实物体 包括小型和薄型物体 并能适配空间位置 背景与光照的变化 [3] - 策略支持RGB与深度两种输入类型 并且可扩展至杂乱场景下的语言引导抓取任务 [3] 应用前景与行业意义 - DemoGrasp提出了一套简单 高效 可扩展的强化学习框架 对任意一款灵巧手 只要采集一条抓取演示 就能学会对所有物品的通用抓取策略 [6] - 方法在六款灵巧手本体 六个物体数据集上得到了广泛验证 且通过sim2real在真机上对110种物品实现高成功率抓取 [6] - 灵巧手的设计与难题是打通"手-眼-脑"感知闭环的关键技术 [10]
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心· 2025-10-10 00:02
文章核心观点 - 灵巧抓取是机器人具身智能领域面临的主要技术瓶颈,其核心挑战在于缺乏大规模、高质量、包含力觉信息的多模态操作数据 [1][2][11][12][13] - 灵巧智能科技有限公司发布的DexCanvas数据集通过“真实+合成数据”双轮驱动模式,提供了包含完整力/接触标注的大规模人手操作数据,旨在解决行业数据瓶颈 [15][16][21] - DexCanvas数据集在采集效率、数据质量和成本间取得了平衡,其基于真实人类演示并通过物理仿真恢复力控的方法,显著提升了数据的规模与泛化能力,为物理智能的发展提供了基础设施级解决方案 [20][21][27][30] 现有灵巧抓取与数据采集方案 - 灵巧抓取的学习方法主要分为模仿学习和强化学习两类,模仿学习通过观察演示学习,强化学习则通过设定奖惩机制学习,但后者需要大量训练数据和精心设计的机制以确保稳定性 [4] - 数据采集主要依赖遥操作技术,包括基于视觉的方案、动捕方式以及VR/AR等,其中动捕系统对光照变化和遮挡具有较强鲁棒性,而视觉方案常受环境因素影响 [5] - 现有灵巧手硬件主要分为两指夹爪和多指拟人化手,两指夹具简单可靠但自由度低,而具备20+自由度的拟人化手更适应为人类设计的环境 [2] 灵巧操作数据面临的定律与瓶颈 - 行业数据存在“规模、真实性、力觉信息只能三选二”的定律,大规模开源数据集往往缺乏关键的力控信息 [6][7] - 真实场景下的灵巧操作数据采集成本极高,开源数据集通常仅数万条且不含触觉信息,而仿真数据虽可达百万甚至亿万级别,但sim2real泛化成功率有时低于70% [9][10] - 技术瓶颈在于难以在复杂操作中实时感知微小力度变化,且传统方法因高维度和复杂接触动力学而泛化能力不足,核心问题是大规模高质量多模态数据的缺失 [11][12][14] DexCanvas数据集的突破与优势 - DexCanvas弥补了开源数据集力/触觉信息的缺失,每条轨迹都包含完整的多指力/接触标注,并为20+自由度系统优化 [16][17] - 数据集提供了从动捕到MANO拟合、物理重演至五指灵巧手执行的全套处理代码,并在HuggingFace上提供了预处理后的可直接训练版本 [18][19] - 数据集综合指标优于常规方案,在效率、成本和质量上取得平衡,采集效率与仿真同为五星,成本为三星,质量为四星 [20] - 数据集包含超1000小时真人多模态演示数据与10万小时物理仿真合成数据,涵盖亚毫米级轨迹和物理一致的接触力信息,包含4种同步模态 [21] DexCanvas的数据生成方法与特性 - 数据生成分为三步:使用20个动捕相机以亚毫米精度采集真人演示;通过物理仿真环境下的强化学习智能体复现动作以恢复力控;通过改变物体参数将1000小时演示扩充为10万小时增强数据 [25][27][28] - 该方法基于真实人类演示,仿真用于“显影”隐藏的物理信息,而非从零生成动作,避免了仿真漏洞,且仿真的是人手而非特定机器人手,使其具备极佳的跨平台泛化能力 [27][30] - 独创的物理信息完备的操作轨迹复刻流程,自动生成了缺失的力觉和接触信息,力控数据在规模扩充后得以保持 [22][29]
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点Auto· 2025-10-09 12:17
文章核心观点 - 蔚来智能驾驶负责人任少卿认为,实现高级别自动驾驶和通用人工智能(AGI)的正确路径是构建以视频为核心的“世界模型”,并结合强化学习,而非当前行业主流的以语言模型为基础的端到端或VLA方案 [6][7][9][10] - 公司选择了一条技术更复杂、投入更高的路线,包括高算力平台(如4颗Orin芯片)、多传感器配置以及全新架构,旨在建立对物理世界时空认知的底层能力,短期内可能显得进展较慢,但长期看上限更高 [7][23][25][57] - 蔚来已建立起包括三层数据系统、三代首发平台和“4×100米接力”研发体系在内的核心能力,其工程能力和数据体系被认为是行业领先的,并已通过端到端AEB等技术验证了实际效果,如事故损失下降25% [34][36][42][44][45][54][63] 技术路径:世界模型与强化学习 - **对主流方案的批判**:端到端是智能驾驶发展阶段的产物,本质是“填坑”,将过去拆分的模块重新拼接;VLA本质是语言模型的模态扩展,根在语言上,但语言带宽低,无法承载现实世界的连续复杂性 [9][13][14][16] - **世界模型的定义与优势**:以视频为核心,直接学习时空和物理规律,建立高带宽的时空认知能力;与语言模型并行,前者解决“概念认知”,后者解决“时空认知”,两者融合才能实现AGI [10][11][13][27] - **强化学习的关键作用**:模仿学习只能解决短时序问题,强化学习能将系统从“5秒记忆的金鱼”进化为能处理长时序(30秒、60秒)规划的智能体,并能“清洗”海量但嘈杂的真实驾驶数据,提升模型能力 [7][28][29][31][32] - **与友商技术对比**:理想和小鹏的基座模型以语言模型为训练底座;华为的WA模型本质也是世界模型,只是表述不同;特斯拉是否构建世界模型尚不确定 [17] 研发与工程体系 - **数据系统**:建立三层数据系统——数据闭环系统(DLB)用于自动筛选数据;伴生系统用于大规模AB测试,每周测试里程达几千万公里;风险评估控制系统用于自动化分析每日数百万次接管数据 [36][42] - **工程能力**:三代智驾平台均实现全球首个芯片量产(Mobileye EyeQ4、英伟达Orin、自研神玑),团队仅大几十人,通过统一软件栈(仅保留CUDA底层,上层自研)支撑多平台,工程能力被锻炼得特别强 [54][55][56] - **研发组织“4×100米接力”**:第一棒预研团队专注将不确定性转化为确定性方案;第二棒量产团队负责将预研成果高质量交付;第三棒平台复制团队将功能适配到不同芯片平台;第四棒车型复制团队将方案快速部署到不同车型 [47][48][51][52][53] 产品化进展与目标 - **已实现成果**:2024年5月推送世界模型架构OTA更新;2023年底推出端到端AEB,经保险公司数据验证,事故损失下降25%;2025年5月在地库实现语言指令找出口功能,为国内首发 [22][40][44][45][63] - **近期规划**:计划在2024年底至2025年Q1推出Open-set开放集指令交互功能,使用户能通过自然语言与车辆自由交互,而非仅限于有限指令集,此举被认为将领先行业 [18][19][22] - **安全目标**:将主动安全置于最高优先级,下一个版本的目标是将事故损失降低50% [40][64][65] 战略选择与行业定位 - **硬件策略**:高算力平台(如4颗Orin)提供安全冗余、承载更多新功能且迭代更早;低算力平台(如乐道用1颗Orin)通过功能蒸馏和压缩实现主流体验,但最新功能会滞后 [45][46][50] - **发展节奏**:选择统一高速与城区方案的架构,虽初期开发量大、显得慢,但长期架构更干净、扩展性更好;跨大洲(中国和欧洲)同步量产也对研发和供应链构成极限压力 [25][39][43] - **核心优势**:底层平台、数据和工程能力经过三代架构锤炼;当前处于新架构(世界模型)初期,重点是将新架构潜力释放60%-80%;方向明确指向AGI,在更大技术语境下没有争议 [25][56][57][72]
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题
机器之心· 2025-10-08 04:13
文章核心观点 - 提出名为Verlog的多轮强化学习框架,旨在解决AI智能体在长时程任务中面临的挑战,如奖励稀疏和历史冗长[2][3] - Verlog框架可将任务处理能力从传统方法的约10回合显著扩展至超过400回合,在复杂长期决策任务中具备独特优势[3] - 该框架在BabyAI、BabaIsAI和Crafter等高难度基准环境中得到验证,展现出稳定而高效的训练性能[3][16][19] 方法介绍 - 基础模型基于Qwen-2.5的Instruct变体构建,包括Qwen-2.5-3B/7B-Instruct型号[6] - 选择该模型的主要原因包括可与BALROG评估框架无缝集成,并允许研究者直接使用基准测试提示而无需大量修改[7] - 记忆机制采用仅保留最新n+1个回合的策略,而非将整个轨迹放入上下文窗口,对于3B模型在n=1或2时性能达到峰值[9] - 引入Dual Discounting GAE算法,将token与step解耦以鼓励智能体用更少的环境步数完成任务[11][12][14] 实验结果 - 在Crafter环境中使用8张H100 GPU对Qwen2.5-7B-Instruct模型训练约36小时[19] - 在BabyAI与BabaIsAI环境中使用4张A40 GPU对Qwen2.5-3B-Instruct模型训练约24小时[19] - 三个实验环境证明Verlog在长周期、稀疏奖励和可变episode长度条件下均展现稳定训练能力[19] - Crafter环境的回合长度范围在70到400步之间,平均约为190步,Verlog在此类挑战性环境中开箱即用[3] 框架优势总结 - 通过记忆机制和回合级抽象有效管理长交互历史信息[20] - 结合dual-discounting GAE和价值函数预训练增强稀疏奖励下的训练稳定性[20] - 利用固定回合批处理和自举式价值估计管理可变长度轨迹[23] - 通过针对性提示工程和默认动作替换使训练过程中超过95%的动作均为有效动作[23]
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 02:49
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请,旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端(企业、高校、研究院所)和C端(学生、求职人群)的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]
“盲眼”机器人在完全看不见的情况下30秒跑酷首秀惊艳!
具身智能之心· 2025-10-07 03:03
文章核心观点 - 亚马逊机器人团队FAR发布首个名为OmniRetarget的人形机器人研究成果,该技术能在完全无视觉感知的情况下完成复杂任务[2][9] - OmniRetarget是一个开源数据生成引擎,通过交互网格方法将人类演示转化为高质量机器人运动参考,实现从仿真到硬件的零样本迁移[12][13] - 该技术在运动学质量和下游策略性能上全面领先现有基线方法,成功率领先10%以上[16][42] 技术原理与方法 - 核心技术是基于交互网格的动作重定向方法,通过建模机器人、物体和地形之间的空间和接触关系来保留必要交互[15] - 交互网格被定义为一个体积结构,通过德劳内四面体化构建,并最小化拉普拉斯形变能量来保持空间关系[19][21][22] - 采用顺序二次规划风格的迭代方法求解约束非凸优化问题,保证时间连续性和平滑性[23][24] - 通过参数化改变物体配置、形状或地形特征,将单个人类演示转化为丰富多样的数据集[28][32] 性能表现与实验结果 - 在机器人-物体交互任务中,OmniRetarget的下游强化学习策略成功率达到82.20% ± 9.74%,显著高于基线方法[41] - 在机器人-地形交互任务中,成功率进一步提升至94.73% ± 22.33%[41] - 在完整增强数据集上训练的成功率为79.1%,与仅使用标称动作的82.2%相近,表明增强方法能扩大动作覆盖范围而不显著降低性能[39] - 在运动学质量指标上,OmniRetarget在穿透、脚部打滑和接触保留方面整体优于所有基线方法[41] 团队背景与发展前景 - 研发团队Amazon FAR成立仅七个多月,由华人学者领衔,负责人Rocky Duan来自著名机器人技术公司Covariant[43][48] - 团队核心成员包括UC Berkeley的Pieter Abbeel等机器人领域知名学者[44][45] - 这是亚马逊在人形机器人(足式)领域的首次尝试,展示了公司在机器人技术方面的强大研发能力[49][50]
亚马逊“盲眼”机器人30秒跑酷首秀惊艳!华人学者领衔
量子位· 2025-10-06 05:42
核心技术:OmniRetarget方法 - 亚马逊机器人团队FAR发布首个足式人形机器人研究成果OmniRetarget,该技术使机器人在完全无摄像头、雷达等感知单元的情况下完成搬动9斤重椅子、攀爬1米高桌台等高难度动作[1][9] - OmniRetarget是一个开源数据生成引擎,通过交互网格建模机器人、物体和地形间的空间接触关系,将人类演示转化为高质量运动学参考,实现从仿真到人形机器人的零样本迁移[11][12][14] - 与PHC、GMR等基线方法相比,OmniRetarget在硬约束、物体交互、地形交互等关键指标上全面领先,尤其在防止脚部打滑(最大速度0 cm/s)和减少物体穿透(最大深度1.34cm)方面表现突出[15][40] 技术创新细节 - 交互网格通过德劳内四面体化构建,以拉普拉斯形变能最小化为优化目标,保留原始交互的空间结构和接触关系,适配不同机器人形态时仅需调整关键点对应关系[18][20][21][24] - 通过参数化改变物体配置、形状或地形特征,将单个人类演示转化为多样化数据集,完整增强数据集训练的成功率达79.1%,与标称动作的82.2%相近[27][38] - 强化学习策略仅依赖本体感知和参考轨迹,结合五类奖励(身体跟踪、动作速率等)和领域随机化,实现高保真动作跟踪且无需繁琐参数调整[29][30][33] 性能表现与行业影响 - 在30秒连续任务中,搭载OmniRetarget的宇树G1机器人完成多阶段跑酷动作,下游强化学习策略成功率在机器人-物体交互任务中达82.2%,在机器人-地形交互任务中达94.73%[37][38][40] - 该技术由成立仅七个多月的亚马逊FAR团队开发,团队核心成员来自知名机器人公司Covariant,由华人学者Rocky Duan领导,标志着亚马逊在足式人形机器人领域的首次突破[42][46][47][48]
强化学习在机械臂、四足、人形的应用有哪些?
具身智能之心· 2025-10-05 16:03
强化学习在具身智能机器人领域的应用 - 强化学习是具身智能机器人(包括人形和四足机器人)实现步态控制等复杂任务的核心技术,宇树、智元等公司的人形机器人通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作[3] - 强化学习方案使机器人产品能够适应救援、测量、危险环境等场景[3] - 机械臂的视觉语言动作模型结合强化学习方案在学术领域越来越受欢迎,该方案使机器人执行任务更高效、丝滑与顺畅[4][9] 强化学习论文辅导课程核心内容 - 课程周期为14周在线集中辅导加8周维护答疑,目标帮助学员产出可向RAL、ICRA、IROS、CoRL等顶级会议或期刊投稿的论文初稿[10][18] - 课程采用6人小班制,每周1次直播授课并配有视频录播和专属助教答疑[8][18] - 课程提供四足、人形、机械臂、VLA+RL四个大方向的研究主题,学员可三选一主线,并根据各自方向确定研究主题[18][19] 课程技术框架与产出 - 课程基于最新的Isaac Lab仿真环境,提供可复现的基线代码和真机部署参考代码,涵盖Sim2Real和Real2Sim2Real完整流程[18][19][23] - 学员将学习SAC、PPO、BC、Diffusion Policy等强化学习算法,并在复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等任务上进行实战[19][23] - 课程产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,结营后8周内提供论文维护支持(补实验、改图、润色与回复)[8][18][25] 研究课题示例与师资力量 - 研究课题示例包括基于终身学习的四足机器人跨任务运动技能迁移、神经科学启发下的人形机器人全身运动控制等前沿方向[30] - 授课导师Jack来自美国顶尖高校,是具身智能与机器人领域的博士后研究员,曾在RSS、ICRA、IROS、RAL等顶级会议期刊发表论文并担任审稿人[27] - 课程强调科研闭环,提供从方法、工程、评测到写作、投稿、维护的全流程陪跑,每周设定明确的任务指标和里程碑[18][36]
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 06:42
文章核心观点 - 当前大语言模型在代码、数学等任务上表现出色,但距离成为真正的“用户伙伴”仍有差距,核心挑战在于缺乏“知人”的能力,即理解用户动态、不确定和多目标的意图 [2] - 智能体发展的下一个时代课题是从“会解题”迈向“懂用户”,这需要全新的动态评测框架与训练机制 [2] - 来自UIUC与Salesforce的研究团队提出了系统化方案:UserBench(用于评测)和UserRL(用于训练),二者相辅相成,将“以用户为中心”从理念落地为可复现的流程、接口与评测指标 [2][3] UserBench:量化用户价值的评测框架 - **核心思想**:真正的智能体价值不在于完成任务本身,而在于是否能够理解用户、服务用户,UserBench旨在通过刻画用户特征,将“用户价值”从抽象理念转化为可量化的研究对象 [4] - **设计原则**:针对传统评测集中在工具调用与任务完成,却鲜少触及模型是否对齐用户潜在与动态意图的缺口 [5] - **三大用户交互特征**:UserBench将现实交互的三大特征作为评测核心,包括用户目标未完全成形(模糊性)、在多轮对话中逐步显露(渐进性)、以含蓄间接的方式表达(间接性)[3][6][8] - **环境与数据构造**:标志性设计是旅行规划任务,覆盖五个子场景,每个维度设置数十条隐式偏好表述,要求模型理解用户话语背后的语义逻辑 [8] - **数据难度与真实性**:环境内置稳定数据库后端,搜索返回采用混合式选项(正确项、错误项、噪声项)增加模型认知难度,数据根据偏好复杂程度分为Easy/Medium/Hard三档,既保真实性又具备实验可控性 [9][10] - **标准化交互接口**:将复杂的模型、用户及环境三方交互抽象为三类原语操作:Action(与用户对话)、Search(检索数据库)、Answer(提交推荐),高度浓缩了“理解—检索—决策”的链路 [11][15] - **评价指标**:核心指标是归一化得分(选到最优解记1.0,正确但次优解记0.8,其余记0),并辅以过程指标如有效搜索/对话操作率、偏好揭示率进行综合分析 [13][16] UserBench关键评测发现 - **模型普遍表现**:在评测的主流模型中,GPT-4o的归一化得分为0.329,Gemini-2.5-Pro为0.317,Claude-4-Sonnet为0.307,Deepseek-V3为0.210 [12] - **核心挑战定位**:模型并非输在“不会算”,而是常常没能问对问题、没能挖出关键信息,真正的挑战是智能体与人的交互中进行有效的“用户价值”提炼与捕捉 [13] - **单选比多选困难**:当模型可回答次数限制为一次时,平均分数下滑约40%,暴露了“只能给一次答案”时的抉择困难 [16] - **用户偏好揭示率低**:主流模型仅约20%的答案完全贴合全部用户意图,即便是强模型,通过主动互动挖掘到的偏好不到30% [16] - **工具使用与用户理解脱节**:模型普遍有效搜索率超过80%(如Gemini-2.5-Flash达83.62%),但有效对话率显著更低(如GPT-4o为27.82%),说明“循证澄清”的难度更高 [12][16] - **约束复杂度影响**:当总偏好数固定时,把偏好更平均地分散到多个旅行需求中更容易,而集中在少数需求上会显著拉低分数,揭示了本质挑战来自局部约束的组合复杂度 [16] - **交互轮数与质量非正相关**:盲目拉长交互轮数并不能带来收益,同时,命中答案的“时效性”与整体模型对话质量也并不总是正相关 [16] UserRL:以用户为中心的强化学习训练框架 - **核心思想**:在UserBench抽象出的三个原语接口之上,构建一个统一的gym环境,把用户在多轮交互中的参与转化为一个可训练的强化学习问题,优化智能体在交互中的回报 [18] - **八大Gym Environments**:覆盖从个性化推荐到复杂推理的多维能力,包括TravelGym、TauGym、PersuadeGym、TurtleGym、TelepathyGym、FunctionGym、IntentionGym、SearchGym,所有环境统一在Action/Search/Answer接口下 [19][20][25] - **用户模拟与多轮Rollout**:每个环境中的用户由LLM模拟,并可更换不同用户模拟模型以实现交互多样性,框架特点包括确定性任务状态、可验证奖励函数、自然语言互动以及多轮rollout [22][26] - **双层奖励设计**:探索回合层(Turn-level)与轨迹层(Trajectory-level)奖励设计,回合层方法包括Naive、Equalized、Reward-to-Go(R2G)及Exponential Mapping(EM),轨迹层整合方式包括Sum和R2G [22][23][24][26][27] - **训练与优化方法**:主要采用GRPO算法进行优化,在同一query下采样多条轨迹,组内归一化优势,再结合回合与轨迹奖励进行联合优化,在RL训练前进行了SFT小规模优化 [30] UserRL关键训练发现 - **奖励组合效果**:回合均等(Equalized)加轨迹Reward-to-Go(R2G)在4B/8B模型上最稳健、平均表现最好,而回合均等加轨迹Sum最弱,说明轨迹级计分比回合级细分更具有决定性价值 [29][34] - **训练模型表现**:经过UserRL训练的Qwen3-8B(Equalized/R2G)在8个gym上的平均得分为0.5652,在TravelGym、PersuadeGym、IntentionGym等交互型任务上超过强闭源模型,整体平均也领先闭源对照 [29][34] - **闭源模型对照**:作为对照的闭源模型中,Gemini-2.5-Pro平均得分为0.4702,GPT-4o为0.4449,GPT-4o-mini为0.1729 [29] - **SFT冷启动必要性**:先做SFT再RL能显著避免早期坍塌,部分任务收益超过100% [30][34] - **用户模拟器选择关键**:使用GPT-4o作为模拟用户训练的模型下游更强,但Qwen3-32B作为开源模拟器具备性价比高且可迁移的优势 [34]