Workflow
world model
icon
搜索文档
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 00:53
文章核心观点 - 文章深入解读了Waymo在ECCV上发表的一篇关于在自动驾驶轨迹规划任务中应用强化学习进行微调的论文,认为该方法逻辑通顺、通用性强,为解决主流模仿学习方法在开环训练中存在的因果不一致、难以处理分布外状态等问题提供了一个有效思路,其核心在于通过预训练结合强化学习微调的两阶段方法,在无需高保真仿真环境的情况下实现闭环训练,从而提升智能体行为的合理性与安全性[3][4][14] 方法背景与问题 - 主流的基于学习的规划模块多采用模仿学习方法,进行开环训练,即在服务器训练后部署到车端运行,这种模式下,车辆在实车测试中一旦进入不合理状态很难自行纠正,增加数据量或扰动初始状态只能缓解但不能根治分布外问题[3] - 许多模仿学习方法采用单帧感知信息结合多秒真实轨迹的组合进行训练,若感知范围有限或远端感知不准,会导致因果不一致的问题,例如真实轨迹在远端无感知道路处转弯,而当前帧感知无法覆盖,此类混乱数据会误导网络学习[7] 提出的解决方案与模型结构 - 文章提出的方法采用预训练与强化学习微调相结合的两阶段训练方式,其网络结构沿用了Waymo之前的MotionLM模型,采用自回归方式输出轨迹,在推理阶段通过循环依次输出自车与交通参与者的动作,从而构成完整轨迹并确保因果关系一致[4] - 该模型同时输出自车与交通参与者的动作,这本身构成了一个简易版的世界模型,网络输入采用以场景为中心的编码方式,例如对于输出6秒轨迹的任务,静态信息是6秒内信息的汇总,而非仅当前帧,这能确保在推演过程中车辆不会驶出感知道路范围[4][6] 训练流程与奖励函数 - 预训练阶段使用因果掩码拟合真实轨迹,动作定义为横纵向加速度及一个13x13的空间网格,强化学习微调阶段则使用简单的运动学方程进行位置更新[8] - 强化学习阶段的奖励函数设计简洁,包含两部分:拟合真实轨迹的奖励和碰撞惩罚,具体公式为 $$r_{t,i}=-||P o s_{t,i}-G T_{t,i}||_{2}-\lambda C o l l_{t,i},$$,这种组合被认为能兼顾效率与安全性,且拟合奖励能有效防止训练崩溃[11] - 奖励值在批次维度和所有时间步上进行标准化,公式为 $$R_{t,i}=(R_{t,i}-Mean(R))/Std(R)$$,这种方法省略了评价者网络,类似于GRPO的方式,并采用策略梯度进行更新,作者认为若在采样轨迹范围内标准化会更精确,但可能因计算量而未采用[13] 方法优势与行业意义 - 与在损失函数中添加碰撞、效率等辅助损失项的模仿学习方法相比,将类似约束转化为奖励函数能带来更好效果,因为奖励通过提升特定决策模态的概率来间接优化,而非直接作用于轨迹形态,可避免导致轨迹扭曲、摆动或加减速顿挫等问题[14] - 强化学习的核心价值在于闭环学习,即使使用较小但难度较高的数据集进行微调,也能显著提升模型能力,该方法参考了大语言模型中强化学习微调的思路,指出拥有真正的世界模型是实现物理人工智能的关键路径[14] - 该方法的一大优势是思路易于借鉴和复现,且不需要依赖高保真的仿真环境,为行业提供了一种通用性强的训练范式[4][13]
观察者网WAIC直播实录:AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 05:36
行业格局与公司战略 - 美的集团通过2016年收购库卡机器人实现To B转型 布局四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务[4] - 美的2023年启动人形机器人规划 凭借核心零部件技术积累和完整产品线切入赛道 2024年加速产品开发与应用尝试[4] - 库卡机器人主要服务汽车制造 3C 船舶 飞机制造等行业 在美的灯塔工厂应用广泛[5] - 格灵深瞳作为首家科创板AI计算机视觉上市公司 深耕金融安防领域 近期拓展体育考试训练和AI PC大模型一体机业务[5] - 真格基金重点布局AI与机器人早期项目 已投资月之暗面 Manus Genspark等具身智能企业[6][57] 技术演进路线 - 人形机器人关节数量从传统200+缩减至40个左右 强化学习算法显著降低调试难度[8][9] - 技术路线从液压传动转向电动传动 控制方式从rule-base转向learning-base 中国供应链优势推动成本下降[12] - 双足形态在动态平衡性上具优势 轮式更适合标准化场景 智元创新的轮足折叠设计尝试融合两者优势[13][16][19] - 五指灵巧手在70%场景可被两指夹具替代 但数据采集和复杂操作仍需五指结构[27][28] - 视频模型和world model成为具身智能关键技术 需解决物理世界数字化重建的高成本难题[37][43] 应用场景展望 - 工业场景将率先落地 上汽计划引入500台人形机器人进厂 聚焦搬运 装配等六大核心工序[9][15] - 家庭场景面临安全隐私等挑战 需分阶段从工业→商业→家庭推进 预计5-10年实现普及[13][66][67] - 家电机器人化成为新方向 如智能烤箱通过视觉识别和自动调节实现主动服务[64] - 高人力成本场景优先突破 如美国餐厅后厨等海外市场更具商业化潜力[58][73] 中美竞争态势 - 中国占据全球40%人形机器人专利 机电产业链优势显著 核心部件价格快速下降[69][72] - 美国在AI基础技术领先 中国在场景落地和政策支持方面占优[70][71] - 人才储备呈现"中美华人竞争"格局 中国需突破算力瓶颈并拓展全球化市场[72][73]