Momenta曹旭东谈“R6强化学习大模型”:将超越人类驾驶水平
新浪财经·2025-12-24 09:46
自动驾驶技术演进 - Momenta首席执行官曹旭东介绍,公司自动驾驶技术已进化至第六代,称为“强化学习的大模型” [1][4] - 第五代技术为模仿学习,通过模仿人类驾驶行为,其能力上限是接近或达到人类水平 [3][6] - 强化学习技术通过在实践中探索并接受奖励或惩罚,能够探索出更好的驾驶行为,有机会达到或超过人类驾驶水平 [3][6] 技术路径对比与优势 - 模仿学习被类比为从小学到大学均有老师指导的学习过程,但难以超越老师 [3][6] - 强化学习允许系统在云端训练环境中反复实践,通过海量试错优化驾驶策略,从而实现超越 [3][6] - 强化学习模型的目标是实现最安全、最高效的驾驶,掌握挑战场景下的最优驾驶策略 [3][6] 规模化数据与训练优势 - Momenta已实现超过50万台车的量产搭载 [3][6] - 据估算,1000万台车每年行驶里程可达千亿公里,而人类驾驶员一生仅能达到百万公里,这意味着自动驾驶系统可获得相当于10万倍的人类驾驶经验 [3][6] - 在云端训练环境中,系统可对同一场景进行高达10万次的训练,从最初的手忙脚乱,到训练1000次、1万次后变得熟练,最终在10万次训练后学会“直觉驾驶” [3][6]