Momenta曹旭东谈“R6强化学习大模型”：将超越人类驾驶水平

自动驾驶技术演进 - Momenta首席执行官曹旭东介绍，公司自动驾驶技术已进化至第六代，称为“强化学习的大模型” [1][4] - 第五代技术为模仿学习，通过模仿人类驾驶行为，其能力上限是接近或达到人类水平 [3][6] - 强化学习技术通过在实践中探索并接受奖励或惩罚，能够探索出更好的驾驶行为，有机会达到或超过人类驾驶水平 [3][6] 技术路径对比与优势 - 模仿学习被类比为从小学到大学均有老师指导的学习过程，但难以超越老师 [3][6] - 强化学习允许系统在云端训练环境中反复实践，通过海量试错优化驾驶策略，从而实现超越 [3][6] - 强化学习模型的目标是实现最安全、最高效的驾驶，掌握挑战场景下的最优驾驶策略 [3][6] 规模化数据与训练优势 - Momenta已实现超过50万台车的量产搭载 [3][6] - 据估算，1000万台车每年行驶里程可达千亿公里，而人类驾驶员一生仅能达到百万公里，这意味着自动驾驶系统可获得相当于10万倍的人类驾驶经验 [3][6] - 在云端训练环境中，系统可对同一场景进行高达10万次的训练，从最初的手忙脚乱，到训练1000次、1万次后变得熟练，最终在10万次训练后学会“直觉驾驶” [3][6]