预训练科学
搜索文档
GEN-0 以及后续的 VLA 发展的看法
具身智能之心· 2025-11-21 00:04
GEN-0模型的技术突破 - GEN-0通过数据工厂采集了270,000小时(约31年)的真实机器人操作数据,目前每周新增10,000小时采集能力[2] - 数据规模相当于每周采集三个当前最大数据集(如OXE或AgiBot-World)的总和[2] - 模型经过半年预训练后展现出比Pi系列更强的性能增益,为后训练提供了更好基础[2] 具身智能领域数据技术演进 - 真实数据采集(UMI)相比仿真数据在长时序任务中具有显著效率优势,成功率接近100%而仿真数据为子任务成功率的乘积[8] - 仿真数据面临sim2real差距挑战,包括视觉差距和物理差距,对布料和软体等物理现象仿真仍不完善[8] - 数据工厂方案在数据多样性方面超越仿真方案,GEN-0通过规模化人力投入实现了数据问题的解决[7] 视觉语言动作模型发展趋势 - 模型参数规模必须增大才能有效利用海量数据,小模型在数据过载时会出现“僵化”现象而大模型持续提升[11] - VLA基础设施(Infra)存在巨大发展空间,需要专门针对时序因果性的研究而非简单套用上游领域方法[11] - 预训练主要学习动作空间的探索能力而非概念泛化能力,模型在VL(视觉语言)能力上的泛化表现有限[12] 预训练科学发现 - 数据质量与多样性比单纯数据量更关键,不同数据混合策略会产生不同模型特性[13] - 低MSE+低reverse-KL模型适合监督后训练,高MSE+低reverse-KL模型更具分布多峰性适合强化学习后训练[13] - 预训练科学将逐渐成熟,国内数据工厂预计会跟进为行业带来预训练环境[14] 合成数据技术的现状与前景 - 仿真平台仍具有价值,特别是在强化学习、提供丰富标注和作为基准测试平台方面[9] - GenManip平台可在14K Objaverse资产上生成数万量级跨具身长时序数据,支持快速构建Manipulation基准[6] - InternData A1合成数据集展现出与Pi Dataset相当的预训练效果,证明合成数据技术的潜力[6]