预训练科学 - 财报，业绩电话会，研报，新闻 - Reportify

预训练科学

搜索文档

GEN-0 以及后续的 VLA 发展的看法

具身智能之心· 2025-11-21 00:04

GEN-0模型的技术突破 - GEN-0通过数据工厂采集了270,000小时（约31年）的真实机器人操作数据，目前每周新增10,000小时采集能力[2] - 数据规模相当于每周采集三个当前最大数据集（如OXE或AgiBot-World）的总和[2] - 模型经过半年预训练后展现出比Pi系列更强的性能增益，为后训练提供了更好基础[2] 具身智能领域数据技术演进 - 真实数据采集（UMI）相比仿真数据在长时序任务中具有显著效率优势，成功率接近100%而仿真数据为子任务成功率的乘积[8] - 仿真数据面临sim2real差距挑战，包括视觉差距和物理差距，对布料和软体等物理现象仿真仍不完善[8] - 数据工厂方案在数据多样性方面超越仿真方案，GEN-0通过规模化人力投入实现了数据问题的解决[7] 视觉语言动作模型发展趋势 - 模型参数规模必须增大才能有效利用海量数据，小模型在数据过载时会出现“僵化”现象而大模型持续提升[11] - VLA基础设施（Infra）存在巨大发展空间，需要专门针对时序因果性的研究而非简单套用上游领域方法[11] - 预训练主要学习动作空间的探索能力而非概念泛化能力，模型在VL（视觉语言）能力上的泛化表现有限[12] 预训练科学发现 - 数据质量与多样性比单纯数据量更关键，不同数据混合策略会产生不同模型特性[13] - 低MSE+低reverse-KL模型适合监督后训练，高MSE+低reverse-KL模型更具分布多峰性适合强化学习后训练[13] - 预训练科学将逐渐成熟，国内数据工厂预计会跟进为行业带来预训练环境[14] 合成数据技术的现状与前景 - 仿真平台仍具有价值，特别是在强化学习、提供丰富标注和作为基准测试平台方面[9] - GenManip平台可在14K Objaverse资产上生成数万量级跨具身长时序数据，支持快速构建Manipulation基准[6] - InternData A1合成数据集展现出与Pi Dataset相当的预训练效果，证明合成数据技术的潜力[6]

预训练科学

预训练科学