GEN-0:史上规模最庞大多元的具身真实世界操作数据集!
自动驾驶之心·2025-11-11 00:00

文章核心观点 - GEN-0是一种新型具身基础模型,专为基于高保真原始物理交互进行多模态训练而构建,其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] - 该模型在机器人领域首次观察到明确的扩展定律,证明模型性能随算力、数据和参数规模增长而持续提升 [6][14][15] - 模型在70亿参数规模出现智能“相变”临界点,突破了过去机器人领域模型规模和数据量的限制 [6][11][13] 模型架构与技术突破 - 架构继承视觉语言模型优势并实现突破,原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性“谐波推理”使模型接受同步思维与行动的无缝训练,在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台,已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化与扩展定律 - 在70亿参数临界点观察到相变,较小模型呈现固化态势,而更大模型持续提升,目前模型已扩展至100亿+参数规模 [6][11] - 模型展现出强扩展定律,更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][15] - 预训练数据规模与下游微调性能之间存在显著幂律关系,增加预训练数据能系统性地提升所有下游任务的模型性能 [15][16][18] 数据规模与演进 - 基于超27万小时真实世界异构操控数据进行预训练,该数据集正以每周1万小时的速度持续扩张且不断加速 [6][20] - 数据采集自全球数千个家庭、仓库及工作场所的多样化作业场景,由覆盖全球的硬件网络及数千台数据采集设备驱动 [20][22] - 正在构建史上规模最庞大、最多元的真实世界操作数据集,涵盖人类能设想的所有操作任务 [22]