文章核心观点 - Generalist AI公司发布了其Gen-0具身基础模型,该模型基于公司自建的、当前具身领域规模最大的真实世界操作数据集(27万小时)进行预训练,在数据规模上实现了难以撼动的领先 [3] - 该模型在6段公开视频中展示了其在处理复杂、多样化、贴近现实的长程操作任务时的高泛化能力和精细操作水平 [5][8][11] - 公司的核心团队由来自Google DeepMind、波士顿动力、OpenAI、Waymo等顶尖机构的资深研究人员组成,其愿景是“部署通用机器人”,将体力劳动的边际成本降至为零 [4] 数据规模与基建 - Gen-0模型基于27万小时的真实世界操作轨迹进行预训练,该数据集是当前具身领域规模最大的,仅在衣物处理的轨迹数就达到了3亿条 [3] - 该数据集的原始数据量级达数十PB(1 PB相当于10万条10GB的高清视频),且数据采集速度能实现每周上传1万小时,并持续提升 [7] - 数据量的指数级增长对算力投入和数据质量把控提出了极高要求,新进入者若想复刻此数据规模,仅数据采集“爬坡”就需至少半年到一年时间,不包括搭建数据基建的过程 [7] 模型能力与任务表现 - 模型展示了处理复杂、多轴铰链任务(如折叠外卖盒子)的高泛化能力,该任务需处理多个相互关联的运动自由度,构成一个多轴联动系统 [8] - 视频中操作的对象均为现实生活中常见、非特制的真实物品,涵盖各类纸盒、带胶带封装的包装物、不同形态的玩具、线缆、柔性材质物品等,任务环境高度贴近真实世界 [11] - 模型展现了处理刚性、柔性、可变形结构等不同物性物体的能力,其面对多样化、高自由度、多物理属性物体时的适应性与泛化能力令人印象深刻 [8][9] 硬件设计与创新 - 采用了双臂加夹爪的工业设计思路,其使用的协作机械臂在稳定性、臂长上接近人类,从替换人的角度考虑是合理的设计 [12] - 夹爪进行了精细化设计,不再是常见的二指平行夹爪,而是具有更大量程(类似剪刀结构)和尖锐末端的创新设计,使其能完成如同时接触物体前后两个面、分拣精细条状物体等灵巧操作 [15][18] - 机械臂具备力控功能,在视频中表现出丝滑的操作效果,硬件设计上的创新突破值得行业关注和学习 [15][20] 团队背景与行业启示 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,CTO Andrew Barry来自波士顿动力,首席科学家Andy Zeng也来自Google DeepMind,核心团队还包括来自OpenAI、Waymo等公司的资深研究人员 [4] - 公司的愿景是创造出无所不能的机器人,将体力劳动的边际成本降为零 [4] - 此次发布启示行业,海外领先公司在硬件创新结构设计上同样具有显著优势,值得国内从业者学习 [20]
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒
具身智能之心·2025-11-26 00:05