公司核心业务与战略定位 - 公司专注于通用具身智能、视觉语言动作大模型以及灵巧操作算法等前沿技术,致力于打造业界领先的通用操作智能体 [2][16] - 公司的战略选择是做通用灵巧操作,认为灵巧手与人手形态差异最小,数据迁移效率最高 [6] - 公司已成功推出行业内首个端到端强化学习具身模型 Psi R0、R0.5 及 R1,成为行业内率先实现长程任务的具身模型研发企业 [16] 数据采集方案 Psi-SynEngine 的发布与意义 - 公司发布全球首个具身原生人类数据采集方案 Psi-SynEngine,标志着其全自研的真实世界具身数据引擎正式启动 [3] - 该方案从根本上突破了行业数据采集的困境,直接采集一线作业人员在真实工作中的操作数据,覆盖物流、工厂、商超、酒店和家庭等真实场景,无需二次迁移 [5] - 该方案的发布标志着公司基于人类真实操作数据的具身智能新范式正式确立,意味着向真实世界的具身 AI 大模型预训练拥有了可规模化的可能 [14] Psi-SynEngine 的技术构成与优势 - 方案包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型 [3] - 相比传统方案具有三大优势:1) 成本低,数据获取成本仅为真机遥操方案的 10%;2) 多模态高自由度,能完整采集触觉、视觉、动作、语言的操作数据;3) 便携性强,可大规模并行采集,效率极高 [7][11] - 自主研发的外骨骼触觉手套定位精度最高能达到亚毫米级别,可完整采集手部和手臂的全部自由度及全手触觉信息,同时不影响正常操作 [9] - 核心技术护城河在于解决了人手与灵巧手之间的跨本体差异,通过基于世界模型、强化学习和触觉模态对齐的解决方案,有效弥合 embodiment gap,提升模型泛化性和成功率 [10] 数据集 Psi-SynNet-v0 的特征与规划 - 同步发布覆盖视觉、语言、触觉、动作的大规模真实世界多模态数据集 Psi-SynNet-v0 [3] - 该数据集具备四大核心特征:1) 数据多样性强,覆盖多行业、多场景、多物体与多技能;2) 模态覆盖全面;3) 数据规模海量,量级达到大语言模型同级水平;4) 自闭环已验证,已在多个落地产业中完成闭环验证 [12] - 公司已迅速构建出上万小时规模的 Psi-SynNet-v0 数据集,并计划于明年突破百万小时量级,这将是全球最大的灵巧操作数据集 [14] 行业痛点与现有方案局限 - 数据问题是困扰整个具身智能领域的痛点 [5] - 行业现有数据采集方案存在三大局限:1) 仿真环境数采存在 Sim-to-Real 差距,调参与场景搭建成本高;2) 机器人遥操数采难以规模化,成本高效率低;3) UMI设备数采(双夹爪)存在本质局限,无法满足精细操作需求,根据美国劳工部数据,工厂内 98.7% 以上的工序都需要双手多指协同完成 [11] 硬件、平台与数据闭环体系 - 公司构建了完整的硬件与平台体系,包括专为数采设计的外骨骼触觉手套、支持大规模数据处理的自建管线与平台,并配合自研大模型完成高精度数据标注和后处理,形成完整的数据生产闭环 [9] - 数据体系已在公司多个落地产业中完成闭环验证,确保所采集数据能够高度匹配算法需求,并持续推动模型迭代 [12]
全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了
具身智能之心·2025-12-11 04:02