文章核心观点 - 国内通用具身智能公司中科第五纪发布了新一代具身操作基础模型FiveAges Manipulator-1(FAM-1),该模型是国内首个少样本通用具身操作基础模型 [2][5] - FAM-1模型在少样本学习、跨场景适应及复杂任务理解方面实现重大突破,仅需3-5条机器人数据/任务即可完成精准具身操作学习,成功率高达97%并全面超越SOTA模型 [5] - 该模型的核心架构源于团队入选NeurIPS 2025的论文《BridgeVLA》,首次实现了大规模视觉语言模型与三维机器人操作控制之间的高效知识迁移与空间建模融合 [5] 模型技术创新 - 与传统的VLA架构相比,BridgeVLA实现了知识驱动的预训练和三维少样本微调两大技术创新 [8][9] - 知识驱动的预训练通过从网络收集海量图像视频数据构建操作场景知识库,对预训练的VLM进行二次预训练,挖掘模型隐含的操作知识 [9] - 三维少样本微调将VLM和VLA的输出和输入升维到三维热力图,充分利用三维空间结构信息,显著降低模型对样本数量的依赖 [9] 实验性能表现 - 在国际公开评测基准RLBench上,FAM-1取得88.2%的操作成功率,超越RVT-2、Act3D、3D Diffuser Actor等SOTA模型6%以上 [11] - 在特定任务如"Insert Peg"、"Open Drawer"、"Sort Shape"等上成功率大幅领先,平均成功率大幅提升30%以上 [11] - 真机部署测试中,FAM-1在仅使用3-5条样本每个基础任务的情况下,达到97%成功率,远超其他对比模型 [15] 公司未来规划 - 公司未来将深耕三大方向:提升通用基础模型的泛化性、可靠性和适应性;推动基础模型在工业场景下的更多应用;面向导航场景推出通用基础模型 [20] - 团队另一项成果EC-Flow已被ICCV 2025接收,展示了从无标注人类操作视频中自监督学习操控策略的新路径 [19] - 公司的探索正推动具身智能从“单点技术突破”走向“体系化落地”,为机器人走进工业生产、日常生活提供技术支撑 [19]
仅用三五条样本击败英伟达,国内首个超少样本具身模型登场
具身智能之心·2025-10-17 00:04