通用具身智能
搜索文档
全球TOP 13战队翻车实录!机器人极限求生,比科幻片还残酷
具身智能之心· 2025-12-09 00:05
文章核心观点 - 第五届ATEC科技精英赛(真实世界极限挑战赛)通过在全户外真实场景中设置高难度任务链,旨在推动机器人技术从实验室演示走向实际应用,暴露并试图解决当前具身智能在环境感知、智能决策和硬件算力三大核心瓶颈,是衡量“通用具身智能”发展现状的关键测试 [26][28][31][32][124] 赛事概况与核心理念 - 赛事名称为第五届ATEC科技精英赛(线下赛)· 真实世界极限挑战赛,由香港中文大学主办,ATEC前沿科技探索社区、北京大学、北京师范大学和蚂蚁集团共同承办 [26][30][112] - 赛事根本目的是回答行业核心问题:机器人能否真正走出实验室,进入并适应复杂的人类世界 [31] - 赛事理念是打破机器人演示的“舒适区”,通过设置真实、极限的挑战,让机器人在碰撞中暴露真正弱点,以牵引真实的技术进步 [30][32] - 蚂蚁集团作为发起单位之一,长期支持该赛事,源于其相信AGI技术发展的未来是实现机器智能与物理世界的深度融合 [32] 赛事设计的“真实”与“极限”特点 - **全户外真实场景**:比赛场地设在香港中文大学岭南体育场及小桥流水生态区,包含拱桥、山地、缓坡、石阶等多样化地形,并面临光照变化、风力波动等真实环境扰动 [36][37][38] - **强激励“无遥操”**:赛事首次在全户外真实场景中探索“无遥操”技术路径,评分规则明确奖励全自主方式,可获得10-25分的额外加分,倒逼团队开发机器人的自主决策能力 [40][44][45] - **复杂任务链设计**:赛事包含垃圾分拣、自主浇花、定向越野、吊桥穿越四大任务,考验机器人“多模态感知融合与连续决策”能力,旨在形成完整的“感知-规划-执行-反馈”闭环 [47][48][50] 暴露的三大核心技术瓶颈 - **环境感知与认知之困**:真实环境充满不确定性和高动态性,非结构化因素对算法构成巨大挑战,例如在“垃圾分拣”任务中,机器人需识别可能被油渍沾染、压变形或堆叠的物品,而不仅限于“看图识物” [52][53][54][59] - **智能决策与响应之困**:机器人缺乏“举一反三”和适应新场景的能力,例如在“吊桥穿越”任务中,木板位置每场不同,机器人需自主决策使用工具改变环境,这体现了包含判断、使用工具和规划步骤的“高级智能”需求 [60][61][64][65][67] - **硬件与算力之困**:存在“身体跟不上脑子”的问题,一方面部署LLM的高性能专用芯片不成熟,制约了大脑的实时处理能力;另一方面实现精细抓取和灵活操作的硬件技术难度高、成本高昂 [69][71][72][73] 参赛队伍表现与技术路线 - 全球共有396支队伍参赛,最终13支顶尖队伍进入线下赛,覆盖QS百强高校及985/211顶尖学府 [77] - 冠军由wongtsai(旺财)团队以434分获得,该团队由浙大学霸组成,在四个任务中均发挥超预期 [78][79][97][99] - 冠军团队技术路线未选择主流的视觉语言动作模型,而是采用传统的“视觉识别+压线规划”方案,并为机器人大脑配备了三台电脑(CPU+2个GPU),参赛设备花费高昂 [99] - 技术路线呈现多元化,端到端的大模型方案与经典的模块化方案并行推进,许多团队为保险起见会准备传统控制算法作为“兜底” [102][104][107] - 参赛队伍普遍感受到硬件能力边界成为算法发挥的瓶颈,如防水性不足的机械臂、抓地力不够的足端、算力受限的机载电脑等,迫使他们在算法上做极致优化 [108][109] 行业背景与赛事意义 - 根据国际机器人协会《2025世界机器人报告》,2024年全球共有54.2万台机器人“上岗”,其中中国以29.5万台占全球总量的54% [115][116] - 当前机器人热潮背后暗藏核心技术瓶颈,许多演示依赖后台遥控或预设程序,离“自己搞定一切”的智能相距甚远 [116][117] - 赛事是对“物理图灵测试”(即机器人在真实世界中无缝操作并展现与人无异的能力)的真实写照,清晰丈量了“无遥操”技术的现实距离 [120][121][122] - 赛事中机器人暴露的“翻车”瞬间,恰恰揭示了具身智能从“演示可行”走向“应用可靠”之间必须跨越的鸿沟,比赛过程中产生的代码、调试数据和失败经验,成为通往通用具身智能道路上的宝贵路标 [124][126]
全球TOP 13战队翻车实录,机器人极限求生,比科幻片还残酷
36氪· 2025-12-08 10:18
赛事概况与核心理念 - 第五届ATEC科技精英赛线下赛以“真实世界极限挑战赛”为主题,旨在测试机器人在复杂户外环境中的自主能力,暴露技术弱点以推动行业进步[18][20][22] - 赛事由香港中文大学主办,ATEC前沿科技探索社区、北京大学、北京师范大学和蚂蚁集团共同承办,蚂蚁集团技术战略部负责人表示其长期支持源于对AGI技术与物理世界深度融合的信念[21] - 比赛场地设在香港中文大学岭南体育场及小桥流水生态区,全户外场景包含拱桥、山地、缓坡、石阶等多样化地形,并伴有光照变化、风力波动等真实环境扰动[25] - 赛事设计了四大任务链:垃圾分拣、自主浇花、定向越野、吊桥穿越,旨在考验机器人“多模态感知融合与连续决策”的能力,形成完整的“感知-规划-执行-反馈”闭环[30][31][32] 技术挑战与瓶颈 - 第一大挑战是环境感知与认知,真实环境的不确定性和高动态性对算法构成巨大挑战,例如“垃圾分拣”任务中,物品的油渍、变形或堆叠会干扰机器人的识别[34][35][36][40] - 第二大挑战是智能决策与响应,机器人缺乏“举一反三”和适应新场景的能力,例如“吊桥穿越”任务要求机器人能自主判断木板位置、使用工具铺路,体现了包含判断、使用工具和规划步骤的“高级智能”[41][44][46] - 第三大挑战是硬件与算力承载,存在“身体跟不上脑子”的问题,包括部署LLM的高性能专用芯片不成熟制约实时处理能力,以及精细抓取和灵活操作的技术难度与高成本[47] - 评分规则强力引导“无遥操”的全自主方式,完成任务可获得10-25分的额外加分,以此倒逼团队开发机器人的“AI大脑”和自主决策能力[29] 参赛队伍表现与结果 - 全球共有396支队伍参赛,最终13支队伍进入线下决赛,覆盖QS百强高校及985/211顶尖学府[48] - 总榜冠军由wongtsai(旺财)团队以434分获得,IRMV战队以363分位列第二,CyberPrime战队以357分位列第三[48] - 参赛队伍普遍感受到真实户外环境最大的挑战在于“不确定性”,如物品堆叠、吊桥晃动、水壶重量变化等,远比实验室条件复杂[49] - 在执行任务时,许多队伍在“无遥操”任务上做出了取舍,部分队伍在如“吊桥穿越”、“定向越野”等任务中切换至远程操控模式,也有如wongtsai、CyberPrime等团队坚持全自主并成功完成了部分任务[50][52][53] 行业洞察与未来展望 - 根据国际机器人协会《2025世界机器人报告》,2024年全球共有54.2万台机器人“上岗”,其中中国以29.5万台占全球总量的54%,但行业仍存在核心技术瓶颈,许多演示依赖遥控或预设程序,离完全自主的智能相差甚远[59][60] - 赛事被视作“物理图灵测试”的真实写照,系统性地检验机器人跨越环境感知与认知、智能决策与响应、硬件与算力承载这三大技术瓶颈的能力[61] - 冠军团队wongtsai队长朱承睿预测,大约20年后机器人可以真正走进人类生活提供服务[54] - 参赛队伍技术路线呈现多元化,既有采用传统“模块化”方案(分工负责感知、运动控制),也有探索“端到端”大模型方案,但硬件能力边界(如防水性、抓地力、算力)普遍成为制约算法发挥的瓶颈[57][58] - 赛事暴露了具身智能从“演示可行”到“应用可靠”之间的鸿沟,比赛中留下的代码、调试数据和失败经验被视为通往通用具身智能道路上的宝贵路标[63]
智元第5000台人形机器人量产下线,知名演员黄晓明“现场提货”
新浪财经· 2025-12-08 08:47
公司里程碑事件 - 智元机器人于12月8日宣布其第5000台通用具身智能机器人量产下线 该款产品为智元灵犀X2 [2][4] - 公司联合创始人兼首席技术官彭志辉表示 第5000台机器人下线是一个里程碑 更是新征程的起点 [2][4] 公司战略与愿景 - 公司未来将继续坚持以创新为本 以客户为中心 [2][4] - 公司致力于让智能机器人能够真正走进千行百业 走进日常生活 [2][4] 市场推广与品牌活动 - 知名演员黄晓明亲临现场 成为第5000台人形机器人产品主人并“现场提货”领走了灵犀X2 [2][4]
宇树科技IPO加速度
21世纪经济报道· 2025-11-18 04:28
IPO进程与市场地位 - 公司于11月15日进入“辅导验收”状态,已完成递交IPO招股书前的准备工作,计划在10月到12月正式递交招股书 [1] - 公司从7月7日到11月10日仅用132天完成IPO辅导,远快于平均6~12个月的辅导时长,辅导速度创下A股新纪录 [2][7] - 公司满足A股上市门槛,创始人于今年6月透露公司年营收已超10亿元 [7][8] - 公司董事会于10月23日完成变更,新任董事李宗彦、倪晨凯、宋华盛均为高校教授且有上市公司独董经历,被视为完善公司治理结构的关键步骤 [6] 行业资本化动态 - 人形机器人头部企业资本化诉求强烈,除公司外,乐聚机器人已递交境外上市申请,智元机器人亦有赴港IPO计划流传近半年 [2] - 公司得以直接上市且无其他“第一股”竞争对手,主要因其更满足A股上市门槛 [7] 上市后面临的挑战 - 人形机器人企业上市后面临两难选择:追求盈利以提振报表数据,或追求通用具身智能而持续投入算力资源,后者可能导致报表“难看”影响市场信心 [10] - 行业面临具体挑战:教育类、展览类人形机器人销售在2025年热潮后可能陷入瓶颈;工业场景人形机器人可能面临良率不足、交付不及预期、产能无法释放等问题 [10] - 技术路径存在争议:“端到端”高算力人形机器人面临节拍不足、幻觉较多问题,且客户需承担持续算力成本;“遥操”固定算法机器人虽稳定性好,但难以体现通用性优势 [10][11] - 当前通用人形机器人本体销量不足,公司过往销售主力为四足机器人,优必选等同行则以消费级家用机器人作为营收主力 [12]
宇树科技IPO加速度
21世纪经济报道· 2025-11-18 04:08
IPO进程 - 宇树科技IPO进入加速阶段,已完成辅导验收,即将递交招股书[1] - 公司计划在10月到12月正式递交IPO招股书,推进节奏非常顺利[1] - 从7月7日到11月10日,仅用132天完成IPO辅导,远快于平均6~12个月的辅导时长[6] - 辅导券商中信证券出动24位辅导人员帮助公司快速完成辅导工作[6] 公司治理与资质 - 公司完成股份制改造、募投计划方向、公司治理、激励和财务架构等辅导内容[5] - 10月23日完成董事变更,新董事李宗彦、倪晨凯、宋华盛均有上市公司独立董事经历[6] - 公司年营收已超10亿元,满足科创板上市基本条件[7] 行业资本动态 - 人形机器人头部企业资本化诉求强烈,乐聚机器人已递交境外上市申请,智元机器人有赴港IPO计划[2] - 宇树科技是资本市场"顶流",原始股LP份额曾被一级市场流转和疯抢,转让与居间价格高企[1][2] 行业挑战与前景 - 人形机器人企业营收和利润水平普遍处于初创阶段,上市后面临追求盈利还是加大资本开支的两难[9] - 工业场景人形机器人可能面临良率不足、交付不及预期、产能无法释放等问题[9] - "端到端"高算力人形机器人面临节拍不足、幻觉较多问题,且客户需承担持续算力成本[10] - "遥操"固定算法机器人虽稳定性更优,但程序化工序让通用性优势无法体现[10] - 宇树科技过往销售主力为四足机器人,优必选以消费级家用机器人作为营收主力[10]
宇树科技IPO“加速度”
21世纪经济报道· 2025-11-17 23:07
IPO进程与公司状态 - 宇树科技IPO辅导状态已变更为“辅导验收”,标志着公司已完成递交招股书前的准备工作 [1] - 公司从7月7日到11月10日仅用132天完成IPO辅导,远快于A股平均6至12个月的辅导时长,创下近乎新纪录的辅导速度 [1][6] - 公司计划在10月到12月正式递交IPO招股书,项目推进节奏非常顺利,预计在递交注册申请后长则数月、短则数周即可获受理 [1] 董事会架构与上市条件 - 10月23日公司完成董事变更,新任命的三位董事李宗彦、倪晨凯、宋华盛均为高校教授并拥有上市公司独董经历,此举被视为完善新董事会架构的关键步骤 [5][6] - 宇树科技创始人王兴兴透露公司年营收已超10亿元,满足科创板对未盈利企业最低营收2亿元以上的上市门槛 [7] - 与筹备港股上市或买壳的同行不同,公司因更满足A股上市门槛而得以直接上市,且无其他“第一股”竞争对手 [6] 行业资本化动态 - 除宇树科技外,人形机器人头部企业对资本化诉求强烈,乐聚机器人已递交境外上市申请,智元机器人赴港IPO计划流传近半年 [2] - 公司原始股LP份额在一级市场被流转和疯抢,转让与居间价格高企,反映出市场对公司的高度关注 [1] 上市后面临的挑战 - 人形机器人企业上市后陷入两难:需在提振报表数据维持市场信心与持续投入算力资源追求通用具身智能之间权衡 [8] - 行业面临具体挑战:教育类、展览类机器人销售在2025年热潮后可能陷入瓶颈;工业场景机器人可能面临良率不足、交付不及预期、产能无法释放等问题 [8] - 技术路径存在争议:“端到端”高算力机器人面临节拍不足、幻觉较多问题,且客户需承担持续算力成本;“遥操”固定算法机器人虽稳定但通用优势无法体现 [8][9] - 各公司营收结构差异:宇树科技过往销售主力为四足机器人,优必选则以消费级家用机器人如扫地机器人为营收主力 [9]
宇树科技IPO辅导火速通关 冲刺A股“人形机器人第一股”
21世纪经济报道· 2025-11-17 13:24
宇树科技IPO进展 - 宇树科技IPO辅导状态更新为“辅导验收”,已完成递交招股书前的准备工作,计划在10月到12月正式递交IPO招股书 [1] - 公司从7月7日开启IPO辅导到11月10日完成验收,仅用132天,远快于平均6-12个月的辅导时长,辅导速度创下A股新纪录 [1][4] - 辅导券商中信证券出动了合计24位辅导人员的团队,帮助公司快速完成股份制改造、募投计划、公司治理等辅导工作 [2] 公司治理与资质 - 宇树科技在10月23日完成董事变更,新任董事李宗彦、倪晨凯、宋华盛三人均为高校教授且有上市公司独立董事经历,此举是完善新董事会架构的关键步骤 [2][3] - 公司年营收已超10亿元,满足科创板上市规则中未盈利企业最低营收2亿元以上的要求 [5] 人形机器人行业资本化动态 - 除宇树科技外,人形机器人头部企业资本化诉求强烈,乐聚机器人已递交境外上市申请,智元机器人有赴港IPO计划或通过买壳方式上市 [2] - 行业普遍面临上市后两难选择:需提振报表数据维持资本市场信心,又需持续投入算力资源追求通用具身智能,这可能导致报表数据不佳 [7] 行业技术与市场挑战 - 工业场景人形机器人面临两大技术路径争议:“端到端”高算力方案存在节拍不足、幻觉较多问题,且客户需承担持续工作的算力成本;“遥操”固定算法方案虽稳定性好,但难以体现通用机器人的优势 [7][8] - 市场开拓存在风险,教育类、展览类人形机器人销售在2025年后可能遇瓶颈,工业场景则可能面临良率不足、交付不及预期、产能无法释放等问题 [7] - 当前各公司营收主力并非双足人形机器人,宇树科技过往销售主力为四足机器人,优必选则以消费级家用机器人如扫地机器人为营收主力 [8]
从300多篇工作来看, VLA是否为通向通用具身智能的必经之路?
具身智能之心· 2025-10-17 16:02
文章核心观点 - 视觉语言动作模型代表了从传统控制向通用机器人技术的范式转变,将视觉语言模型重塑为能在复杂动态环境中决策的主动智能体 [2] - 文章旨在通过综述形式对VLA研究领域提供清晰的分类法和全面回顾,探讨其作为通用具身智能发展路径的价值 [2][5] - 基于对三百多项近期研究的综合,文章描绘了该快速演进领域的轮廓,并指出塑造可扩展通用VLA方法发展的机遇与挑战 [2] VLA模型研究方法论 - VLA方法被划分为几种主要范式:基于自回归的、基于扩散的、基于强化的、混合方法以及专门化方法 [2] - 研究详细审视了各种范式的动机、核心策略与实现 [2] - 研究介绍了基础性的数据集、基准测试以及仿真平台 [2] 直播内容重点 - 直播将探讨VLA的起源和研究细分,分析热点方向和未来发展趋势 [5] - 直播精彩看点包括VLA研究领域分类、VLA和强化学习结合、Sim2Real等关键技术话题 [6] - 直播时间为10月18日19:30-20:30,由兰州大学和新加坡国立大学的嘉宾分享 [5][6] 深度内容扩展 - 知识星球提供完整版深度内容,涵盖所有技术细节、QA及未公开彩蛋 [8] - 扩展内容涉及灵巧手设计与难题、Agent概念探讨、Spec-VLA推理加速框架、跨实体世界模型等前沿话题 [8] - 深度解析保持精度提升速度的Spec-VLA框架,这是首个专为VLA推理加速设计的推测解码框架 [8]
魔法原子CEO吴长征:蓄力1000个人形机器人落地应用场景
搜狐财经· 2025-10-16 07:05
公司战略与定位 - 公司战略选择以落地推动不同机器人走进千行百业,路径上着眼于规模化落地,让机器人“有用、好用、有人用” [2] - 公司致力于通过通用人形机器人释放其在千行百业的潜力,避免因场景割裂导致的应用天花板 [5] - 公司发起“千景共创计划”,预计拓展1000个合作伙伴,打造1000个落地应用场景,目前已吸引50余家头部企业参与 [5] 技术研发与能力 - 公司具备通用人形机器人全栈自研能力,硬件自研率达90%,覆盖关节模组、灵巧手等核心零部件 [2][6] - 在硬件层面自研灵巧手,在软件层面打造通用具身智能大模型,赋予机器人跨场景任务规划与自主作业能力 [4] - 公司通用具身智能大模型融合视觉、语音、触觉等多模态感知,形成端到端的智能决策体系 [8] - 公司采用真机数据与仿真数据结合的策略(比例约8:2)以提升模型在动态场景下的泛化能力 [12] 产品进展与展示 - 公司新款双足人形机器人Z1在2025WAIC大会上展示了连续“倒地起身”“下腰”等高爆发动作,并能与观众互动 [2] - 公司人形机器人MagicBot曾进行为期半年多的工厂测试,学习取放零件、质量检测、搬运物料等工作,最多可扛动40公斤 [8] - 机器人具备基于6D视觉伺服和全身模仿学习的浮动基座操作算法系统,满足产线不确定环境下的精细操作要求 [8] 商业化与场景落地 - 公司已具备为流水线作业、工业搬运等场景提供完整机器人解决方案的能力 [2] - 工业场景是公司看重和落地最早的场景之一,预计今年内将在智能工厂、商业导览等多场景实现产品交付与商业闭环 [5][7] - 在商业场景已部署机器人进行迎宾、导购等服务训练;在家庭场景通过四足机器人MagicDog提供陪伴功能 [9] - 公司判断人形机器人从B端跨越到C端至少还需要5年,关键在于技术突破、成本下降及B端经验积累 [11] 公司发展历程与融资 - 公司成立于2024年1月,到今年5月,半年内连续完成两轮超亿元级融资 [3] - 研发团队于2020年8月开始四足机器人研发,2022年底入局人形机器人,2023年初发布第一代产品,至今已数次迭代 [3] 团队与组织 - 公司团队约300人,其中80%以上为研发人员,硕士以上学历超过50% [13] - 研发核心成员多毕业于国内外知名高校,在机器人、人工智能算法领域有多年研发经验 [13] - 公司内部设立季度创新激励机制,注重人才价值匹配,并引入外部专家以填补战略空白和注入多元视角 [14]
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
自动驾驶之心· 2025-09-30 16:04
文章核心观点 - 视觉-语言-动作模型代表了机器人学和具身智能领域的重要演进方向,旨在通过统一框架整合感知、语言理解和动作生成,以克服传统机器人系统在动态和非结构化环境中泛化能力不足的局限性 [1][10] - 该综述系统性地总结了纯VLA方法的研究现状,提出了基于动作生成策略的清晰分类体系,包括自回归、扩散、强化学习以及混合与特定领域方法四大范式,并梳理了相关的数据集、仿真平台和硬件资源 [7][9] - VLA模型的发展高度依赖高质量、大规模的多模态数据集和逼真的仿真器,资源如Open X-Embodiment整合了来自21个机构的22个机器人数据集,涵盖超过160,000个任务,显著加速了该领域的研究进程 [15] - 尽管VLA模型展现出通向通用具身智能的巨大潜力,但在可扩展性、泛化性、推理速度、安全性以及现实部署方面仍面临一系列关键挑战,未来的研究方向需要聚焦于数据局限性、效率优化和鲁棒性提升 [16][31][46] 背景介绍 - 传统机器人系统依赖于预编程指令、人工设计的控制策略或任务特定的强化学习方法,在受限环境中表现良好,但难以适应动态和非结构化环境 [10] - 从单模态建模到多模态整合是技术发展的自然轨迹,视觉Transformer和大语言模型等基础模型的突破为VLA模型的出现奠定了方法学和工程基础 [11][12] - VLA模型通过提供一个统一框架,将语言与感知相结合并直接映射为可执行的动作序列,从而闭合感知-语言-动作的循环,是迈向通用具身智能的重要一步 [10][13] - 通用具身智能的实现不仅依赖于认知处理,还需要物理身体、环境感知与反馈机制的协同,VLA模型正朝着这一愿景演进,并展现出在多样化机器人平台上执行广泛任务的潜力 [16] VLA方法分类:自回归范式 - 自回归范式是VLA研究中经典而有效的序列生成方法,通过将动作序列视为时间相关过程,在给定上下文条件下逐步生成动作token,其代表性模型包括Gato、RT-1/RT-2和PaLM-E等 [18][21] - 该类方法的关键创新方向包括通用型智能体构建、与大语言模型结合的语义规划与推理能力增强、轨迹生成与视觉对齐建模,以及旨在提升实时控制效率的结构优化与高效推理机制 [21][23][26][29] - 自回归模型通过在可扩展的Transformer架构中统一多模态感知、语言推理与序列化动作生成,推动了通用智能体的发展,但其局限性在于误差累积、推理时延以及对大规模计算和数据资源的高需求 [31] VLA方法分类:扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程生成多样化的合理动作轨迹,在几何一致性、多任务泛化和自然语言接口方面展现出优势 [32][36] - 该范式的核心维度包括基础的动作生成建模、与Transformer结合的多模态架构融合,以及面向实际应用场景的优化与部署策略,代表性工作有Diffusion Policy、Dita和TinyVLA等 [34][37][39] - 扩散式VLA的研究正从实验室原型向真实世界部署过渡,趋势是结合轻量化设计、认知启发式架构和运行时鲁棒性机制,以平衡性能、效率与安全性,但其在动态环境中保持时间一致性方面仍较脆弱 [39][43][46] VLA方法分类:强化学习范式 - 基于强化学习的VLA方法通过引入视觉与语言信号来生成可迁移的奖励代理,并结合离线与在线学习策略以稳定策略优化,提升了在交互式动态环境中的决策能力 [48][51] - 该类方法已成功应用于机械臂操作、四足机器人导航、人形机器人全身控制以及自动驾驶等多个领域,例如SafeVLA引入了安全约束机制,NaVILA和LeVERB则针对特定机器人形态进行了适配 [49][50][52] - 强化学习微调策略增强了VLA模型的泛化能力和安全性,但其挑战在于奖励工程可能依赖噪声信号、训练稳定性问题以及在高维真实环境中部署时的高计算开销 [53] VLA方法分类:混合与特定领域方法 - 混合架构通过策略性地结合自回归、扩散和强化学习等多种范式,以发挥各自在连续动作生成、离散推理和环境适应性方面的互补优势,例如HybridVLA统一了扩散轨迹生成和自回归推理 [56][57] - 高级多模态融合研究从简单的特征拼接转向显式建模几何约束、空间关系和物体可供性,例如CLIPort和3D-VLA等工作显著提升了VLA模型在复杂3D场景中的空间落地性和动作生成可靠性 [58][59] - VLA框架展现出强大的领域适配性,已被扩展至自动驾驶、人形机器人控制、图形用户界面交互乃至安全关键系统等特定场景,这验证了其核心原则的普适性,但也带来了过拟合和领域特定挑战 [60][61][67] 数据集与基准测试 - VLA模型的发展极度依赖于高质量、大规模的多模态数据集,这些资源可分为真实世界采集和仿真环境生成两大类,例如Open X-Embodiment数据集整合了超过100万条轨迹,覆盖160,266项技能 [70][71] - 真实世界数据集如BridgeData、RT-1和RH20T等,提供了多模态观测与语言指令对齐的交互数据,但由于采集成本高昂,其规模性和任务多样性仍面临限制 [72][74] - 仿真平台如MuJoCo、Isaac Gym和CARLA等,提供了可扩展的虚拟环境,能够生成包含动作轨迹、物体状态和自然语言指令的多模态标注数据,有效缓解了真实机器人数据稀缺性问题,加速了模型训练与评估 [15][71]