视觉语言动作端到端模型(VLA)

搜索文档
具身智能,为何成为智驾公司的下一个战场?
雷峰网· 2025-09-26 04:17
行业趋势与市场前景 - 具身智能已成为智能驾驶创业者的新战场 多家前智能驾驶高管转入具身智能领域创业[2] - 2025年中国具身智能市场规模预计达52.95亿元 占全球市场约27%[3] - 人形机器人市场规模预计达82.39亿元 占全球约50% 多家企业宣布2024年量产千台人形机器人[3] - 行业保持40%以上年增长率 为智能驾驶公司提供新增长渠道[21] 技术融合与转型基础 - 智能驾驶与具身智能共享"具身认知"理论框架 均需通过物理实体与环境互动实现智能[6] - 技术架构高度一致 包含感知层(多传感器融合)、决策层(路径规划)、控制层(运动控制)、仿真层(虚拟测试)四大层级[7] - 感知技术通用性构成第一支柱 SLAM技术同时应用于机器人导航和自动驾驶高精度定位[8][9] - 决策算法迁移性构成第二支柱 基于深度强化学习的端到端决策系统可双向迁移[10] - 控制系统适应性构成第三支柱 运动控制的动力学建模和实时控制原理高度一致[11] 企业布局与产品进展 - 地平线机器人、知行科技等通过投资并购和设立子公司布局具身智能[4] - 知行科技2024年12月启动具身智能调研 通过收购小工匠机器人获得关节及机械臂开发能力[10][13] - 推出首款大小脑一体化主控制器iRC100 集成128 TOPS算力 支持BEV Transformer和VLA算法部署[14][17][19] - 采用单SoC架构解决多芯片协同痛点 支持各类传感器和执行器接入[16][18] 商业模式与战略价值 - 形成"人形机器人+专用机器人"双线发展格局 智能驾驶公司可根据技术优势选择切入点[22] - 专业服务机器人毛利率达50%以上 显著高于自动驾驶套件15-25%的水平[23] - 具身智能产品具更强差异化和更低边际成本 核心模块开发后场景适配成本近乎为零[25] - 技术界限逐渐模糊 特斯拉将自动驾驶汽车视为"轮式机器人"并共享AI芯片架构[26]
具身智能 “成长”的三大烦恼
21世纪经济报道· 2025-04-24 13:07
人形机器人产业化进展 - 人形机器人产业化进展飞速,从春晚表演到半程马拉松赛事引发广泛关注[1] - 具身智能技术突破是关键,大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作端到端模型(VLA)显著提升交互感知和泛化能力[1] - 行业面临数据采集、机器人形态应用和大小脑融合等挑战[1] 具身智能发展阶段 - 具身智能概念1950年提出,近年成为科技热点,被定义为能理解、推理并与物理世界互动的智能系统[2] - 当前具身智能模型已具备小范围场景行为复现能力,但力触动作和多指协同仍困难[3] - 泛化能力主要来自视觉语言模型,动作轨迹缺乏泛化性,依赖训练数据[3] 数据采集解决方案 - 行业面临三维数据采集难度大、周期长、成本高的问题[3] - 跨维智能采用3D生成式AI的Sim2Real仿真解决数据需求[4] - 智元机器人采用真机数据采集模式,年完成亿级数据采集,发布GO-1模型实现小样本泛化[4] 机器人形态发展 - 机器人发展经历工业自动化、大模型和端到端大模型三个阶段,不同架构各有优势[6] - 端到端大模型融合多模态输入与动作输出,提升决策效率,加速人形机器人发展[6] - 人形机器人不等于具身智能,但仍是最大需求者和挑战者[7] 非人形机器人应用 - 非人形机器人在垂直领域更具效率优势,如跨维智能DexVerse引擎在30余行业批量应用,精度超99.9%[8] - 中间态机器人(轮式、双臂等)可在工业、应急等场景承担任务,为具身智能公司提供营收[7] 大小脑融合技术 - 通用人形机器人本体分大脑、小脑和肢体三部分,独立系统导致通讯延迟[9] - 英特尔和东土科技提出大小脑融合方案,采用单一芯片架构降低成本[9][10] - 大小脑融合面临实时控制(1毫秒内完成99%任务)和动态计算负载等挑战[10] 技术路线融合趋势 - 厂商技术路线分化,有的聚焦大脑(场景化落地),有的专注小脑(高精度运动控制)[12] - 市场需求将推动两种技术路线融合,要求机器人兼具智能交互和灵活动作能力[12]