VGGT

搜索文档
锦秋基金被投地瓜机器人:从VGGT到数据闭环,具身智能的突破与探索
锦秋集· 2025-09-03 04:30
文章核心观点 - 人工智能正经历从自动驾驶向具身智能的范式转变 机器人行业处于早期发展阶段 硬件形态和算法框架尚未统一 但技术迁移和VGGT等新模型带来突破机遇[5][6][7] - 地瓜机器人作为行业代表 承接自动驾驶技术经验 横跨机器人1 0到3 0代际 通过差异化路径探索通用人形机器人的未来[6][18][19] - VGGT模型可能改变未来十年3D视觉技术架构 其视觉几何基础能力可提升机器人定位 避障和操作任务的泛化性 并降低硬件成本[51][62][64] 从自动驾驶到机器人:技术迁移与挑战 - 自动驾驶技术栈已进入工程收敛期 端到端成为主流 后续更多是工程优化 而机器人处于早期未解之地 硬件形态和算法框架尚未统一 数据规模远小于汽车行业[5][8][10] - 机器人硬件缺乏统一标准 存在轮式 双足 双臂 灵巧手等多种形态 自由度从7到20+不等 导致无法形成大规模保有量和数据积累[10][14] - 算法尚未完全收敛 VLA模型不一定是未来技术框架 模型和数据都未达到ready状态 具身智能需要通用性 当前工厂封闭环境下的搬运等应用不算真正具身[11][12][13] - 自动驾驶经验正迁移至机器人 包括芯片 视觉 标注与数据闭环能力 但最大挑战是硬件不确定性导致难以积累数据和快速迭代算法[14][17][21] 自动驾驶算法的演进:从BEV到Transformer - 2019年前自动驾驶采用模块化方法 图像感知用AI完成 后续跟踪 预测 决策等几乎都是规则化方式 适应能力不强 工程难度大[25][26] - 2019年后BEV发展 通过传感器数据特征融合直接输出3D空间目标 减少后处理环节 使系统更加端到端 Transformer在其中发挥特征融合作用 实现空间转换和时序融合[26][27] - Transformer适合跨传感器融合 可将自车位姿 GPS IMU 激光雷达等数据token化后与图像特征融合 简化系统并避免信息损失[27][28] - 4D标注系统(3D加时序)帮助生成训练数据提升BEV模型 数据闭环通过双系统设计快速回传bad case 高效提升模型性能[29][30] 机器人落地的现实困境与技术路径选择 - 当前VLA主要处于"秀肌肉"的验证阶段 离真正落地还有距离 需要稳定性 成功率和成本控制 封闭场景仍多用规则算法[33][34][35] - 务实路线是端到端模型提proposal后用规则化方法选最优方案 模型方法上限高但下限低 需规则兜底 类似自动驾驶发展路径[35][48] - 现阶段的1 0和2 0机器人承接不住自动驾驶算法 因缺乏舒适性要求(如割草机 扫地机) 唯一需要模型协助的是脱困等特殊场景[36][37][38] - 特斯拉是人形机器人方向旗手 其纯视觉方案体验最好 得益于数据闭环和模型积累 关键看如何搭建数据闭环并提升出货量规模[39][40][42] VGGT模型的技术突破与行业影响 - VGGT是视觉几何基础模型 基于Transformer架构 用大数据和大模型方法解决传统3D几何问题 可能改变未来十年3D视觉技术架构[51][56][67] - 在公开数据集上表现接近或超过传统方法最佳水平(如COLMAP) 重建精度高 其backbone具备空间感知能力 可提升下游任务泛化性[62][69][82] - 使纯视觉方案有望替代深度相机 普通RGB相机价格仅十几到几十元 深度相机则需几百到几千元 可显著降低机器人BOM成本[64][65] - 目前处于早期预研阶段 未形成共识 训练用了17个公开数据集 数据量估计百万到千万级 模型大小1 2B 算力需求可控[72][73][74] - 最先受益的是封闭空间机器人 如工业搬运或自动驾驶地库场景 因主要依赖视觉定位和避障 无GPS[75] - 主要不足是尺度问题和时序问题 需要多传感器融合提供尺度信息 且需改造为时序化SLAM方案以适应实时需求[81] 行业生态与人才培养 - 地瓜机器人与全国200多所高校合作 甚至延伸至中学 通过开发者套件和可视化编程培养年轻开发者 12岁初中生已能开发机器人[93][95][96] - 生态建设是长期战略 类似英伟达培养开发者习惯 从学校阶段开始使用工具 未来进入公司会倾向继续使用相关开发工具和芯片[97] - 在具身智能方向主要竞争对手是英伟达 已推出RDK S100和S600产品 其中RDK S100已上市 凭借智能驾驶技术积累快速响应需求[98]