VGGT - 财报，业绩电话会，研报，新闻

VGGT

搜索文档

锦秋集· 2025-09-03 04:30

文章核心观点 - 人工智能正经历从自动驾驶向具身智能的范式转变机器人行业处于早期发展阶段硬件形态和算法框架尚未统一但技术迁移和VGGT等新模型带来突破机遇[5][6][7] - 地瓜机器人作为行业代表承接自动驾驶技术经验横跨机器人1 0到3 0代际通过差异化路径探索通用人形机器人的未来[6][18][19] - VGGT模型可能改变未来十年3D视觉技术架构其视觉几何基础能力可提升机器人定位避障和操作任务的泛化性并降低硬件成本[51][62][64] 从自动驾驶到机器人：技术迁移与挑战 - 自动驾驶技术栈已进入工程收敛期端到端成为主流后续更多是工程优化而机器人处于早期未解之地硬件形态和算法框架尚未统一数据规模远小于汽车行业[5][8][10] - 机器人硬件缺乏统一标准存在轮式双足双臂灵巧手等多种形态自由度从7到20+不等导致无法形成大规模保有量和数据积累[10][14] - 算法尚未完全收敛 VLA模型不一定是未来技术框架模型和数据都未达到ready状态具身智能需要通用性当前工厂封闭环境下的搬运等应用不算真正具身[11][12][13] - 自动驾驶经验正迁移至机器人包括芯片视觉标注与数据闭环能力但最大挑战是硬件不确定性导致难以积累数据和快速迭代算法[14][17][21] 自动驾驶算法的演进：从BEV到Transformer - 2019年前自动驾驶采用模块化方法图像感知用AI完成后续跟踪预测决策等几乎都是规则化方式适应能力不强工程难度大[25][26] - 2019年后BEV发展通过传感器数据特征融合直接输出3D空间目标减少后处理环节使系统更加端到端 Transformer在其中发挥特征融合作用实现空间转换和时序融合[26][27] - Transformer适合跨传感器融合可将自车位姿 GPS IMU 激光雷达等数据token化后与图像特征融合简化系统并避免信息损失[27][28] - 4D标注系统(3D加时序)帮助生成训练数据提升BEV模型数据闭环通过双系统设计快速回传bad case 高效提升模型性能[29][30] 机器人落地的现实困境与技术路径选择 - 当前VLA主要处于"秀肌肉"的验证阶段离真正落地还有距离需要稳定性成功率和成本控制封闭场景仍多用规则算法[33][34][35] - 务实路线是端到端模型提proposal后用规则化方法选最优方案模型方法上限高但下限低需规则兜底类似自动驾驶发展路径[35][48] - 现阶段的1 0和2 0机器人承接不住自动驾驶算法因缺乏舒适性要求(如割草机扫地机) 唯一需要模型协助的是脱困等特殊场景[36][37][38] - 特斯拉是人形机器人方向旗手其纯视觉方案体验最好得益于数据闭环和模型积累关键看如何搭建数据闭环并提升出货量规模[39][40][42] VGGT模型的技术突破与行业影响 - VGGT是视觉几何基础模型基于Transformer架构用大数据和大模型方法解决传统3D几何问题可能改变未来十年3D视觉技术架构[51][56][67] - 在公开数据集上表现接近或超过传统方法最佳水平(如COLMAP) 重建精度高其backbone具备空间感知能力可提升下游任务泛化性[62][69][82] - 使纯视觉方案有望替代深度相机普通RGB相机价格仅十几到几十元深度相机则需几百到几千元可显著降低机器人BOM成本[64][65] - 目前处于早期预研阶段未形成共识训练用了17个公开数据集数据量估计百万到千万级模型大小1 2B 算力需求可控[72][73][74] - 最先受益的是封闭空间机器人如工业搬运或自动驾驶地库场景因主要依赖视觉定位和避障无GPS[75] - 主要不足是尺度问题和时序问题需要多传感器融合提供尺度信息且需改造为时序化SLAM方案以适应实时需求[81] 行业生态与人才培养 - 地瓜机器人与全国200多所高校合作甚至延伸至中学通过开发者套件和可视化编程培养年轻开发者 12岁初中生已能开发机器人[93][95][96] - 生态建设是长期战略类似英伟达培养开发者习惯从学校阶段开始使用工具未来进入公司会倾向继续使用相关开发工具和芯片[97] - 在具身智能方向主要竞争对手是英伟达已推出RDK S100和S600产品其中RDK S100已上市凭借智能驾驶技术积累快速响应需求[98]