Workflow
VLA模型
icon
搜索文档
机器人感知大升级,轻量化注入几何先验,成功率提升31%
36氪· 2025-09-28 12:09
技术突破 - 提出Evo-0轻量化方法 通过隐式注入3D几何先验增强视觉语言动作模型的空间理解能力 无需显式深度输入或额外传感器 [2] - 利用视觉几何基础模型VGGT从多视角RGB图像提取3D结构信息 包含深度上下文和跨视图空间对应关系等几何信息 [2][3] - 引入cross-attention融合模块 将ViT提取的2D视觉token作为query VGGT输出的3D token作为key/value 实现2D-3D表征融合 [3] 性能表现 - 在rlbench仿真实验中 Evo-0在5个需要精细操作的任务上平均成功率超过基线pi0 15% 超过openvla-oft 31% [2] - 真机实验中在5个空间感知要求高的任务上平均成功率提升28.88% 其中插孔任务达到66.67% 透明物抓取任务达到65.00% [8][10][11] - 仅用15k步训练的Evo-0已超过20k步训练的π0 显示更高训练效率 [6] 鲁棒性优势 - 在5类干扰条件下均表现相对鲁棒 包括未见干扰物体 背景颜色变化 目标位置位移 目标高度变化和相机角度变化 [12] - 在存在未见干扰物体时 拾取正确率100% 整体正确率70% 显著高于基线的60%和20% [12][15] - 相机视角向上偏移10度时正确率60% 向下偏移10度时40% 均优于基线的40%和30% [15] 应用价值 - 方法以插件形式增强VLA模型空间建模能力 训练高效且部署灵活 为通用机器人策略提供新路径 [16] - 绕过深度估计误差与传感器需求 降低部署难度和精度噪声问题 [1][16] - 在密集抓取 置物架放置及透明物体操作等对空间精度容忍度极低的任务中展现精准操控能力 [8][10]
对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心· 2025-09-26 16:03
作者 | 周彦武 来源 | 佐思汽车研究 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 首先需要指出VLA和世界模型都是端到端的一种,尽管很多人都认为一段式端到端比分段式优秀,但无论是产业界还是学术界,90%以上都是分段式端到端,纯 粹的VLA和世界模型非常罕见。 代表VLA阵营出战的是高德地图的 模型,地平线的SENNA模型,还有加州大学洛杉矶分校的AutoVLA。代表世界模型出战的有和特斯拉中国 FSD很接近的上海AI实验室的GenAD模型,做重卡自动驾驶的中科慧拓的GenAD模型,华为和浙江大学合作的Drive-OccWorld,还有理想汽车的World4Drive,理 想汽车尽管推崇VLA,但对世界模型的研究水平也是极高的。 | 模型名称 | L2平均距离(米) | 3秒平均碰撞率 | 备注 | | --- | --- | --- | --- | | AutoDrive-R2 | 0.19 | | 70亿参数版 | | AutoDrive-R2 | 0.49 | | 30亿参数版 | | SENNA | 0.22 | 0.08% | 加入自车状态 ...
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 00:04
想象一下,如果能通过语言下达指令,并且丝滑执行任何你想要的动作,是一件多么幸福的事情!如果能长时 间连续动作完成,将会非常方便。下面给大家介绍下VLA到底是啥? VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境, 广泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发 展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性 体现在能够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力 和实际应用价值,成为智能机器人领域的关键驱动力。 从今年各个机器人与AI顶会来看,VLA及其相关衍生方向,占据了近一半的具身产出。特别是长程操作、泛 化、少样本、VLA+RL、人形相关。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积极布局,与国外Tesla、Figure AI等公司正在一起 推动这一领域的发展。 很多同学后台留言,咨 ...
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 04:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey! Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接:https://arxiv.org/pdf/2509.19012 视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉- 语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些 方法通常应用于简单、重复性的任务,例如工厂 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-24 23:33
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA 在不同场景下的应用,并将VLA方法划分为多个范式: 自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方 式。 此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动 VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发 展的机遇与挑战。 论文标题:Pure Vision Language Action (VLA) M ...
为什么 VLA 能叠毛巾,却测不准物体位姿?解读具身 “空间感知” 补全
具身智能之心· 2025-09-23 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zheng Geng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 想象这样一组反差场景:VLA 模型能流畅完成叠毛巾、整理衣物等几何类操作,可面对 "用机械臂抓起陌生调料瓶""给未知零件定位 3D 姿态" 这类任务时,却 频频失误——要么抓空,要么把物体碰倒。这背后藏着具身智能落地的关键瓶颈: 6D 物体位姿估计 。 玩过机器人操作的朋友都知道,"抓零件""放调料瓶" 这类需要精准交互的任务,核心是 "靠空间感知说话"——得知道物体的 3D 位置(平移)和朝向(旋转), 还要确保测算的尺度与真实世界一致。可现有方法总在 "妥协":要么依赖预先扫描的 CAD 模型(现实中根本找不到那么多),要么需要多视角图像(实时场景 中哪来得及拍),就算是单视图重建,也会陷入 "不知道物体真实大小" 的尺度模糊困境。 这就导致了鲜明的能力断层:VLA 能靠视觉规划完成 "叠毛巾" 这类不依赖精准空 ...
理想智驾二级部门数量从3个调整为11个是次要矛盾
理想TOP2· 2025-09-22 16:56
核心观点 - 李想对理想汽车辅助驾驶发展的作用可高度类比马斯克对特斯拉辅助驾驶的影响 包括做大资源 保证资源持续投入 以及基于对AI底层原理的理解做出关键技术路线判断 [1][2][3] - 理想智驾发展取决于三大要素:全球AI产业发展阶段(天时) 理想各类生产要素匹配度(地利) 以及李想个人能力(人和) [2][5] - 理想智驾部门组织架构调整属于次要矛盾 未来1-12个月智驾系统将出现多次高质量快速迭代 [2][6] - 公司发展方向强调"合适萝卜坑"比以履历为锚点的人才更重要 前者面向未来 后者以过去为荣耀点 [2][11] 李想的关键作用 - 具备三个核心作用:做大资源 保证资源持续投入 在理解AI底层原理基础上对技术路线做出关键think different判断并执行 [2][3] - 44岁创始人拥有极高投票权和强驱动力 能保证未来10-15年对公司绝对控制权并推动组织架构变革 [3] - 亲自决策将资源核心投向基于强化学习的VLA(视觉语言行动)模型 减少对端到端投入 并判断双Orin平台可运行VLA模型 [4] - 创始人真懂技术且持续关注 既能获得更多资源又能提高资源利用效率 [3] 产业发展与生产要素 - 全球AI产业发展阶段是关键前提 具备齐全生产资料的只有中美 [5] - 中国公司需要高效组织生产要素 时机与创始人能力至关重要 深谙创始人梁文锋指出中国创新缺的是信心和高密度人才组织能力 [5] - 自动驾驶是物理AI子集 做好物理AI需要负责人持续下判断并能按产业特点改组公司 [6] - 理想和小米是生产要素相对匹配的公司 理想更擅长think different 小米更擅长吃第二波与价值传递 [6] 技术发展路径 - 理想智驾部门从3个二级部门调整为11个属于次要矛盾 [2] - 迭代方向明确 未来1-12个月VLA将出现多次高质量快速迭代 [2][6] - 具体迭代方向包括:提升仿真数据效率 压榨车端芯片潜力 通过强化学习提升模型能力 优化语音控车体验 以及VLA框架落地 [6][7] - 当前运行4B模型 未来将升级至7B 14B甚至100B模型 实现能力飞跃 [8] - 辅助驾驶比chatbot和机器人更适合强化学习 因奖励函数明确 易于收敛 [8] - 监督学习只能特定场景优化 模仿学习主导的端到端难以针对性解决问题 而强化学习主导的VLA可专门优化问题 [9] - 当前发展阶段类似GPT-1到GPT-3/3.5 大力出奇迹 [10] 人才观念 - 合适萝卜坑(岗位与人才匹配)比以履历为锚点的人才更重要 [2][11] - 英伟达应届生质量低于谷歌Facebook但不影响发展 因所做事情更重要 阿里巴巴十八罗汉也是类似道理 [11] - 理想整体环境具备做成物理AI的条件 使得萝卜坑比履历锚点人才重要得多 [11]
一个P7,从自驾到具身的转行建议......
自动驾驶之心· 2025-09-19 00:30
一个P7,从自驾到具身的转行思路...... 最近和一个P7的朋友聊天,去某大厂的具身实验室做负责人了。因为刚搭建,很多东西不是很成熟,和自 驾组建的时候非常像。缺数据、缺算力和设备。回顾自驾的种种,现在转具身之后,发现很多问题依然是 相似的,自驾优化的那套方法论甚至拿来就可以直接用,只是面向的对象和因素变了。他谈到了几个观点 蛮有意思,希望可以对大家有一定启发。 关于数据 没数据或数据少,第一时间和想到了real2sim2real方案或者sim2real方案。本体有,但数据少采集成本高, 能否使用自采集方式。让机器人自己采集数据并记录,通过算法来筛选和提出dirty数据。这一点和自驾的 数据闭环和自动标注比较相似。 关于算法 如果要商业化,最新的技术应该往后靠,等待技术的成熟。当前已经验证的技术应该被优先推上去,解决 部分问题,满足部分场景和功能的需求。就像VLA,用在智驾和机械臂上都还好,如果上人形,难度会非 常大。强化的方式,依然work,那么就应该使用这种方案。 如果算法和数据都更smooth,人形vla就是时候上了。 部署的一些思路 不用太担心部署问题,我们很擅长做轻量化和部署,算力索尔我觉得基本够 ...
长城汽车(601633):坦克扩圈,魏牌向上
平安证券· 2025-09-17 03:36
投资评级 - 维持"推荐"评级 长城汽车在越野/泛越野、家用车两大赛道迎来高端化战略跃升期[6][64] 核心观点 - 坦克品牌通过Hi4-Z技术及智能化加持从小众走向大众 应用场景多元化带来广阔想象空间[6][24] - 魏牌基于Hi4性能版混动系统及高阶智能辅助驾驶扩展家用高端SUV产品矩阵 旗舰SUV即将上市[6][35] - 公司Hi4混动技术体系覆盖全场景 包含智能四驱电混架构Hi4、越野超级混动架构Hi4-T、泛越野超级混动架构Hi4-Z、智能混动重卡Hi4-G四大分支[6][12] - 高阶智能辅助驾驶迈入端到端2.0时代 VLA模型即将搭载 魏牌全系标配高阶辅助驾驶功能[6][16] - 海外收入占比近40% 坦克等高价值车出口占比快速提升[11] 财务预测 - 预计2025-2027年营业收入分别为2474亿/2938亿/3599亿元 同比增长22.3%/18.8%/22.5%[5][62] - 预计2025-2027年净利润分别为147亿/159亿/183亿元 同比增长15.9%/8.4%/14.8%[5][64] - 预计2025-2027年毛利率分别为20.5%/20.8%/21.0%[5][62] - 预计2025-2027年EPS分别为1.72/1.86/2.14元[5][64] 混合动力技术 - Hi4技术体系覆盖城市SUV、泛越野、强越野等各类用车场景[12] - Hi4-Z为泛越野打造的超长续航越野平台 具备超长续航、快速充电、强劲动力等特点[14] - Hi4-T通过非解耦四驱融入油电并联混动系统 实现复杂场景的强悍通过性[14] 智能驾驶技术 - 较早入局AI智能辅助驾驶 基于无图城区领航辅助驾驶持续迭代[16] - VLA模型将语言推理融入自动驾驶 可理解文字引导牌、识别异形障碍物、语音交互控车[17] - VLA模型突破端到端模型"黑盒问题" 可解释性更强 提升用户信任程度[18] 坦克品牌表现 - 全球累计销量突破70万辆[25] - 坦克300三年保值率64.57% 位居紧凑型SUV保值率第一名[25] - 2024年销量23.1万台 2025年1-7月销量12.4万台[51] - 预计2025-2027年销量分别为29.5万/33.9万/38.0万台[51] 魏牌发展态势 - 2025年6月销量重回万台以上[36] - 2024年销量5.5万台 2025年1-7月销量4.5万台 同比增长96.8%[51] - 预计2025-2027年销量分别为9万/12万/18万台[51] - 直营体系持续优化 2025年底直营店将拓展至600家[48] 其他品牌预测 - 哈弗品牌预计2025-2027年销量分别为71万/76万/81万台[54] - 欧拉品牌预计2025-2027年销量分别为5万/10万/20万台[55] - 皮卡品牌预计2025-2027年销量分别为20万/20.6万/21.2万台[57] 估值分析 - 当前对应2025-2027年PE估值分别为14.6/13.4/11.7倍[64] - 低于同行业可比公司2025-2027年平均估值24.6/16.8/13.0倍[64]
一个P7,从自驾到具身的转行建议......
具身智能之心· 2025-09-17 00:02
行业技术发展现状 - 具身智能行业当前处于早期发展阶段,面临数据稀缺、算力不足和设备不成熟等挑战,与早期自动驾驶行业状况相似[1] - 数据采集成本高,行业采用real2sim2real或sim2real方案解决数据短缺问题,并借鉴自动驾驶数据闭环和自动标注技术[2] - 商业化部署优先选择已验证的成熟技术而非最新技术,例如VLA在智驾和机械臂应用较成熟但人形机器人应用难度大[3] - 人形机器人本体稳定性是关键挑战,需要开发类似自动驾驶的兜底方案防止摔倒或损坏[6] - 部署能力已具备轻量化技术,现有算力基本满足需求,预计随技术成熟将进一步提升一代[5] 技术方法论迁移 - 自动驾驶领域的优化方法论可直接迁移至具身智能领域,仅需调整面向对象和因素[1] - 采用机器人自采集数据并通过算法筛选dirty数据的方案,与自动驾驶数据处理流程高度相似[2] - 强化学习方法在具身智能领域仍然有效,应优先采用已验证的技术方案[3] 人才转型路径 - 自动驾驶与大模型背景人才转向具身智能领域难度较低,传统机器人背景人才也存在较多相似点[8] - 缺乏相关基础者需要完整学习体系,建议通过专业社区避免自学踩坑[8] - 行业已建立具身智能之心知识星球社区,汇聚近2000名成员,目标两年内达到近万人规模[10] 行业生态建设 - 社区覆盖产业、学术、求职、问答等多领域闭环,提供实时问题解答和技术分享[10] - 与智元机器人、有鹿机器人、优必选、傅里叶机器人、开普勒机器人等近200家头部企业建立合作[17] - 汇总40+开源项目、60+数据集及主流仿真平台,提供完整技术学习路线[17] - 建立高校与企业人才通道,覆盖斯坦福大学、清华大学、ETH等国内外知名机构[17] 技术研究体系 - 社区系统化梳理30+技术路线,包括数据采集、VLA模型、多传感器融合等13个核心领域[11] - 提供具身感知、强化学习、VLN等18个专项学习路线,加速技术入门与进阶[17] - 汇总国内外高校实验室、公司研报、零部件品牌等产业基础设施信息[19][22][29] - 持续更新开源项目、仿真平台、数据集资源,覆盖从基础研究到工程落地的全链条需求[31][37][39]