视觉 - 语言 - 动作(VLA)模型
搜索文档
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chao Xu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 这篇综述对视觉 - 语言 - 动作(VLA)模型进行了全面剖析,是该领域极具价值的导航指南。核心结论是:VLA 模型正推动机器人技术变革,其发展遵循 "基础模 块→历史里程碑→核心挑战" 的逻辑,五大核心挑战(表征、执行、泛化、安全、数据与评估)是当前研究的关键突破口,相关结构与关键信息可通过文中图表直 观呈现。 核心定位与结构设计 文章以研究者的自然学习路径为框架,从基础到前沿层层递进,既适合新手入门,也为资深研究者提供方向。 基础模块:VLA 模型的核心构成 VLA 系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势,各模块的关键技术选型与代表模型可参考相关数据集与里程碑表格。 论文标题 :An Anatomy of Vision-Language-Action Models: From Modules ...
新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心· 2025-12-15 03:17
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 视觉-语言-动作(VLA)模型在通用机器人任务中展现出应用潜力,但在需要细粒度表征的 时空一致机器人操作 任务中仍面临诸多挑战。现有方法通常会将三 维位置信息嵌入视觉表征,以此提升动作的空间精度,然而这类方法难以实现对动作执行过程的时序一致性控制。 VLA-4D 是 一款具备4D感知能力的通用VLA模型,专门用于实现时空一致的机器人操作。 该模型的设计核心包含两大关键模块:其一为 4D感知视觉表征 ,先 提取视觉特征,再将一维时间信息嵌入三维位置信息以生成4D嵌入特征,随后通过交叉注意力机制将其融合为统一的视觉表征;其二为 时空动作表征 ,VLA- 4D为传统的空间动作表征拓展了时序信息维度,从而支持时空层面的动作规划,并将多模态表征与大语言模型(LLM)进行对齐,以完成时空动作预测。 在这一统一框架下,经特殊设计的视觉表征与动作表征可协同作用,让机器人操作既具备空间流畅性,又能保证时序一致性。此外,本工作还为现有VLA数据集 补充了时序动作标注,用于模型的微调训练。 论文标题 : VLA- ...
理想自动驾驶负责人回应宇树王兴兴对VLA质疑:空谈架构不如看疗效
凤凰网· 2025-12-10 10:27
公司对VLA模型的技术立场与信心 - 理想自动驾驶负责人郎咸朋认为,经过两个多月的实践,VLA(视觉-语言-动作)模型是自动驾驶最好的模型方案 [1] - 公司坚持VLA模型的原因在于其拥有由数百万辆车构建的数据闭环,这使其能在当前算力下将驾驶水平做到接近人类 [1] - 公司CEO李想认为,未来五到十年,具身机器人核心将有两种形态:汽车类具身机器人和人形类具身机器人 [1] 行业技术争议与公司回应 - 宇树科技创始人王兴兴曾对VLA模型表示怀疑,认为其是“相对比较傻瓜式的架构” [1] - 公司方面回应称,在自动驾驶领域,脱离海量真实数据谈模型架构是空中楼阁,强调“空谈架构不如看疗效” [1] - 公司认为具身智能最终比拼的是整体的系统能力 [1] 公司技术应用的未来规划 - 理想的VLA模型不仅服务于公司当前的各类汽车产品形态,也将服务于未来的汽车类具身机器人 [1]
上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同
具身智能之心· 2025-12-02 09:30
文章核心观点 - MM-ACT模型通过统一多模态表征、差异化并行解码和上下文共享学习三大创新设计,有效解决了机器人操作领域“通用性”与“高效性”的平衡难题[1][3][27] - 该模型在模拟与真实场景中均展现出超越现有方案的性能,平均成功率高达96.3%,在长序列任务中提升5.0%[13][14] - 模型实现了文本规划、图像预测和动作生成的高效协同,推理延迟低至0.22秒,支持40Hz高频率动作输出[10][19] 技术架构创新 - 采用统一多模态表征空间,将文本、图像、机器人状态与动作编码为离散token,消除模态壁垒[6] - 设计差异化并行解码策略:文本/图像采用重掩码并行解码保证质量,动作采用单步并行解码满足实时需求[8][10] - 创新上下文共享学习范式,通过双阶段训练实现跨模态正向迁移[9][11] 性能表现 - 在LIBERO基准测试中平均成功率96.3%,超越UniVLA(95.5%)和DreamVLA(92.6%)等基线模型[13] - RoboTwin2.0跨域任务平均成功率52.38%,较单动作训练提升9.25%,显著优于To(48.13%)和OpenVLA-OFT(23.13%)[14] - 真实机器人实验在3个实物操作任务中平均成功率72.0%,优于对比模型[15] 跨模态协同价值 - 文本-动作联合训练使动作生成成功率提升3.37%[16][17] - 图像-动作联合训练带来5.62%的成功率提升[16][17] - 三模态联合训练实现1+1+1>3的效果,验证跨模态信息互补性[17] 效率优化 - 单步并行解码配置实现0.22秒推理延迟,平衡效率与精度[19][20] - 动作块大小8的配置支持40Hz高频率动作输出[10][19] - 重掩码解码虽提升精度但耗时增至1.06秒,最终选择单步解码满足实时需求[19] 应用场景拓展 - 在双臂机器人复杂操作场景表现优异,如Place Burger Fries任务成功率73%[22][25] - 自动化文本标注生成70k训练样本,无需人工干预[25] - 为工业分拣、家庭服务等规模化落地场景提供重要技术参考[27]
估值超390亿元,头部具身智能大模型创企发布最强VLA模型!
Robot猎场备忘录· 2025-11-27 05:06
公司核心产品与技术突破 - 公司发布最新视觉-语言-动作大模型π*0 6 在π0 5基础上实现机器人从错误中学习和实践中进化的核心能力 将长序列任务成功率提升至90%以上[2] - 模型采用独创的RECAP训练框架 首创离线强化学习加在线优势条件强化学习三阶段流程 解决了传统VLA模型依赖模仿学习导致的错误积累问题[8] - 通过优势条件策略将优势值作为条件输入VLA 并利用分布式价值函数和稀疏奖励解决信用分配问题 实现超越演示者的性能[10][11] - 在折叠多样化衣物 组装纸箱和制作浓缩咖啡三大高难度现实任务中测试 连续运行数小时至一整天成功率稳定在90%以上 吞吐量提升2倍 失败率降低50%[12] - 模型采用双系统架构 将长链条端到端模型拆分为VLM和动作执行两个模型 以应对复杂多样 长时间跨度的场景和任务[14] 公司发展历程与融资情况 - 公司由UC Berkley 斯坦福大学教授团队和谷歌科学家等科研人员于2024年3月成立 致力于创建机器人通用大脑[15] - 成立一个月时获得7000万美元融资 投后估值4亿美元 2024年11月完成4亿美元融资 投后估值24亿美元 2025年11月完成6亿美元融资 投后估值约56亿美元[15][16] - 2024年10月发布首个机器人通用基础模型π0并于2025年2月开源 2025年4月发布新一代大模型π0 5并于9月开源[16] - 2025年4月与国内头部人形机器人公司智元机器人达成深度技术合作 由原伯克利人工智能研究实验室博士后研究员罗剑岚负责推进[16] 创始团队背景 - 联合创始人团队包括UC Berkley助理教授Sergey Levine 斯坦福大学助理教授Chelsea Finn 前谷歌大脑高级研究科学家Karol Hausman等行业领军人物[18] - 创始人Sergey Levine被认为是强化学习领域领军人物 曾带领团队与谷歌联合开发RT-X机器人项目[18] - 联合创始人Chelsea Finn是ALOHA家务机器人项目导师 谷歌学术论文引用数超4 7万[18] 行业趋势与竞争格局 - 2025年以来采用双系统架构的VLA模型已成为具身智能领域主流 国外人形机器人独角兽Figure AI于2025年2月推出自研通用型VLA模型Helix[14] - 软件算法进步是推动人形机器人功能提升和应用场景拓展的关键 强大的AI能力是企业核心壁垒[19] - 谷歌 OpenAI Meta等国外科技大厂从投资转向躬身入局本体制造 国内华为 蚂蚁集团 京东等随后跟进 资本越发关注具备强大AI能力的初创公司[19]
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?
具身智能之心· 2025-11-24 10:02
核心观点 - DeepThinkVLA模型通过“混合注意力解码器+两阶段训练pipeline”的创新设计,解决了视觉-语言-动作模型中推理与动作生成的模态冲突问题[2] - 该模型在LIBERO基准测试中实现了97.0%的平均任务成功率,树立了VLA模型的性能新标杆[2] - 架构实现了推理与动作的深度协同,既让模型具备连贯推理能力,又保障动作生成的高效与精准[2][3] 技术架构创新 - 采用混合注意力解码器,在推理生成阶段使用自回归因果注意力,在动作生成阶段切换为双向注意力以支持高维动作向量的并行解码[4] - 通过两阶段训练pipeline(监督微调+强化学习)强化推理与动作的因果关联[6] - 将传统的“观察-指令→动作”直接映射分解为“观察-指令→推理”与“观察-指令-推理→动作”两步概率分解[10] 性能表现 - 在LIBERO基准的四大任务套件中平均成功率达97.0%,其中Object任务成功率99.0%、Goal任务96.4%、Long长程任务96.2%[15] - 相较于顶级自回归模型UniVLA(平均95.2%)和扩散模型π₀(平均94.2%)形成显著优势[15] - 推理延迟大幅降低,相对推理时间仅为0.175倍,为大规模强化学习的高速rollout提供可能[16] 训练与数据策略 - 构建包含273,465个标注帧的具身CoT数据集,通过两阶段标注pipeline平衡标注成本与数据质量[8][10] - 采用基于结果的稀疏奖励+格式正则化奖励设计,仅关注任务最终成功与否[11] - 引入KL散度惩罚正则化机制,避免模型遗忘SFT阶段学到的基础推理能力[11] 技术优势 - 推理学习更高效,复用VLM已有能力,无需海量数据[12] - 动作学习更简单,推理作为显式规划将“一对多”的模糊映射转化为明确映射[12] - 具备错误恢复机制,模型在执行错误时能通过思维链显式引导实现自我修正[10]
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅
机器之心· 2025-11-18 03:30
公司及产品发布 - 美国具身智能创业公司Physical Intelligence发布最新机器人基础模型π*0.6 [2] - 公司2024年获得超过4亿美元融资,估值突破20亿美元,成为具身智能赛道最受瞩目的玩家之一 [3] - 公司技术路线强调“视觉-语言-动作”模型,通过大规模数据训练使机器人能在未知环境中灵活执行任务 [3] 模型性能与能力 - 通过对π*0.6模型进行微调,可在除处理衣物外的多种任务上达到90%成功率 [6] - 模型能够连续运行一整天制作意式浓缩咖啡,或连续数小时不间断地折叠衣物 [9] - 利用Recap方法训练π*0.6可将最困难任务的吞吐量提高一倍以上,并将失败率降低2倍或更多 [9] - 对于制作意式咖啡等最困难任务,加入机器人真实执行经验后,吞吐量和成功率都提升了超过两倍 [27] 核心技术方法:Recap - Recap方法实现了演示训练、纠错指导和从自主经验中改进三个步骤 [9] - 该方法通过训练价值函数解决强化学习中的信用分配关键挑战 [15][20] - 在训练中保留全部数据并将价值变化注释作为输入,使模型选择高优势的动作 [20] - 训练过程包括离线强化学习预训练、任务级微调,并结合专家纠正和自主经验反馈 [25] 具体应用场景挑战 - 纸箱组装任务需执行复杂物理操作并处理如一次抓起多个箱子等边缘情况 [33] - 衣物折叠任务需处理不同衣物种类和材质的多样性,实现泛化 [33] - 意式咖啡制作任务涉及长操作序列,需判断设备状态及完成清洁工作 [33] - π*0.6能够以超过90%的成功率完成这些极具挑战性的步骤 [34] 行业发展趋势 - 从经验中学习可能成为实现高性能机器人模型不可或缺的组成部分 [37] - 未来机器人学习将结合专家示范定义新行为、纠正式指导改进策略、自主经验打磨行为 [37]
Dexmal原力灵机发布实时VLA模型!消费级显卡上完成pi0模型30Hz以上推理
具身智能之心· 2025-11-04 00:05
核心观点 - 研究团队提出并验证了一套针对十亿参数级别视觉-语言-动作模型的实时推理优化方案,在单块消费级RTX 4090 GPU上实现了30Hz图像处理与最高480Hz动作生成的性能,突破了传统VLA模型因高延迟而无法应用于动态任务的瓶颈 [3][23][37] 核心优化策略 - 通过四步优化流程将2视图模型的推理时间从初始的106.5毫秒降低至27.3毫秒,满足了实时推理所需的33毫秒阈值 [7][10][22] - 第一步消除基础开销:使用CUDA Graph技术将内核启动开销减半,使推理时间从106.5毫秒降至约53.9毫秒;通过简化计算图进一步降至约45.8毫秒 [9][10][12][14] - 第二步内核深度优化:针对GEMM操作进行底层优化,包括RMS归一化权重折叠、动作-时间嵌入层折叠、QKV投影融合等,并利用Triton框架手动调整tile参数,累计减少约1.5毫秒推理时间 [16][18] - 第三步性能下界验证:通过Roofline模型计算得出理论最低时间为19.7毫秒,叠加同步开销后理论下界为20.6毫秒,实际实现27.3毫秒的差距仅30%,表明优化已接近硬件理论极限 [20][21][22] 全流推理框架 - 提出全流推理框架,通过VLM与动作专家的并发执行,在1秒内可并行运行30个VLM与480个动作专家,实现480Hz的轨迹生成频率 [23][27][30] - 重构动作专家角色,将其从“批量输出”改为“逐步生成”模式,并结合高频传感器数据实时调整动作,确保低延迟响应 [28][30] - 设计三层反馈环:480Hz力环用于紧急停止等快速反应,30Hz视觉环实现图像驱动的动作调整,<1Hz文本环用于任务规划等低速智能场景 [29][30] 真实世界验证 - 通过抓取下落钢笔的实验验证实时VLA的有效性,在200毫秒的时间约束下,10次连续实验成功率达到100%,与人类反应速度相当 [29][32][36] - 实验证明大参数VLA模型在完成此类动态任务时具备泛化优势,可直接迁移至更复杂的动态任务而无需重新设计模型结构 [36]
智源研究院开源单图高精度6D位姿估计方法
北京商报· 2025-10-27 13:04
技术突破 - 智源研究院宣布单图高精度6D位姿估计方法OnePoseViaGen开源[1] - 该方法无需预设3D模型 仅依赖单张RGBD参考图像即可在未知物体上实现高精度6D位姿估计[1] - 相关论文入选CoRL 2025 Oral[1] 行业痛点 - 传统6D位姿估计方法依赖高质量CAD模型或多视角重建 难以满足动态、实时需求[1] - 现有单张图像推理方法受限于尺度、外观和姿态的模糊性[1] - 视觉-语言-动作模型在毫米级精度操作场景中感知-控制链条难以闭合[1]
港科大最新!超越人类示范:基于扩散的强化学习为VLA训练生成 “高质量、低方差“ 数据
具身智能之心· 2025-10-23 04:00
文章核心观点 - 提出一种改进的扩散策略优化算法,用于为视觉-语言-动作模型生成高质量、低方差的训练轨迹数据,以替代对大规模人类示范数据的依赖 [2] - 该方法在包含130项长时程操作任务的基准测试上,仅使用扩散强化学习生成的数据训练VLA模型,平均成功率可达81.9%,相比基于人类数据训练的模型提升5.3个百分点 [2] - 该扩散强化学习方法被证实可作为一种高效替代方案,为VLA模型生成数量充足、质量优异且方差较低的演示数据 [2] 技术方法与优势 - 该方法构建了一套以扩散强化学习为核心的VLA训练流程,其优势在于借助扩散模型的高表达能力探索复杂行为,并依托迭代去噪过程的隐式正则化生成平滑一致的演示数据 [2] - 所生成轨迹不仅比人类演示数据更平滑、一致性更强,也优于标准高斯强化学习策略生成的轨迹 [2] - 该方法是一个通用强化学习框架,可适配任意VLA架构 [6] 性能成果 - 在LIBERO基准测试集上评估,基于扩散强化学习生成数据训练的VLA模型平均成功率为81.9% [2] - 该成绩相比基于人类数据训练的模型提升5.3个百分点,相比基于高斯强化学习生成数据训练的模型提升12.6个百分点 [2] - 该方法实现了超越人类示范的性能突破 [6]