视觉 - 语言 - 动作模型(VLA)
搜索文档
“最强具身VLA大模型”,究竟强在哪儿?
36氪· 2025-11-20 07:38
模型性能与突破 - 机器人基础模型π*0.6在执行制作意式浓缩咖啡、折叠衣物、组装包装纸箱等任务时,成功率均达到90%以上[1] - 模型表现出极高的稳定性,能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[23] - 在最难的任务中,RECAP方法将任务吞吐量提高了一倍以上,并将任务失败率降低了约2倍,相比于仅进行监督微调的模型[20] 核心方法与技术 - π*0.6的核心贡献在于提出了一种通用训练方法RECAP,即基于优势条件策略的经验与纠偏强化学习[8] - RECAP方法包含三个阶段:离线强化学习、使用人类示范进行微调、以及结合自主经验和专家在线纠偏的在线阶段[10] - 该方法采用“优势条件化”策略,通过价值函数判断动作质量,再将策略更新转化为大模型擅长的监督学习问题,而非传统的策略梯度方法[13] - 模型架构方面,π0.6的Backbone从Gemma扩展到Gemma3,参数量达4B,Action Expert参数量升级到860M[20] 学习机制创新 - RECAP方法彻底扭转了机器人只会逼近"真值"的模仿学习模式,让机器人能从自己的错误中成长[3] - 该方法通过教练式纠偏,当机器人犯错时专家示范如何恢复,弥补了传统模仿数据的不足,是防止错误累积的关键[27][28] - 通过训练价值函数来解决信用分配问题,帮助机器人识别关键步骤与错误来源,使其具备从经验中变强的能力[31][39] - 优势条件化训练让模型在保留全部经验的前提下,从失败中学习,表现超越单纯示范数据的水平[42]
“最强具身VLA大模型”,究竟强在哪儿?
量子位· 2025-11-20 00:30
模型性能与突破 - Physical Intelligence公司推出的机器人基础模型π*0.6在多项现实任务中表现出色,例如连续一整天制作意式浓缩咖啡和数小时折叠衣物,任务成功率均达到90%以上[2][28] - 在最具挑战性的任务(如折叠多样化衣物和制作咖啡)中,其采用的RECAP方法将任务吞吐量(每小时成功次数)提升了一倍以上,并将任务失败率降低了约2倍,相比仅进行监督微调的模型有显著提升[27] - 模型展现出极高的稳定性,能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[28] 核心技术:RECAP方法 - π*0.6的核心突破在于引入了一种名为RECAP(基于优势条件策略的经验与纠偏强化学习)的通用训练方法,该方法彻底改变了机器人只会逼近“真值”的模仿学习模式,使其能从自身错误中成长[3][10] - RECAP方法包含三个阶段:指导(用人类示范教基础动作)、辅导(通过纠错指导修正错误)、练习(从自主经验中不断优化)[7][12] - 该方法采用“优势条件化”策略,通过价值函数判断动作质量,再将策略更新转化为大模型擅长的监督学习问题,从而避免了传统策略梯度算法(如PPO、REINFORCE)在异构机器人数据和Flow Matching动作生成模型上的不适用性[15][16][17][18][19] 模型架构与训练 - π*0.6是Physical Intelligence公司最新的视觉-语言-动作模型,其Backbone从之前模型的Gemma(2.6B参数)升级到Gemma3(4B参数),动作专家模型的参数量也增至860M[8][25] - 模型架构延续了前代设计,通过流匹配和离散动作token输出生成动作片段[26] - 训练过程分为离线强化学习(基于多机器人、多任务的示范数据训练)、微调(用人类示范适配具体任务)和在线阶段(机器人自主执行任务并结合专家纠偏更新)[20] 从错误中学习的能力 - RECAP方法最具启发性的特点是让机器人能够从失败经验中学习,通过专家纠错和强化学习相结合的方式,解决了传统模仿学习在持续互动系统中因滚雪球式误差导致任务失败的关键障碍[29][36][37][38] - 该方法通过训练价值函数来应对信用分配挑战,价值函数能预测状态优劣,从而识别导致好结果或坏结果的关键动作,为模型提供判断信号[45][47][50][51][52] - 优势条件化训练使模型能在保留所有经验(包括成功和失败)的前提下,从失败中学习,其表现因此超越了单纯依赖示范数据的水平[54][55]
英伟达长达41页的自驾VLA框架!因果链推理,实车可部署
自动驾驶之心· 2025-11-15 03:03
技术框架创新 - 提出Alpamayo-R1(AR1)视觉-语言-动作(VLA)框架,通过融合因果链推理与轨迹规划来解决端到端自动驾驶在长尾场景中的性能瓶颈 [1][2] - 核心创新包括构建因果链数据集、模块化VLA架构以及多阶段训练策略,旨在实现可解释推理与精准控制的衔接 [2][5] - 相较于仅基于轨迹的基准模型,AR1在高难度场景下的规划准确率提升高达12%,在闭环仿真中偏离车道率降低35%,近距离碰撞率降低25% [2] 性能与效率表现 - 模型参数从0.5B扩展至7B时性能持续提升,经强化学习后训练后推理质量提升45%,推理-动作一致性提升37% [2] - 实车道路测试验证模型具备实时性能,延迟为99毫秒,并成功部署于城市路况 [2] - 采用基于流匹配的动作专家轨迹解码器,相较于自回归解码方法,解码速度提升1.16倍,舒适性指标从44.05%提升至97.38% [121] 数据与训练策略 - 通过混合标注流程构建因果链数据集,包含70万个带结构化因果链标注的视频片段,覆盖8万小时驾驶数据 [48][91] - 训练策略包含三阶段:动作模态注入、有监督微调激发推理能力、强化学习后训练优化推理质量与一致性 [61][62] - 数据规模消融实验显示,模型性能随训练数据量增加而持续提升,200万样本模型较10万样本模型性能提升14.0% [113][115] 架构设计与组件优化 - 采用Cosmos-Reason作为VLM主干网络,该网络经过物理智能领域有监督微调,在LingoQA基准上的零样本评估准确率达66.2%,优于GPT-4V等对比模型 [16][117] - 支持多摄像头token化策略,可将每幅图像的token数量减少3.9倍,实现高效视觉编码而不显著牺牲驾驶指标 [22] - 使用基于单轮车动力学模型的轨迹表示方法,通过控制信号生成轨迹,提升闭环性能与物理可行性 [27] 应用与部署前景 - AR1框架为实现L4级自动驾驶提供了一条切实可行的路径,未来计划发布模型及部分因果链数据集 [2] - 在开环评估中,AR1在6秒时域的最小平均位移误差为0.794米,较基准提升4.8%,在高难度场景中提升达12% [96][98] - 闭环评估显示,AR1的AlpaSim评分从0.38提升至0.50,证明基于推理的决策能提升动态场景中的安全性 [100]
小鹏 VLA2.0 发布:智能驾驶体现更强大的泛化性:智联汽车系列深度之 39
申万宏源证券· 2025-11-10 12:57
报告行业投资评级 - 报告看好以小鹏 VLA2.0 为代表的算法推进,认为智能驾驶泛化能力将继续提升 [4] 报告核心观点 - 小鹏汽车发布的 VLA2.0 实现了技术突破,具备更强大的泛化能力和类似人类驾驶员的反馈 [3][4] - VLA 技术具备向其他具身智能领域(如机器人、低空经济)外溢的潜力 [3][4][29] - 小鹏 VLA2.0 的成功离不开自研图灵芯片在感知和低位宽推理方面的支持 [32][34] 小鹏发布二代 VLA,实现更多路况优化 - VLA2.0 效率更高、反应更快,做到了“小路更强悍,大路更舒适,场景更全面,丝滑贯通不同路况” [9] - 二代 VLA 最大特点是砍掉了传统 VLA 中间的语言转译环节,直接实现从视觉到动作,减少了信息损耗 [2][12] - VLA2.0 的两个核心是:输入信号尽量使用真实世界的物理信号(video stream),输出空间使用更多的连续信号,使得网络结构极其简单 [2][14] - 二代 VLA 在训练过程中消耗了 3 万卡算力,20 亿元以上训练费用,近 1 亿训练数据 [2][14] - 在实测中,VLA2.0 可以实现小路 NGP,行驶 20 公里的复杂小路仅需接管一次;能读懂道路参与者的手势;红灯倒计时结束时能慢慢向前蠕行 [3][5][14] - VLA2.0 计划于 26Q1 后在 Ultra 车型上全量推送,Max 车型也在规划中 [2][15] 算法:VLA/VLM 历史与延展-机器人与低空 - VLA(视觉-语言-动作模型)是一种将视觉输入、语言推理与动作输出端到端融合的模型,最早由 Google DeepMind 于 2023 年 7 月提出 [17][19] - VLA 模型的历史演进脉络清晰:从单一模态处理(BERT/ViT)→跨模态对齐(CLIP/BLIP)→多模态理解生成(DINO/LLaVA)→感知决策执行闭环(RT-2/OpenVLA) [3][5][20][22] - 由于技术方案未收敛,一二级市场对 HRL(分层强化学习)/MPC(模型预测控制)/VLA/端到端等不同技术路径存在投资分歧 [3][5][27][28] - 小鹏第二代 VLA 的发布对这类模型在产业界的应用形成了强力推动 [3][5][27] - VLA 技术可能会外溢到其他具身智能领域,例如机器人与低空经济,小鹏的机器人和其他产品有可能复用 VLA2.0 的架构 [3][29][30][31] 算力:图灵芯片-感知与低位宽 - 小鹏 VLA2.0 基于自研的图灵芯片,该芯片采用 DSA 架构,包含 40 核 ARM+双自研 NPU+双独立 ISP [32][33][35] - 图灵芯片特别支持 VLA 的 300 亿参数模型,而对标产品往往仅支持 10-50 亿参数模型 [32][35] - 图灵芯片的两大技术特点是:独立 ISP,模拟电路和感知部分增强,利于识别雾气/雨雪/深夜/逆光等场景;推测支持低位宽,利于 AI 推理,实现低功耗、低延迟 [3][6][32][34] - 与英伟达 Orin 相比,图灵芯片在支持低位宽和 AI 算法(VLA)方面更充分,高通 8797P 也支持 LLM VLA,验证了这一技术趋势 [3][6][32][35] 相关标的 - 报告提及的相关标的包括:小鹏汽车、德赛西威(小鹏的 ADAS 合作伙伴)、极智嘉、天准科技等 [3][4][36] - 根据盈利预测,德赛西威 2025年预计净利润为26.4亿元,对应PE为27倍;极智嘉2025年预计净利润为1.2亿元,对应PE为261倍;天准科技2025年预计净利润为1.5亿元,对应PE为67倍 [37][38]
未来已来!AI飞行器时代,将代替大部分人工
深思SenseAI· 2025-11-06 04:46
Infravision公司及其创新技术 - 公司开发了一套集成无人机、地面电动绞盘和专用牵引器具的完整系统,旨在实现对传统人工作业和直升机架线模式的全面自动化替代[3] - 系统的核心创新在于地面电动绞盘的自动放线技术,绞盘能随无人机的飞行姿态自动收放牵引绳,实现与空中牵引作业的精准同步,使系统获得堪比直升机的牵引能力与作业高度[3] - 自2018年成立以来发展迅速,在2025年完成了9100万美元的B轮融资,业务从澳大利亚起步,正逐步扩展至北美等全球市场[1] 无人机架线方案的优势 - 避免了人员高空作业和直升机飞行的安全隐患,不受地形限制,并实现了在超长距离跨度上的连续架线,无需人工干预[5] - 无人机体积小噪音低,对沿线环境和土地的影响更小,减少了施工对土地权属方造成的干扰[6] - 效率更高、成本更低,由于省去了出动大型直升机及大量人力的需求,每条线路的架设速度明显提升,整体项目周期缩短,同时施工成本也降低[6] - 优势在于提供成套解决方案,不仅有硬件,还包含软件和服务支持,使客户能够以租赁服务的方式快速采用这一新技术[6] 实际应用案例与效果 - 在澳大利亚Powerlink电网建设项目中,为一个抽水蓄能电站敷设约50公里长的275千伏高压输电线路,无人机系统展现了更高的施工效率和安全性[7] - 传统方法需要出动直升机反复架设导引绳,而Infravision的方案一次性连续铺设了超长距离的线路[7] - Powerlink的CEO评价称,无人机架线更灵活多能,且对土地的影响更小,安全性更高,相较直升机等传统手段具有显著优势[7] Infravision公司的成功战略 - 战略上精准聚焦于高价值细分场景,即电力传输线路架设,这个市场痛点明显且随着新能源大发展急需扩容升级[8] - 选择从澳大利亚本土切入,在本国广袤地形和能源项目中验证技术,从而建立了样板工程,用有限资源撬动了重要客户需求[8] - 注重提供端到端解决方案而非单纯卖产品,通过租赁设备并提供作业服务的模式,深入参与客户项目,形成长期合作关系[9] - 积极拓展全球版图,在澳洲市场验证成功后,迅速将目光投向电网升级需求巨大的北美市场,与美国PG&E等龙头客户建立联系[10] - 组织扩张上执行力强,预计2025年底员工将从70人增至150-200人,以满足订单和项目需求[10] 空中具身智能赛道概述 - “空中具身智能”指的是赋予飞行机器人以自主认知和物理交互能力的前沿领域,研究主体是各类AI驱动的、能自主决策、感知环境并直接操作物理世界的无人机群体[11] - 其技术基础是视觉-语言-动作模型,流程为感知(通过摄像头、激光雷达等)→认知(理解环境、对齐任务目标、规划行动路径)→行动(向飞行器底层控制系统发送指令并执行)[11] - 价值在于灵活行动、学习、决策,能挂载机械臂或专用工具直接执行带电喷涂、清洗等需要物理接触的任务,承担重复、危险的作业环节[12] 无人机集群控制与技术应用 - 无人机集群控制是指协调多架自主无人机为完成共同任务而协同工作的技术,控制方式可以是集中式或分散式[12] - 带来的实际好处是多机并行覆盖,使同样的巡检、测绘、搜救任务可以更高效[12] - 典型应用场景覆盖电力设施巡检(包括国家电网的室内变电站、地下电缆及发电厂燃烧炉)、森林资源调查与应急消防任务等[12] 行业主要参与者 - 微分智飞是国内代表性的创业公司,专注于打造通用空中机器人具身智能“大脑”及集群系统,核心技术涵盖自主导航、环境感知、机器学习决策和群体协同[13] - 该公司推出了P300自主探索无人机等产品,可在无GPS信号环境下自主完成矿洞、隧道等复杂空间的测绘巡检任务[13] - 其定位在于提供通用型平台,赋予各类无人机独立智能和群体协作能力[14] - 北京威斯博科技专注于GNSS拒止环境下自主定位、避障、导航、跟踪、识别的无人机及蜂群的研发[15] - 美国的Exyn Technologies开发了能在地下矿井自主飞行的无人机,拉脱维亚的Aerones公司使用系留多旋翼无人机为风力发电机叶片清洗和维护[15] - 传统无人机巨头如大疆开始入局具身智能领域,发布了具备更强负载和智能避障能力的机型,如可载重30公斤的FlyCart30物流无人机[15] 当前市场创新热点 - 通过强化学习训练无人机掌握特技飞行技能,在算法上达到或超越人类飞手水平[17] - 利用数字孪生和仿真环境对无人机进行大规模试错训练,缩短开发周期[18] - 将新型软体机器人技术引入飞行器设计,使其在发生碰撞时更具弹性以保护自身[19] 未来发展愿景 - 电网只是第一块被改写的拼图,微分智飞等在矿业、轨道交通和应急管理等垂直领域已有了一些标杆场景[20] - 微分智飞未来将拓展更多行业应用场景、完善产品线提升通用性、并探索海外市场[20] - 行业提供的并非“一台更专业的无人机”,而是一种全新的作业范式,将危险与重复性工作解构为一系列可被机器自主执行的标准化任务[20]
英伟达一篇长达41页的自驾VLA框架!因果链推理,实车可部署算法Alpamayo-R1
自动驾驶之心· 2025-11-05 00:04
文章核心观点 - 英伟达发布名为Alpamayo-R1(AR1)的41页自动驾驶VLA框架,旨在通过将因果链推理与轨迹规划相融合,解决现有端到端模型在长尾场景中因监督信号稀疏和因果推理能力不足导致的性能差问题[1] - AR1框架包含三大核心创新:构建因果链数据集、采用模块化VLA架构、实施多阶段训练策略,其在高难度场景下的规划准确率提升高达12%,闭环仿真中偏离车道率降低35%,近距离碰撞率降低25%[2] - 该模型通过强化学习后训练,推理质量提升45%,推理-动作一致性提升37%,模型参数从0.5B扩展至7B时性能持续提升,实车测试延迟为99毫秒,为L4级自动驾驶提供了可行路径[2] 技术背景与问题定义 - 自动驾驶系统正从传统模块化架构转向端到端框架,但当前端到端方法在处理长尾场景与安全关键场景时仍存在脆弱性,与实现稳健L4级自动驾驶的需求存在显著差距[3] - 大语言模型的最新进展为填补推理差距提供了潜力,其推理时间范式使推理成为可调节资源,但现有视觉-语言-动作模型要么缺乏显式推理过程,要么采用无结构化推理,难以泛化到训练分布之外的场景[4] - 有效的自动驾驶推理必须具备因果锚定能力,且结构上与驾驶任务对齐,推理轨迹应通过因果链将场景证据与驾驶决策显式关联,并直接约束低阶轨迹生成[5] 核心架构与技术创新 - AR1采用模块化VLA架构,以Cosmos-Reason VLM作为主干网络,整合了为物理智能应用预训练的视觉-语言模型和基于扩散模型的轨迹解码器,可实现实时生成动态可行驶的规划方案[5][12] - 视觉编码方面,AR1支持单图像token化、多摄像头token化和多摄像头视频token化等多种策略,其中多摄像头tokenizer利用三平面作为3D归纳偏置,可将每幅图像的token数量减少3.9倍,满足实时推理需求[21][22] - 轨迹解码采用基于单轮车动力学模型的动作表示,通过流匹配框架将离散轨迹token解码为连续表示,提升了闭环性能和解码效率,相较于自回归解码,流匹配解码的舒适性提升至97.38%,解码速度提升1.16倍[27][121] 因果链数据集构建 - 构建了结构化的因果链标注框架,通过"自动标注+人机协同"的混合流程生成与驾驶行为对齐、以决策为核心且具备因果关联的推理轨迹,解决了现有思维链数据集中行为描述模糊、推理流于表面和因果混淆等问题[5][30][31] - 数据集定义了封闭的高阶驾驶决策集合和开放的因果因素类别,通过关键帧标注确保因果局部性,仅对包含显式驾驶决策的片段进行标注,最终生成了70万个带结构化因果链标注的视频片段[36][37][40][91] - 评估采用融合人工验证与LLM自动评估的混合策略,发现结构化CoC推理轨迹相较于自由形式推理轨迹,因果关系得分相对提升132.8%,自动标注与人工评估的对齐率达92%[59][60] 训练策略与性能优化 - 设计了三阶段训练策略:通过动作模态注入使模型能够预测车辆控制输出;利用CoC数据集进行有监督微调,教会模型生成因果锚定的解释;采用结合大型推理模型反馈的强化学习,优化推理质量、推理-动作一致性和轨迹质量[61][62] - 强化学习后训练采用GRPO算法,整合推理质量奖励、CoC-动作一致性奖励和低阶轨迹质量奖励三个互补信号,使最可能轨迹的ADE降低9.4%,推理评分提升45%,推理-动作一致性提升37%[77][78][111] - 通过高信息增益数据筛选优先选择模型隐含奖励与显式奖励存在分歧的样本进行后训练,实现了高对齐效率与稳健学习动态,性能优于基于均匀采样数据的训练[85] 实验结果与性能评估 - 开环评估显示,集成CoC推理的AR1模型在6秒时域的minADE为0.955米,较基础模型提升4.1%,在高难度场景中性能提升更为突出,minADE达0.868米,较基准提升12%[96][98] - 闭环仿真中,AR1的偏离车道率降低35%(从17%降至11%),近距离碰撞率降低25%(从4%降至3%),整体AlpaSim评分从0.38提升至0.50,证明基于推理的决策能提升动态闭环场景中的安全性[100][101] - 模型规模消融实验表明,随着参数从0.5B扩展至7B,开环性能持续提升,7B模型的minADE较0.5B基准降低11%;数据规模消融显示,200万样本模型性能最佳,minADE较10万样本提升14.0%[110][113][115]
Dexmal原力灵机开源Dexbotic,基于PyTorch的一站式VLA代码库
机器之心· 2025-10-22 06:32
Dexbotic开源VLA工具箱发布 - Dexbotic是一套基于PyTorch框架开发的开源视觉-语言-动作模型代码库,主要面向具身智能领域研究者 [3] - 整体架构包含Data、Experiment、Model三大核心组件,具备统一模块化VLA框架等五大特征 [3] - 提供同时支持多个主流VLA算法的代码库,用户只需配置一次环境即可复现各类主流VLA算法 [3] 行业痛点与解决方案 - VLA技术研发分散化严重,研发人员基于不同深度学习框架和模型结构进行探索 [5] - VLA研发流程异常繁琐,算法对比评测需要配置多份实验环境和数据格式 [5] - Dexbotic通过标准化、模块化、高性能的一站式科研基础设施解决这些痛点 [7] 技术架构与核心功能 - 数据层定义Dexdata统一格式整合多源数据并优化存储空间 [9] - 模型层引入基础模型DexboticVLM作为开发多样化VLA策略的核心基础 [9] - 实验层创新性引入实验脚本机制,用户修改最少量的实验配置即可开展新实验 [11] 平台主要特征 - 统一模块化VLA框架兼容主流大语言模型开源接口,支持多种业界领先算法 [13] - 开源多个性能更强的预训练模型,在各类主流仿真器及真实物理世界任务中带来显著性能提升 [13] - 实验框架采用"分层配置+工厂注册+入口分发"架构,保证系统稳定性同时兼具灵活性与扩展性 [13] - 全面支持云端与本地一体化训练,适配从大规模云平台到RTX 4090等消费级显卡的本地训练环境 [13] 硬件支持与生态建设 - 推出首款开源硬件产品DOS-W1,采用完全开源的硬件设计 [16] - 提供全链路机器人训练与部署,支持UR5、Franka和ALOHA等主流机器人 [14] - 与RoboChallenge平台形成深度协同,构建"开发-训练-推理-评测"完整技术闭环 [20] - 计划扩展更多先进VLM基座模型和开源硬件,建立社区驱动的模型贡献机制 [19]
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心· 2025-07-25 02:03
核心观点 - 视觉-语言-动作模型(VLA)是将基础模型的智能从数字世界延伸至物理空间的关键技术路径,通过处理视觉与语言输入并生成实时动作,赋能机器人系统[1][9] - 北京大学-灵初智能联合实验室首次提出从动作词元化(action tokenization)视角统一理解VLA模型的新框架,系统分析八种主流action token及其发展趋势[2][8] - VLA模型的快速发展受基础模型与数据资源双重驱动,呈现U形演进结构[15] VLA统一框架与Action Token分类 - VLA模型通用框架:视觉与语言输入经VLA modules逐级处理,生成逐渐具体的action token并转化为动作输出[10][11] - VLA module定义为支持端到端梯度传播的最大可微子网络或不可微功能模块,承担场景感知、动作规划等特定能力[12] - Action token是VLA modules间传递的动作表示,可理解为"动作语言",当前主要分为八类[13][16]: - Language Description(语言描述):分为子任务级language plan和原子动作级language motion[16] - Code(代码):含逻辑控制和机器人API调用的程序代码[22] - Affordance(可操作性):基于空间的交互表示如关键点、边界框等[25][26] - Trajectory(轨迹):时空连续状态序列[29][30] - Goal State(目标状态):任务预期结果的视觉呈现[34] - Latent Representation(隐式表示):预训练得到的动作相关隐向量序列[36] - Raw Action(原始动作):关节角度等底层控制指令[38] - Reasoning(推理):解释动作原因的自然语言思考过程[42] Action Token发展趋势 - 未来VLA模型将采用多种token协同架构:language plan用于高层任务分解,affordance+trajectory+goal state实现精细控制[10][21] - Code需构建更完善机器人API库并引入形式化验证机制以释放潜力[24] - Affordance将向三维表达、时序建模和鲁棒性增强方向发展[33] - Trajectory需突破三维空间表征、轻量化生成和语义融合等挑战[32] - Latent representation需解决粒度、语义覆盖和任务对齐问题[37] - Raw action面临数据规模不足和跨本体泛化等瓶颈[41] - Reasoning需平衡实时性与推理深度[46] 产业化进展 - 灵初智能自研VLA模型Psi R1已在麻将机器人场景验证,将在2025世界人工智能大会展示30分钟连续博弈能力[2][51] - 公司计划在WAIC 2025集中展示外卖机器人、超市打包机器人等应用案例[3] - 技术路线从理论突破走向实际应用,标志具身智能向认知决策和长程操作的关键跃迁[51] 数据支撑体系 - VLA数据金字塔分为三层: - 底层:网络数据与人类视频,建立通用视觉语言理解能力[47] - 中层:合成与仿真数据,提供高性价比动作标签数据[48] - 顶层:真实机器人数据,包含物理世界动态约束[49] - 当前最大规模机器人数据集仅百万级,远低于LLM所需的十亿级语料[41]
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 12:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]