VLA
搜索文档
基于准确的原始材料对比小鹏理想VLA
理想TOP2· 2025-11-20 10:42
小鹏汽车自动驾驶技术架构 - 技术核心为拆掉中间的Language层,采用Vision和Language联合输入的语料,认为中间的L影响数据使用效率和scaling up [1][3][5] - 架构使用Latent CoT作为隐空间进行生成和diffusion,侧重世界模型理解物理世界运行规律以输出动作 [3] - 明确没有纯粹Language语料,VL联合语料具体训练方式未解释 [1][5] - 自动驾驶能力取决于数据规模和使用效率,最难数据为corner case,海外泛化性不错 [3][4] - 目前未做Agent,计划2026年基于该架构在广州进行L4级Robotaxi测试 [4] - 强化学习在现有架构中非核心,仅被提及两次,涉及未来需解决如何使强化学习更通用等问题 [6] - 对技术路线存在模糊点,包括scaling持续程度、安全下限、超级对齐有效性及定制化影响等 [5] 理想汽车VLA训练体系 - 训练分三个阶段:预训练云端32B VL基座模型、后训练引入Action转为接近4B参数量VLA、强化学习阶段优化驾驶行为 [8][10][11][13][14][15] - 预训练VL基座包含3D视觉、清晰度提升3-5倍的高清2D视觉、驾驶相关Language语料及VL联合语料(如导航信息与人类判断同步记录) [10] - 为适配车端算力,将32B云端模型蒸馏为3.2B的MoE模型以保证推理速度 [11] - 后训练采用短链条CoT限制在2-3步以内,并加入Diffusion预测未来4-8秒轨迹和环境 [13] - 强化学习分两部分:RLHF实现与人类驾驶习惯及安全对齐;纯强化学习利用世界模型生成数据,基于舒适性(G值)、无碰撞、遵守交规三大指标自我进化,目标超越人类驾驶水平 [14][15][19] - 司机Agent分层处理指令,通用短指令由端侧VLA直接处理,复杂长指令上传至云端32B VL基座模型处理后交由端侧执行 [16][17] 行业技术路线共识与差异 - 小鹏与理想均将VLA、VLM、世界模型等视为端到端体系架构,本质均为Physical AI,技术方向大同小异 [5] - 关键差异在于理想VL基座明确包含驾驶相关纯Language语料,而小鹏强调没有纯粹L语料 [1][2] - 理想认为交通领域是VLA最早落地场景,因规则清晰、控制自由度低(2-3个)、易于模仿学习及强化学习反馈明确 [18][19] - 理想预计2025年底至2026年初强化学习闭环后实际体验将有显著提升 [2]
从纯小白到具身算法工程师的打怪之路
具身智能之心· 2025-11-20 04:02
文章核心观点 - 文章系统性地介绍了具身智能领域的几个关键技术方向,包括VLA、VLN、强化学习与足式机器人、以及Diffusion Policy [1] - 这些技术方向代表了机器人领域当前主流且前沿的研究范式,旨在提升机器人的感知、决策和执行能力 [1][6][21] VLA(视觉语言动作)方向 - VLA机器人系统主要由视觉感知处理模块、语言指令理解模块和动作策略网络构成 [1] - 显示端到端VLA是最经典范式,将视觉语言信息压缩成联合表征后映射到动作空间,依赖不同架构、模型大小和应用场景取得不错性能 [1] - 隐式端到端VLA关注可解释性,利用video diffusion模型预测未来状态,再通过逆运动学生成动作,提高了可解释性和模型扩展潜能 [2] - 分层端到端VLA通过结合大小模型特点提升泛化性并保持执行效率,成为近期研究热点 [2] VLN(视觉语言导航)方向 - VLN机器人系统由视觉语言编码器、环境历史信息表征和动作策略三个模块构成 [5] - 采用大规模预训练视觉语言模型和利用LLM进行指令拆解是当前主流前沿范式 [6] - 环境历史信息处理分为隐式端到端和显示端到端两种方法,前者使用序列模型隐变量,后者使用拓扑图、BEV语义地图等模型进行环境建模 [6] - 策略网络学习从依赖数据增强转向从LLM蒸馏规划信息,物体导航任务要求机器人具备更强目标识别和未知环境探索能力 [6][7] 强化学习与足式机器人 - 强化学习是足式机器人的重要组成部分,涉及四足机器人基础包括运动学与动力学、多模态传感器融合 [9][10] - 双足机器人进阶重点在于平衡性与动态控制,以及PPO、SAC等强化学习算法与步态控制的结合 [10] - 高级算法包括深度强化学习与模仿学习,以及多任务训练与自适应实现行走、避障、攀爬等任务无缝切换 [10] - Sim2Real迁移与安全机制通过域随机化、RMA等策略降低仿真与现实差异,保证真实部署成功率 [10] Diffusion Policy(扩散策略) - Diffusion Policy通过直接对机器人动作建模,使动作更逼真灵活,在多个仿真环境和真机任务中相比最先进方法实现平均46.9%的性能提升,控制频率超过100Hz [21] - 扩散策略大模型RDT拥有12亿参数,提出物理可解释的统一动作空间,通过海量预训练展现强大零样本泛化能力,仅需1-5个示例即可学习新技能 [21][22] - 扩散策略应用范围正扩大至自主导航、灵巧手抓取等领域,能根据环境约束动态生成符合约束的动作轨迹 [22] - 技术体系从基础状态扩散策略不断发展,包括3D空间应用扩展、等变扩散策略、安全扩散策略等新研究方向 [23]
从技术路线到人员更迭,为什么智能驾驶又开始了“新造词”?
36氪· 2025-11-19 12:19
智能驾驶技术演进路径 - 行业技术路线从基于规则的模块化方案,演进至端到端方案,并进一步向VLA和世界模型发展 [2] - 基于规则的模块化方案采用感知、预测、规划、控制串联工作,时延长、信息损耗大,导致车辆博弈能力受限 [2] - 特斯拉于2023年8月推出端到端FSD V12测试版,国内华为、小鹏、蔚来、理想及Momenta等供应商相继跟进 [2] - 端到端方案通过投喂人类驾驶数据让系统学习驾驶,但存在无法主动学习和修正的短板,难以应对所有极端情况 [4] - 理想汽车在端到端基础上加入VLM,但开源模型能力有限,仅能辅助识别红灯读秒等简单场景 [5] - 小鹏和理想认为模仿学习无法突破L3,需转向VLA或世界模型,使系统能主动理解物理世界并执行驾驶动作 [5][7] - 小鹏第二代VLA取消语言转译环节,将多模态物理信号直接输出为控制信号,提升效率并支持自监督学习 [8] - 华为选择WAWE架构,蔚来推崇世界模型,均省略语言环节,通过多模态信息直接控制车辆 [8][10] - 博世指出VLA落地存在多模态特征对齐难、训练数据提取难、大模型幻觉及芯片带宽不足四大挑战 [10] 车企技术路线与战略布局 - 理想汽车发布VLA技术方案,将视觉转为语言再执行动作,并将研发资源向VLA倾斜,重组自动驾驶部门为11个二级部门 [7][15] - 小鹏汽车放弃传统VLA,全力开发第二代VLA,其算力达2250TOPS,由三颗自研图灵AI芯片支持 [8][11][12] - 蔚来自研芯片并强化世界模型,加入强化学习以处理长时序数据,推动人工智能技术变革 [11] - 华为坚持WAWE架构,避免VLA路线的"取巧"问题,通过多模态信息直接控制车辆 [8] - 文远知行与博世合作推出一段式端到端方案WePilot AiDrive,具备强兼容性和快速迭代能力,应用于奇瑞星途车型 [19][21] - 供应商方案因平台兼容性和成本效率优势,可能逐步取代部分车企自研,成为行业竞争主导力量 [18][21] 组织架构调整与资源投入 - 小鹏汽车在2024年10月调整自动驾驶负责人,由刘先明接替李力耘,标志技术路线从功能实现转向基础模型转型 [14] - 理想汽车于2024年9月重组自动驾驶部门,取消封闭研发模式,推动团队向AI组织演进 [15] - 蔚来在一年内进行三次自动驾驶部门调整,多名负责人离职,以聚焦世界模型2.0开发 [15] - 技术路线切换引发多轮组织变动,如小鹏将技术开发部分拆为AI端到端、AI能效和AI应用三个部门 [17] - 小鹏建设3万卡智算集群,训练费用投入20亿元,理想搭建13 EFLOPS云端算力,资金效率成为自研关键挑战 [21] 行业竞争格局变化 - 自研浪潮后,车企如长城、奇瑞、广汽转向与元戎启行、文远知行、Momenta等供应商合作 [18] - 供应商方案具备更优兼容性和迭代速度,可能缩小与自研车企的数据差距,重塑行业竞争格局 [18][21] - 当前技术仍属L2框架,但VLA和世界模型被视为通向L4的关键路径,小鹏认为第二代VLA可为具身智能铺路 [22]
从技术路线到人员更迭,为什么智能驾驶又开始了“新造词”? | 电厂
新浪财经· 2025-11-19 10:20
技术路线演进 - 智能驾驶技术从基于规则的模块化方案,演进到端到端方案,再到当前的VLA和世界模型 [2][5][8] - 模块化方案易于量产但时延长、信息损耗大,端到端方案通过数据驱动学习驾驶,但存在无法收敛的极端情况难题 [2][5] - VLA模型旨在让系统像人类一样主动理解和推理物理世界,理想汽车和小鹏汽车分别提出了包含语言转译环节和取消语言环节的不同技术路径 [8][9] 主要参与者技术选择 - 理想汽车选择VLA技术路线,其"VLA司机大模型"将视觉成像转译为语言再执行动作 [8] - 小鹏汽车选择更激进的第二代VLA路线,取消语言转译环节,将多模态物理信号直接输出为控制信号,以降低信息损耗并实现自监督学习 [9] - 华为和蔚来选择世界模型路线,华为的WAWE架构同样省略语言环节,蔚来则在其世界模型中力推加入强化学习模型 [9][12] 技术挑战与争议 - VLA路线面临多模态特征对齐困难、训练数据提取难、大语言模型幻觉以及芯片存储带宽不足四大落地难点 [11] - 反对观点认为VLA以语言为中心,语言模型的带宽不足以应对现实世界的复杂性和连续性,信息转换过程存在损失 [11] - 端到端方案被指出对物理世界缺乏真正的理解能力,难以处理从未学习过的特别复杂情况 [5] 公司战略与组织调整 - 小鹏汽车在2025年10月进行自动驾驶部门人事调整,由侧重基础模型研究的刘先明接替侧重产品功能实现的李力耘,标志着技术路线彻底转向基础模型 [13][14] - 理想汽车在2024年9月将自动驾驶研发部门重组为11个二级部门,重点是将研发资源向VLA倾斜,以推动团队向AI组织演进 [14] - 蔚来在相近时间也进行了自动驾驶团队的组织架构调整,多位负责人离职,以利于全力冲刺世界模型2.0版本的开发与交付 [15] 行业竞争格局变化 - 汽车公司自研自动驾驶技术的趋势发生变化,部分公司转向选择外部供应商作为核心解决方案提供方,例如长城汽车与元戎启行合作,奇瑞汽车与卓驭科技、文远知行合作 [18] - 解决方案供应商如文远知行推出的端到端方案获得高度评价,被认为具备可伸缩的算力适配能力和更强的车型兼容性,能消解自研车企的领先优势 [19][21] - 自研面临资金效率挑战,小鹏汽车为建成3万卡规模智算集群,仅训练费用投入就高达20亿元人民币,理想汽车也在云端搭建了13EFLOPS算力以支持研发 [21] 行业发展阶段与未来展望 - 当前所有技术路线的产品落地仍属于L2框架,但VLA和世界模型被认为是通向L4级自动驾驶的积极因素 [22] - 行业认为从2024年第四季度到2025年上半年是辅助驾驶技术落地的关键时期,领先身位的公司可能随时发生变化 [1] - 小鹏汽车认为其第二代VLA技术可以为具身智能的落地铺路,智能驾驶的真正竞争被认为刚刚开始 [22]
从投稿来看,具身方向的论文已经出现了堆积.......
具身智能之心· 2025-11-18 10:00
研究领域与方向选择 - 具身智能研究活跃方向包括视觉语言导航、视觉语言行动、强化学习以及真实到仿真再到真实的循环方法 [1] - 人形机器人研究热点集中在强化学习与真实仿真循环方法 若实验室具备相关机器人本体可优先考虑这些方向 [1] - 机械臂本体适合开展视觉语言行动、视觉语言行动结合强化学习以及扩散策略的研究 其中视觉语言行动方向普遍对计算资源要求较高 [1] - 四足机器人平台非常适合强化学习研究 但该领域创新点已相对有限 因已有较多研究工作完成 [2] - 移动操作是结合视觉语言导航与视觉语言行动的潜在优秀研究方向 [3] 研究挑战与资源考量 - 新入行研究者面临方向选择困惑 例如在强化学习与视觉语言行动之间 或传统SLAM与视觉语言导航之间难以抉择 [1] - 研究方向选择需考虑计算资源需求差异 某些方向需要较大算力而有些则不需要 充足算力是快速产出实验结果的必备条件 [1] - 研究者需根据预算选择适合的机器人本体 预算不足时可考虑采用仿真方案替代 [1] - 优秀研究想法的产生对新研究者而言充满挑战 往往需要经历多次试错 [3] 专业服务与支持 - 提供从CCF-A到CCF-C级别会议 以及SCI一区到四区期刊的论文辅导服务 覆盖毕业论文和博士申请支持 [3] - 辅导团队由来自国内外名校博士及头部企业研究员组成 具备ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议投稿与审稿经验 [3] - 服务提供全流程闭环辅导 涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略 [4] - 辅导结合工业界与学术界双重视角 不仅关注论文发表 更注重研究成果的落地应用价值 [5]
从蹒跚学步到模特步,人形机器人大模型做了什么
新财富· 2025-11-18 08:06
文章核心观点 - 人形机器人行业近期新机发布活跃,产品侧重点各异,运动能力显著提升,背后驱动力是人形机器人大模型的技术进步 [2] - 人形机器人大模型技术路径从LLM(大语言模型)演进至VLM(视觉语言模型),并进一步发展为VLA(视觉-语言-动作模型),核心突破在于将所有信息统一到可计算的Token空间 [4][5][6] - 行业主要玩家如谷歌、特斯拉、英伟达等在VLA模型及其应用上进行了不同路径的探索和布局 [9][12][18] 人形机器人行业近期动态 - 尽管特斯拉Optimus Gen3推迟至2026年发布,但行业新机发布节奏保持,近期发布了Figure03、1X Neo、小鹏IRON、优必选Walker S2、宇树H2等多款机型 [2] - 不同产品侧重方向差异明显:Figure03和1X Neo专注家庭场景,优必选Walker S2针对工业场景量产,小鹏IRON模特步以假乱真引发热议,宇树H2专注舞蹈等复杂动作 [2] - 人形机器人运动能力相比前两年提升非常明显,从蹒跚学步进化到动作自然优雅 [2] 人形机器人大模型技术演进 - 大模型发展脉络从LLM到VLM再到VLA,核心突破是将不同类型信息映射到统一的"符号空间",使机器人所有输入输出在连续但离散化可计算的Token空间中表达 [4][6] - Token化带来三大关键好处:统一建模空间(视觉、语言、运动可共享Transformer框架)、通用训练范式(可自监督预测下一个动作token)、迁移与泛化能力增强(跨任务场景迁移技能) [7][8] 谷歌RT-2模型 - VLA模型由Google DeepMind于2023年7月首次提出,发表于论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》 [10] - RT-2相较于前代RT-1最大变化是将机器人控制也由大模型完成,动作表示为token,与视觉-语言信息一起训练,实现AI闭环控制 [10] - 在新场景性能上,RT-2成功率从RT-1的32%提升至62%,提升原因不仅包括加入Action,LLM推理能力也有较大突破 [10] 特斯拉技术路径 - 特斯拉Optimus应用其自动驾驶FSD模型,项目leader在ICCV顶会提到FSD模型可迁移至Optimus [12] - 从FSD V12开始全面转向端到端,使用单一大型神经网络,像素及传感器数据作为输入,直接输出执行动作 [13] - 人形机器人输入输出数据复杂度远高于驾驶(涉及全身多个执行器控制),但特斯拉解决方案仍是创造大量数据,有超过100人团队进行数据采集工作 [15] - 特斯拉端到端方案并非完全黑箱,从"V"到"A"可输出中间结果(即VLA中的中间token"L") [15] 英伟达生态布局 - 英伟达发布全球首个开源通用人形机器人基础模型GR00T N1,具备双系统架构(快速与缓慢思考),一个系统推理环境指令并规划行动,另一个系统将计划转化为精确连续动作 [19] - 英伟达布局涵盖硬件到软件生态,包括机器人主控芯片Jetson Thor、仿真训练平台Isaac Lab和工具GR00T模型 [22] - 黄仁勋提出机器人公司需构建三台计算机协同解决方案:DGX(AI深度训练)、AGX(终端部署)、Omniverse with Cosmos(实时3D协作+数字孪生平台) [22] - Omniverse允许创建虚拟场景,Cosmos可生成符合物理规律的视频数据用于模型训练和评估,弥补真实数据采集效率低的问题 [22] - 许多初创公司如1X、Agility、Apptronik等使用英伟达大模型+Cosmos完整解决方案 [24] 行业不同观点 - 智元公司发布Genie Operator-1提出ViLLA架构,在VLA基础上加入"潜在动作"关键环节,并配套百万条真机轨迹数据集与"0代码动作创作平台",已开源GO-1并释放真机数据集 [26] - 王兴兴在世界机器人大会上对VLA路线持怀疑态度,认为这是"相对傻瓜式的架构",核心症结在于具身领域现存数据量严重不足 [26] - 王兴兴批评行业过度关注基础数据堆砌(真机数据、仿真数据、数采厂),认为焦点应放在模型架构本身,当前模型"不够好、也不够统一"是制约技术突破的关键 [26] - VLA将机器人动作纳入AI规划,但想要在复杂物理世界中游刃有余,机器人大脑还需更大进化 [27]
小鹏刘先明:VLA 2.0的「涌现」过程极其突然......
自动驾驶之心· 2025-11-14 00:04
第二代VLA技术架构与突破 - 技术研发遵循第一性原理,旨在省去从视觉到语言的转译部分,避免云端繁重计算和数据标注,从而极大提高推理速度[9][10] - 核心创新包括输入信号尽量使用真实世界的物理视频流,输出空间采用连续信号而非离散化文字表达,使网络结构极其简单[17] - 通过大量模仿学习和自监督,模型能够学会范本并进行推理,例如测试车在红灯转绿前能像人类一样缓缓起步,甚至通过观察两侧红绿灯变化进行推测[11] - 该架构在训练过程中直接内嵌推理逻辑,量产部署时可去掉云端计算部分,直接在本地芯片上运行,大大提高了测算和推理效率[22] - 为实现量产,公司从头设计了编译器,并结合模型、软件、编译器和硬件进行联合优化,以在图灵芯片上实现实时高帧率运行[24] 技术投入与“涌现”现象 - 从2024年至今,公司投入了3万张卡的算力,训练费用超过20亿元,并在今年二季度出现一次巨大的性能跳跃[7] - 技术“涌现”被描述为并非偶然,而是持续坚持投入和对Know-how累积的结果,例如长期处于痛苦阶段的研发工作突然迸发成效[5][8] - 在机器人领域,当数据和算力达到一定程度后出现阶跃,例如人形机器人IRON的步态在3月的一个晚上突然变得非常拟人[35][36] 传感器策略与视觉算法优势 - Robotaxi将不会装配激光雷达,因为激光雷达扫描频率仅10赫兹,且提高功率不符合车规级标准,在雨雾天气中还会产生噪声点[25][26] - 摄像头提供的信息量远超激光雷达,高像素摄像头每个像素包含三个通道,每通道8比特,一秒钟信息量巨大,但此前系统缺乏足够大的模型来充分利用[27] - 摄像头在图像信号处理算法转换时会损失16比特信息,动态范围值为2的16次方,在强光、逆光等环境下并非无法成像,而是信息被过滤处理[27] 人形机器人技术进展 - 公司人形机器人IRON除螺丝外全部自研,源于机器人产业链尚不成熟,且自研有助于降本和加速迭代[29] - 机器人能力提升被视为螺旋上升过程,从30分实际场景应用中发现新问题,逐步提升至40分,并在此过程中出现涌现时刻[32][33] - 超拟人步态的实现与仿造人类脊柱、肌肉群、腹腔和皮肤的腰部设计直接相关,前脚掌增加自由度并结合自研生成式控制器[39][41][42] - 第三代控制器采用生成式模型,步态与风格嵌入控制模型而非轨迹跟随,第四代“反重力器”控制器能根据连续姿态输入完成相应动作[45][46] - 基于通用生成式控制器,机器人可丝滑执行打太极、叶问蹲等动作,通过录制大师轨迹直接输入控制系统即可[46]
VLA方向,招募几个辅导的同学~
具身智能之心· 2025-11-12 04:00
公司活动与研究方向 - 公司近期指导多名学生完成论文并已投稿CVPR等会议[1] - 公司正面向全网招募3名视觉语言动作模型方向学生进行论文辅导[1] - 论文辅导主要研究方向包括VLA模型、轻量化、VLA+触觉、VLA+世界模型、VLA+强化学习[1] 业务拓展与联系方式 - 对论文辅导感兴趣的学生可通过联系指定微信账号进行咨询[2] - 联系时需备注特定信息“具身论文辅导咨询”以明确来意[2]
VLA方向,想再带几个同学冲一下具身的A会......
具身智能之心· 2025-11-10 10:00
文章核心观点 - 公众号"具身智能之心"正在招募视觉语言动作模型方向的研究人员进行论文辅导 重点关注VLA模型及其相关技术领域的深化研究[2] - 论文辅导名额有限 仅招募3名研究人员 以确保辅导质量[2] 行业研究方向 - 主要研究领域包括VLA模型基础研究 轻量化技术应用 VLA与触觉感知结合 VLA与世界模型整合 VLA与强化学习融合等前沿方向[2] - 研究团队已带领多名研究人员完成论文投稿 目前正陆续投递至相关学术会议[2]
从转型和研究来看,什么方向更适合第一篇论文?
具身智能之心· 2025-11-06 11:47
研究方向选择 - 具身智能领域的研究方向包括视觉语言导航、视觉语言动作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的同学,视觉语言导航和视觉语言动作是较好的切入方向[1] - 拥有机械臂硬件的研究者可选择展开视觉语言动作研究,预算不足的研究者可利用仿真环境或低成本硬件如so-100进行实验[1] - 四足机器人和人形机器人更适合强化学习方向,而视觉语言动作的研究难度较高[1] 研究方法与支持 - 产生优秀的研究想法对新人研究者至关重要,但往往需要经历多次尝试[1] - 公司提供从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导服务[2] - 辅导服务覆盖中国计算机学会推荐A类到C类国际学术会议以及科学引文索引一区到四区期刊[2] - 导师团队由来自国内外名校的博士及头部企业研究员组成,具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的投稿和审稿经验[2] - 公司提供工业界与学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[3]