VLA
搜索文档
都在说VLA,很多同学连demo都跑不好......
具身智能之心· 2025-12-03 10:00
文章核心观点 - 视觉语言动作模型领域面临从理论到实践的巨大挑战,特别是在真机数据采集、模型训练与部署等环节,存在显著的学习壁垒和落地困难 [2][6] - 行业技术发展迅速,开源框架和新算法不断涌现,但模型性能高度依赖硬件本体和数据质量,仿真与真实场景存在泛化差距 [2][4] - 为应对上述挑战,推出了一个全面的实战课程,旨在通过软硬结合的方式,系统化地培养VLA领域的实操人才 [14][16][19] 技术发展现状与挑战 - 算法层面近2年涌现大量新方法,如ACT、OpenVLA、π0、π0.5、π0.6系列,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,支持不同类型的研究需求,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台 [4] - 核心挑战在于数据、模型、训练、部署的全流程打通,初学者常陷入长期调试而难以入门,尤其π0、π0.5、GR00T等模型的数据采集和训练包含大量未公开技巧 [6] VLA模型落地关键模块 - **数据采集**:主要基于模仿学习(遥操作、VR、全身动捕捉)和强化学习,机械臂领域多采用前两种,如何保证数据质量及实现real2sim2real是关键问题 [7][8] - **模型训练**:真机部署前需进行仿真调试,Mujoco、Isaac Gym等框架在数据不足时尤为重要,训练技巧至关重要,不同算法难度差异大,ACT相对简单易出效果,而π0和π0.5则极难训练成功 [9][10] - **模型部署**:面临模型参数量大(即使2B规模)导致的边缘芯片部署挑战,必须进行轻量化操作如量化、蒸馏,以在保证性能的同时最小化参数量 [11][12] 课程解决方案与目标 - 课程定位为国内首个面向实战与求职的VLA小班课,内容覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解 [14][16] - 课程目标为使学员掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对产业落地有清晰认识,学完后达到1-2年算法工程师经验水平 [30] - 面向人群包括具身领域求职者、VLA入门进阶者、相关专业学生、以及希望从传统CV/机器人/自动驾驶转行的人员,建议具备Python和PyTorch基础,推理需3060及以上显卡,训练需2张以上3090ti显卡 [27]
带硬件!最全的VLA实战教程来啦
具身智能之心· 2025-12-01 03:12
VLA技术发展现状 - 具身智能领域高度依赖硬件本体,算法性能与硬件紧密相关,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用真机数据路线[2] - 近2年来VLA技术框架快速发展,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,新方法层出不穷且性能持续提升,基于强化学习的优化方案使VLA模型运行更加流畅[4] - 开源硬件本体多样化,支持各类研究需求,包括SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台等[4] VLA落地技术挑战 - 完整打通数据采集、VLA模型训练优化和部署全流程存在较大困难,初学者可能花费半年时间仍无法有效入门[6] - 数据采集主要采用模仿学习和强化学习方法,模仿学习包括遥操作、VR和全身动捕捉三种方式,机械臂领域多采用前两种,如何保证数据质量和实现real2sim2real是关键问题[8] - 模型训练需要先进行仿真调试,在真机数据不足时sim2real技术尤为重要,使用mujoco、Isaac Gym等框架,训练技巧对结果影响显著,不同算法难度差异大[10] - 部署阶段需要进行模型轻量化处理,即使2B参数规模的模型对边缘芯片也是挑战,必须通过量化、蒸馏等技术在保证性能的同时最小化参数量[12] 教育培训解决方案 - 针对VLA技术快速迭代的特点,推出了国内首个面向实战与求职的VLA小班课,涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、部署等完整内容[14][16] - 课程配备SO-100机械臂硬件套装(包含示教臂和执行臂),由拥有5年以上机器人行业实战经验的VLA高级研究员授课,具备IEEE Trans系列顶级期刊发表经验[22][26] - 目标学员包括求职者、VLA入门进阶人员、高校学生及转行人员,要求具备Python和Pytorch基础,推荐使用3060以上显卡进行推理,2张以上3090ti进行训练[27] - 课程于2025年12月30日开课,共九章内容,学完后可掌握真机调试与数据采集、VLA算法部署、模型量化等技术,达到1-2年算法工程师经验水平[28][30][31]
首个面向求职+工业级的VLA实战教程!真机+各类VLA算法部署+量化+世界模型
具身智能之心· 2025-11-29 02:07
文章核心观点 - 视觉语言动作模型领域技术迭代迅速但实践门槛高,初学者在数据采集、模型训练与部署等环节面临显著挑战[1][6] - 行业强调真机数据的重要性,仿真与互联网数据在泛化性能上存在不足[2] - 为解决学习痛点,业内推出结合硬件与软件的全栈VLA实战课程,旨在通过真机实验提升学员的工程实践能力[14][16][19] VLA技术发展现状 - 近2年来VLA算法快速迭代,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,模型性能持续提升[4] - 基于强化学习的优化方案显著改善了VLA模型的操作流畅度[4] - 开源技术框架如LeRobot降低了入门门槛,开源硬件本体如SO-100机械臂、openarm双臂、XLeRobot移动操作平台支持多样化研究需求[4] VLA落地实践的关键模块 - 数据采集主要依赖模仿学习与强化学习,模仿学习通过遥操作、VR、全身动捕捉方式实现,机械臂领域侧重前两种[7][8] - 模型训练需借助Mujoco、Isaac Gym等仿真框架进行调试,sim2real技术在真机数据不足时尤为重要[10] - 模型部署面临参数量大的挑战,即使2B规模也对边缘芯片构成压力,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量[12] VLA实战课程内容 - 课程涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解等全栈内容[16] - 学员将获得SO-100机械臂硬件套装,课程设计面向求职者、进阶学习者、高校学生及跨行业转型人员[22][27] - 课程要求学员具备Python和PyTorch基础,推荐使用3060及以上显卡进行推理,2张以上3090ti显卡进行训练[27] - 完成课程后学员可掌握真机调试与数据采集、VLA算法部署、模型量化等技能,达到1-2年算法工程师经验水平[30]
理想汽车(LI):跟踪报告:3Q25 业绩承压,静待管理模式转型后的再次跃升
光大证券· 2025-11-28 12:47
投资评级 - 维持“增持”评级 [4] 核心观点 - 报告认为3Q25业绩承压主要由于销量低于预期(增程老车竞品力减弱+纯电新车爬坡不及预期)以及Mega召回计提等因素 [1] - 鉴于市场波动、行业竞争加剧以及产品结构变化,下调2025E-2027E Non-GAAP归母净利润预期至26亿元/30亿元/65亿元(此前预期约50亿元/123亿元/176亿元) [4] - 看好理想汽车基于家庭用户的定位与AI智能化的兑现前景,但需注意市场与竞争加剧风险 [4] 3Q25业绩分析 - 3Q25总收入为273.6亿元,同比下降36.2%,环比下降9.5% [1] - 3Q25毛利率为16.3%,同比下降5.2个百分点,环比下降3.8个百分点 [1] - 3Q25 Non-GAAP归母净亏损3.6亿元,为2023年至今首次单季度Non-GAAP亏损 [1] - 3Q25汽车业务收入为258.7亿元,同比下降37.4%,环比下降10.4% [2] - 3Q25汽车销量为9.3万辆,同比下降39.0%,环比下降16.1%;平均售价(ASP)为27.8万元,同比上升2.6%,环比上升6.7% [2] - 3Q25汽车业务毛利率为15.5%,同比下降5.4个百分点,环比下降3.9个百分点 [2] - 3Q25研发费用率为10.9%,同比上升4.8个百分点,环比上升1.6个百分点;SG&A费用率为10.1%,同比上升2.3个百分点,环比上升1.1个百分点 [2] - 3Q25 Non-GAAP单车亏损约0.4万元(对比3Q24 Non-GAAP单车盈利2.5万元、2Q25 Non-GAAP单车盈利1.3万元) [2] - 3Q25自由现金流净流出89亿元;截至3Q25末,在手现金合计约989亿元 [2] 未来展望与公司战略 - 管理层指引4Q25E交付量为10-11万辆;鉴于政策波动、竞争加剧及纯电销量占比抬升,预计4Q25E-1Q26E基本面仍将持续承压 [2] - 管理层指引自11月开始i6电池供应将采用双供应商模式,预计2026年初i6月产能可提升至2万辆 [3] - 预计2026E产品力有望改善,因素包括自研三电技术(800V高压平台+5C快充、自研5C电池将量产)、智驾体验持续升级(VLA已全量推送给AD Max车型、自研芯片M100将于2026E上车)以及理想改款/全新车型(尤其L增程系列)的产品力改善 [3] - 后续产品矩阵将回归精简SKU模式;继8月调整销售服务体系后,9月将智驾三个二级部门拆分成11个小部门,旨在提升运营和研发效率 [3] - 管理层明确重新切回创业公司的管理模式,当前已实现自研VLA大模型、开源Halo OS操作系统等;长期看好其在具身智能等AI相关领域的延伸兑现潜力 [3] 财务预测 - 预测营业总收入2025E为1117.4亿元,同比下降22.7%;2026E为1239.2亿元,同比上升10.9%;2027E为1450.26亿元,同比上升17.0% [5] - 预测Non-GAAP归母净利润2025E为25.59亿元,同比下降76.0%;2026E为30.09亿元,同比上升17.6%;2027E为64.62亿元,同比上升114.7% [5] - 预测Non-GAAP EPS(普通股,摊薄)2025E为1.20元,2026E为1.41元,2027E为3.02元 [5] - 预测Non-GAAP ROE(归属母公司,摊薄)2025E为3.6%,2026E为4.1%,2027E为8.4% [5] - 预测Non-GAAP P/E 2025E为55.5倍,2026E为47.2倍,2027E为22.0倍 [5] - 预测P/B 2025E为2.0倍,2026E为1.9倍,2027E为1.8倍 [5] 市场表现 - 当前股价为18.43美元,总市值为197.28亿美元 [6] - 近1个月绝对收益为-13.6%,相对收益为-11.0;近3个月绝对收益为-18.5%,相对收益为-26.0;近1年绝对收益为-20.9%,相对收益为-42.7 [9]
关于端到端和VLA岗位,近期的一些态势变化
自动驾驶之心· 2025-11-28 00:49
行业人才供需现状 - 自动驾驶行业高级岗位招聘困难,企业对经验丰富人才需求旺盛[2] - 行业技术发展从模块化转向端到端,从感知规控扩展至大模型领域,复合型人才稀缺[2] - 端到端VLA算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多技术融合[2] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA三大领域:VLM作为自动驾驶解释器、模块化VLA、一体化VLA及推理增强VLA[2] - 配套理论基础涵盖Vision/Language/Action三大模块、强化学习、扩散模型等核心技术[2] - 设置大作业章节指导学员从零搭建VLA模型及数据集[2] - 授课团队包括清华大学硕士生咖喱,在ICCV/IROS/EMNLP/Nature Communications发表多篇论文[8] - 团队成员Max在EMNLP/IROS/ICCV/AISTATS发表论文,GitHub开源项目总Star数超2k[8] - 团队成员Eric在RAL/IROS/EMNLP发表论文,专注在线建图感知与VLA算法预研[11] 端到端与VLA自动驾驶课程 - 课程覆盖端到端自动驾驶宏观领域,重点讲解一段式/两段式算法与理论基础[12] - 核心技术包括BEV感知、大语言模型、扩散模型和强化学习[12] - 设置两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法[12] - 授课老师Jason具备C9本科+QS50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家[14] - 教师团队拥有端到端算法量产交付经验,主持过多项自动驾驶感知产品研发[14] 课程参与门槛 - 学员需自备GPU,推荐算力在4090及以上级别[15] - 要求具备自动驾驶基础模块知识,熟悉Transformer大模型、强化学习、BEV感知等概念[16] - 需掌握概率论、线性代数基础及Python/PyTorch编程能力[16]
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 10:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
VLA+RL方向的合伙人招募了~
具身智能之心· 2025-11-24 10:02
招聘背景与需求 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解[1] - 公司向全平台粉丝招募该方向课程和项目辅导老师 共同输出高质量内容[1] 岗位要求 - 研究方向需聚焦视觉语言动作与强化学习领域[2] - 学术界应聘者需博士及以上学历 拥有相关方向顶级会议成果[2] - 工业界应聘者需具备实战经验和真机调试经验[2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] - 公司将提供高于行业平均水平的薪酬待遇[4] - 公司将提供丰富的行业资源支持[4] 联系方式 - 详细招聘内容可通过指定微信账号进行咨询[5]
认知驱动下的小米智驾,从端到端、世界模型再到VLA......
自动驾驶之心· 2025-11-24 00:03
小米汽车智能驾驶技术发展 - 智能驾驶能力发展遵循三个阶段:从1.0规则驱动到2.0数据驱动再到3.0认知驱动[7] - 技术发展路线为:2024年3月高精地图版本高速NOA → 2024年5月城区NOA → 2024年10月轻图和无图版本 → 2025年2月300万clips端到端版本 → 2025年7月1000万clips版本 → 近期世界模型版本[7] - 在安全、舒适和效率三个维度上,安全永远是第一位[4] - 泊车功能渗透率最高且用户使用最多,城区智驾投入最大且提升空间最大[8] - 2024年11月21日广州车展发布Xiaomi HAD增强版,将通过OTA冬季大版本Xiaomi HyperOS 1.11系列推送给用户[8] 世界模型技术特性 - 世界模型三大核心特性:生成的多样性(重建真实性+快速新场景生成+场景编辑)、多模态输入输出(文字/视频输入+视觉/LiDAR重建)、交互能力(闭环影响下一时刻自车行为)[9] - 世界模型更偏云端应用,通过数据生成、闭环仿真和强化学习提升模型性能,不直接参与车端Action输出[10] - 1.11版本引入世界模型和强化学习,主要解决极端corner case场景,采用重建+生成结合方式[8] VLA与端到端技术路线 - VLA(视觉语言动作模型)是认知驱动核心,为下一阶段量产目标,并非端到端的升级[7] - 端到端本质是模仿学习,VLA直接将大模型能力赋予自动驾驶,世界模型类似端到端plus[13] - VLA可与世界模型融合,学习人类高层次知识(交通规则/价值观)[13] - 小米大模型发展路线:LLM预训练 → VLM预训练 → 具身预训练 → 自驾VLA,已推出MiMo、MiMo-vl和MiMo-Embodied[13] - VLA的无损传递是相比端到端+VLM的最大提升[13] 自动驾驶技术社区资源 - 自动驾驶之心知识星球涵盖40+技术方向,包括VLA学习路线、端到端自动驾驶、世界模型等[16][27] - 社区成员来自300家机构与自驾公司,包括蔚小理、地平线、华为等头部企业[26] - 提供近40+开源项目、近60+数据集、行业主流仿真平台及各类技术学习路线[27] - 社区内部举办超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果[99]
VLA+RL方向的同学可以看过来了~
具身智能之心· 2025-11-21 00:04
招聘背景 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解 [1] - 公司向全平台粉丝招募该方向的课程和项目辅导老师 旨在共同输出高质量内容 [1] 职位要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历 拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集了大量视觉语言动作与强化学习方向的学习者 [3] - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]
自动驾驶三大技术路线:端到端、VLA、世界模型
自动驾驶之心· 2025-11-21 00:04
文章核心观点 - 行业当前致力于解决安全且经济的 corner case 问题 [1] - 技术路线存在三大核心争议:单车智能与智能网联、视觉与激光雷达传感器、模块化与端到端算法架构 [1] - AI决策领域呈现VLM、VLA、WA(去LLM)三种主流技术路径分化,代表企业分别为Waymo、特斯拉/吉利/小鹏、华为 [1] - 自动驾驶技术演进遵循从规则系统到数据驱动,再到认知建模的路径 [3] 技术演进与架构 分阶段模块化架构 - 传统架构划分为感知(定位)、预测、规划、控制五大独立模块 [5] - 感知模块负责处理图像与点云数据,完成目标检测与地图分割任务 [5] - 定位模块融合GPS、IMU及地图匹配技术以确定车辆精确位置 [5] - 预测模块在几何空间内运行,预测周围环境未来状态(如车辆轨迹) [5] - 规划模块结合导航与感知信息,在有限时间内生成安全舒适的可行驶轨迹 [5] - 控制模块精确执行油门、刹车及转向指令 [5] BEV与OCC感知技术 - BEV感知于2022年成为主流,OCC感知于2023年兴起 [3] - BEV核心价值在于统一多传感器数据的表征空间,解决信息融合根本问题 [14] - BEV优势包括天然适配动态/静态感知、快速替代传统检测方案、99%常规场景可收敛 [15] - BEV缺陷体现在非结构化场景与超复杂路口(150米+)存在瓶颈,暴露纯几何表征天花板 [15] - OCC占用网络提供时间维、空间维及不确定性数据,优于仅提供目标检测的BEV [6] - 为解决BEV高度信息缺失及LSS投影缺陷(离散稀疏、不连贯、无容错),行业引入3DGS技术 [16][17] - 3DGS通过"软投影"特性实现连续致密特征、平滑过渡及容错能力,提升BEV感知质量 [18][19] 端到端自动驾驶 定义与分类 - 端到端系统定义为从传感器原始输入到任务变量输出的完全可微过程 [20][22] - 狭义端到端指传感器数据直接输出规划/控制动作或行驶轨迹 [22] - 技术演进分为四个阶段:感知端到端、决策规划模型化、模块化端到端、One Model单一模型端到端 [31] - 模块化端到端(华为、小鹏、理想采用)实现感知与规划模块的梯度协同训练,接口基于特征向量 [31] - One Model端到端(特斯拉采用)采用单一深度学习模型直接映射原始信号至轨迹输出 [31] 优势与挑战 - 端到端本质是实现感知信息的无损传递,通过梯度反传实现全局优化 [22][25] - 传统分阶段架构问题在于各模块独立优化导致的阶段目标不一致、误差累积及计算负担 [27] - 端到端面临可解释性悖论(性能提升但安全性可解释性降低)、数据规模与质量要求高、长尾场景覆盖度不足三大挑战 [27][28] - 决策层技术路线包括模仿学习(快速获得基础能力但泛化性不足)与强化学习(学得鲁棒策略但依赖仿真环境) [29] VLM、VLA与WA技术路径 VLM(视觉语言模型) - VLM让AI负责环境理解与推理,最终决策权交由传统模块以确保过程可控,代表企业为Waymo [1][35] - 技术流程为环境信息输入→VLM→推理链/多任务→非直接控制输出,运行频率低(2-5 Hz) [36] - VLM能够解释复杂交通场景并提升系统可解释性,但存在"行动鸿沟",即语言输出与实际控制脱节 [36] - 输入数据包括视觉输入(多摄像头图像、BEV特征图)、Prompt指令、导航指令及用户指令 [36] VLA(视觉语言动作模型) - VLA试图让AI直接学习所有驾驶技巧,通过海量数据训练实现"端到端"决策,代表企业为特斯拉、吉利、小鹏 [1][39] - 技术流程为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,形成感知推理行动闭环 [40] - 语言输入演进历经直接导航指令、环境查询、任务级指令至对话式推理四个阶段 [42] - 动作解码器可采用自回归令牌器、扩散模型头或分层控制器生成控制信号或轨迹点序列 [42] - 小鹏第二代VLA为商业应用代表,技术发展历经语言模型作为解释器、模块化VLA、统一端到端VLA、推理增强VLA四个阶段 [44][48] WA(世界动作模型)与路线之争 - 华为ADS 4采用WEWA架构(世界引擎+世界动作模型),强调无需语言组件,直接建立时空认知能力 [1][52][55] - WEWA架构核心逻辑为视觉直接映射动作,跳过语言转化环节,关键指标为端到端时延降低50%、重刹率降低30% [56] - VLA架构核心逻辑为视觉-语言-动作三级传导,以语言为中介,优势在于复杂场景决策准确率提升及支持自然语言交互 [56] - 语言模型价值在于跨场景知识迁移能力(如预训练模型规划误差降低27.12%)、多模态信息统一表征及决策可解释性 [57] - 技术路线核心差异在于是否依赖语言抽象,VLA依赖语言模型归类场景,而WEWA主张直接学习时空物理规律 [55][57]