VLA
搜索文档
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 04:07
" 世界模型解决具身智能相关问题,会不会距离太远? " 作者丨张进 编辑丨 林觉民 在 12 月 13 日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上,一场有关"一 脑多形"的圆桌论坛,将整个会场气氛推向高潮,在英诺天使基金 ED 王建明的主持下,浙江大学控制学 院副教授,微分智飞创始人高飞,宁波东方理工大学助理教授金鑫,上海人工智能实验室青年科学家王靖 博三位嘉宾围绕着具身智能、空间智能、世界模型等话题进行了热烈讨论。 通过主持人特有的投资人式、抽丝剥茧的提问,围绕着几位学者的研究和创业方向,我们可以了解到当下 最火热的世界模型、空间智能在具身智能领域的研究进展和细节,从而得以穿透资本笼罩在世界模型、空 间智能的迷雾,看到具身智能当下遇到的挑战与机遇。 01 具身智能技术路线仍未收敛 王建明: 三位学者研究的方向都非常不一样,开场先问一个共性的问题热热场,大家怎么看过去两年具身 智能的发展? 高飞: 现在还没到技术路线收敛的时候,还属于探索阶段,这是好事,有发散才有机会。这波具身智能的 热潮,大家本质期待的还是 AI 结合本体能带来的智能性的飞跃。我认为从发散探索到技术路线收敛、到 ...
最近收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-19 09:25
自动驾驶领域研究方向与人才需求 - 行业收到大量来自计算机、车辆、自动化和机械方向学生的咨询,显示该领域人才需求旺盛且背景多元 [2] - 对于计算机与自动化背景的学生,行业建议主攻深度学习方向,包括视觉语言模型、端到端自动驾驶和世界模型等前沿领域,这些方向被认为从入门到就业乃至深造均有广阔空间 [2] - 对于机械与车辆工程背景的学生,行业建议可从传统规划与控制、3D高斯泼溅等方向入手,这些方向对算力要求相对较低且更易入门 [2] - 行业指出,新人研究者需要经历大量实践与试错才能形成有价值的创新想法,方法论提升的关键在于广泛阅读论文和积极交流 [2] 前沿与细分技术赛道 - 行业关注的前沿研究方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型 [2] - 行业认为开集目标检测、占用网络、小样本/零样本学习等是相对竞争不那么激烈的细分赛道 [2] - 行业提供的论文辅导服务覆盖了广泛的技术方向,包括但不限于端到端、视觉语言模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达、单目感知以及车道线/在线高精地图 [3] 学术成果与发表支持服务 - 行业提供的论文辅导服务声称具有很高的中稿率,并已有成果被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL [7] - 服务支持发表的论文级别多样,涵盖自动驾驶顶会/顶刊、中国计算机学会推荐的A/B/C类会议期刊、科学引文索引的一至四区期刊、中科院分区的一至四区期刊、以及工程索引和中文核心期刊 [10] - 服务内容全面,包括论文选题、全流程指导以及实验指导 [6] - 服务范围不仅限于学术论文发表,还扩展至毕业设计论文、申请博士以及竞赛支持 [10] - 服务提供针对不同论文级别的差异化定价 [8]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 09:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
L3自动驾驶量产元年,离L4的梦想又近了一步?
新浪财经· 2025-12-17 06:30
文|极智GeeTech 近日,工信部首次批准L3级自动驾驶商业化运营,通过L3级自动驾驶准入申请的两款车型为长安深蓝SL03与极狐阿尔法S6,标志着我国首次允许车辆在特 定条件下由系统承担驾驶任务。可以预见的是,2026年将真正成为L3级自动驾驶的"量产元年"。 值得注意的是,此次明确了L3级自动驾驶的权责划分:当车辆在限定路段以不超过80公里时速自主行驶时,一旦发生事故,若系统处于激活状态,车企或 将承担主要责任。同时,准入要求L3级自动驾驶车辆的传感设备必须为"前装量产",后改装车辆无法获得试点资格,从源头保障技术稳定性。 行业普遍认为,L3级是从"辅助驾驶"到"完全自动驾驶"的重要过渡,后续的L4级自动驾驶将实现更大突破——在固定区域内,车辆可完全脱离人类干预,真 正实现无人驾驶。 这一小步,背后是全球十年的技术博弈。德国早在2021年就通过《自动驾驶法》,明确L3系统激活期间事故责任由车企承担,并要求车辆配备"黑匣子"记录 运行数据。奔驰Drive Pilot系统随后在德国高速公路上线,成为全球首个商业化的L3产品。相比之下,中国此次准入虽起步稍晚,却一步切入责任核心,未 走"测试"老路,而是直接启动 ...
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 00:05
【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C 先看看具身的一些方向,vln、vla、强化、还有一些real2sim2real。很多小白不知道如何下手,选择强化学 习还是vla?传统slam还是vln?哪些方向需要较大算力,哪些不需要?除此之外,什么样的本体适合自己研 究,预算不够怎么办?仿真可以吗? 对正在从事slam的同学,vln和vla都是一个比较好的切入方向。如果有机械臂,展开vla是一个不错的选择。 除此之外,没有硬件的同学可以尽量在仿真里面或者使用低成本的so-100等硬件完成实验。也有很多低成 本的科研平台,比如移动操作平台。四足和人形更适合强化,vla难度过高。 剩下就是一些方法论的问题了,有好的idea至关重要。对很多新人研究者,一个好的idea需要踩很多次坑。 如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了 最近收到很多小伙伴的咨询,其中不乏大模型、传统机器人、机械方向的同学。 ✅ 顶会/顶刊 ...
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 00:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]
输了裸奔!何小鹏打赌,明年8月要追上特斯拉FSD
新浪财经· 2025-12-12 14:19
公司核心动态与目标 - 小鹏汽车创始人何小鹏公开设下赌约,若到2026年8月30日,小鹏第二代VLA在国内能达到特斯拉FSD V14.2在硅谷的效果,他将在硅谷建一家中国风味食堂;若不能达到,小鹏自动驾驶中心负责人刘先明承诺将在金门大桥裸跑[2][3][21] - 小鹏汽车已宣布第二代VLA将在2026年第一季度正式发布,并计划向Ultra车型全量推送,赌约时间点设定在发布后约5个月,被视为关键优化期[5][23] - 何小鹏在试驾对比后认为,特斯拉FSD V14.2已进入“准L4阶段”,虽然存在瑕疵,但水平大幅超过去年[2][20] 技术路径与能力评估 - 何小鹏表示,在近期测试中,他首次感受到第二代VLA的上限能够达到L4的可能性,若多给3-5年时间,甚至可能达到L5[6][24] - 小鹏第二代VLA的核心创新在于砍掉了语言转译环节,首次实现从视觉信号到动作指令的端到端直接生成[8][26] - 为训练该模型,公司使用了接近1亿个视频片段,相当于人类司机驾驶65000年才能遇到的极限场景总和,并采用了阿里云3万卡云端算力集群,部署720亿参数的基座大模型,每5天完成一次全链路迭代[8][26] - 公司自研的图灵AI芯片单颗算力为750TOPS,整车配备3颗芯片集群,总算力达2250TOPS,是行业主流双Orin-X方案(508TOPS)的4.4倍[11][29] 竞争对比与挑战 - 特斯拉FSD拥有显著的数据优势,通过全球超600万辆测试车辆,每天产生16亿帧图像数据,累计行驶里程已突破96亿公里,其“影子模式”能在全球多样化交通环境中收集数据[14][15][32] - 在20公里复杂小路的实测中,特斯拉FSD V13.2.9版本接管5次,而小鹏第二代VLA仅需接管1次[16][33] - 搭载小鹏第二代VLA的测试车辆已能识别交警手势、理解红绿灯并提前反应,甚至在暴雨夜安全行驶[17][34] - 然而,特斯拉最新的FSD V14.2版本大幅提升了性能,解决了V13.2.9版本中95%以上的犹豫变道和异常刹车问题[17][34] - 小鹏承认在“泛化”能力上面临挑战,例如不同国家对黄灯交通规则的理解不同,如何平衡并实现良好泛化是公司正在探索的问题[12][13][30][31]
输了裸奔,何小鹏打赌,明年8月要追上特斯拉FSD
36氪· 2025-12-12 12:12
公司管理层表态与赌约 - 公司CEO何小鹏在硅谷试驾后认为,特斯拉FSD V14.2已进入准L4阶段,大幅超过去年水准,但公司第二代VLA的首个版本尚无法实现其全部能力[2] - 何小鹏与自动驾驶团队立下赌约:若到2026年8月30日,公司VLA在国内达到特斯拉FSD V14.2在硅谷的效果,他将在硅谷建一家中国风味食堂;若未达成,自动驾驶中心负责人刘先明承诺将在金门大桥裸跑[2] - 公司已宣布第二代VLA将在2026年第一季度正式发布,并计划向Ultra车型全量推送,赌约时间点设定在发布后约5个月,是关键优化期[4] 公司技术路线与能力展望 - 何小鹏表示,在最近几个月的测试中,首次感受到第二代VLA的上限能够达到L4的可能性,如果多给3-5年,也许能够达到L5[6] - 第二代VLA方案砍掉了语言转译环节,首次实现从视觉信号到动作指令的端到端直接生成[9] - 为研发该模型,公司采用了阿里云3万卡云端算力集群,部署720亿参数的基座大模型,每5天完成一次全链路迭代,何小鹏称明年云端算力将达5万卡甚至更多[9] - 公司自研的图灵AI芯片单颗算力为750TOPS,整车配备3颗芯片集群,总算力达2250TOPS,是行业主流双Orin-X方案(508TOPS)的4.4倍[12] 行业技术对比与公司挑战 - VLA(视觉-语言-动作)概念由谷歌DeepMind于2023年提出,旨在整合视觉、语言和动作能力,目前除该公司外,理想汽车、长城汽车等车企也在布局[8] - 特斯拉FSD通过全球超600万测试车辆,每天产生16亿帧图像数据,累计行驶里程已突破96亿公里,其“影子模式”能在全球多样化交通环境中收集数据[13] - 在实测中,20公里复杂小路上,特斯拉FSD V13.2.9版本接管5次,公司第二代VLA仅需接管1次,公司车辆能识别交警手势、理解红绿灯并提前反应,甚至在暴雨夜安全行驶[13] - 特斯拉最新FSD V14.2版本大幅提升性能,解决了V13.2.9版本中95%以上的犹豫变道和异常刹车问题[13] - 公司正在探索泛化问题,例如不同国家对黄灯交通规则的差异,这是追赶特斯拉FSD需要解决的能力之一[13] 公司研发投入与合作伙伴 - 用于训练第二代VLA模型的视频片段接近1亿个,无需人工标注,相当于人类司机驾驶65000年才能遇到的极限场景总和[9] - 阿里巴巴CEO吴泳铭曾亲自到访公司广州总部,与何小鹏会面[10]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2025-12-09 00:03
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓,行业量产方案趋于同质化,L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场,表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法,其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月,行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求,出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域,内容从视觉语言模型作为解释器,覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念,并拥有Python和PyTorch编程能力[10]
8个实战,彻底讲清VLA的各类方案
具身智能之心· 2025-12-08 01:11
具身智能与视觉语言动作模型技术现状 - 行业普遍面临视觉语言动作模型在实际硬件上难以跑出效果的挑战 [1] - 具身智能领域高度依赖硬件本体,算法与硬件紧密耦合,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用“真机数据”路线 [2] - 近2年来,算法技术快速发展,从ACT、OpenVLA到π0、π0.5、π0.6等新方法层出不穷,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台,支持各类研究需求 [4] VLA模型落地实施的核心模块与挑战 - 数据采集是首要模块,主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习方法,在机械臂结合VLA领域更多采用遥操作和VR [7][8] - 数据采集的质量保障及real2sim2real流程是关键问题 [8] - 模型训练前通常需进行仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧至关重要,包括如何微调模型、如何在小数据量下取得良好效果,许多模型存在机械臂运动准但夹爪操作不佳或运动误差大的问题 [10] - ACT算法相对简单易出效果,而π0、π0.5、GR00T等模型训练难度高,对细节和技巧要求严格,强化学习优化模型的经验门槛高 [6][10] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战仍大,需通过量化、蒸馏等轻量化技术最小化参数量并保证性能 [12] VLA技术学习与人才培养 - VLA技术更新快,学习曲线陡峭,许多学习者即使拥有真机硬件也不知如何入手 [13] - 行业推出了首个面向实战与求职的VLA小班课,内容涵盖机械臂硬件、数据采集、VLA算法与评测、仿真、主流VLA模型部署、VLA结合世界模型、真机实验及具身产业讲解 [14][16] - 课程为学员提供SO-100机械臂一套,包含示教臂和执行臂 [21] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10篇以上 [25] - 课程目标人群包括:具身领域求职者、VLA入门进阶者、相关领域学生、从传统CV/机器人/自动驾驶转行者以及对具身智能感兴趣的人员 [27] - 课程对硬件有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器,并要求学员具备一定的Python和PyTorch基础 [27] - 完成课程后,学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对具身产业有清晰认识,简历项目经验可达到1-2年以上算法工程师水平 [30] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28][31]