VLA
搜索文档
卷至底价,年销2万台,机器人4S店开进商场
36氪· 2025-11-05 10:35
行业现状与市场动态 - 人形机器人行业正经历从早期概念到初步量产的转变,全国销量从去年的仅几百台预计增长至2025年的2万台,但已陷入激烈的价格战,价格逼近原材料成本[1] - 行业整体渗透率极低,在制造行业每10000名员工约拥有400台机器人,渗透率仅4%左右[2] - 商业化落地呈现“沿途下蛋”模式,近期涌现机器人6S店和4S店等新型零售业态,例如深圳龙岗的全球首家机器人6S店和北京亦庄4000多平方米的Robot Mall,集合了天工、宇树、优必选等40多家厂商的50多款机器人[5][7] 价格压力与商业模式挑战 - 价格战导致许多创新企业负担过重,没有机会拓展新应用场景,很多机器人企业亏本扩展市场,几乎已是底价[2][4] - 在规模效应显现前,机器人进入每个领域的二次开发和实施成本都特别高,若无行业典型客户愿意买单,则被迫进入相对成熟领域陷入价格竞争[4] - 当前最热卖的机器人订单集中于科研、教育和二次开发等场景,接下来巡检导览、工厂搬运等场景最有可能规模应用,特别是帮助人类完成危险工作[7] 技术路径与标准化进程 - 行业存在两条主要技术路径之争:一条是大量预采集数据训练的VLA路线,另一条是小样本高泛化的路径[9] - VLA路线高度依赖数据,但面临数据规模小、硬件构型不统一、缺乏采集标准等挑战,其泛化能力与通用性有限,难以实现精细操作[11] - 标准化工作正在积极推进,例如2025浦江创新论坛上落地的“浦江X具身智能标准化数据集平台(穹顶-DOME)”,旨在实现数据全链路闭环,北京国地中心也正牵头制定机器人的工艺流程、测试标准等[12][13] 应用场景与发展前景 - 人形机器人形态的优势在于能适应人类环境“拎包入住”,无需搭建特定轨道,双足行走使其地形通过能力优于轮式底盘[8] - 目前机器人功能仍处于“散装”阶段,只能完成特定单一任务,尚不能胜任如“保姆”类的复杂工作,居家养老陪护被视为杀手级场景,可能在未来10年内实现[7] - 行业认为具身智能的“GPT时刻”尚未到来,商业化落地需要产业链各方合力推动,特别是场景服务的系统集成商和场景所有方,而非仅靠整机开发厂商[8]
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 00:05
服务核心定位 - 公司推出针对具身智能领域的科研论文辅导服务,旨在解决研究人员在论文选题、入门及技术方向选择上的困难 [1] - 服务提供从CCF-A到CCF-C类会议、SCI一区到四区期刊以及毕业论文、申博等全区间辅导 [2] 服务覆盖的技术方向 - 辅导服务覆盖多模态大模型、视觉语言动作模型、强化学习、视觉语言导航、遥操作、数据采集、机器人仿真、虚实迁移、端到端学习、扩散模型等多个前沿顶会方向 [2] - 服务针对具身智能领域的研究方向选择难题,例如在强化学习与视觉语言动作模型之间、传统SLAM与视觉语言导航之间如何选择提供指导 [1] 服务团队与特色 - 导师团队由来自国内外名校的博士及头部大厂研究员组成,拥有在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验 [2] - 提供全流程闭环辅导,涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略的全方位支持 [2] - 服务兼具工业界与学术界双视角,不仅关注论文发表,更关注技术的落地价值 [3] 咨询与获客策略 - 公司为前10名咨询者提供免费匹配专属导师的服务,可进行深度会议并获得个性化的会议、期刊选投建议 [4]
詹锟兼任理想美国硅谷研发中心负责人并将直播讨论世界模型与VLA
理想TOP2· 2025-11-03 07:33
文章核心观点 - 讨论聚焦于特斯拉FSD v14的技术细节,特别是其是否集成了视觉语言动作模型(VLA)[1] - 探讨世界模型与VLA在自动驾驶领域的未来发展方向以及两者融合的可能性[3] - 分析数据和算力高需求对学术界参与自动驾驶研究的影响及潜在机会[3] 圆桌讨论主题 - 特斯拉FSD v14中值得国内关注的技术亮点[3] - 世界模型和VLA未来发展方向探讨,包括融合统一的可能性[3] - 数据和算力高需求导致学术界参与度下降,探索学术界在智驾领域的新机会[3] 参会嘉宾背景 - 嘉宾来自理想汽车VLA团队及硅谷研发中心、博世中央研究院VLA/闭环算法团队、长安汽车泊车团队等产业界关键角色[4] - 学术界代表包括上海交通大学人工智能学院博士生导师[6] - 其他参与者包括自动驾驶之心联创、深度流光联合创始人等行业专家[7][9]
端到端和VLA,这些方向还适合搞研究
自动驾驶之心· 2025-11-03 00:04
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分,行业建议学习前沿理论、底层基础理论和代码能力以应对技术快速迭代[1] 课程内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的技术演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,复现扩散模型、VLA等主流算法,学完后可达1年左右端到端自动驾驶算法工程师水平[5] 导师资质与行业资源 - 主讲导师为C9本科+QS前50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家,主持过多项自动驾驶感知和端到端算法的量产交付[6] - 公司拥有300+专职于自动驾驶/具身智能方向的导师,来自全球QS前100高校,近3年辅导学员超400名,中稿率达96%[8][15] - 优秀学员可获得清北/MIT等名校推荐信或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] 科研辅导服务 - 辅导覆盖选题、调研、idea验证、代码实现、实验、润色、投稿全流程,目标包括CCF-A/B/C、SCI1-4区、EI会议等[15] - 服务包含班主任全程督学,针对零基础学员提供基础课程,承诺6个月可完成一篇小论文[18] - 通过精准匹配系统从300+导师中筛选3-5位方向契合者,支持试听和退款机制[18][19]
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 00:03
文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地,其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇,增长了18倍,显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义,但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因,必须继承自强大的视觉语言模型,具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料,指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM,但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略,而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**:将连续高频机器人动作转换为VLM能理解的离散词汇,包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**:作为VLA策略的微调利器,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**:通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛,使VLA走向平民化 [28][29][33] - **视频预测赋能**:利用视频生成模型理解时序动态和物理规律,为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**:社区开发如RoboCasa365和WorldGym等新基准,致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**:通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题,开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限,上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生,2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者,其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]
特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线
36氪· 2025-10-27 08:11
技术发布与核心观点 - 特斯拉在计算机视觉顶会ICCV上展示了其世界模拟器 该模拟器能够生成逼真的驾驶场景视频 [1] - 特斯拉自动驾驶副总裁Ashok Elluswamy首次揭秘了公司的自动驾驶技术路线图 并明确表示端到端AI是智能驾驶的未来 [1][5] 世界模拟器功能与应用 - 世界模拟器可为自动驾驶任务生成新的挑战场景 例如模拟右侧车辆突然连并两条线闯入预设路径 [2] - 生成的场景视频不仅用于自动驾驶模型的训练 也可作为电子游戏供人类体验 [2] - 该模拟器技术同样适用于其他具身智能场景 如特斯拉的擎天柱机器人 [4] 端到端自动驾驶技术优势 - 特斯拉采用端到端神经网络实现自动驾驶 该网络利用来自多个摄像头、运动信号、音频及地图等数据 直接生成车辆控制指令 [8] - 端到端方法相比模块化方法的主要优势包括:更易于从数据中学习人类价值观、通过梯度整体优化网络、易于扩展处理长尾问题、具有确定性延迟的同质计算 [8] - 该方法能处理复杂权衡 例如在视野开阔且对向车道无车时 决策借用对向车道绕过积水 这用传统编程逻辑难以表达 [8][10] 端到端自动驾驶的挑战与解决方案 - 端到端自动驾驶面临评估困难 特斯拉的世界模拟器正是针对此难题 它使用海量数据集训练 能根据当前状态和行动合成未来状态 用于闭环性能评估和大规模强化学习 [11] - 系统面临"维数灾难" 输入信息量巨大 例如7个摄像头×36FPS×5百万像素×30秒画面等数据 大约会产生20亿输入Token 而神经网络需将其精简为2个输出Token(转向和加速) [13] - 为解决维数灾难 特斯拉通过庞大车队每天收集相当于500年驾驶总和的数据 并使用复杂数据引擎筛选高质量样本 以提升模型泛化能力 [13] - 针对可解释性和安全性调试困难的问题 模型可以生成可解释的中间Token用作推理Token [15] 技术实现细节 - 特斯拉的生成式高斯泼溅技术具有出色泛化能力 无需初始化即可建模动态物体 并可与其他模型联合训练 [18] - 该技术中所有的高斯函数均基于量产车配置的摄像头生成 [20] - 推理过程可通过自然语言和视频背景进行 该推理模型的一个小版本已在FSD v14.x版本中运行 [21] 行业技术路线对比 - 尽管端到端被视为未来 但业界在具体算法路线上存在VLA和世界模型之争 [24] - 华为和蔚来是世界模型路线的代表 而元戎启行和理想则选择VLA路线 也有观点认为应结合两者 [24] - VLA路线的优势在于可利用互联网海量数据积累常识 并借助语言能力进行长时序推理 有尖锐观点认为不使用VLA是因为算力不足 [24] - 世界模型路线支持者则认为其更接近问题本质 例如华为车BU CEO靳玉志认为VLA路径看似取巧并不能真正实现自动驾驶 [24] - 特斯拉的方案备受关注 因其在自动驾驶发展历程中的技术选择具有风向标意义 [24]
特斯拉世界模拟器亮相ICCV!VP亲自解密端到端自动驾驶技术路线
量子位· 2025-10-27 05:37
世界模拟器技术 - 特斯拉在ICCV顶会上推出世界模拟器 可生成看似真实的驾驶场景用于自动驾驶测试 [1][4] - 模拟器功能包括生成新的挑战场景 如右侧车辆突然连并两条线闯入预设路径 以及让AI在已有场景中执行避障任务 [5][7] - 生成的场景视频不仅用于自动驾驶模型训练 还可作为电子游戏供人类体验 [9] 端到端自动驾驶技术路线 - 特斯拉自动驾驶副总裁明确表示端到端AI是自动驾驶的未来 该方法利用多摄像头图像、运动信号、音频、地图等数据直接生成控制指令 [12][13][17] - 与模块化方法相比 端到端优势包括更易从数据中学习人类价值观、通过梯度整体优化网络、可扩展性更强以及具有确定性延迟 [17][18] - 端到端架构面临评估难题 特斯拉世界模拟器通过合成未来状态来连接策略模型 以闭环方式评估性能并支持强化学习 [22][23][24] 技术挑战与解决方案 - 端到端系统面临维数灾难 输入信息可达20亿Token 需精简为2个控制动作 [26][27][28] - 公司通过庞大车队每日收集相当于500年驾驶总和的数据 并利用数据引擎筛选高质量样本以提升模型泛化能力 [29][30] - 针对可解释性问题 模型可生成中间Token用作推理Token 生成式高斯泼溅技术可建模动态物体并与端到端模型联合训练 [32][35] 行业技术路线分歧 - 业界存在VLA和世界模型两条端到端自动驾驶技术路线分歧 华为、蔚来代表世界模型路线 元戎启行、理想选择VLA路线 [38][39] - VLA路线支持者认为该范式可利用互联网海量数据积累常识 并通过语言能力进行长时序推理 有观点认为不用VLA是因算力不足 [39][40] - 世界模型支持者如华为车BU CEO认为VLA路径看似取巧不能真正实现自动驾驶 特斯拉方案因历史选择正确而受关注 [41][43][44]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 00:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
VLA/世界模型/WA/端到端是宣传分歧, 不是技术路线分歧
理想TOP2· 2025-10-25 05:21
自动驾驶技术路线定义与共识 - VLA/世界模型/端到端等技术路线缺乏公认的排他性定义,其共同点是要求模型具备生成与真实世界一致的道路视频数据的能力,并以视觉信息为输入最终控制车辆行动 [1][2] - 技术路线之间的核心区别在于语言是否参与、参与深度以及架构形式,例如语言相关的token是当前LLM的text token还是潜在的photon token [2] - 不同企业宣传的VLA细节可能存在巨大差异,未来VLA与VLA之间的区别可能大于VLA与传统方法的区别 [2][3] 头部车企技术路线共性分析 - 头部智驾车企在自动驾驶探索上共同性大于差异性,内核是宣传分歧而非技术路线分歧 [1] - 理想汽车与特斯拉均认为扩散模型有利于自动驾驶,3D高斯泼溅生成世界模型优于神经辐射场,且世界模型用于评估很重要 [12] - 两家公司均认为将人类价值观编入代码极其困难,并且在输出层面,理想汽车认为输出轨迹优于直接输出油门方向盘电信号 [5][12] 语言在自动驾驶中的作用与潜力 - 语言在自动驾驶中的作用主要体现在长推理、用户交互价值观对齐以及理解世界 [1] - 对“预测下一个token”的理解分歧影响对LLM潜力的判断,越认为其不只是概率分布的人越认可语言可以理解世界 [1][12] - OpenAI联合创始人Ilya Sutskever认为,足够好的下一个token预测意味着模型理解了token产生的潜在现实,这使其可能推断出超越已有数据范围的高智慧行为 [13][15][17] 端到端架构的具体实现探讨 - 端到端缺乏公认的排他性定义,传感器信号进、输出轨迹亦可称为端到端,在此定义下理想汽车的VLA架构符合端到端特征 [5][7] - 有观点认为特斯拉端到端模型实际输出的是轨迹而非油门方向盘电信号,依据包括跨车型适配的冗余设计问题及特斯拉高管在公开场合的模糊回应 [5][6] - 特斯拉技术负责人Ashok Elluswamy在ICCV 2025上表示,端到端的核心前提是梯度必须端到端流动,输出形式是经验性问题,这进一步支持了端到端定义的宽泛性 [6] 技术演进的长远视角 - 马斯克提出长远来看AI模型输入和输出99%以上将是光子,这回应了关于DeepSeek-OCR等工作中降低计算量的潜力 [10] - VLA定义的最大公约数是输入为视觉或多模态,语言以某种形式参与,最终输出指向广义机器人动作的模型 [11] - 长远来看,可能不再使用text token来理解语言,而是采用更底层的表征方式 [10][11]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-24 16:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]