Workflow
VLA
icon
搜索文档
VLA与自动驾驶科研论文辅导第二期来啦~
自动驾驶之心· 2025-08-16 12:00
理想VLA司机大模型技术进展 - 核心能力提升体现在三方面:更懂语义(多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)[1] - 四大核心能力展示:空间理解能力、思维能力、沟通与记忆能力(含RAG技术)、行为能力[1][3] - 技术演进路径:从VLM+E2E发展为涵盖端到端、轨迹预测、视觉语言模型、强化学习的综合技术栈[5] 自动驾驶技术研究趋势 - 学术界焦点转移:传统BEV感知、车道线检测等研究减少,大模型与VLA成为顶会主流方向[5] - 工业界动态:传统感知/规划方案仍在优化,但技术迭代明显向VLA倾斜[5] - 典型技术融合案例:思维链输出结合动态目标、静态元素、导航地图等多维度数据[3] VLA论文指导课程体系 课程架构 - 周期设置:12周在线科研+2周论文指导+10周维护期[14][34] - 核心模块:模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)、推理增强模型(Week12)[9][11][35][37] - 方法论覆盖:选题(Week3)、传统端到端技术(Week4-5)、VLA端到端技术(Week6-7)[9][11][30] 教学资源 - 代码库支持:提供基于模仿学习、扩散模型、VLA的6个开源项目基准代码[26] - 数据集配置:采用nuScenes/Waymo/Argoverse等公开数据集,VLA任务结合大语言模型生成数据[27] - 必读论文清单:包含5篇顶会论文如《Senna》《OpenDriveVLA》等[28][29] 学员培养目标 - 能力输出:完成论文初稿、掌握算法对比分析方法、获得定制化研究idea[20][34] - 技术深化路径:从理论认知(Week1-2)到代码实践(Week6-8)最终形成完整论文(Week13-14)[30][31] - 硬件门槛:建议配置8张NVIDIA 4090显卡,最低要求4张[21]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-14 12:00
具身智能论文辅导服务 - 提供具身智能领域的1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习和sim2real 主要面向A会和B会投稿需求[1] - 辅导覆盖多个顶级学术会议 包括CVPR ICCV ECCV ICLR CoRL ICML ICRA等[2] - 辅导老师均来自具身学术研究领域 具备活跃的学术研究能力和创新idea[2] - 咨询方式包括添加微信oooops-life或扫码联系 需备注"具身论文辅导咨询"[3]
自动驾驶VLA论文指导班第二期来啦,名额有限...
自动驾驶之心· 2025-08-14 06:49
理想VLA司机大模型技术进展 - 核心能力提升体现在三方面:更懂语义(多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)[1] - 四大核心能力展示:空间理解能力、思维能力、沟通与记忆能力(含RAG技术)、行为能力[1][3] - 技术整合动态目标、静态元素、导航地图等多元素进行思维链输出[3] - VLA技术路径融合端到端学习、轨迹预测、视觉语言模型和强化学习等前沿技术栈[5] 自动驾驶技术研究趋势 - 学术界研究重心从传统BEV感知/车道线检测转向VLA大模型方向[5] - 工业界仍在优化传统感知规划方案 但学术顶会已较少收录相关论文[5] - VLA成为自动驾驶领域最受关注方向 存在多个待探索子领域[3][5] VLA论文指导课程体系 课程架构 - 14周系统训练:包含传统端到端/VLA技术对比、模块化模型设计、推理增强模型等模块[9][11][26] - 采用"2+1"多师制教学(名校导师+行业专家+科研班主任)[22] - 配套资源包括公开数据集(nuScenes/Waymo等)、Baseline代码库(VAD/UniAD等)及5篇必读论文[23][24] 学员产出 - 可获得论文初稿、结业证书及潜在推荐信[22] - 掌握从选题(Week3)、实验(Week6-12)到投稿(Week14)全流程方法论[26][27] - 硬件要求最低配置4张NVIDIA 4090显卡 建议8张以上[19] 教学特色 - 提供定制化研究idea(每位学员1个)及持续6个月答疑服务[18][30] - 强制学术诚信规范 要求每周1-2小时课外学习及全勤参与[19][22] - 三重能力培养:理论体系构建(Week2)、代码实践(Week6-8)、论文写作(Week13)[6][26]
正式开课!端到端与VLA自动驾驶小班课,优惠今日截止~
自动驾驶之心· 2025-08-13 23:33
行业技术发展 - VLA(Vision-Language-Action)被视为自动驾驶量产的新里程碑,技术从E2E+VLM演进至VLA,引发行业广泛关注并吸引传统规控、感知等领域人才转型需求[1] - 端到端自动驾驶技术呈现多方向分化,涵盖多模态大模型、BEV感知、强化学习、扩散模型等关键技术栈,但跨领域学习门槛高且知识碎片化[11] - 技术迭代加速导致早期工业级端到端方案已不适应当前环境,VLA成为学术界与工业界共同发力的前沿方向,被称作"端到端自动驾驶的皇冠"[19] 课程体系设计 - 课程分五章递进式教学:从端到端发展史(第一章)、核心技术背景(第二章)到二段式(第三章)与一段式端到端及VLA(第四章),最终以RLHF微调实战收尾(第五章)[17][18][19][21] - 第二章聚焦未来两年高频技术关键词:大语言模型、BEV感知、扩散模型理论、强化学习与RLHF等[17][20] - 第四章深度解析四大一段式端到端子领域:基于感知(UniAD/VAD)、世界模型(Drive-OccWorld/OccLLaMA)、扩散模型(DiffusionDrive/DiffE2E)及VLA(ORION/OpenDriveVLA)[19] 职业发展价值 - VLA相关岗位薪资竞争力显著:VLA算法专家年薪达60-105万(40-70K*15薪),顶尖博士人才年薪144-192万(90-120K*16薪),实习生日薪220-400元[8] - 课程目标使学员达到1年经验算法工程师水平,掌握复现扩散模型/VLA框架能力,覆盖实习/校招/社招全场景需求[28] - 技术转型路径明确:传统算法岗可通过课程横向提升技能或转向VLA大模型算法工程师核心岗位[6][7] 教学特色 - 采用Just-in-Time Learning理念,通过案例教学快速构建技术框架,解决论文碎片化难题[12][13] - 配套三大实战环节:Diffusion Planner(扩散模型)、ORION(VLA)及RLHF微调大作业,实现理论到工业级应用的闭环[19][21] - 课程由TOP主机厂算法专家设计,整合CVPR'25、AAAI'25等最新研究成果及量产经验,8月15日开课分阶段解锁内容[22][26] 技术深度覆盖 - BEV感知模块详解:涵盖3D检测、车道线识别、OCC及轨迹预测规划等自动驾驶核心感知任务[20] - 多模态技术栈:从CLIP/LLAVA视觉语言基础到VLA完整技术链路,结合GRPO等前沿强化学习方法[19][20] - 扩散模型应用:重点解析多模轨迹预测技术,包括Diffusion Planner等工业落地方案[19]
传统感知逐渐被嫌弃,VLA已经上车了?!
自动驾驶之心· 2025-08-13 06:04
理想i8与VLA司机大模型 - 理想i8成为首款搭载VLA司机大模型的理想车型 核心能力包括空间理解 思维能力 沟通与记忆能力以及行为能力 [2] - VLA能力提升体现在三方面 更懂语义(多模态输入) 更擅长推理(思维链) 更接近人类驾驶直觉 [2] - 行驶中可响应自然语言指令如"靠边停一下""往前走50米" 并能根据记忆设定路段速度 主动规避障碍 [5] VLA技术发展现状 - VLA是自动驾驶量产新里程碑 技术从E2E+VLM递进发展 行业多家公司投入研发 [7] - 技术栈涉及大语言模型 BEV感知 扩散模型 强化学习等多领域 转行门槛较高 [19] - 当前招聘需求旺盛 VLA算法专家岗位薪资达40-70K 量化部署工程师40-60K [15] 端到端自动驾驶课程体系 课程内容架构 - 第一章概述端到端发展历史 从模块化到一段式 二段式及VLA范式的演进 [26] - 第二章重点讲解大语言模型 BEV感知 扩散模型等背景知识 覆盖未来两年高频技术关键词 [26][33] - 第三章解析二段式端到端 包括PLUTO CARPLANNER(CVPR'25)等经典算法 [27] - 第四章深度剖析一段式端到端子领域 涵盖UniAD 世界模型 扩散模型及VLA前沿方案 [28][30][32][35] 教学特色 - 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [21] - 配套RLHF微调大作业 可迁移至VLA算法 提供ORION等实战项目 [35][37] - 课程目标使学员达到1年经验算法工程师水平 掌握BEV感知 多模态大模型等关键技术 [42] 行业技术趋势 - 世界模型应用广泛 涵盖场景生成 端到端驾驶及闭环仿真 成为近年热门方向 [30] - 扩散模型与VLM结合实现VLA 多模轨迹预测提升环境适应性 多家公司尝试落地 [32] - VLA技术上限高但难度大 小米ORION 慕尼黑工大OpenDriveVLA等方案推动量产进程 [35]
车企、科技企业VLA研发进展
中国汽车报网· 2025-08-13 01:33
理想汽车 - 理想i8核心亮点为VLA"司机大模型",是智驾领域继端到端+VLM后的新进展 [1] - VLA模块全新设计,空间编码器结合语言模型与逻辑推理优化驾驶决策,Diffusion模型预测轨迹 [1] - VLA推理帧率10赫兹,较VLM的3赫兹提升3倍多 [1] 小鹏汽车 - 小鹏G7 Ultra版明确VLA和VLM上车时间表:2025年9月VLA推送,11月VLM升级,12月实现智能学习个性化推荐 [2] - 车型搭载3颗自研图灵AI芯片,综合算力2250TOPS,居量产车领先水平 [2] 奇瑞汽车 - 2025年通过猎鹰900智驾系统将VLA与世界模型引入燃油车,实现"油电同智" [3] - 自研VLA模型融合视觉感知、语言理解与动作执行,训练数据2000万公里,覆盖5000种交通场景 [3] - 城区复杂路况中非标交通信号识别准确率92%,较传统系统提升37% [3] 吉利汽车 - 布局VLA技术,构建泛世界模型体系,千里浩瀚系统采用"双端到端模型"设计 [4] - 系统搭载双英伟达Thor芯片,总算力1400TOPS,40余个感知单元可探测300米外0.75米目标 [4] 元戎启行 - 三季度将有5款车型搭载VLA模型,去年6月已开始开发,进度领先 [5] - VLA模型主打防御性驾驶,含空间语义理解、异形障碍物识别等四大功能 [5] - 模型率先适配NVIDIA Thor芯片,后续将优化适配更多平台 [5] 行业技术趋势 - VLA技术成为车企智驾竞争焦点,涉及推理帧率提升、多模态融合、场景覆盖等维度 [1][3][5] - 高算力芯片(如2250TOPS图灵、1400TOPS Thor)支撑复杂模型部署 [2][4][5] - 燃油车与电动车同步推进VLA应用,打破"油电"智能化界限 [3]
VLA还是VTLA?这家企业用“超人类触觉”技术颠覆机器人未来!
具身智能之心· 2025-08-13 00:04
行业现状与技术瓶颈 - 具身机器人硬件和技术相比去年有较大提升,但感知大脑落后于硬件 [1] - 端到端VLA模型是行业关注重点,但视觉在物理交互中存在材质、硬度、摩擦力感知不足的问题 [1] - 触觉感知可弥补视觉缺陷,VTLA(视觉-触觉-语言-动作)被认为是下一代端到端模型范式 [1] - 触觉传感器行业存在分辨率低、实时性差、耐用性不足等技术瓶颈 [2][3] 公司技术与产品突破 - 戴盟机器人研发出基于单色光的高分辨率视触觉感知技术,通过光学变化生成触觉"图像" [4] - 核心产品DM-Tac W是全球首款多维高分辨率高频率视触觉传感器,每平方厘米覆盖4万个感知单元,远超人类手指的240个和传统传感器的数百倍 [4] - 推出多维触觉灵巧手DM-Hand1,集成毫米级超薄视触觉传感器,提升灵活性和感知能力 [6] - 产品通过500万次按压测试,获欧盟CE和美国FCC双认证,实现千片级规模量产 [9] 融资与商业化进展 - 完成亿元级天使++轮融资,三轮融资总额达数亿元,刷新全球触觉感知领域天使轮融资纪录 [3] - 融资资金将用于推动高分辨率视触觉感知技术和灵巧操作技术的产业化落地 [3] - 在世界机器人大会(WRC)展示核心产品,与京东联合展示真实应用场景 [8] 应用场景与行业影响 - 技术可应用于工业装配、医疗手术、家庭服务等需要高精度任务的场景 [1] - DM-Hand1能为工业制造、医疗康复等领域提供全新解决方案 [6] - 产品已从"样机时代"迈向"规模部署时代",推动触觉传感技术商业化应用 [9] - 公司致力于构建覆盖感知、操作、学习的完整产品生态,助力行业进入触觉智能新纪元 [10]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 06:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
对话千寻智能高阳:科学家创业不太「靠谱」,但创业就像一场游戏
36氪· 2025-08-08 09:28
具身智能行业趋势 - 具身智能领域正经历技术范式转变,ChatGPT的出现推动了学习范式的革新,使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练,但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段,机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径,定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA(视觉语言动作)模型创新,独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练,显著提升泛化能力[58][61] - 算法创新包括任务分解能力(one two VLA)和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用,分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场,忽视"大脑"开发[14] - 同质化Demo现象普遍,叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向:运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂,认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性,遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能,当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才(硕士/博士),要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验,因技术迭代速度过快[72] - 团队构建强调"少而精",需同时具备研究能力和工程化思维[70]
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
36氪· 2025-08-08 01:49
公司战略与定位 - 千寻智能采用软硬一体模式,定位为具身智能领域的"苹果"而非"安卓",强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合:高阳为AI科学家,韩峰涛为硬件专家,曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术,实现动作流畅性(如叠衣服甩动动作),4个月前完成开发[35][36] - 独创one two VLA架构,支持复杂任务自主分解(如"手机放抽屉"需3步骤)[31] - 95%训练数据来自互联网人类视频,提升跨品类泛化能力(如折叠机识别无需额外训练)[46][47] - 现阶段暂未大规模投入世界模型研发,认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司,头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式,认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景,因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段,任务完成率达70%(如家庭场景取水)[32] - 当前VLA存在语言模块过载问题,需优化数据利用(人类视频预训练)与架构设计[33][34] - 泛化能力仍处初级阶段,但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士,需发表过机器人领域论文但无需工作经验,因技术迭代过快[52] - 自动驾驶与机器人技术本质相似,差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论:观察跨品类操作(衣物品类切换)、动作流畅度(卡顿检测)、抗干扰能力(衣物团扔测试)[3][25][29]