Workflow
VLA
icon
搜索文档
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 01:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
华为高管:世界上根本没有免费的东西
半导体芯闻· 2025-08-27 10:40
华为车BU合作模式 - 华为车BU与车企合作模式包括部件、单智(智舱或智驾)、双智(智舱和智驾兼具)、全栈等多种模式,合作深度依次递增[2] - 全栈合作模式下,华为从IPD到IPMS全过程"陪跑"车企,覆盖产品定义、设计、制造到营销全环节[2] - 奥迪是华为智驾合作的第一个外资品牌,但未来还会有第二家、第三家外资品牌加入合作[6] 乾崑智驾技术与发展规划 - 乾崑智驾品牌命名源于华为logo不能贴在车上,需独立品牌标识[5] - 匹配一款车型的智驾系统最快需6~9个月[6] - 搭载乾崑智驾的车辆已达100万辆,且ADS 4即将大规模上车[2] - 公司未设定明确商业化目标,坚持长期投入,不追求当期盈利[7] 智驾技术路线与行业观点 - 华为不认同VLA(视觉-语言-动作)技术路线,认为WA(世界-动作)模型才是终极方案,通过视觉、声音、触觉等信息直接控制车辆[3][9] - 自动驾驶行业未来将进一步汇聚,因技术依赖数据驱动,需大量数据、算力和算法支撑,公共智能化平台将更重要[10] - 智驾本质是提供"数字司机",追求零事故零伤亡,差异化较低,溢价取决于用户感知价值[11] 辅助驾驶商业化观点 - 辅助驾驶功能不可能免费,研发投入需通过车价或未来收费覆盖,免费策略实为转移支付方式[3][12] - 功能包定价高可保障长期迭代和维护,提升用户体验周期;低价购买可能导致短期失效,实际成本更高[12]
华为高管:世界上根本没有免费的东西
第一财经资讯· 2025-08-27 08:51
华为车BU合作模式 - 华为车BU与车企合作模式包括部件、单智(智舱或智能辅助驾驶其一)、双智(智舱和智能辅助驾驶兼具)、全栈等多种模式,合作深度依次递增 [2] - 华为车BU从IPD到IPMS全过程"陪跑"车企,覆盖产品定义、设计、制造到最终营销的全流程 [2][9] - 华为车BU与车企深度全栈合作的原因在于部分车企(特别是央国企)制造能力强但前后端需加强,华为可提供IPD和终端经验赋能 [9] 乾崑智驾业务发展 - 乾崑智驾品牌命名因华为logo不能贴车,故独立命名便于车辆标识 [5] - 乾崑智驾匹配一款车型最快需6~9个月 [6] - 搭载乾崑智驾车辆已达100万辆,华为ADS 4即将大规模上车 [2] - 奥迪是华为智驾合作的首个外资品牌,未来将有更多外资品牌合作 [7] - 乾崑智驾无明确商业化目标,不追求当期盈利,坚持长期主义投入 [8] 智能驾驶技术路径 - 华为乾崑不采用VLA(视觉语言动作模型)技术路径,认为其通过语言转换控制车辆非终极方案 [3][10] - 华为更看重WA(World和Action)路径,通过视觉、声音、触觉等信息直接控制车辆,虽难度大但被视为终极方案 [3][10] - 自动驾驶行业玩家数量将持续减少,因技术路径依赖数据驱动(数据量、算力、算法),需公共智能化平台支撑 [11] 辅助驾驶商业化与竞争 - 辅助驾驶功能本质是提供"数字司机",追求零事故零伤亡,差异化程度低 [12] - 功能溢价取决于用户价值认知,而非技术差异化 [12] - 辅助驾驶功能不可能免费,免费策略实为成本转嫁(如含在车价或未来收费) [13] - 功能包定价高可保障长期迭代和维护,提升用户体验周期;低价可能导致短期失效,实际成本更高 [13]
人形机器人,缺一个杀手级共识
创业邦· 2025-08-26 03:37
公司技术路径与观点分野 - 星动纪元采用软硬一体、端到端VLA+强化学习+世界模型融合的垂直整合路线[8][30] - 宇树科技坚持硬件先行策略 通过自研关节电机和优化机械结构提升性能[10][31] - 双方对VLA可行性存在分歧:星动纪元认为端到端方法可行并投入研发ERA-42大模型[13][15] 宇树科技质疑其过度依赖数据且缺乏长期规划能力[16] 技术架构差异 - 星动纪元构建五层技术系统:硬件层(自研关节模组/灵巧手)[37] 实时控制层(混合传统控制与强化学习)[38] 感知与世界模型层(多模态融合)[38] VLA大模型决策层[39] 数据工程与训练平台层[40] - 宇树科技侧重硬件性能基础 关注模型决定数据与分布式算力工程实现[18][22] - 端到端架构优势:实现感知-决策-执行闭环 高频控制减少延迟[34][35] 商业化进展与策略 - 星动纪元已落地B端工业场景 产品达到70%人工效率 预计明年达90%[23] 累计交付超300台 服务全球市值前十科技公司中的9家[45] - 宇树科技采取多元化策略 现阶段聚焦表演与格斗比赛场景[26] 发布新品人形机器人R1及四足机器狗A2[27] - 星动纪元实现灵巧手量产 与VLA控制整合实现细粒度操作[44] 行业共识与发展阶段 - 共同认可人形机器人是AI终极载体 具身智能需感知-决策-执行闭环[50][52] - 短期(1-3年):工业场景小批量落地[56] - 中期(3-5年):迎来"ChatGPT时刻" 扩展至物流/医疗场景[56] - 长期(5-10年):进入家庭场景但需解决安全性问题[56] - 技术路径可能融合:VLA吸收世界模型预测能力 世界模型提升实时交互[56] 工程成果与行业影响 - 星动纪元L7以95.64cm成绩创人形机器人跳高世界纪录[4][43] - 开源Humanoid Gym框架与VPP大模型推动行业协作[21][45] - 行业需跨越软硬件协同瓶颈 硬件性能决定模型发挥上限[53][54]
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 12:00
理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-08-20 09:15
理想VLA司机大模型技术 - 理想VLA司机大模型具备四大核心能力:空间理解能力、思维能力、沟通与记忆能力以及行为能力,其中思维能力和沟通与记忆能力由语言模型提供,记忆能力采用RAG技术 [2] - VLA结合动态目标、静态元素、导航地图和空间理解等元素进行思维链输出,代表自动驾驶领域最前沿方向 [2] - VLA技术整合端到端、轨迹预测、视觉语言模型和强化学习等多个前沿技术栈,正在成为学术界和工业界关注焦点 [4] 自动驾驶技术发展趋势 - 传统BEV感知、车道线和Occupancy等技术在顶会中占比下降,工业界仍在优化传统方案但学术界已转向大模型与VLA方向 [4] - VLA技术站在VLM和端到端技术基础上,具备更类人的思考推理能力,是当前最前沿研究方向 [2] - 模块化VLA自动驾驶模型和统一的端到端VLA模型成为重点研究方向,涉及OpenDriveVLA、CoVLA-Agent等算法 [30] 科研培训课程内容 - 课程为期14周,包含先导课、课题概览、选题讨论、传统/VLA端到端自动驾驶技术讲解等模块 [8][10] - 提供经典论文分析、创新点挖掘、baseline代码实现、数据集使用等全流程科研支持 [13][19] - 学员可获得论文初稿、结业证书及推荐信,课程采用"2+1"多师制教学团队,包含名校教授和行业导师 [23] 技术资源支持 - 提供多个开源代码库包括基于模仿学习的VAD、基于扩散模型的DiffusionDrive以及VLA方向的OpenDriveVLA等 [26] - 使用nuScenes、Waymo、Argoverse等公开自动驾驶数据集,VLA任务可结合大语言模型生成数据 [27] - 重点论文包括《A Survey on Vision-Language-Action Models for Autonomous Driving》等5篇核心文献 [28][29] 学员培养目标 - 帮助学员系统掌握VLA理论体系,解决知识碎片化问题,形成完整科研方法论 [5] - 通过baseline代码实践和论文写作指导,使学员具备独立完成科研论文能力 [5][19] - 针对不同基础学员提供先修课程,要求掌握Python和PyTorch,建议配备4-8张4090显卡 [20]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 07:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 01:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
自动驾驶秋招交流群成立了!
自动驾驶之心· 2025-08-18 23:32
技术发展趋势 - 自动驾驶技术栈呈现趋同态势 从过去几十个方向算法需求转向统一方案如one model、VLM和VLA [1] - 技术方案统一化实际形成更高行业技术壁垒 [1] 行业社群建设 - 建立综合型平台汇集全行业人才 通过社群方式促进产业人才共同成长 [1] - 社群内容覆盖相关产业讨论、公司分析、产品研发及求职跳槽等专业领域 [1] - 提供行业社交网络构建渠道 帮助成员获取产业第一手信息 [1]
VLA都上车了,还不知道研究方向???
自动驾驶之心· 2025-08-16 16:04
理想VLA司机大模型技术突破 - 具备更懂语义的多模态输入、更擅长推理的思维链和更接近人类驾驶直觉的轨迹规划三大核心能力提升 [1] - 展示空间理解能力、思维能力、沟通与记忆能力以及行为能力四大核心功能 [1] - 结合动态目标、静态元素、导航地图和空间理解等元素进行思维链输出 [3] VLA技术发展趋势 - 由VLM+E2E技术发展而来,涵盖端到端、轨迹预测、视觉语言模型和强化学习等前沿技术栈 [5] - 成为自动驾驶学术界和工业界最受关注的方向,传统BEV感知和车道线技术研究减少 [3][5] - 工业界持续优化传统感知与规划方案,而学术界转向大模型与VLA领域研究 [5] VLA科研论文辅导课程体系 - 课程设置14周周期,包含先导课、课题概览、传统与VLA端到端自动驾驶技术讲解及论文写作方法论 [9][11][26][27] - 提供模块化VLA自动驾驶模型、统一端到端模型和推理增强模型三大研究方向 [9][11][26] - 每周安排1-1.5小时课程,包含选题讨论、算法对比和未来方向探究等环节 [26][27] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse等,并支持大语言模型生成数据 [21][23] - 提供基于模仿学习、扩散模型和VLA的端到端自动驾驶Baseline代码库 [24] - 包含5篇必读论文,涵盖VLA自动驾驶综述、Senna、SimLingo、OpenDriveVLA和ORION等核心研究 [24] 招生与培养方案 - 每期限招6-8人,要求具备深度学习基础、Python和PyTorch能力,并通过在线1v1面试 [12][19] - 硬件要求最低4张4090显卡,推荐8张4090或云服务器租赁方案 [19] - 采用"2+1"多师制教学团队,配备主导师和科研论文班主任提供全方位学习支持 [22] 课程产出与价值 - 学员将获得论文初稿、项目结业证书和推荐信(根据优秀程度) [22] - 培养创新点挖掘、实验方法设计、论文写作和投稿能力 [13][18][31] - 提供12周在线科研+2周论文指导+10周论文维护的全周期服务 [14][31]