端到端
搜索文档
对话千寻高阳:端到端是具身未来,分层模型只是短期过渡
晚点LatePost· 2025-07-10 12:30
具身智能行业趋势 - 具身智能技术已从学术研究阶段进入产业化阶段,突破将发生在市场而非实验室[2][13] - 行业正处于Scaling Law时刻,预计需要4-5年沉淀才能达到类似GPT-4的突破[2][29] - 技术路径已从500个研究方向收敛至100个左右,进入工程优化阶段[12][13] 技术路径选择 - 端到端VLA(vision-language-action)是行业终极方向,已在自动驾驶领域验证[19][20] - 短期分层方案(规划-感知-执行)更易工程实现,但长期将被端到端替代[22] - VLA模型通过统一处理视觉、语言和动作模块,实现任务理解和执行一体化[20] 数据训练方法 - 训练数据来源包括:互联网视频数据(1%可用率)、遥操作数据和强化学习数据[24][26] - 发现Scaling Law规律:数据量每增加10倍,模型精度小数点后多一个9[27][28] - 达到ChatGPT级别效果需100亿条有效互联网数据+1亿遥操数据+数千万强化学习数据[31] 机器人形态发展 - 人形设计因适应人类环境成为主流,但非必需形态[33][34] - L4阶段前轮式底盘+双臂可覆盖80%场景需求,双足非必须[33][37] - 双足平衡技术已实现高难度动作(如燕式平衡),工业级稳定仍需优化[37][38] 产业链分工 - 硬件本体价值有限,核心突破在于"大脑"(AI系统)[39] - 未来产业链将类似汽车行业,形成专业化分工(灵巧手、芯片等)[41] - 纯软件方案不可行,需针对具体硬件进行训练优化[40] 中美发展差异 - 中国优势在于硬件制造和维修效率(美国维修周期长达数周)[6][7] - 美国在快慢系统等核心技术方面暂时领先[6]
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 04:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]
2025中国高阶智能辅助驾驶最新技术洞察:算力跃迁、数据闭环、VLA与世界模型
亿欧· 2025-06-05 05:42
报告行业投资评级 未提及相关内容 报告的核心观点 - 高阶智能辅助驾驶技术需在算法、数据、算力升级的同时解决安全短板,推动技术迭代与安全验证同步发展 [23] - 车端算法架构从模块化向端到端演进,一段式端到端VLA推动智能驾驶从“数据驱动”向“认知驱动”跃迁,多段式端到端E2E+VLM将被替代 [66] - VLA大模型“类人决策”特点将重塑智能辅助驾驶竞争格局,车企需平衡算法创新、工程落地与成本控制 [69] - 全栈自研仅头部新势力可长期维持,自研+外采将成多数车企主流选择,全栈外采在中低端车型仍有空间,行业呈“分层竞争、多元共存”格局 [83] - 尽管车企和政策推动L3落地,但大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,L3规模化上车进度可能放缓 [99] 根据相关目录分别进行总结 中国高阶智能辅助驾驶市场背景 - 高阶辅驾ODD再扩展:未提及具体内容 - 科技平权与技术普惠:未提及具体内容 - 事故焦虑与安全冗余:今年部分头部车企智能辅助驾驶NOA功能事故暴露技术边界与用户认知错配,引发安全信任危机;工信部发文规范宣传,为行业过热宣传降温;技术需在多方面升级同时解决安全短板 [21][23] - 政策护航与理性宣传:2025年4月16日,工信部发布通知规范智能网联汽车驾驶辅助功能宣传及技术验证,禁止夸大能力,要求功能验证周期与用户安全教育 [23] 中国高阶智能辅助驾驶技术洞察 高阶智能辅助驾驶技术洞察 - 解码算力、数据、算法的技术底层逻辑:未提及具体内容 高阶智能辅助驾驶算力洞察 - 车端算力:向千级TOPS跃迁,大算力芯片加速普及,国产芯片未来可期;目前国内量产芯片多≤200TOPS,未来500 - 1000TOPS+芯片将成主流;车端受硬件算力限制,依赖云端大模型,架构向端到端转型;未来车端将实现端到端大模型本地化部署,车规级芯片算力上限将突破 [42][43][44] - 云端算力:未提及具体内容 高阶智能辅助驾驶数据洞察 - 数据难题:未提及具体内容 - 数据采集:未提及具体内容 - 定位技术:未提及具体内容 高阶智能辅助驾驶算法洞察 - 端到端、VLA、世界模型:车端算法以端到端架构为基础,VLM辅助E2E处理复杂决策,VLA融合多模态信息提升泛化能力;云端模型从模仿学习演进至生成式世界模型,构建闭环训练系统支撑车端模型泛化能力升级 [61] - 算法架构:从模块化到多段式端到端再到一段式端到端演进,一段式端到端VLA推动智能驾驶跃迁,多段式端到端E2E+VLM将被替代 [65][66] - VLA:起源于2023年谷歌探索,2025年上车引领智能辅助驾驶升级,但面临算力、数据成本、推理延迟等挑战,需强化多模态融合、车云协同 [68][69] 中国高阶智能辅助驾驶竞合分析 企业梯队与产业图谱 - 未提及具体内容 开发策略与合作模式 - 开发策略:主机厂智能辅助驾驶方案开发策略分软硬全栈自研、自研+外采、软硬全栈外采;全栈自研技术壁垒高但资金/人才门槛高,自研+外采平衡成本与技术,全栈外采快速量产、成本可控 [82] - 合作模式:包括全栈自研、自研+外采、全栈外采;全栈自研仅头部新势力可维持,自研+外采成主流,全栈外采在中低端车型有空间 [83] 中国高阶智能辅助驾驶趋势洞察 乘用车L3商业化进展 - 2025年主机厂陆续发布L3、L4量产规划,数据积累与政策协同推动安全升级;L3级自动驾驶ODD限定在高速路段,L4级可在城市限定区域运行;L3大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,规模化上车进度可能放缓 [96][97][99]
小米辅助驾驶再迎大将,前一汽南京CTO陈光加入|36氪独家
36氪· 2025-05-30 04:50
人事变动与团队建设 - 前一汽南京研究院CTO陈光加入小米汽车,出任辅助驾驶感知负责人,向叶航军汇报,原感知负责人蔡锐转至机器人部门 [1] - 陈光曾领导一汽红旗第三代L4级Robotaxi研发,拥有百度Apollo美国研发中心感知系统技术负责人经历,发表多篇CVPR论文 [1] - 小米辅助驾驶团队分为"端到端"算法与功能、技术预研两大组,陈光将推进"端到端"功能落地 [1] - 公司辅助驾驶团队规模已达1200人,近年引入前图森CTO王乃岩、Wayve原主任科学家陈龙等高端人才 [2][3] 技术路线与研发进展 - 公司2月全量推送基于300万Clips训练的"端到端"辅助驾驶功能,计划升级至1000万Clips版本 [2] - "端到端"方案整合感知、预测、规划控制为统一深度学习模型,组织架构设感知与规控两个模型团队 [1] - 技术预研包括VLA(视觉-语言-动作)模型,由陈龙负责,研发进度与理想汽车相近 [2] - 2023年6月推出基于规则的城市NOA方案,2024年2月切换至"端到端"方案,但用户体验距行业第一梯队仍有差距 [4] 产品与市场策略 - 第二款车型YU7全系标配4nm制程英伟达Thor芯片(700TOPS算力)、1个激光雷达、11个高清摄像头等硬件 [5] - 公司试图通过硬件标配缓解辅助驾驶安全信任危机,该危机源于3月SU7高速事故导致三人死亡事件 [5] - 内部加紧开发下一代VLA辅助驾驶方案,目标年内推出,以缩短追赶行业的时间 [5] 行业动态与挑战 - 理想汽车经历多次路线切换("端到端"、VLA大模型)和组织调整才取得阶段性成果,反映技术迭代复杂性 [4] - 行业从基于规则的方案转向特斯拉FSD引领的"端到端"方案,因前者应对复杂城市道路存在能力天花板 [4] - 辅助驾驶量产需循序渐进工程积累,如理想CEO李想所言"无法直接吃第十个包子" [4]
智驾的遮羞布被掀开
虎嗅APP· 2025-05-26 13:57
智能驾驶技术路线分化 - 行业进入端到端2.0阶段,技术路线无统一标准,理想、小鹏、华为分别推出VLA、世界基座模型、WEWA架构等差异化方案 [3] - 小鹏布局云端72B参数世界基座模型(车端模型的35倍),计划覆盖汽车、机器人及飞行汽车业务,自研图灵芯片支持30B参数模型部署 [5] - 理想自研LLM基座模型替代第三方模型,以解决3D世界理解不足导致的幻觉问题,但受限于自研芯片"舒马赫"进展缓慢,仍依赖英伟达Thor芯片 [7] - 华为采用多模态基座模型+MoE架构,通过多传感器输入生成轨迹和场景意图,目标实现L3级十秒预警能力 [9] 数据训练瓶颈与仿真解决方案 - 行业面临优质数据短缺困境,人工标注成本高且难例数据获取困难,华为指出Corner case数据是训练关键缺口 [11] - 厂商转向世界模型仿真生成数据,真数据与合成数据比例达1:2,可降低采集成本并丰富场景类型 [12] - 地平线认为99%司机行为不值得学习,仿真将成为核心训练手段,提出"AI教AI"的终极形态 [12][13] - 当前仿真数据质量仍不及真实数据,技术差距因模型探索门槛拉大 [13] 技术商业化与行业格局演变 - L3级技术需"重技术+强运营"体系,责任归属从用户转向车企,要求硬件冗余与持续维护能力 [16] - 城区自动驾驶难度是高速场景的10-100倍,头部厂商通过技术滚雪球效应加速领先 [16] - 供应商集中化趋势明显,量产经验、交付周期及成本成为主机厂筛选核心标准,未量产厂商基本出局 [17] - 行业进入分化期,无实质技术支撑的营销话术失效,市场将呈现强者恒强格局 [15][17]
智驾的遮羞布被掀开
虎嗅· 2025-05-26 02:47
智驾技术发展现状 - 车企普遍采用端到端模型训练自动驾驶软件,华为、理想、小鹏和特斯拉已证明其可行性,但系统存在黑盒风险,可能出现不可预测的问题[2] - 端到端技术源于深度学习,通过简化算法并依赖海量数据训练提升软件能力,但无法完全解决L3级自动驾驶的安全需求[2][3] - 行业进入端到端2.0阶段,技术路线分化,理想推出VLA架构,小鹏开发云端世界基座模型,华为采用WEWA架构,均试图突破现有技术瓶颈[4][14] 主要车企技术路径差异 - 小鹏构建72B参数量的世界基座模型,是主流车端模型的35倍以上,计划应用于汽车、机器人和飞行汽车,并自研图灵芯片支持30B参数模型部署[8] - 理想自研LLM基座模型替代第三方方案,针对自动驾驶优化3D世界理解能力,但因芯片研发滞后仍依赖英伟达Thor芯片[10] - 华为打造多模态基座模型,通过MoE架构实现场景化能力调用,重点解决L3级难例场景识别和十秒预警能力[14] 数据挑战与仿真技术应用 - 行业面临优质数据获取难题:人工标注成本过高,难例数据稀缺,真数据与合成数据比例已达1:2[15][22] - 世界模型成为解决方案,通过虚拟数据生成降低采集成本,地平线认为99%人类驾驶行为不值得学习,仿真将成为核心训练手段[22] - 当前仿真数据质量仍逊于真实数据,技术差距可能因模型研发能力分化而扩大[23][24] 行业竞争格局演变 - L3级技术将重塑商业模式,要求车企承担全生命周期维护责任,形成"重技术+强运营"体系[25] - 城区自动驾驶难度是高速场景的10-100倍,供应商面临更高技术门槛,未经验证的厂商将被淘汰[26] - 市场呈现强者愈强趋势,无实质技术支撑的营销概念(如无图NOA)将失效,头部企业通过量产能力和交付效率建立壁垒[26]
AI 如何成为理想一号工程
晚点LatePost· 2025-05-23 07:41
公司战略调整 - 2023年10月秋季战略会将智能辅助驾驶业务优先级提升至第一战略,车机端理想同学从最高优先级(IP0)降至最低(IP2)[4] - 2023年初确立"2030年成为全球领先人工智能企业"愿景[5] - 2024年1月设立AI技术委员会整合各部门AI资源,成员包括产品部和各研发部门负责人[15][16] AI产品发展 - 车机端理想同学基于T5架构打造10亿参数模型,2023年12月推出多模态认知大模型Mind GPT 1.0[6][7] - 2024年3-4月开发理想同学App,12月底上线手机端应用,2024年3月推出网页版[7] - 基座模型部门升级为二级部门,目标进入行业前三[17] 智能辅助驾驶进展 - 2020年9月组建自研团队,2022年L9上市搭载AD Max系统[9] - 2023年10月扩招50余个岗位,团队规模突破千人[10] - 2024年7月启动"端到端+VLM"千人内测,10月实现量产上车[10][11] - 技术路线从"端到端+VLM"转向VLA架构,VLA模型具备3D视觉和物理世界理解能力[12] 组织架构调整 - 2024年初总裁马东辉接替李想负责智能汽车战略,李想专注AI方向[13] - 2023年设立AI周会制度,2024年升级为AI技术委员会[14][15] - 基座模型负责人陈伟汇报对象调整为CTO谢炎,部门级别提升[16][17] 技术路线演进 - 初期采用供应商方案,2021年启动理想同学自研[6] - 2022年探索大规模语言模型应用,2023年实现算法全自研[6][7] - 智能辅助驾驶从依赖高精地图转向"无图"方案,最终采用VLA架构[11][12]
AI 如何成为理想一号工程
晚点Auto· 2025-05-22 07:16
公司战略调整 - 2022年10月秋季战略会将AI定位为未来竞争关键方向 车机端理想同学优先级从IP0降至IP2 智能辅助驾驶业务战略地位提升 [3] - 2023年初确立"2030年成为全球领先人工智能企业"愿景 智能辅助驾驶被列为第一战略 智能空间和智能电动分列二三位 [5][9] - 2024年1月成立AI技术委员会 整合产品部和各研发部门负责人 覆盖智能辅助驾驶/理想同学/智能商业/智能工业四大方向 [14][15][16] AI技术布局 - 2022年上半年基于T5架构研发10亿参数模型 支持多模态信息处理 2023年3月L7首发时实现语音视觉功能全自研 [6] - 2023年12月推出车端大模型Mind GPT 1.0 2024年7月启动"端到端+VLM"千人内测 10月实现量产上车 [5][10][11] - 技术路线从"端到端+VLM"转向VLA架构 VLA能结合3D/2D视觉构建物理世界理解 具备语言思维链和推理能力 [12] 产品发展路径 - 理想同学从车机语音助手发展为跨平台应用 2024年3-4月开发手机App 12月上线网页版 实现车机/手机/网页多端覆盖 [7][8] - 智能辅助驾驶系统AD Max 2022年随L9上市 2023年12月推送城市NoA功能 2024年通过端到端方案进入行业第一梯队 [9][10][11] 资源投入 - 2023年10月智能辅助驾驶团队扩招 开放50余岗位 11-12月每周新增数十人 团队规模突破千人 [10] - 基座模型部门升级为二级部门 负责人陈伟直接向CTO汇报 目标进入行业前三 为各业务线提供AI技术支持 [16][17]
从 VLM 到 VLA,智驾距离跨过「L2.9999」还有多远?
机器之心· 2025-05-18 02:38
自动驾驶技术分级与责任划分 - 中国《汽车驾驶自动化分级标准》将驾驶自动化分为L0至L5六个级别,L0-L2需人工全程监管,L3-L5逐步实现系统主导[1-1] - SAE标准与国标存在细微差异:SAE将AEB等安全辅助功能归为L0级"无驾驶自动化",而中国标准将其称为"应急辅助"并单独分类[1-2] - L3级别将驾驶任务主要责任从驾驶员转移至系统,制造商须承担法律责任,这与L2及以下级别有本质区别[1-3] - 国标L2事故责任完全由驾驶人承担,L3事故责任界定模糊,特别是在系统要求接管而驾驶员未响应的情况下[1-4] - 北京市自动驾驶汽车条例2025年4月1日实施,首次针对L3级以上个人乘用车测试上路做出具体规定,明确可追究软件开发及制造方责任[1-5] - 武汉市智能网联汽车发展促进条例2025年3月1日实施,明确L3及以上自动驾驶事故由车企承担赔偿责任[1-6] - 行业专家认为衡量真正L3的标准在于车企是否敢承诺事故赔付,不敢赔付的本质仍是L2水平[1-7] 车企安全责任与监管趋势 - 车企面临前所未有的压力与挑战,必须将安全置于智能驾驶发展核心位置,不能只谈体验忽略安全[1-8] - 工信部发布新规明确测试验证、宣传规范、OTA管理及事故报告等强制性要求,标志智能驾驶行业进入强监管时代[1-9] - 自动驾驶安全性是技术进步与社会协同的共同产物,法律与伦理框架正逐渐完善[1-7] 技术竞争方向与算法发展 - 未来智驾车企竞争方向主要集中在算法领先性、数据闭环能力及云端算力资源[1-7] - 算法作为智能驾驶系统的"大脑",直接影响车辆对复杂场景的识别准确率、反应速度和决策拟人性[1-7] - 端到端架构通过减少信息传递损耗、快速响应突发场景和数据驱动优化等特点,显著提升自动驾驶系统安全性[1-7]
对话未来出行 | 商汤绝影CEO王晓刚:汽车是人工智能最好的载体,以世界模型和仿真学习突破特斯拉式数据壁垒
每日经济新闻· 2025-05-16 04:00
智能汽车行业趋势 - 智能汽车竞争焦点从硬件参数转向认知能力,行业处于"软件定义汽车"向"认知重塑出行"跃迁的临界点 [1] - 2025年第一季度中国L2级辅助驾驶新车渗透率达65% [1] - 智能座舱进化分为三个阶段:问答工具、大模型赋能的"全能助手"、具备记忆与共情能力的"家庭成员" [1][8] 商汤绝影技术路径 - 采用"世界模型+强化学习"技术组合突破现实数据不足瓶颈,降低对激光雷达的依赖 [1][10] - 世界模型可模拟未来场景变化,例如施工路段避让及碰撞情形 [12] - 通过仿真环境生成海量驾驶场景,使自动驾驶系统自我进化,类似AlphaZero的自我博弈逻辑 [10][16] 激光雷达技术观点 - 激光雷达属于阶段性技术选择,未来可被模型算法和数据迭代替代 [1][12] - 激光雷达在城区复杂场景中作用有限,且受天气干扰、老化等问题影响 [12] - 当前部分车企采用"激光雷达+端到端系统"双配置作为过渡方案 [16] 车企合作模式 - 与主机厂形成"太极式共生"关系,既保留车企自研能力又发挥科技公司技术优势 [3][18] - 产品已上车7款车型,2024年将推出地平线J6E方案并在奇瑞量产,基于英伟达Thor的系统将应用于东风车型 [17] - 合作核心是研发体系对齐而非股权绑定,涉及工具链、数据格式等基础设施协同 [19] 数据与商业化 - 车企保留数据所有权,商汤绝影提供脱敏技术支持 [21] - 自动驾驶盈利需3年,依赖量产规模扩大及摄像头配置标准化 [22] - 未来研发重心转向云端,提供云服务和大模型基础设施,车端研发将轻量化 [22] 行业应用场景 - 汽车是当前人工智能最佳载体,因多模态传感器丰富且数据回流规模大 [4][5] - 智能座舱通过全时感知(表情/动作/生理信号)实现情感化交互,远超手机等被动设备 [9] - 技术可延伸至智能机器人领域,与汽车AI存在高度重合性 [5]