Workflow
理想自动驾驶芯片
icon
搜索文档
理想CTO谢炎在云栖大会分享理想自动驾驶芯片设计思路
理想TOP2· 2025-09-27 08:58
自动驾驶算法演进 - 自动驾驶算法发展分为三个阶段:规则算法阶段、端到端(E2E)加视觉语言模型(VLM)阶段、视觉语言动作模型(VLA)加强化学习(RL)阶段 [4][5] - E2E加VLM技术使自动驾驶行为更接近人类驾驶体感 通过模仿学习实现加速、减速、转弯等操作的优化 [5] - VLA+RL结构更简单 主体为语言模型(L) 视觉信号编码后输入L学习 最终通过diffusion生成轨迹 [5] 语言模型在自动驾驶中的必要性 - 技术原因:语言是人类泛化能力的基础 语言模型提供长链推理能力 解决最后5%-10%的极端场景(corner case)问题 [6][7] - 非技术原因:语言模型使自动驾驶系统具备人类世界观和价值观 实现更自然的驾驶行为交互 [8] - 语言模型scaling law要求车端算力超线性增长 从2025年开始算力需求可能从400Tops跃升至2500Tops [9] 计算架构演进与挑战 - 从CPU到GPU再到GPGPU 均遵循冯诺依曼架构 以计算为一等公民、数据为第二等公民 [11][12] - AI时代计算算子减少但数据处理复杂度增加 需要转向数据流架构 让程序更关注数据而非计算 [12] - GPGPU存在共享内存压力问题 高并行度下内存带宽需求急剧增加(如HBM) [11] 数据流架构历史发展 - 数据流架构先驱为MIT的Jack B Dennis和Arvind 提出数据驱动执行(Data driving execution)概念 [13] - 关键发展包括:静态数据流图(不支持循环)、tag token标记、I-structure内存模型(类似Java对象不可更改特性) [13] - 1990-2000年高光荣教授提出Threaded Dataflow Architecture 将计算粒度放大到thread级别 并开发RC编程语言 [14] - 2000-2015年应用于DSP领域 形成Codelet计算模型、COStream编程模型和配套memory model的完整体系 [14][15] 理想汽车自研计算架构实践 - 车端计算架构核心为NPU而非SOC NPU采用同构重合架构与Mesh Bus互连 独创CCB(Central Control Computing Block)处理非张量计算 [17] - 架构提供Ring Bus广播功能 为国内独家设计的AI推理架构 [17] - 与行业最佳推理芯片相比:同等晶体管消耗下CNN性能达4.4倍 transformer base模型性能达4-6倍 LlaMA2 7B模型性能达2-3倍 [2][18] - 编译器开发是主要挑战 涉及编程模型和编译架构的协同设计 [18] 算力需求趋势 - 语言模型应用推动车端算力需求指数级增长 2025年后算力规划从400Tops跃升至2500Tops(约6倍增长) [9] - 算力增长主要驱动因素为语言模型的长链推理需求 而非纯视觉处理需求 [9]
理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计
理想TOP2· 2025-09-05 04:56
自研芯片技术架构 - 理想汽车自研芯片采用数据流架构 计算由数据驱动而非指令驱动 实现更高并行度 更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元 采用软硬件协同设计 将芯片 编译器 运行时系统和操作系统垂直整合 深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比 运行大语言模型性能达2倍 运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回 目前正在进行车辆测试 预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战 需通过小词表 投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出 针对action token采用双向注意力机制一次性输出 实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息 与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计 资源集中于矩阵乘法与加法运算 相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构 数据在计算单元间流动 减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列 在通用性方面更具优势[3]