软硬件协同设计

搜索文档
理想CTO谢炎在云栖大会分享理想自动驾驶芯片设计思路
理想TOP2· 2025-09-27 08:58
自动驾驶算法演进 - 自动驾驶算法发展分为三个阶段:规则算法阶段、端到端(E2E)加视觉语言模型(VLM)阶段、视觉语言动作模型(VLA)加强化学习(RL)阶段 [4][5] - E2E加VLM技术使自动驾驶行为更接近人类驾驶体感 通过模仿学习实现加速、减速、转弯等操作的优化 [5] - VLA+RL结构更简单 主体为语言模型(L) 视觉信号编码后输入L学习 最终通过diffusion生成轨迹 [5] 语言模型在自动驾驶中的必要性 - 技术原因:语言是人类泛化能力的基础 语言模型提供长链推理能力 解决最后5%-10%的极端场景(corner case)问题 [6][7] - 非技术原因:语言模型使自动驾驶系统具备人类世界观和价值观 实现更自然的驾驶行为交互 [8] - 语言模型scaling law要求车端算力超线性增长 从2025年开始算力需求可能从400Tops跃升至2500Tops [9] 计算架构演进与挑战 - 从CPU到GPU再到GPGPU 均遵循冯诺依曼架构 以计算为一等公民、数据为第二等公民 [11][12] - AI时代计算算子减少但数据处理复杂度增加 需要转向数据流架构 让程序更关注数据而非计算 [12] - GPGPU存在共享内存压力问题 高并行度下内存带宽需求急剧增加(如HBM) [11] 数据流架构历史发展 - 数据流架构先驱为MIT的Jack B Dennis和Arvind 提出数据驱动执行(Data driving execution)概念 [13] - 关键发展包括:静态数据流图(不支持循环)、tag token标记、I-structure内存模型(类似Java对象不可更改特性) [13] - 1990-2000年高光荣教授提出Threaded Dataflow Architecture 将计算粒度放大到thread级别 并开发RC编程语言 [14] - 2000-2015年应用于DSP领域 形成Codelet计算模型、COStream编程模型和配套memory model的完整体系 [14][15] 理想汽车自研计算架构实践 - 车端计算架构核心为NPU而非SOC NPU采用同构重合架构与Mesh Bus互连 独创CCB(Central Control Computing Block)处理非张量计算 [17] - 架构提供Ring Bus广播功能 为国内独家设计的AI推理架构 [17] - 与行业最佳推理芯片相比:同等晶体管消耗下CNN性能达4.4倍 transformer base模型性能达4-6倍 LlaMA2 7B模型性能达2-3倍 [2][18] - 编译器开发是主要挑战 涉及编程模型和编译架构的协同设计 [18] 算力需求趋势 - 语言模型应用推动车端算力需求指数级增长 2025年后算力规划从400Tops跃升至2500Tops(约6倍增长) [9] - 算力增长主要驱动因素为语言模型的长链推理需求 而非纯视觉处理需求 [9]
理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计
理想TOP2· 2025-09-05 04:56
自研芯片技术架构 - 理想汽车自研芯片采用数据流架构 计算由数据驱动而非指令驱动 实现更高并行度 更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元 采用软硬件协同设计 将芯片 编译器 运行时系统和操作系统垂直整合 深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比 运行大语言模型性能达2倍 运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回 目前正在进行车辆测试 预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战 需通过小词表 投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出 针对action token采用双向注意力机制一次性输出 实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息 与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计 资源集中于矩阵乘法与加法运算 相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构 数据在计算单元间流动 减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列 在通用性方面更具优势[3]
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 04:31
端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率 采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同 树立"小模型大能力"新标杆 成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录 整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升 显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数 隐藏层规模与前馈网络维度匹配高效吞吐配置 确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒 后续每词生成约0.156秒 速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调 第一阶段专注理性推理能力 第二阶段训练快速作答 激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法 学生模型自主作答后教师模型针对性指导 提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制 数学代码任务使用规则奖励 复杂任务采用轻量级LLM评估 结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案 减少约30%设备空闲 通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案 模型可根据问题难度自动选择快速作答或深入推理 在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先 升级版本即将开源[30]
CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径
财经网· 2025-07-18 04:22
行业趋势 - 高性能计算行业正面临计算架构异构化与AI/ML工作负载兴起的双重挑战,软硬件协同设计成为关键发展方向 [2] - 人工智能已成为高性能计算发展的核心驱动力,模型规模增长导致算力需求呈指数级上升,能源消耗成为主要瓶颈 [2] - 行业呈现十大发展趋势,包括解决系统碎片化、优化数据流动方式、构建以数据为中心的计算系统等 [3] 技术突破 - Together AI推出自研"AI加速云"平台,其推理引擎和优化策略表现优异,目标构建全球级AI计算基础设施 [3] - 瑞士CSCS开发的云原生超算平台ALPS支持弹性资源调度,采用"科学即服务"模式支撑大型科研项目 [3] - Hermes系统通过优化数据流动方式突破"内存墙"性能瓶颈,提出未来计算系统需"以数据为中心"的理论模型 [3] 发展方向 - 未来百亿亿次计算(Zeta Scale)需解决系统工程命题,系统功耗和可靠性是规模扩展的核心障碍 [4] - HPC与AI结合存在技术路线分歧:通用架构与更高集成度的CPU-GPU耦合架构成为主要讨论方向 [4] - 专家指出Transformer架构并非AI for Science的通用解决方案,需探索多样化技术路径 [4] 研究重点 - 会议聚焦四大核心方向:算法、应用系统、系统软件与中间件、软硬件协同架构设计 [2] - 设置五大热点研究主题,包括算法与计算模型、系统与体系结构设计等关键技术领域 [2] - 异构系统架构中的"集成"问题被特别强调,国际合作被视为应对算力挑战的重要途径 [2]
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀
雷峰网· 2025-05-15 10:13
DeepSeek-V3 成本效益与架构创新 - 核心观点:通过软硬件协同设计实现大型模型的高效训练与推理,仅需2048个NVIDIA H800 GPU即达到最先进性能 [4] - 采用DeepSeek-MoE与多头潜在注意力(MLA)架构,FP8混合精度训练使内存消耗降低50% [7][8] - MLA通过压缩KV缓存至潜在向量减少内存占用,共享KV、滑动窗口缓存等技术进一步优化存储 [10][11][12] 低精度与计算优化 - 首创FP8训练框架,通信量较BF16减少50%,提出硬件改进建议如提升累加精度至FP32 [16][17][18] - MoE架构使计算成本降至250 GFLOPS/令牌,显著低于密集模型的2448 GFLOPS [13] - 多标记预测(MTP)框架提升推理速度1.8倍,令牌接受率达80%-90% [14] 互联驱动设计 - 针对H800 NVLink带宽限制(400GB/s),采用8张400G Infiniband网卡增强扩展能力 [20][23] - 节点内NVLink(160GB/s)与节点间IB(40GB/s)带宽差异促生节点受限路由策略,减少跨节点流量 [24][26][27] - 提出未来硬件需统一网络适配器、专用通信协处理器以优化资源利用 [29][30] 大规模网络架构 - 部署八平面胖树网络(MPFT),支持16384 GPU理论规模,成本较三层胖树降低41% [32][34][40] - MPFT实现流量隔离与低延迟,专家并行带宽超40GB/s,训练效率与单平面网络持平 [37][44][47] - InfiniBand延迟(2.8μs)优于RoCE(3.6μs),但建议RoCE优化如自适应路由与拥塞控制 [50][51][53] 未来硬件方向 - 需解决互联故障、静默数据损坏等问题,建议校验和验证与诊断工具预装 [59][60][61] - 提出CPU-GPU直连、共封装光学、动态带宽分配等创新方向 [61][64][66] - 内存架构推荐DRAM堆叠加速器与晶圆级集成技术以突破带宽瓶颈 [72]