数据流架构 - 财报，业绩电话会，研报，新闻

数据流架构

搜索文档

理想TOP2· 2025-09-27 08:58

自动驾驶算法演进 - 自动驾驶算法发展分为三个阶段：规则算法阶段、端到端（E2E）加视觉语言模型（VLM）阶段、视觉语言动作模型（VLA）加强化学习（RL）阶段 [4][5] - E2E加VLM技术使自动驾驶行为更接近人类驾驶体感通过模仿学习实现加速、减速、转弯等操作的优化 [5] - VLA+RL结构更简单主体为语言模型（L）视觉信号编码后输入L学习最终通过diffusion生成轨迹 [5] 语言模型在自动驾驶中的必要性 - 技术原因：语言是人类泛化能力的基础语言模型提供长链推理能力解决最后5%-10%的极端场景（corner case）问题 [6][7] - 非技术原因：语言模型使自动驾驶系统具备人类世界观和价值观实现更自然的驾驶行为交互 [8] - 语言模型scaling law要求车端算力超线性增长从2025年开始算力需求可能从400Tops跃升至2500Tops [9] 计算架构演进与挑战 - 从CPU到GPU再到GPGPU 均遵循冯诺依曼架构以计算为一等公民、数据为第二等公民 [11][12] - AI时代计算算子减少但数据处理复杂度增加需要转向数据流架构让程序更关注数据而非计算 [12] - GPGPU存在共享内存压力问题高并行度下内存带宽需求急剧增加（如HBM） [11] 数据流架构历史发展 - 数据流架构先驱为MIT的Jack B Dennis和Arvind 提出数据驱动执行（Data driving execution）概念 [13] - 关键发展包括：静态数据流图（不支持循环）、tag token标记、I-structure内存模型（类似Java对象不可更改特性） [13] - 1990-2000年高光荣教授提出Threaded Dataflow Architecture 将计算粒度放大到thread级别并开发RC编程语言 [14] - 2000-2015年应用于DSP领域形成Codelet计算模型、COStream编程模型和配套memory model的完整体系 [14][15] 理想汽车自研计算架构实践 - 车端计算架构核心为NPU而非SOC NPU采用同构重合架构与Mesh Bus互连独创CCB（Central Control Computing Block）处理非张量计算 [17] - 架构提供Ring Bus广播功能为国内独家设计的AI推理架构 [17] - 与行业最佳推理芯片相比：同等晶体管消耗下CNN性能达4.4倍 transformer base模型性能达4-6倍 LlaMA2 7B模型性能达2-3倍 [2][18] - 编译器开发是主要挑战涉及编程模型和编译架构的协同设计 [18] 算力需求趋势 - 语言模型应用推动车端算力需求指数级增长 2025年后算力规划从400Tops跃升至2500Tops（约6倍增长） [9] - 算力增长主要驱动因素为语言模型的长链推理需求而非纯视觉处理需求 [9]

聚焦“新算力”，清微智能新架构助力AI科技“换道超车”

经济网· 2025-09-18 09:15

清微智能首款"新算力"芯片"TX81"推出仅短短半年，即实现了在全国多地落地千卡智算中心，累计订单超过20000枚。但一条全新的路，要面临的困难和风险可以想象，没有成熟方案可以借鉴，几乎每一行代码都要编写。近年来，各级投资机构也越加清晰地看到了新算力的价值，大基金投资、国开基金纷纷入场投资。从市场风向来看，ChatGPT宣布转向数据流架构，DeepSeek3.1宣布支持包括清微智能在内的下一代国产芯片，都是算力产业实现自主可控的关键信号。作为全球"新算力"浪潮的参与者，清微智能的先发优势和战略定力让它开了一个好头，实现新技术规模化落地离不开充足的研发时间、技术迭代、资本注入及政策扶持。AI下半场，数据流架构推动的"国产新算力"也需要行业和用户给予机遇和耐心。目光回到我国，清微智能是一家源于清华大学、具有近20年技术积累的科技企业，在全球领先完成数据流可重构芯片技术的工程化和量产落地。清微创始人、董事长兼CEO王博认为，芯片技术发展有一个"类摩尔定律"，即芯片架构20年一迭代。他表示，上世纪60-70年代是以CPU为主流，进入80年代，随着技术发展有了FPGA去解决通信的问题，进入新世纪 ...

理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计

理想TOP2· 2025-09-05 04:56

自研芯片技术架构 - 理想汽车自研芯片采用数据流架构计算由数据驱动而非指令驱动实现更高并行度更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元采用软硬件协同设计将芯片编译器运行时系统和操作系统垂直整合深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比运行大语言模型性能达2倍运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回目前正在进行车辆测试预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战需通过小词表投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出针对action token采用双向注意力机制一次性输出实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计资源集中于矩阵乘法与加法运算相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构数据在计算单元间流动减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列在通用性方面更具优势[3]

重磅！中国团队发布SRDA新计算架构，从根源解决AI算力成本问题，DeepSeek“神预言”成真？

新浪财经· 2025-06-09 13:27

大模型算力成本挑战 - 大模型每生成1美元价值需支付3美元算力成本算力成本挑战已成为行业共识 [1] - 当前优化方案多集中于软件层面硬件源头解决方案较少现有新计算硬件如Groq多在大模型爆发前定型难以充分匹配需求 [1] SRDA架构创新 - 玉盘AI发布《SRDA AI大模型专用计算架构》白皮书提出系统级精简可重构数据流架构(SRDA) 从硬件源头解决AI算力核心瓶颈 [3] - SRDA架构将"数据流"作为核心设计哲学通过硬件直接映射AI计算图数据依赖关系实现计算单元间点到点直接传输减少内存依赖和访问次数 [8] - 架构采用3D堆叠DRAM内存技术实现计算单元内存私有化每个计算核心拥有专属内存区域消除共享总线竞争 [14] GPGPU架构局限性 - GPGPU架构为保证通用性未针对大模型需求优化类似"瑞士军刀切牛排" 工具缺乏针对性 [6] - H100每秒可计算1000万亿次但共享内存架构+低内存带宽仅能"喂饱"不足一半硬件算力 [7] - H100单卡功耗达700瓦超三分之一电量用于数据搬运而非计算 [7] 下一代AI芯片关键特征 - 需解决内存与互联带宽不足问题当前架构存在"几台车抢一个车位"现象 [7] - 需提升算力利用率避免类GPGPU架构通信开销及内存瓶颈导致理论算力打折 [7] - 需简化网络设计传统多层网络带来带宽层级差异协议转换开销和管理难题 [7] SRDA技术突破 - 采用I/O融合技术(QLink) 将节点内外网络融合为统一单层网络简化拓扑结构 [14] - 具备可重构特性允许根据AI模型调整数据流路径计算单元功能和内存模式适应未来模型变化 [16] - 基于开源RISC-V指令集提供简化指令降低算子开发难度 [16] 行业趋势与影响 - DeepSeek论文与玉盘SRDA架构在IO融合 3D堆叠DRAM等技术方向不谋而合显示行业共识正在形成 [6] - 当前算力瓶颈主要在于数据搬运及读写(I/O问题) 而非计算能力本身 [6] - SRDA架构可能颠覆GPGPU在AI场景的垄断地位形成"SRDA+3D-DRAM"替代"GPGPU+HBM"的新组合 [14]