Workflow
TX8系列芯片
icon
搜索文档
英伟达学徒遍地,他偏要另起炉灶
虎嗅· 2025-08-15 09:21
公司技术路线 - 采用可重构芯片架构 与英伟达GPU的指令驱动+共享存储范式不同 属于无指令配置+数据流驱动架构 [2][3] - 通过动态配置计算单元实现多功能任务转换 类比铁路道岔切换机制 [2] - 脱离传统冯诺依曼架构 计算过程无需取指译码 直接通过通信接口实现芯片间数据传输 [3][5] 产品发展历程 - 2018年成立公司 2019年推出首枚量产可重构芯片(智能手机语音唤醒芯片) [6][9] - 2022年初立项云端TX8系列芯片 2023年底首枚AI算力芯片TX81开始批量出货 [11] - TX81芯片累计订单超20000枚 半年内实现全国多地千卡智算中心落地 [11] 性能与成本优势 - TX81芯片打造的REX1032服务器单机算力达4 PFLOPS 支持万亿参数大模型部署 [14] - 千卡直接互联无需交换机 采用DDR存储替代昂贵HBM存储 [14][25] - 下一代产品将应用3D存储技术 预计2026年下半年交付 [15][27] 市场竞争策略 - 要求产品具备5倍性价比优势(性能更优+成本更低)以应对生态劣势 [14][24] - 通过三层兼容方案对接生态:CUDA API兼容/Triton编译器兼容/RISC-V指令集兼容 [28][29] - 与谷歌TPU/Groq/SambaNova等同属可重构数据流新架构阵营 形成第二技术阵营 [16][30] 技术差异化 - 动态可重构特性:程序运行中每十几纳秒重构一次计算单元连接方式 [19][20] - 与FPGA重构门电路不同 重点重构计算单元之间的连接通路 [19] - 3D存储技术与可重构架构具备天然适配性 突破传统二维平面布局限制 [26]
架构革命与生态竞合:可重构芯片全球产业化演进
半导体行业观察· 2025-03-31 01:43
可重构芯片技术概述 - 可重构芯片(RPU)凭借高能耗利用率、灵活性和可扩展性成为突破摩尔定律限制的关键路径,在人工智能、边缘计算、数据中心等领域潜力显著 [2] - 核心技术原理为动态配置硬件资源,实现算法与硬件协同优化 [2] 国外产业化进展 - **赛灵思**:2018年推出Versal系列ACAP FPGA产品,集成CGRA可重构计算IP,DSP处理能力革命性提升,主要应用于数据中心和高端智能驾驶,兼具高性能与低功耗特性 [4] - **三星电子**:将可重构加速器集成至8K电视和Exynos SoC,实现视频解码和AI图像增强动态优化,覆盖消费电子、通信设备、汽车电子等领域 [5] - **Intel**:2022年启动Xeon处理器集成可重构计算单元项目,数据中心能效比提升,单位算力功耗降低40% [5] - **PACT公司**:DRP和DAPDNA处理器应用于卫星载荷和军事通信系统,DAPDNA-2芯片实现16Gbps吞吐率,重构时间缩短至毫秒级 [5] - **SambaNova**:SN40L芯片系统支持5万亿参数模型训练,8芯片配置推理性能为英伟达H100的3.1倍,总拥有成本仅1/10,提供全栈解决方案 [6] 国内产业化进展 - **清微智能**: - 技术优势:数据流驱动架构消除指令开销,80%硬件资源集中于核心运算,云端TX8系列能效比达传统GPU的3倍,支持4000卡无交换机直连扩展;边缘端TX5系列支持AI-ISP和Transformer优化,夜间场景算力分配效率提升,目标识别精度保持98.5%以上 [8] - 商业进展:2024年累计出货量突破2000万颗,客户包括阿里、中国移动、国家电网等,TX8部署于智算中心,TX5应用于安防、能源、工农业检测 [9] - 生态建设:提供全栈式加速工具和统一开发接口,推动可重构计算技术标准化 [9] 产业化趋势与挑战 - **技术演进**:数据流架构成为主流,清微智能TX8与SambaNova RDU采用Mesh网络实现算力线性扩展,突破存储墙限制 [10] - **生态建设**:行业从封闭转向开放模式,但编译工具碎片化问题突出,缺乏统一编程范式 [12] - **应用拓展**:边缘端(如海康威视安防设备)实现3倍能效提升;云端(如阿贡国家实验室)性能超越传统GPU [13] 未来展望 - 需构建开放编程标准、开发混合粒度架构、推动与存算一体/Chiplet等技术融合,突破生态壁垒实现算力跨越 [13]