文章核心观点 - 人工智能基础设施效能评价核心指标正从"每焦耳能量支持的计算次数(TOPS/J)"转变为"每焦耳能量处理的有效Token数量(Tokens/J)"[3] - Token已成为大模型时代最核心的生产要素之一 是AI模型输入输出的基础单元[3][5] - 软硬件协同优化是提升单位能耗下Token效率的关键路径 需从芯片设计、互联技术到集群架构全面优化[3][9][11] AI基础设施效能评价体系变革 - AI 1.0时代芯片评价标准为每焦耳TOPS AI 2.0时代转变为每焦耳Tokens/J[6] - 不同智能等级对Tokens/J能效需求差异显著:Level 2差1-2个数量级 Level 3差2-3个数量级[7] - 高质量Tokens/J需持续演进 从简单对话到AI for Science需确保大模型推理性能不受影响[7] 神经网络优化技术路径 - 通过稀疏化优化矩阵运算:零元数量可从50%增加到75% 稀疏模式从非结构化发展到结构化稀疏[9] - 量化技术从32比特浮点发展到FP8、FP4 国产芯片正逐步支持更高效数据表示[10] - 神经网络可学习特性支持算法与硬件协同优化 在保证精度前提下减少计算开销[9] 算力系统架构演进 - 算力集群构建需经历晶圆级集成、芯片互联、服务器互联、集群整合的逐级集成过程[11] - 系统优化分三个层级:小盒子(计算优化)、中盒子(芯片间协同)、大盒子(万卡级资源调度)[12] - 万卡至十万卡规模需解决系统稳定性、容错管理和任务正确性等关键问题[12] 端侧与云侧能效挑战 - 端侧应用需求与现实能力存在10倍差距 需实现20 Tokens/J能效和100-200 Tokens/s推理速度[12][15] - 云侧正从能效角度推进优化 提升每节点Tokens/J实现可持续计算[12] - 2025 WAIC已展示峰值200 Tokens/s的端侧方案[12] 智能体演进带来的系统挑战 - 从单模型到多智能体协作时 GPU利用率降低、动态性增强、开销增大[14] - 多智能体面临并行性、上下文处理、工具复杂度等挑战 需系统级工具支持[14] - 具身智能推动研究重心从云侧芯片向端侧推理演进 是智能系统迈向物理世界的关键[15] 产业生态建设 - 需优化多元异构生态 从基础设施层、模型层到应用层做联合优化[13] - 算力集群已覆盖北京、上海等多省市 服务主要算力消耗方[14] - 正积极适配各类端侧芯片 服务联想等合作伙伴 推动AI云能力赋能千行百业[15]
无问芯穹发起人汪玉:Token已成为智能时代最核心的生产要素之一
IPO早知道·2025-09-01 02:14