智能体产业化 - 财报，业绩电话会，研报，新闻

智能体产业化

搜索文档

1元/百万token，8.9ms生成速度，Aengt落地“成本账”与“速度账”都要算丨ToB产业观察

钛媒体APP· 2025-09-29 08:12

AI生成 "通过元脑HC1000超扩展AI服务器，可实现将原先每百万token超过10元钱，下降到仅1元钱的成本。"浪潮信息首席AI战略官刘军与笔者分享了浪潮信息结合用户需求，将算力成本"打下去"的最新解决方案。除了成本之外，当AI从大模型进入Agent时代，甚至从AGI向着ASI迈进的过程中，实现多Agent协同的目标，如何降低响应速度是不可避免的问题，刘军也在与笔者的交流中，分享了浪潮信息在降低通信延迟方面的AI算力布局，他表示，通过浪潮信息元脑SD200超节点AI服务器，可将原本国内最低15ms左右的延迟，下降到8.9ms左右。速度决定了ASI能否"照进现实" 随着Scaling Law持续推动模型能力跃升，以DeepSeek为代表的开源模型极大的降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。 "速度，是智能体商业化应用落地的第一要义。"这是在与刘军交流过程中，他反复强调的观点。在智能体商业化应用落地过程中，交互速度是决定其能否在真实场景中发 ...

8.9ms，推理速度新记录！1块钱百万token，浪潮信息AI服务器加速智能体产业化

量子位· 2025-09-29 04:57

产品发布与技术创新 - 浪潮信息发布超扩展AI服务器元脑HC1000 显著降低AI推理成本[2] - 推出元脑SD200超节点AI服务器将DeepSeek-R1的Token生成时间缩短至毫秒级[3] - 元脑SD200采用多主机3D Mesh系统架构显存统一地址空间扩增8倍支持单机64路纵向扩展[19] - 元脑SD200通过极简三层协议栈实现百纳秒级通信延迟并支持硬件级链路层重传[21][22] - 元脑HC1000通过计算流程解耦设计将推理Prefill和Decode阶段分离提升资源利用效率[38][39] - 元脑HC1000采用16卡计算模组设计实现单卡成本降低60% 系统均摊成本降低50%[27][40] 性能突破与效率提升 - 元脑SD200将大模型端到端推理延迟控制在10ms以内 DeepSeek-R1的TPOT仅8.9ms[10] - 元脑SD200实现DeepSeek-R1 671B推理最高16.3倍超线性扩展率[10][25] - 元脑HC1000推理性能相比传统RoCE提升1.75倍单卡算力利用率最高提升5.7倍[41] - 元脑HC1000将每百万Token输出成本降至1元人民币[27] 行业趋势与应用场景 - AI竞赛进入智能体产业化阶段能力/速度/成本成为核心竞争要素[5] - 智能体时代Token消耗量暴增辅助编程场景月消耗量同比增长50倍[30] - 企业部署单个智能体月均Token成本达5000美元未来5年将呈指数级增长[31][32] - 金融交易等场景对响应时效要求苛刻反欺诈算法需在10毫秒内完成风险识别[16] 架构演进与未来方向 - 通用GPGPU架构面临系统规模/电力压力/算效不平衡三大挑战[46][47] - 行业需从规模导向转向效率导向发展AI专用计算系统[48] - 专用架构效率高但应用面窄通用架构易推广但效率低需协同发展[49] - 公司将针对核心算法算子进行硬件化设计实现性能数量级提升[52]