Workflow
曦云C550 GPU
icon
搜索文档
用国产GPU训练的国产大模型来了,能耗暴降97.7%
36氪· 2025-09-10 07:19
模型性能与效率 - 仅使用主流大模型2%的预训练数据(150B tokens)即实现Qwen2.5-7B 90%的性能 [2] - 在100万token上下文场景下,生成首个token耗时较Qwen2.5-7B降低96.2% [2] - 平均乘加运算能耗较传统FP16和INT8运算分别降低97.7%和85.2% [3] - 长序列推理中,100万token长度下TTFT加速达26.5倍,400万token下加速超100倍 [24] - 手机CPU端64K/128K/256K长度推理速度较Llama3.2同规模模型提升4.04/7.52/15.39倍 [26] 技术架构创新 - 集成混合高效注意力、MoE模块和脉冲编码三大核心组件 [8] - 7B版本采用层间混合线性注意力与SWA,76B版本采用层内并行混合注意力机制 [10][11] - 提出自适应阈值脉冲神经元解决LIF模型过度沉默或激活问题 [14] - 脉冲统计显示7B模型稀疏度超69.15%,长序脉冲占比约1.85% [28] 国产化适配与训练 - 全程基于国产沐曦曦云C550 GPU集群训练推理,集群连续运行2周未中断 [2][28] - 通过Triton适配和CUDA向MACA框架迁移实现硬件适配 [18] - 结合数据并行、流水线并行、专家并行和序列并行等分布式训练技术 [20] - 训练过程中每秒每GPU处理1558个token,FLOPs利用率达23.4% [28] 应用场景与潜力 - 适用于超长序列处理任务,如法律医学文档分析、多智能体模拟、物理实验及DNA序列分析 [3] - 在通用知识、长序列建模及指令跟随能力上与同量级开源模型相当 [23] - 脉冲驱动计算结合量化技术可大幅降低能耗且精度损失可控 [30] 模型版本与开源 - 提供7B(已开源)和76B(提供体验链接)两个版本 [6] - 7B模型在MMLU、CMMLU等基准测试中与Mistral-7B、Llama-3-8B性能相当 [21][22] - 76B模型几乎完全恢复基座模型性能,在多项评测中接近或超越同规模模型 [23]