Workflow
超低精度训练
icon
搜索文档
DeepSeek V3到V3.1,走向国产算力自由
虎嗅APP· 2025-08-24 09:02
DeepSeek-V3.1技术升级 - 公司发布V3.1版本采用混合推理架构,同时支持思考模式和非思考模式,提高思考效率并减少token消耗和时间成本[6] - 模型通过后训练优化提升Agent能力,外扩训练增加840B token,上下文长度和两种模式均达到128k[8] - API Beta接口支持strict模式Function Calling,提升工程可靠性和企业易用性,并增加对Anthropic API格式支持以渗透其企业市场[8][9] UE8M0 FP8超低精度创新 - 公司采用UE8M0 FP8 Scale参数精度,这是一种对数数值系统(LNS)特化实现,用于存储缩放因子而非直接权重[11][13][24] - 该格式兼容MXFP8标准,可在支持该标准的硬件(包括英伟达Blackwell和国产GPU)上直接运行,减少75%内存使用并提升训练推理效率[4][13][27] - 超低精度设计覆盖极宽动态范围,通过软件定义适配国产芯片,使国产GPU能高效运行大模型[13][24][27] 算力自主战略路径 - 公司分两阶段突破:先通过魔改PTX指令集最大化利用英伟达GPU算力利用率,再通过UE8M0 FP8降低算力物理需求适配国产芯片[4][26][27] - 软硬件协同优化构建"算力无关"模型生态,长期减少对进口先进GPU依赖并推动国产芯片生态发展[4][27][32] - 超低精度技术加快国产下一代GPU推出(如寒武纪、沐曦、燧原、昇腾),形成去英伟达化路线[14][27][32] 对英伟达市场的影响 - UE8M0 FP8技术降低对H20/B30等缩水版芯片需求,国产芯片生态完善将削弱CUDA锁定效应[29][30][32] - 英伟达优势仍存于G200的更大带宽、更强互联和显存以及CUDA生态绑定,但低成本训练路径弱化其必选性[32] - 公司技术路线可能影响英伟达中国市场策略,中长期国产方案更受成本敏感企业青睐[29][30][32]
DeepSeek V3到V3.1,走向国产算力自由
虎嗅· 2025-08-24 00:33
技术升级与架构创新 - DeepSeek-V3.1采用混合推理架构,同时支持思考模式和非思考模式,提升模型灵活性和效率[3] - 模型通过后训练优化显著增强Agent能力,在工具使用和智能体任务中表现提升[6] - 基础模型在V3基础上新增840 B token的外扩训练,上下文长度和双模式均扩展至128k[7] - 引入UE8M0 FP8 Scale参数精度,最多减少75%内存使用,大幅提升训练和推理效率[1][13] - UE8M0 FP8格式兼容MXFP8标准,可直接在支持该标准的硬件上运行,无需额外转换[14][15] 算力优化与硬件适配 - 公司通过魔改英伟达PTX指令集提升GPU算力利用率,最大化挖掘现有硬件潜力[33] - UE8M0 FP8格式采用对数数值系统特性,覆盖极宽动态范围,适合低算力环境工程优化[14][30] - 超低精度技术降低对进口GPU依赖,适配寒武纪、沐曦、燧原、昇腾等国产芯片[1][16][34] - 软件定义策略使模型与多种芯片适配,推动国产芯片实现前沿大模型训练推理[15][35] 企业服务与生态建设 - API Beta接口支持strict模式Function Calling,提升工程可靠性和企业易用性[8] - 新增Anthropic API格式支持,便于Claude用户迁移,直接渗透其企业市场份额[9] - 升级后模型在保持性能同时降低价格,凸显性价比创新优势[7] - 技术路线旨在构建"算力无关"模型生态,减少对CUDA生态依赖[35][42] 行业竞争与市场影响 - 超低精度技术可能削弱英伟达H20/B30芯片在中国市场竞争力[37][39] - 国产AI软件栈逐步成熟,中长期将降低对英伟达芯片需求[38] - 国际厂商仍优先选用英伟达G200追求极致性能,但中国厂商形成去英伟达化路径[40][42] - 技术突破激活资本市场,推动算力自主进程[2][10]