FP8

搜索文档
DeepSeek官宣重磅更新!寒武纪等国产AI芯片全面爆发!DeepSeek FP8概念股来袭
私募排排网· 2025-08-25 07:00
DeepSeek V3.1模型与UE8M0 FP8技术突破 - DeepSeek于2025年8月21日发布V3.1版本模型,引入混合推理架构、更高思考效率及优化智能体任务表现[2] - 模型采用UE8M0 FP8数据格式,专为下一代国产芯片设计,通过8位指数和共享Scale因子实现超低精度表示,数据位宽仅为FP32的1/4、FP16的1/2[5] - UE8M0 FP8采用"范围优先"策略,牺牲部分小数精度以换取更大动态范围和数值稳定性,适配国产芯片的整数/移位计算单元[5] - 此为国产大模型厂商首次自主定义低精度格式,打破英伟达E4M3/E5M2垄断,形成"国产模型-国产芯片-国产系统"闭环[6] 国产AI芯片公司FP8适配进展 - 寒武纪2022年定增项目计划扩展对FP8数据类型的支持,近1个月股价涨幅达113.61%[7] - 芯原股份在研项目支持FP8等多种数据格式,近1个月涨幅72.82%[9] - 景嘉微直接持股摩尔线程,后者实现单芯片FP8计算精度支持,近1个月涨幅57.20%[9] - 国芯科技DeepEdge10系列芯片已实现FP8硬件原生支持及14nm全国产化量产,近1个月涨幅54.17%[9] - 兆易创新GD5F系列支持FP8混合精度计算,M87系列与UE8M0 FP8内存架构高度协同,近1个月涨幅28.84%[9] - 其他支持FP8的A股公司包括云天励飞(涨幅158.66%)、格灵深瞳(69.37%)、润欣科技(64.68%)等共计20余家企业[9][10] 国产AI芯片市场格局与竞争态势 - 英伟达告知供应商暂停专为中国市场定制的AI芯片H20生产,同时开发基于Blackwell架构的新型芯片B30A[11] - 特朗普政府考虑允许英伟达向中国出售"性能削减版本"AI芯片,但需缴纳销售收入15%的费用[11] - 英伟达在中国市场份额从四年前的95%降至2024年的50%,同期中国本土AI芯片品牌渗透率从15%提升至30%,2024年出货量达82万张[12] - 中国AI芯片市场规模预计从2024年1425.37亿元增长至2029年1.34万亿元,年均复合增长率53.7%[12] - 全球芯片架构呈现"GPU领跑、ASIC崛起"格局,国内ASIC架构主导且发展优于国外厂商,GPU仍处起步阶段[12] - 华为昇腾910D芯片采用原生达芬奇架构3.0、自研HBM3e存算一体技术,理论算力峰值有望超越英伟达H100[13] 华为昇腾生态合作伙伴 - 四川长虹间接持有华鲲振宇股份,推出基于昇腾的"天宫"系列服务器,近1个月涨幅19.06%[14] - 神州数码为昇腾优选级合作伙伴,推出AI推理服务器神州鲲泰系列,支持DeepSeek模型部署,近1个月涨幅22.19%[14] - 其他昇腾生态伙伴包括广电运通(涨幅11.25%)、软通动力(9.43%)、常山北明(8.97%)等企业,覆盖硬件、软件与算力基础设施领域[14]
Deepseek V3.1的UE8M0 FP8和英伟达的FP8格式有什么区别
傅里叶的猫· 2025-08-24 12:31
DeepSeek V3.1引入UE8M0 FP8的意义 - DeepSeek V3.1发布引入UE8M0 FP8格式,针对下一代国产芯片进行优化,提前适配硬件以缩短部署时间 [2][11] - UE8M0是一种无符号8位指数、0位尾数的FP8编码格式,由Open Compute Project(OCP)提出,属于MXFP8规范的一部分 [7][8] - 该格式核心目标是数据压缩,相比FP32内存占用减少75%,推理吞吐量达到BF16的2倍,提升训练和推理效率 [7][13] UE8M0与英伟达FP8标准的差异 - 英伟达采用E4M3(精度优先)和E5M2(动态范围优先)FP8格式,依赖Tensor Core和专有软件优化 [7][10] - UE8M0侧重范围优先和兼容性,通过通道级校准和高精度累加(如FP16)弥补精度损失,适配国产芯片硬件架构 [10][11] - 国产芯片(如摩尔线程MUSA、芯原VIP9000 NPU)支持原生FP8,但底层计算单元与英伟达不同,直接套用国外标准可能导致数值溢出或计算故障 [9][12] 国产AI生态的战略价值 - UE8M0推动软硬件协同设计,DeepSeek提前与国产芯片厂商合作,实现"向前兼容",加速国产芯片从实验室到实际应用的落地 [11][12] - 摆脱对英伟达标准的依赖,避免国产GPU针对E4M3/E5M2优化效率低下,探索适合本土硬件的技术路径 [12] - 该方案并非追求超越英伟达,而是补位国产生态,使国产芯片达到接近国外FP8的效率水平 [14] 技术性能与局限性 - UE8M0在内存节省和推理速度上优势显著:内存占用较FP32降75%,推理吞吐量达BF16的2倍(例如单卡请求处理从100/秒提升至200/秒) [13] - 局限性包括:梯度累加等计算仍需BF16/FP16支持,本质为混合方案(FP8存储+16位累加);依赖芯片厂商底层优化,否则性能无法充分发挥;需精细校准数据防止极端数值误差 [15] 行业技术对比背景 - 英伟达B200芯片支持FP4/FP6,性能大幅提升:FP4算力达17,000 TFLOPS,较H100提升254%;B200功耗1,000W,系统功耗1,788W/GPU,内存带宽8,000 GB/s(较H100提升139%) [6] - 国产芯片需通过UE8M0等自主标准实现技术追赶,而非直接对标英伟达高端芯片规格 [12][14]
突发!英伟达停产H20芯片
猿大侠· 2025-08-24 04:11
英伟达H20芯片生产暂停与市场动态 - 英伟达通知部分供应商暂停中国特供AI芯片H20的生产[1] - 受影响的供应商包括三星电子(提供高带宽内存芯片)和安靠科技(负责先进封装)[2] - 公司发言人回应称供应链管理基于市场状况调整[3] H20芯片订单与监管变化 - H20是专为中国市场设计的AI芯片 占英伟达中国区收入的80%[6] - 美国于4月禁止该芯片对华销售 7月中旬宣布恢复销售[7] - 7月底因需求强劲 英伟达向台积电紧急追加30万片H20订单[8] - 8月获得出口许可条件为向美国政府上缴15%销售额[9] 安全争议与政府审查 - 7月31日网信中国公众号披露英伟达算力芯片存在严重安全问题[10] - 美议员要求先进芯片配备追踪定位功能 专家称远程关闭技术已成熟[12] - 国家网信办约谈英伟达 要求就H20漏洞后门问题提交说明材料[13] - 公司回应否认存在后门 强调网络安全重要性[13] 新产品开发与技术演进 - 英伟达正基于Blackwell架构开发新型中国特供芯片B30A[13] - 采用单芯片设计 性能约为B300芯片的一半[14] - 搭载HBM高带宽内存与NVLink技术 支持高速数据传输[16] - 计划下月向中国客户提供样品测试[16] - H20停产可能与新品推出相关[17] 国产芯片技术突破 - DeepSeek发布V3.1版本 披露下一代国产芯片设计UE8M0 FP8[19][20] - FP8为8位浮点格式 较传统FP16显存占用降低50% 计算速度提升2倍[23] - 功耗降至FP16的1/4 显著降低带宽需求[23] - 该格式使国产芯片算力效率首次逼近英伟达 缩小代际差距[25] - 目前英伟达H100等芯片已支持FP8 国产芯片多停留在FP16/BF16阶段[24]
Deepseek发布V3.1 为何火的却是官方留言?
环球网资讯· 2025-08-23 05:26
DeepSeek-V3.1技术升级 - 公司正式推出DeepSeek-V3.1 在混合推理架构、思考效率和Agent能力方面全面升级 [1] - 官方补充说明UE8M0 FP8技术针对下一代国产芯片设计 [1] 资本市场反应 - DeepSeek官方留言引发连锁反应 寒武纪和海光信息等企业股价短期内上涨 [3] - 市场普遍认为FP8技术优化将推动国产芯片在AI训练和推理场景下的性能提升并扩大市场份额 [3] FP8技术特性 - FP8是8位浮点数格式 能在几乎不损失模型精度情况下大幅提升计算速度并降低功耗 [3] - 该格式尤其适用于大规模神经网络训练和推理场景 [3] 国内芯片产业现状 - 目前国内仅极少数GPU厂商支持FP8 如摩尔线程旗舰产品MTT S5000是国内首批原生支持FP8并大规模量产的GPU [3] - 摩尔线程MUSA架构原生支持硬件FP8张量加速计算 相对传统FP16计算可实现两倍浮点算力提升 [3] UE8M0 FP8技术价值 - 该技术通过对FP8格式深度优化 为下一代国产芯片提供底层支持 [4] - 通过减少数据存储和传输耗损 显著提升芯片吞吐量和能效比 [4] - 进一步强化国产AI芯片在国内外市场的竞争力 [4] 行业技术趋势 - 英伟达和AMD等国际巨头纷纷布局FP8 该格式有望成为下一代AI训练和推理的通用标准 [5] - DeepSeek此时推出UE8M0 FP8技术意味着中国企业在标准制定阶段已深度参与 可能影响全球技术路线走向 [5] 软硬件协同发展 - 公司从AI算法向芯片技术延伸体现软件定义硬件趋势 [5] - 优秀软件栈和算法优化能力正成为提升硬件性能的关键因素 [5]
算力股、芯片股都疯了!DeepSeek一句话让国产芯片集体暴涨!
是说芯语· 2025-08-22 07:49
DeepSeek V3.1发布及UE8M0 FP8技术影响 - DeepSeek V3.1发布采用UE8M0 FP8参数精度 引发市场广泛关注[1][31] - 官方透露新架构及下一代国产芯片信息 信息量巨大但表述简短[1][32] 国产芯片股价表现 - 寒武纪股价收盘上涨20% 总市值跃居科创板头名[2][24] - 半导体ETF全天大涨10% 代码512480 SH收报1 311元 单日上涨0 110元[3] - 芯片产业链集体走强 科创50指数大涨3%创近三年半新高[26] - 多只半导体成分股显著上涨 包括海光信息+20% 中芯国际+14 19% 澜起科技+8 70% 兆易创新+10%[3][4] UE8M0 FP8技术解析 - UE8M0 FP8为MXFP8格式的缩放因子配置 由Open Compute Project在2023年定义[7][8] - UE8M0中U代表无符号 E8M0表示8bit全部分配给指数位 无尾数和符号位[13][14] - 该格式优势包括 处理器复原数据时只需移动指数位 无需浮点乘法或舍入逻辑 缩短时钟关键路径[16] - 动态范围覆盖2^−127至2^128 解决单尺度FP8无法兼顾大小值的问题 减少信息损失[17] - 块级缩放使32个FP8数据仅追加8bit缩放因子 相比FP32缩放节省75%流量[21] 国产芯片厂商适配进展 - 寒武纪MLU370 S4 思元590及690系列芯片均支持FP8计算 架构设计领先[24] - 摩尔线程MTT S5000 GPU 芯原VIP9000 NPU等2025H2新品支持原生FP8或Block FP8[20] - 华为昇腾910B/C暂不支持原生FP8 但官方路线图显示2025Q4将支持[25] - 海光深算三号DCU 沐曦曦云C600 中昊芯英刹那TPU均支持FP8精度计算[30] - 首批通过DeepSeek大模型适配测试的厂商包括中国电信 华为 寒武纪 昆仑芯 海光 沐瞳 中昊芯英 中科加禾[23] 行业生态与竞争影响 - UE8M0 FP8提升国产芯片性价比 同等硬件可运行更大模型 减少对英伟达 AMD等国外算力依赖[27][28] - DeepSeek通过精度格式改动主动贴合国产芯片性能点 推动软硬协同生态建设[29] - 技术优化方向与国产芯片带宽限制(HBM LPPDDR)形成互补 成为下一代架构重要优化路径[21] - 市场解读为国产AI进入软硬协同阶段 国产芯片厂商竞争力提升[27][29]
究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
机器之心· 2025-08-22 04:01
DeepSeek V3.1 模型性能提升 - 采用全新混合推理架构,支持思考与非思考两种模式,在工具使用、编程、搜索等智能体任务上表现大幅提升 [1] - 在Aider多语言编程基准测试中得分超越Anthropic Claude 4 Opus,同时具备显著成本优势 [1] - SWE-bench Verified基准测试得分66.0,较前代V3-0324的45.4提升45.4% [2] - SWE-bench基准测试得分54.5,较前代V3-0324的29.3提升86.0% [2] - Terminal-Bench基准测试得分31.3,较前代V3-0324的13.3提升135.3% [2] - 通过思维链压缩训练,在任务表现持平情况下token消耗量减少20-50%,有效成本与GPT-5 mini相当 [2] UE8M0 FP8技术创新 - 采用UE8M0 FP8缩放浮点格式,参数量达685B,专为下一代国产芯片设计 [5][7] - UE8M0采用无符号设计,8bit全部用于指数位,覆盖极大正数范围,适合处理梯度、激活值等跨数量级数据 [8][9] - 兼容微缩放浮点格式,通过外部缩放因子补偿精度,实现低比特宽度存储和快速计算 [8][9] - FP8格式仅占1字节内存,较FP16节省50%存储空间,在百亿/千亿参数规模下节省显著 [10] - NVIDIA Hopper GPU的FP8 Tensor Core吞吐量达FP16的两倍 [10] 国产AI芯片生态布局 - UE8M0 FP8格式针对华为昇腾、寒武纪等国产AI芯片优化 [9][15] - 华为HiFloat8方案采用单一格式+锥形精度思路,兼顾精度和范围,覆盖正向反向传播 [9] - DeepSeek明确否认V3.1使用国产芯片训练,但UE8M0机制为国产推理芯片优化铺平道路 [13][14] - 未来国产开源大模型可能针对华为昇腾、寒武纪芯片实现专门优化并大规模应用 [15]
DeepSeek正式发布新模型,还透露国产AI芯片关键信息
选股宝· 2025-08-21 23:22
DeepSeek-V3.1技术升级与国产AI芯片发展 - DeepSeek-V3.1版本采用UE8M0 FP8 Scale参数精度 专为下一代国产芯片设计 [1] - FP8为AI计算前沿低精度格式 在支持原生FP8的GPU上可大幅提高算力并显著降低显存占用 由英伟达、Arm和英特尔于2022年联合提出 [1] 国产GPU发展现状与厂商进展 - 国产GPU进入快速发展阶段 从可用进入好用阶段 寒武纪、海光信息及华为等厂商领先 [1] - 摩尔线程新一代GPU采用平湖架构 增加FP8精度支持 大幅提升AI算力 可支撑万卡集群智算中心解决方案 [1] - 沐曦提供训推一体C系列GPU 具大规模并行计算能力 已在多个智算中心规模化应用 另提供面向生成式AI推理的N系列GPU 拥有多精度混合算力 [2] GPU市场规模预测与国产算力趋势 - 全球GPU市场规模预计2029年达36119.74亿元 中国市场规模达13635.78亿元 占比从2024年30.8%提升至2029年37.8% [2] - DeepSeek带动AI应用向终端扩散 需要高性价比专用芯片 国内芯片厂商与应用端企业加速对接 预计2025年国产算力大规模起量 [2] 相关上市公司梳理 - A股算力芯片龙头包括寒武纪与海光信息 [3] - 华为昇腾产业链涉及拓维信息、神州数码及华丰科技 [4] - DeepSeek-V3.1升级支持混合推理架构 提升工具使用与智能体任务表现 相关公司包括鼎捷数智、泛微网络及酷特智能 [4][5]