UE8M0 FP8

搜索文档
国产AI芯片 突围了?
南方都市报· 2025-08-27 23:11
财务表现 - 2025年上半年营收28.81亿元,同比增长4347.82% [2] - 归母净利润10.38亿元,扣非归母净利润9.13亿元,均实现扭亏为盈 [2] - 第二季度营收17.69亿元,环比增长59.19%;归母净利润6.83亿元,环比增长92.03% [3] - 连续三个季度实现盈利,扣非归母净利润连续两个季度为正 [3] 产品与业务 - 云端产品线营收28.70亿元,占总营收比例达99.62% [3] - AI芯片思元590在大模型训练任务中表现达英伟达A100的80% [3] - 近40亿元定向增发方案获上交所审核通过,资金将用于大模型芯片平台和软件平台项目 [4] 市场动态与股价 - 股价午盘收报1408.9元/股,单日涨幅6.01%,市值接近6000亿元 [2] - 市盈率(TTM)从4000多倍回调至500多倍,仍高于英伟达等国际厂商 [2] - 8月成为A股第二只千元股,受DeepSeek新模型发布及国产芯片替代情绪催化 [5][7] 技术进展 - DeepSeek-V3.1采用UE8M0 FP8精度格式,针对下一代国产芯片设计 [7] - FP8精度可节省存储带宽并加速计算,适合大模型训练 [7] - UE8M0作为缩放因子扩大数值动态范围,降低国产芯片硬件适配难度 [9][10] - 沐曦、燧原科技、摩尔线程等厂商宣称支持FP8精度 [11] 行业竞争与政策 - 国产算力替代政策推进,如上海要求2025年新建智算中心国产芯片占比超50% [5] - 面临英伟达H20及Blackwell架构特供版芯片的竞争 [5] - 英伟达H20曾因网络安全问题被网信办约谈 [5] 市场传闻与澄清 - 传闻公司向景硕电子预订大量订单且2026年规划产能50万颗,公司辟谣为不实信息 [5] - 此前传闻字节跳动下单10亿元芯片订单亦被辟谣 [6]
DeepSeek 更新,一句话让国产芯片集体暴涨
36氪· 2025-08-24 23:36
公司技术更新 - DeepSeek V3 1版本采用混合推理架构Hybrid Reasoning Architecture 支持思考模式和非思考模式自由切换[6] - 新架构集成通用对话 复杂推理 专业编程等核心功能于单一模型 打破此前V3与R1模型分离的壁垒[9] - 推理效率大幅提升 思考模式下任务表现与前代顶级R1-0528持平 但输出token数量减少20%至50% 非思考模式输出长度更短且性能不打折[9] - 实现思维链压缩 训练阶段生成更简洁高效的推理路径 在保证答案准确性的同时降低计算成本[10] - 采用UE8M0 FP8参数精度 结合MXFP8块缩放技术 减少信息损失并节省资源[13][15] - UE8M0 FP8格式动态范围大 可同时表示极大和极小数 避免数据溢出或归零[15] - 新参数精度与国产新一代芯片原生兼容 包括摩尔线程MUSA 3 1 GPU和芯原VIP9000 NPU[16] 行业影响 - 国产AI进入软硬协同阶段 减少对英伟达 AMD等国外算力依赖[2] - 打破性能越高成本越贵的行业魔咒 为金融 医疗等高算力场景应用提供经济方案[2][10] - 社区测试显示DeepSeek V3 1在Aider多语言编程测试中分数超过Claude 4 Opus且成本更低[10] - 国产芯片概念股应声大涨 每日互动尾盘拉升收盘大涨13 62%[2] - 推动国产AI芯片技术升级 此前大部分国产AI加速器仅支持FP16 INT8方案[16] 用户反馈与应用 - 开发者社区反响热烈 Hugging Face平台热度显著上升[12] - 用户生成内容多样化 包括符合物理定律的小球动态模拟 振动编码VJ制作 个性化自画像等[17][18][19] - 部分用户反馈翻译和写作功能需现场编写SYSTEM PROMPT指令 存在中英夹杂和错词问题[21] 产品定位与市场表现 - DeepSeek以低调方式发布V3 1版本 未进行大规模宣传[4] - 品牌成为国产AI精神图腾 市场对下一代R2版本期待度高[23]
DeepSeek开源V3.1:Agent新纪元开启,哪些企业会受益?
36氪· 2025-08-22 09:35
技术升级 - 上下文窗口从64K提升至128K 可处理相当于30万汉字的长文本 为长文档分析、复杂代码生成和深度多轮对话提供支持 [2] - 模型在工具调用、函数执行及复杂推理任务中的表现提升约40% 在数学证明、编程协作与多模态任务规划方面展现出色能力 [2] - 架构升级为双模式:DeepSeek-Chat模式适用于即时响应场景 DeepSeek-Reasoner模式支持完整思维链推导 提高复杂问题解答准确性和透明度 [3] - 新增strict模式工具调用能力 严格保证输出格式符合预定义参数schema 兼容Anthropic API格式 可无缝接入Claude Code开发生态 [4] 国产芯片适配 - 采用UE8M0 FP8参数精度格式 针对下一代国产芯片设计 [6] - FP8格式相比FP16降低50%-75%显存占用 支持更大批次或更长上下文长度 显著提升国产芯片使用效率 [7] - 国产AI芯片厂商寒武纪、华为昇腾、海光、沐曦、中昊芯英等显著受益 寒武纪股价大涨20% 总市值跃居科创板头名 [8] - 推动国产芯片与模型生态协同进步 强化国内AI产业全栈自研能力 减少对国外芯片和技术依赖 [11][12] 开源生态影响 - 采用Apache 2.0许可证 允许免费商用及修改 显著降低企业部署和研发门槛 [13] - 三类公司显著受益:应用层和智能体开发公司(如字节跳动、阿里巴巴、昆仑万维)成本大幅下降 云计算和硬件厂商(如英伟达、AWS、阿里云)算力需求增长 拥有数据和应用场景的传统企业实现数字化转型 [14] - 对国际闭源模型厂商(如OpenAI、Anthropic)构成竞争压力 可能迫使闭源厂商调整API定价或开放更多技术细节 [11] - 对其他开源模型提供商(如Meta、Mistral AI)设立更高技术基准 需持续跟进优化版本以维持生态吸引力 [11][15] - 激发全球开发者参与热情 支持源代码自由查看和个性化定制 汇聚全球智慧提升模型性能 [19]
究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
机器之心· 2025-08-22 04:01
DeepSeek V3.1 模型性能提升 - 采用全新混合推理架构,支持思考与非思考两种模式,在工具使用、编程、搜索等智能体任务上表现大幅提升 [1] - 在Aider多语言编程基准测试中得分超越Anthropic Claude 4 Opus,同时具备显著成本优势 [1] - SWE-bench Verified基准测试得分66.0,较前代V3-0324的45.4提升45.4% [2] - SWE-bench基准测试得分54.5,较前代V3-0324的29.3提升86.0% [2] - Terminal-Bench基准测试得分31.3,较前代V3-0324的13.3提升135.3% [2] - 通过思维链压缩训练,在任务表现持平情况下token消耗量减少20-50%,有效成本与GPT-5 mini相当 [2] UE8M0 FP8技术创新 - 采用UE8M0 FP8缩放浮点格式,参数量达685B,专为下一代国产芯片设计 [5][7] - UE8M0采用无符号设计,8bit全部用于指数位,覆盖极大正数范围,适合处理梯度、激活值等跨数量级数据 [8][9] - 兼容微缩放浮点格式,通过外部缩放因子补偿精度,实现低比特宽度存储和快速计算 [8][9] - FP8格式仅占1字节内存,较FP16节省50%存储空间,在百亿/千亿参数规模下节省显著 [10] - NVIDIA Hopper GPU的FP8 Tensor Core吞吐量达FP16的两倍 [10] 国产AI芯片生态布局 - UE8M0 FP8格式针对华为昇腾、寒武纪等国产AI芯片优化 [9][15] - 华为HiFloat8方案采用单一格式+锥形精度思路,兼顾精度和范围,覆盖正向反向传播 [9] - DeepSeek明确否认V3.1使用国产芯片训练,但UE8M0机制为国产推理芯片优化铺平道路 [13][14] - 未来国产开源大模型可能针对华为昇腾、寒武纪芯片实现专门优化并大规模应用 [15]