Transformer架构 - 财报，业绩电话会，研报，新闻 - Reportify

Transformer架构

搜索文档

刚刚，DeepSeek开源V3.2-Exp，公开新稀疏注意力机制DSA

机器之心· 2025-09-29 10:29

DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制（DSA）是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]

稀疏注意力机制

Transformer架构

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek Sparse Attention (DSA)

DeepSeek-V3.1-Terminus

稀疏注意力机制

Transformer架构

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek Sparse Attention (DSA)

DeepSeek-V3.1-Terminus

人工智能产业“十四五”复盘与“十五五”展望：“两个变局”下的AI要素化跃

搜狐财经· 2025-09-26 17:47

今天分享的是：人工智能产业"十四五"复盘与"十五五"展望："两个变局"下的AI要素化跃迁-中国银河报告共计：49页《人工智能产业"十四五"复盘与"十五五"展望："两个变局"下的AI要素化跃迁-中国银河》聚焦AI产业在"十四五"期间的发展成果与"十五五"趋势，围绕技术演进、产业生态、政策支持及应用拓展展开分析。技术层面，大模型成核心突破方向，参数量增长提速，从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数，2025年呈现"高参数量+轻量化"并行分化，海外 OpenAI、Meta、Google与国内百度、阿里等企业持续推出迭代模型；算力硬件方面，GPU仍占主导（Nvidia占比70%）， ASIC、FPGA等异构芯片加速发展，寒武纪MLU370R-X8等加速卡实现训推一体，海光等企业推动x86与深度计算处理器协同，液冷等高效散热方案在数据中心普及。产业生态上，AI要素化进程加快，数据经历资源化、资产化、资本化阶段，数据确权、定价、交易体系逐步完善，政策端2024年数字经济重点工作强调数据要素潜能释放，2025年持续推动标准建设与可信社会构建；智能体（Agent）生态崛起 ...

人工智能要素化跃迁

Transformer架构

智能体（Agent）

人工智能要素化跃迁

Transformer架构

智能体（Agent）

专访中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台

21世纪经济报道· 2025-09-24 22:22

旺盛的AI智算需求驱动下，越来越多GPU路线之外的AI芯片正获得更多市场关注。他进一步表示，过去，业界普遍认为ASIC芯片从流片到最终落地应用过程中，需要付出较高成本，但随着专用芯片持续发展，其成本不再那么高昂时，会有越来越多厂商愿意借力自研专用芯片架构，探索推进个性化AI能力落地。这是ASIC芯片备受关注的原因。 TPU跃起寻找GPU芯片之外的发展机会早已是一种新趋势。 "渐进式能力提升难以缩小与英伟达的差距，唯有求新求变，才有可能实现类似新能源汽车领域的'弯道超车'。"他指出。此外，GPU芯片如今取得的成功，更大程度在于英伟达的成功，其多年来累积了深厚的工程化实验团队，这已经不是所有后来者可以直接照搬复制的路线。在GPU之外，定制化ASIC芯片早已受到更大关注，无论是博通近期再度"炸裂"市场的百亿美元订单，还是谷歌持续对TPU自研芯片的演进，都显示出，市场的确对GPU之外的AI计算芯片同样有关注度。中昊芯英选择的就是与谷歌类似的GPTPU路线。郑瀚寻对21世纪经济报道记者分析，自从英伟达在旗下Tesla V100系列芯片中加入Tensor Core（张量处理单元）以来，其对CUDA ...

英伟达(US:NVDA)

Transformer架构

Transformer架构

中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台

21世纪经济报道· 2025-09-24 10:41

21世纪经济报道记者骆轶琪太原报道旺盛的AI智算需求驱动下，越来越多GPU路线之外的AI芯片正获得更多市场关注。从美股市场看，博通（Broadcom）水涨船高的订单量和股价大涨背后，少不了众多云服务厂商寻求英伟达GPU生态之外技术路线的支持，以谷歌（Google）为代表的TPU（张量计算单元）芯片、Groq为代表的LPU芯片都是其中典型。在国内市场同样如此，立足于ASIC定制芯片的众多厂商正在快速发展。对于目前市场中XPU广泛发展的情况，中昊芯英联合创始人兼CTO郑瀚寻接受21世纪经济报道记者专访时指出，"在计算技术发展迭代过程中，产业界持续追求更高费效比的路径，可能会逐渐向某个方向收敛，这是可以预见的趋势。" 他进一步表示，过去，业界普遍认为ASIC芯片从流片到最终落地应用过程中，需要付出较高成本，但随着专用芯片持续发展，其成本不再那么高昂时，会有越来越多厂商愿意借力自研专用芯片架构，探索推进个性化AI能力落地。这是ASIC芯片备受关注的原因。"好比在架构方面，天下大势，合久必分、分久必合。" TPU跃起寻找GPU芯片之外的发展机会早已是一种新趋势。郑瀚寻对记者分析，近些年间硅谷 ...

英伟达(US:NVDA)

Transformer架构

Tensor Core（张量处理单元）

TPU（张量计算单元）芯片

Transformer架构

Tensor Core（张量处理单元）

TPU（张量计算单元）芯片

AI解数学题只靠最后一个token

量子位· 2025-09-14 05:05

henry 发自凹非寺量子位 | 公众号 QbitAI 大语言模型在解心算题时，只依赖最后一个token？最近，来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现：在心算任务中，几乎所有实际的数学计算都集中在序列的最后一个token 上完成，而不是分散在所有token中。这意味着，相较于在Transformer和多层感知机（MLP）中常见的全局信息访问 ——即每个token在预测时都能查询并利用整个上文信息 ——在诸如心算这样的特定任务中，全局访问其实并不是必需的。这是怎么一回事？心算只要最后一个token？！总的来说，研究人员采用了上下文感知平均消融（Context-Aware Mean Ablation, CAMA）和基于注意力的窥视（attention-based peeking）技术对 Llama-3-8B 等Transformer架构的模型进行了一系列的消融实验。这些实验通过系统性地移除或改变模型的一部分，探究能让模型依然表现良好的 "最少计算量" 。在这一过程中，研究人员发现模型内部会形成一个稀疏子图（sparse subgraph）——他们把它称 ...

大语言模型

Transformer架构

上下文感知平均消融（CAMA）

基于注意力的窥视（ABP）

大语言模型

Transformer架构

上下文感知平均消融（CAMA）

基于注意力的窥视（ABP）

当导师让我去看多模态感知研究方向后......

自动驾驶之心· 2025-09-07 23:34

自动驾驶多模态感知融合技术发展现状 - 激光雷达在自动驾驶感知中具有核心优势：提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力 [1] - 多传感器融合是国内高端智能驾驶量产的主流范式激光雷达与视觉感知结合构成可靠工作能力 [1] - 多模态感知融合技术正从传统融合向端到端融合和Transformer架构演进 [1] 多模态融合技术架构演进 - 传统融合分为三种方式：早期融合（输入端拼接原始数据计算量巨大）中期融合（传感器特征提取后融合当前主流方案）后融合（决策层结果融合可解释性强但难以解决信息冲突） [2] - 基于Transformer的端到端融合成为最前沿方向：通过跨模态注意力机制学习不同模态深层关系实现高效鲁棒的特征交互 [2] - 端到端训练减少中间模块误差累积直接从原始传感器数据输出3D目标框提升动态信息捕捉能力和整体性能 [2] 多模态融合科研培训课程体系 - 课程设计为期14周：包含12周在线小组科研 2周论文指导和10周论文维护期 [10][21] - 招生规模为6人/期至多8人采用"2+1"式师资配置（名校教授+行业导师+科研班主任） [5][11] - 硬件要求最低2张4090显卡推荐4张4090或以上性能设备支持云服务器租赁 [11] 课程技术内容体系 - 覆盖多模态融合全技术栈：从传统模块化感知系统到BEV视角融合再到基于Transformer的端到端融合 [15] - 提供完整科研支持：包括公开数据集（nuScenes、KITTI、Waymo Open Dataset）、Baseline代码和论文idea [12][13][14] - 重点讲解激光-视觉深度融合和雷达-视觉-激光三元融合技术涵盖多任务多传感器融合方案 [15][16] 学术产出与培养目标 - 学员将产出论文初稿获得结业证书和推荐信（根据优秀程度） [11] - 培养体系解决三大问题：知识体系碎片化动手能力不足论文写作投稿困难 [5] - 课程包含完整论文方法论：从选题方法、实验方法到写作方法和投稿建议 [4][10]

多模态感知融合

端到端自动驾驶

传感器融合

Transformer架构

多模态感知融合

端到端自动驾驶

传感器融合

Transformer架构

晚点独家丨理想自研智驾芯片上车路测，部分计算性能超英伟达 Thor-U

晚点LatePost· 2025-08-28 06:09

核心观点 - 理想汽车自研智驾芯片M100取得关键进展预计明年量产上车其采用软硬结合研发策略目标是通过软件调度提升硬件算力利用率在性能上实现对竞争对手的降维打击 [4][6][7] 芯片研发进展 - M100于今年一季度样片回片完成功能测试和性能测试后已小批量上样车做道路测试 [4] - 在处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U 在处理传统视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [4] - 芯片研发耗资巨大项目规划资金预算达数十亿美元 [6] 技术战略 - 采用软硬结合研发策略通过软件调度能力提升芯片硬件算力利用率 [6] - 研发工作包括NPU SoC等硬件以及软件开发与适配是一个多层次的解决方案 [6] - 智驾芯片设计与Transformer架构密切相关需要原生高效支持FP4 FP6等超低精度优化 [7] 产品策略 - 采取两条腿走路策略一方面用外部方案确保当下市场竞争力另一方面用自研芯片谋求未来核心优势 [7] - 纯电车型倾向于搭载英伟达高算力芯片如MEGA i8全系搭载英伟达Thor-U i6也有意全系搭载 [7] - L系列增程车型根据AD Max和AD Pro版本分别搭载英伟达Thor-U或地平线征程6M [8] 研发背景 - 理想汽车CTO谢炎主要推动软硬结合研发策略其拥有编译器技术背景曾任AliOS首席架构师华为终端OS部部长等职 [6] - 自研智驾芯片核心原因是作为专用芯片能够针对公司算法进行特定优化性价比和效率都很高 [8] - 目前仍使用英伟达芯片是因为其对新的算子支持较好算力充足且算法仍处于迭代过程中 [8]

理想汽车(US:LI)

Transformer架构

大语言模型（LLM）

卷积神经网络（CNN）

智能电动车

理想智驾芯片M100

Transformer架构

大语言模型（LLM）

卷积神经网络（CNN）

智能电动车

理想智驾芯片M100

独家丨理想自研智驾芯片上车路测，部分计算性能超英伟达 Thor-U

晚点Auto· 2025-08-28 03:51

理想汽车自研智驾芯片M100进展 - M100芯片于今年一季度完成样片回片已通过功能测试和性能测试目前正进行小批量上样车道路测试 [3] - 1颗M100运行大语言模型计算任务时有效算力相当于2颗英伟达Thor-U 处理卷积神经网络任务时算力可对标3颗英伟达Thor-U [3] - 芯片预计明年量产上车项目资金预算达数十亿美元 [5] 技术研发战略特点 - 采用软硬结合研发策略通过软件调度能力提升芯片硬件算力利用率 [5] - 研发涵盖NPU SoC等硬件及软件开发与适配形成多层解决方案 [5] - CTO谢炎主导研发策略其拥有编译器技术背景曾任AliOS首席架构师和华为终端OS部部长 [5] 行业技术发展趋势 - 智驾芯片设计重心从卷积神经网络优化转向对Transformer架构的原生支持 [6] - 需重点优化FP4 FP6等超低精度计算对芯片架构前瞻性和软硬件联合调优能力提出挑战 [6] 当前芯片供应策略 - 纯电车型全系搭载英伟达Thor-U芯片包括MEGA i8及规划中的i6车型 [6] - L系列增程车型按AD Max/Pro版本分别采用英伟达Thor-U或地平线征程6M芯片 [7] - 自研芯片核心目的是针对专用算法优化未来算法锁定后将实现更优效率和成本 [2][7] 项目管控与合作保障 - 近期加强对芯片部门信息管控保障战略安全并维护与现有供应商合作关系 [5] - 现阶段仍依赖英伟达和地平线作为合作伙伴因英伟达对新算子支持较好且算力充足 [5][7]

理想汽车(US:LI)

Transformer架构

软硬结合研发策略

智能电动汽车

理想智驾芯片M100

Transformer架构

软硬结合研发策略

智能电动汽车

理想智驾芯片M100

Meta没做的，英伟达做了，全新架构吞吐量狂飙6倍，20万亿Token训练

36氪· 2025-08-19 02:33

产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构在数学代码推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别支持百万级token上下文[10][15] - 模型训练包含三个阶段首先在20万亿token数据集上预训练120亿参数基础模型再结合SFT DPO GRPO RLHF等多阶段对齐方法最后通过Minitron策略进行结构化剪枝与知识蒸馏将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型：对齐并剪枝的9B推理模型经过剪枝的9B基础模型以及未剪枝的12B基础模型均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集（1330亿token） Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集展示高质量问答数据数学抽取内容代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息擅长长上下文建模但记忆复制能力不足而Transformer存在O(n²)计算瓶颈混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]

英伟达(US:NVDA)

Transformer架构

大概念模型（LCMs）

状态空间模型

Transformer架构

大概念模型（LCMs）

状态空间模型

从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路

机器之心· 2025-08-18 05:15

模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型，支持本地运行[4][7] - 模型架构延续主流LLM设计，但包含多项优化：移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率，窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本，更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行，120b版本需80GB H100[10][97][99] - 推理工作量分级控制（低/中/高）动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置，专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比：gpt-oss宽度更大（嵌入维度2880vs2048），但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B，但参数量仅一半[107][113] - 两者均采用Apache 2.0许可，但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向，设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构，改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展（如MXFP4）[97][99] - 行业向稀疏化（MoE）、注意力优化（GQA/滑动窗口）方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence