Transformer架构

搜索文档
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
机器之心· 2025-09-29 10:29
DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制(DSA)是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力 显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究 特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当 例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动 如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]
人工智能产业“十四五”复盘与“十五五”展望:“两个变局”下的AI要素化跃
搜狐财经· 2025-09-26 17:47
今天分享的是:人工智能产业"十四五"复盘与"十五五"展望:"两个变局"下的AI要素化跃迁-中国银河 报告共计:49页 《人工智能产业"十四五"复盘与"十五五"展望:"两个变局"下的AI要素化跃迁-中国银河》聚焦AI产业在"十四五"期间的发展 成果与"十五五"趋势,围绕技术演进、产业生态、政策支持及应用拓展展开分析。技术层面,大模型成核心突破方向,参数 量增长提速,从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数,2025年呈现"高参数量+轻量化"并行分化,海外 OpenAI、Meta、Google与国内百度、阿里等企业持续推出迭代模型;算力硬件方面,GPU仍占主导(Nvidia占比70%), ASIC、FPGA等异构芯片加速发展,寒武纪MLU370R-X8等加速卡实现训推一体,海光等企业推动x86与深度计算处理器协 同,液冷等高效散热方案在数据中心普及。产业生态上,AI要素化进程加快,数据经历资源化、资产化、资本化阶段,数据 确权、定价、交易体系逐步完善,政策端2024年数字经济重点工作强调数据要素潜能释放,2025年持续推动标准建设与可信 社会构建;智能体(Agent)生态崛起 ...
专访中昊芯英CTO郑瀚寻:国产AI芯片也将兼容不同平台
21世纪经济报道· 2025-09-24 22:22
旺盛的AI智算需求驱动下,越来越多GPU路线之外的AI芯片正获得更多市场关注。 他进一步表示,过去,业界普遍认为ASIC芯片从流片到最终落地应用过程中,需要付出较高成本,但 随着专用芯片持续发展,其成本不再那么高昂时,会有越来越多厂商愿意借力自研专用芯片架构,探索 推进个性化AI能力落地。这是ASIC芯片备受关注的原因。 TPU跃起 寻找GPU芯片之外的发展机会早已是一种新趋势。 "渐进式能力提升难以缩小与英伟达的差距,唯有求新求变,才有可能实现类似新能源汽车领域的'弯道 超车'。"他指出。此外,GPU芯片如今取得的成功,更大程度在于英伟达的成功,其多年来累积了深厚 的工程化实验团队,这已经不是所有后来者可以直接照搬复制的路线。 在GPU之外,定制化ASIC芯片早已受到更大关注,无论是博通近期再度"炸裂"市场的百亿美元订单, 还是谷歌持续对TPU自研芯片的演进,都显示出,市场的确对GPU之外的AI计算芯片同样有关注度。 中昊芯英选择的就是与谷歌类似的GPTPU路线。 郑瀚寻对21世纪经济报道记者分析,自从英伟达在旗下Tesla V100系列芯片中加入Tensor Core(张量处 理单元)以来,其对CUDA ...
中昊芯英CTO郑瀚寻:国产AI芯片也将兼容不同平台
21世纪经济报道· 2025-09-24 10:41
21世纪经济报道记者骆轶琪 太原报道 旺盛的AI智算需求驱动下,越来越多GPU路线之外的AI芯片正获得更多市场关注。 从美股市场看,博通(Broadcom)水涨船高的订单量和股价大涨背后,少不了众多云服务厂商寻求英 伟达GPU生态之外技术路线的支持,以谷歌(Google)为代表的TPU(张量计算单元)芯片、Groq为代 表的LPU芯片都是其中典型。 在国内市场同样如此,立足于ASIC定制芯片的众多厂商正在快速发展。 对于目前市场中XPU广泛发展的情况,中昊芯英联合创始人兼CTO郑瀚寻接受21世纪经济报道记者专访 时指出,"在计算技术发展迭代过程中,产业界持续追求更高费效比的路径,可能会逐渐向某个方向收 敛,这是可以预见的趋势。" 他进一步表示,过去,业界普遍认为ASIC芯片从流片到最终落地应用过程中,需要付出较高成本,但 随着专用芯片持续发展,其成本不再那么高昂时,会有越来越多厂商愿意借力自研专用芯片架构,探索 推进个性化AI能力落地。这是ASIC芯片备受关注的原因。"好比在架构方面,天下大势,合久必分、分 久必合。" TPU跃起 寻找GPU芯片之外的发展机会早已是一种新趋势。 郑瀚寻对记者分析,近些年间硅谷 ...
AI解数学题只靠最后一个token
量子位· 2025-09-14 05:05
henry 发自 凹非寺 量子位 | 公众号 QbitAI 大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的 最后一个token 上完成,而不是分散在所有token中。 这意味着,相较于在Transformer和多层感知机(MLP)中常见的 全局信息访问 ——即每个token在预测时都能查询并利用整个上文信息 ——在诸如心算这样的特定任务中,全局访问其实并不是必需的。 这是怎么一回事? 心算只要最后一个token?! 总的来说,研究人员采用了 上下文感知平均消融(Context-Aware Mean Ablation, CAMA) 和 基于注意力的窥视(attention-based peeking) 技术对 Llama-3-8B 等Transformer架构的模型进行了一系列的消融实验。 这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的 "最少计算量" 。 在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称 ...
当导师让我去看多模态感知研究方向后......
自动驾驶之心· 2025-09-07 23:34
自动驾驶多模态感知融合技术发展现状 - 激光雷达在自动驾驶感知中具有核心优势:提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力 [1] - 多传感器融合是国内高端智能驾驶量产的主流范式 激光雷达与视觉感知结合构成可靠工作能力 [1] - 多模态感知融合技术正从传统融合向端到端融合和Transformer架构演进 [1] 多模态融合技术架构演进 - 传统融合分为三种方式:早期融合(输入端拼接原始数据 计算量巨大) 中期融合(传感器特征提取后融合 当前主流方案) 后融合(决策层结果融合 可解释性强但难以解决信息冲突) [2] - 基于Transformer的端到端融合成为最前沿方向:通过跨模态注意力机制学习不同模态深层关系 实现高效鲁棒的特征交互 [2] - 端到端训练减少中间模块误差累积 直接从原始传感器数据输出3D目标框 提升动态信息捕捉能力和整体性能 [2] 多模态融合科研培训课程体系 - 课程设计为期14周:包含12周在线小组科研 2周论文指导和10周论文维护期 [10][21] - 招生规模为6人/期 至多8人 采用"2+1"式师资配置(名校教授+行业导师+科研班主任) [5][11] - 硬件要求最低2张4090显卡 推荐4张4090或以上性能设备 支持云服务器租赁 [11] 课程技术内容体系 - 覆盖多模态融合全技术栈:从传统模块化感知系统到BEV视角融合 再到基于Transformer的端到端融合 [15] - 提供完整科研支持:包括公开数据集(nuScenes、KITTI、Waymo Open Dataset)、Baseline代码和论文idea [12][13][14] - 重点讲解激光-视觉深度融合和雷达-视觉-激光三元融合技术 涵盖多任务多传感器融合方案 [15][16] 学术产出与培养目标 - 学员将产出论文初稿 获得结业证书和推荐信(根据优秀程度) [11] - 培养体系解决三大问题:知识体系碎片化 动手能力不足 论文写作投稿困难 [5] - 课程包含完整论文方法论:从选题方法、实验方法到写作方法和投稿建议 [4][10]
晚点独家丨理想自研智驾芯片上车路测,部分计算性能超英伟达 Thor-U
晚点LatePost· 2025-08-28 06:09
核心观点 - 理想汽车自研智驾芯片M100取得关键进展 预计明年量产上车 其采用软硬结合研发策略 目标是通过软件调度提升硬件算力利用率 在性能上实现对竞争对手的降维打击 [4][6][7] 芯片研发进展 - M100于今年一季度样片回片 完成功能测试和性能测试后已小批量上样车做道路测试 [4] - 在处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U 在处理传统视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [4] - 芯片研发耗资巨大 项目规划资金预算达数十亿美元 [6] 技术战略 - 采用软硬结合研发策略 通过软件调度能力提升芯片硬件算力利用率 [6] - 研发工作包括NPU SoC等硬件以及软件开发与适配 是一个多层次的解决方案 [6] - 智驾芯片设计与Transformer架构密切相关 需要原生高效支持FP4 FP6等超低精度优化 [7] 产品策略 - 采取两条腿走路策略 一方面用外部方案确保当下市场竞争力 另一方面用自研芯片谋求未来核心优势 [7] - 纯电车型倾向于搭载英伟达高算力芯片 如MEGA i8全系搭载英伟达Thor-U i6也有意全系搭载 [7] - L系列增程车型根据AD Max和AD Pro版本分别搭载英伟达Thor-U或地平线征程6M [8] 研发背景 - 理想汽车CTO谢炎主要推动软硬结合研发策略 其拥有编译器技术背景 曾任AliOS首席架构师 华为终端OS部部长等职 [6] - 自研智驾芯片核心原因是作为专用芯片能够针对公司算法进行特定优化 性价比和效率都很高 [8] - 目前仍使用英伟达芯片是因为其对新的算子支持较好 算力充足 且算法仍处于迭代过程中 [8]
独家丨理想自研智驾芯片上车路测,部分计算性能超英伟达 Thor-U
晚点Auto· 2025-08-28 03:51
理想汽车自研智驾芯片M100进展 - M100芯片于今年一季度完成样片回片 已通过功能测试和性能测试 目前正进行小批量上样车道路测试 [3] - 1颗M100运行大语言模型计算任务时有效算力相当于2颗英伟达Thor-U 处理卷积神经网络任务时算力可对标3颗英伟达Thor-U [3] - 芯片预计明年量产上车 项目资金预算达数十亿美元 [5] 技术研发战略特点 - 采用软硬结合研发策略 通过软件调度能力提升芯片硬件算力利用率 [5] - 研发涵盖NPU SoC等硬件及软件开发与适配 形成多层解决方案 [5] - CTO谢炎主导研发策略 其拥有编译器技术背景 曾任AliOS首席架构师和华为终端OS部部长 [5] 行业技术发展趋势 - 智驾芯片设计重心从卷积神经网络优化转向对Transformer架构的原生支持 [6] - 需重点优化FP4 FP6等超低精度计算 对芯片架构前瞻性和软硬件联合调优能力提出挑战 [6] 当前芯片供应策略 - 纯电车型全系搭载英伟达Thor-U芯片 包括MEGA i8及规划中的i6车型 [6] - L系列增程车型按AD Max/Pro版本分别采用英伟达Thor-U或地平线征程6M芯片 [7] - 自研芯片核心目的是针对专用算法优化 未来算法锁定后将实现更优效率和成本 [2][7] 项目管控与合作保障 - 近期加强对芯片部门信息管控 保障战略安全并维护与现有供应商合作关系 [5] - 现阶段仍依赖英伟达和地平线作为合作伙伴 因英伟达对新算子支持较好且算力充足 [5][7]
Meta没做的,英伟达做了,全新架构吞吐量狂飙6倍,20万亿Token训练
36氪· 2025-08-19 02:33
产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构 在数学 代码 推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破 用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层 在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别 支持百万级token上下文[10][15] - 模型训练包含三个阶段 首先在20万亿token数据集上预训练120亿参数基础模型 再结合SFT DPO GRPO RLHF等多阶段对齐方法 最后通过Minitron策略进行结构化剪枝与知识蒸馏 将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率 在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升 在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型:对齐并剪枝的9B推理模型 经过剪枝的9B基础模型 以及未剪枝的12B基础模型 均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集 包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集(1330亿token) Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集 展示高质量问答数据 数学抽取内容 代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息 擅长长上下文建模但记忆复制能力不足 而Transformer存在O(n²)计算瓶颈 混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
机器之心· 2025-08-18 05:15
模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型,支持本地运行[4][7] - 模型架构延续主流LLM设计,但包含多项优化:移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率,窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本,更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行,120b版本需80GB H100[10][97][99] - 推理工作量分级控制(低/中/高)动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置,专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比:gpt-oss宽度更大(嵌入维度2880vs2048),但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B,但参数量仅一半[107][113] - 两者均采用Apache 2.0许可,但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向,设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构,改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展(如MXFP4)[97][99] - 行业向稀疏化(MoE)、注意力优化(GQA/滑动窗口)方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]