混合专家模型(MoE)
搜索文档
清华UniMM-V2X:基于MOE的多层次融合端到端V2X框架
自动驾驶之心· 2025-12-19 00:05
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Ziyi Song等 编辑 | 自动驾驶之心 一、引言 传统的自动驾驶流水线具有模块化结构,面临着误差传递和泛化能力有限的问题。尽管端到端自动驾驶通过将原始传感器数据直接映射到最终控制指令提供了一种解 决方案,但这种 单体智能系统受限于传感器范围,并且在应对罕见极端事件和预测其他参与者意图方面显得力不从心 。因此,车联网(V2X)通信作为一种关键的 赋能技术,通过促进实时信息交换,有助于克服这些局限性。 本文介绍的 UniMM-V2X 框架, 首次在多智能体端到端系统中实现了感知与预测的多级协同 。它不仅打破了感知融合的局限,更引入了 MoE(混合专家模型) 架 构,为感知、预测和规划动态定制专属特征表征 。通过多级融合与 MoE 的深度协同,UniMM-V2X 在感知、预测和规划任务上均达到 SOTA 性能 ,为实现更安全、 更具可解释性的协同自动驾驶提供了全新方案。 核心特点与主要贡献: UniMM-V2X由三个主要部分组成:图像编码器、协 ...
迎战TPU与Trainium?英伟达再度发文“自证”:GB200 NVL72可将开源AI模型性能最高提升10倍
硬AI· 2025-12-04 12:54
文章核心观点 - 英伟达近期通过发布技术博文等一系列密集的“自证”行动,旨在回应市场对其AI芯片市场主导地位可能受到挑战的担忧,并展示其最新GB200 NVL72系统在提升开源AI模型性能方面的显著优势 [2][5] GB200 NVL72系统的技术优势与性能 - 英伟达GB200 NVL72系统可将顶尖开源AI模型的性能最高提升10倍,在测试中使Kimi K2 Thinking模型实现了10倍性能提升 [2][9] - 该系统将72颗Blackwell GPU集成为一体,提供1.4 exaflops的AI算力和30TB的快速共享内存,GPU间通信带宽高达130TB/s [9] - 该系统通过硬件与软件的协同设计,解决了混合专家模型在生产环境中的扩展难题,消除了传统部署的性能瓶颈 [2][10] 混合专家模型的行业地位与英伟达的优化 - 混合专家模型已成为前沿AI主流选择,Artificial Analysis排行榜前10名的开源模型均采用MoE架构,包括DeepSeek-R1、Kimi K2 Thinking等 [10] - MoE架构模仿人脑,仅激活处理特定任务所需的专家模块,能在不显著增加计算成本的情况下实现更快速、高效的token生成 [10] - 英伟达的系统专门针对MoE模型进行了优化,以应对其扩展挑战 [10] 市场竞争背景与英伟达的回应 - 英伟达正面临来自谷歌TPU和亚马逊Trainium等竞争对手的挑战,其AI芯片市场份额超过90% [5] - 市场担忧其关键客户Meta考虑大规模采用谷歌TPU,这可能意味着英伟达的市场护城河出现缺口 [5] - 尽管公司近期密集发声,但市场担忧未明显改善,其股价近一个月跌幅已接近10% [6] GB200 NVL72系统的市场部署进展 - 该系统正被主要云服务提供商和英伟达云合作伙伴部署,包括亚马逊云服务、谷歌云、微软Azure、Oracle云基础设施等 [12] - CoreWeave表示正与英伟达紧密合作,为客户提供紧密集成的平台以将MoE模型投入生产 [12] - Fireworks AI已在英伟达B200平台上部署Kimi K2模型,并指出GB200 NVL72的机架规模设计为大规模MoE模型服务设立了新的性能和效率标杆 [12]
迎战TPU与Trainium?英伟达再度发文“自证”:GB200 NVL72可将开源AI模型性能最高提升10倍
华尔街见闻· 2025-12-04 11:33
行业竞争态势 - 英伟达正面临来自谷歌TPU和亚马逊Trainium等竞争对手的挑战,为巩固其AI芯片市场主导地位展开了一系列密集的技术“自证”与公开回应 [1] - 谷歌TPU直接挑战了英伟达在AI芯片市场超过90%的份额,关键客户Meta正考虑在其数据中心大规模采用谷歌自研的AI芯片TPU [6] - 市场担心,如果Meta这样超大规模客户开始转向谷歌,将意味着英伟达坚不可摧的护城河出现了缺口 [6] 公司近期动态与市场反应 - 公司近期通过私函反驳看空观点、公开宣称其GPU技术“领先行业一代”,并发布技术博文强调其GB200 NVL72系统的性能优势 [1] - 英伟达密集发声并未改善市场担忧,公司股价近一个月跌幅已接近10% [6] GB200 NVL72系统技术优势 - 英伟达发文称GB200 NVL72系统能够将顶级开源AI模型的性能提升多达10倍 [1] - 该系统将72颗NVIDIA Blackwell GPU集成为一个整体,提供1.4 exaflops的AI性能和30TB的快速共享内存,通过NVLink Switch连接,系统内部GPU间通信带宽达到130TB/s [10] - 在性能测试中,被Artificial Analysis排行榜评为最智能开源模型的Kimi K2 Thinking在GB200 NVL72系统上实现了10倍性能提升,DeepSeek-R1和Mistral Large 3等其他顶级MoE模型同样获得显著性能改善 [10] 对混合专家模型(MoE)的优化 - 英伟达重点强调了其服务器系统对混合专家模型(MoE)的优化能力,这些模型包括中国初创公司月之暗面开发的Kimi K2 Thinking和DeepSeek的R1模型 [1] - Artificial Analysis排行榜前10名的开源模型均采用MoE架构,包括DeepSeek-R1、Kimi K2 Thinking和Mistral Large 3等 [11] - 公司强调,其系统通过硬件和软件的协同设计,解决了MoE模型在生产环境中的扩展难题,有效消除了传统部署中的性能瓶颈 [11] 市场部署与合作进展 - GB200 NVL72系统正被主要云服务提供商和英伟达云合作伙伴部署,包括亚马逊云服务、Core42、CoreWeave、Crusoe、谷歌云、Lambda、微软Azure、Oracle云基础设施和Together AI等 [12] - CoreWeave表示其客户正在利用其平台将专家混合模型投入生产,通过与英伟达的密切合作,能够提供紧密集成的平台 [12] - Fireworks AI已在英伟达B200平台上部署Kimi K2模型,在Artificial Analysis排行榜上实现最高性能表现,并指出GB200 NVL72的机架规模设计为大规模MoE模型服务设立了新的性能和效率标杆 [12]
EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!
机器之心· 2025-11-15 06:23
研究背景与核心问题 - 研究聚焦于将混合专家模型与机制可解释性深度结合,旨在从底层机制理解复杂推理过程,该领域探索者稀少[4] - 研究针对稀疏模型提出了机制可解释性方法「Router Lens & CEFT」,核心是解决语言模型的上下文忠实性问题[7] - 上下文忠实性指模型在生成回复时严格以给定上下文为依据,不产生无关的幻觉信息,对检索增强生成等任务至关重要[10] 核心发现:上下文忠实专家的存在与特性 - 研究证实MoE模型中存在上下文忠实专家,这些专家擅长利用上下文信息[18] - 通过提出的RouterLens方法可有效识别上下文忠实专家,屏蔽这些专家会导致模型性能显著下降,甚至低于未微调的基础模型[20] - 不同任务下的上下文忠实专家各不相同,模型能根据任务需求自适应激活不同的专家,但调优后的路由网络具备跨任务泛化能力[23][25][26] 上下文忠实专家的工作机制 - 上下文忠实专家能够增强模型对上下文信息的注意力,表现为在中层扩大注意力范围以扫描信息,在深层收缩焦点于关键片段[31][32][33] - 这些专家通过逐步校正模型的内在决策路径,显著提升对正确答案的预测概率,强化对关键信息的整合与判断能力[35][36] 技术应用:上下文忠实专家微调 - 基于机制洞察开发了CEFT方法,仅对识别出的关键专家进行轻量化微调,实现了将机制理解转化为实际收益[7][38][39] - CEFT在多个基准测试中能以更高效率达到甚至超越全参数微调的效果,例如在OLMoE-1B-7B模型上,CEFT的EM和F1分数在全参数微调基础上均有提升[41][43] - CEFT显著减少了训练参数量,在OLMoE-1B-7B模型上实现了13.8倍的参数缩减,同时显著缓解了模型训练中的灾难性遗忘问题[44][46][47] 未来应用展望 - RouterLens技术可扩展用于识别与分析更多类型的专家,如推理、证明或编程专家[50] - 该技术能定位表现不佳或易误导的专家,实现MoE的"Debugging",并与SAE等机制可解释性技术结合以提升模型的可解释性与可控性[51]
破解MoE模型“规模越大,效率越低”困境!中科院自动化所提出新框架
量子位· 2025-10-11 01:15
文章核心观点 - 中科院自动化所提出一种针对混合专家模型(MoE)的统一优化框架,通过动态专家分组与结构化压缩,系统性解决了MoE面临的负载失衡、参数冗余和通信开销“三难困境” [1][2] - 该框架在几乎不损失模型性能的前提下,实现了总参数量削减80%,负载方差降低至原来的三分之一,峰值内存消耗逼近轻量级传统稠密模型,吞吐量提升10%-20% [2][11][34] - 此项研究为大参数大语言模型(LLM)的低成本、高效率部署提供了新的技术路径和坚实的理论与实践基础 [2][12] 技术挑战与现有局限 - MoE作为大语言模型扩展参数量的核心路径,长期受困于负载失衡、参数冗余和通信开销的“三难困境”,这些瓶颈深度耦合、相互制约,成为大模型落地部署的主要障碍 [2][5] - 现有优化方案如负载均衡损失函数、参数压缩技术和通信感知路由多为碎片化的被动补救,未能从系统层面统一解决问题 [6] - 硬件限制具体表现为:MoE巨大参数量对GPU显存构成压力;传统Top-K路由导致计算资源利用率低;分布式训练中的“All-to-All”通信模式造成高昂延迟 [7] 核心方法:统一框架与四大组件 - 框架将MoE优化形式化为一个联合优化数学问题,目标函数同时最小化任务损失、负载不均衡、参数冗余和通信成本 [13] - **在线双相似度聚类**:通过融合专家的结构相似性(参数空间余弦相似度)和功能相似性(激活质心相似度),周期性地对专家进行动态重组,实现粗粒度负载均衡 [14][15][16] - **共享基底与低秩残差压缩**:将簇内专家权重矩阵分解为一个共享的公共基底和每个专家特有的低秩残差矩阵,在典型配置下(d=4096, K=8, r=16)实现簇内压缩比高达6.6倍 [18][19][20][23] - **分层路由**:将路由决策分解为簇级别路由和专家级别路由两个阶段,将路由计算复杂度从O(E·d)降低到O(G·d+K·d),显著减少了分布式环境中的通信数据交换 [24][26][29] - **异构精度与动态内存管理**:对共享基底采用FP16格式,对低秩残差因子量化至INT4格式,并结合动态内存卸载与预取策略,大幅降低峰值内存消耗 [30][31] 实验验证与性能收益 - 在GLUE和WikiText-103基准测试中,相较于基线模型Switch Transformer(总参数量875M),该框架(总参数量188M)在维持相近模型质量(GLUE Avg. 83.5 vs 85.1)的同时,总参数量减少约80% [33][34] - 框架实现了吞吐量提升10%-20%(从基线7.2-8.9 k tokens/s提升至8.5-10.2 k tokens/s),峰值内存消耗降低近50%(从基线33.1GB降低至19.2GB),启用动态卸载与量化后内存占用(15.7GB)可与标准稠密Transformer模型(15.4GB)相媲美 [33][34] - 消融实验证实,在线聚类、低秩压缩和分层路由等组件对性能增益均有不可或缺的贡献,例如移除在线聚类会导致负载均衡指标(Load Balance)从0.12恶化至0.37 [36][37]
不管是中国还是美国最终走向都是人工智能时代是这样吗?
搜狐财经· 2025-10-08 20:55
技术发展格局 - 美国在基础算法、大模型架构及核心专利领域保持优势,其科研生态更注重底层突破 [1] - 中国依托庞大的用户基数、移动互联网积淀及产业链协同,在场景化应用推进速度更快,部分领域体验已超越美国 [1] - 微信AI助手"元宝"实现社交生态无缝集成,腾讯豆包模型推理能力跻身全球第一梯队 [1] 产业生态与政策驱动 - 美国战略强化技术霸权主导地位,通过出口管制、标准制定及盟友合作遏制竞争者,2025年新政策主张放松监管、推动开源 [3] - 中国发挥制造业根基与数据规模优势,聚焦"AI+实体产业"融合,张亚勤指出中国将在5年内成为全球最大AI应用国 [3] - 中国AI发展的核心推力来自成熟的移动生态延续性及产业链协同效应 [3] 核心竞争优势与挑战 - 美国创新重心为基础理论与通用大模型,竞争优势在于学术原创性及全球标准主导,挑战为监管反复与政治干预 [5] - 中国创新重心为场景应用与工程化落地,竞争优势在于商业化速度与市场规模,挑战为核心技术自主性待提升 [5] 未来竞争焦点 - 双方竞赛将围绕智能体普及、混合专家模型降本增效以及多模态融合创造增量市场三大技术主线展开 [7] - 中国在移动互联网时代积累的5-8年领先优势,可能为AI应用层竞争提供关键跳板 [7] - 人工智能作为核心生产力引擎的地位已不可逆,两国终将在AI定义的新经济秩序中深度交织 [7]
冲破 AGI 迷雾,蚂蚁看到了一个新路标
雷峰网· 2025-09-16 10:20
大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷 导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断 语义颠倒 医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案 尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型 基于扩散理论架构 [12][50] - 扩散模型具备并行解码 双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练 总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分 超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分 接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分 显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径 打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎 推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升 当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破 包括block diffusion等技术难题 [72] - 需要更多研究人员参与 加速扩散语言模型生态建设 [73][78]
字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告
搜狐财经· 2025-08-22 09:20
模型性能表现 - 在AIME 2024数学竞赛基准测试中获得86.7分,与OpenAI o3-mini-high持平,显著超越DeepSeek R1的79.8分 [1][5][47] - Codeforces编程测试中pass@8指标达55.0分,接近Gemini 2.5 Pro的56.3分,但落后于OpenAI o3-mini-high的67.5分 [1][5][47] - GPQA科学推理测试获得77.3分,接近o3-mini-high的79.7分 [1][5][47] - 在非推理任务的人类评估中,整体胜率较DeepSeek R1高出8.0% [1][5][51] 模型架构特性 - 采用混合专家模型(MoE)架构,激活参数200亿,总参数2000亿,属于相对紧凑的推理模型 [1][5] - 基于链式思维(CoT)数据进行监督微调,过多非CoT数据会降低模型探索能力 [1][10] - 强化学习训练数据包含STEM问题、代码任务、逻辑推理和非推理数据四类,其中数学数据展现强泛化能力 [1][10][15] 技术创新突破 - 开发VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决RL训练不稳定性问题 [1][11][38] - 设计Streaming Rollout System(SRS)缓解长响应生成滞后问题,结合混合精度调度和三层次并行架构提升训练效率 [2][42][43] - 推出Seed-Thinking-Verifier验证器,在人工标注测试集上准确率达99.3%,显著优于Seed-Verifier的82.7% [28][30][31] 基准测试体系 - 构建BeyondAIME高级数学基准,包含100道难度不低于AIME最高水平的原创题目,模型在该基准表现48.0%,落后于o3-mini-high的63.6% [11][25][47] - Codeforces评估采用最近12场竞赛题目,报告pass@1和pass@8指标,更贴合实际用户提交模式 [11][47] - 内部代码沙箱环境实现离线评估与官方平台判决结果强相关性 [20][21] 训练方法论 - 监督微调使用40万训练实例(30万可验证问题+10万非可验证问题),采用32,000令牌长度截断和余弦学习率衰减策略 [34][36] - 强化学习融合可验证数据(验证器评分)、通用数据(奖励模型评分)和混合数据三类来源,通过在线数据分布适配技术减少域间干扰 [37][39] - 采用动态采样、长度自适应GAE和Token级损失等技术创新保障训练稳定性 [40] 资源优化方案 - 混合分布式训练框架整合张量并行(TP)、专家并行(EP)和上下文并行(CP),结合FSDP实现内存优化 [43][46] - 通过层间重计算、激活卸载和优化器卸载技术支持更大微批次训练 [46] - 自动调优系统(AutoTuner)基于性能画像动态选择最优并行配置 [46]
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
机器之心· 2025-08-18 05:15
模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型,支持本地运行[4][7] - 模型架构延续主流LLM设计,但包含多项优化:移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率,窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本,更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行,120b版本需80GB H100[10][97][99] - 推理工作量分级控制(低/中/高)动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置,专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比:gpt-oss宽度更大(嵌入维度2880vs2048),但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B,但参数量仅一半[107][113] - 两者均采用Apache 2.0许可,但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向,设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构,改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展(如MXFP4)[97][99] - 行业向稀疏化(MoE)、注意力优化(GQA/滑动窗口)方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]
赛道Hyper | 追平全球顶级:千问3推理模型开源
华尔街见闻· 2025-08-06 08:06
模型技术特点 - 阿里巴巴开源千问3推理模型采用混合专家MoE架构,总参数达480B(4800亿),原生支持256K token上下文并可扩展至1M长度,显著提升编程任务效率 [1] - MoE架构通过分工协作提升性能并控制计算成本,适用于千亿级以上参数规模模型,实现效率与复杂需求的平衡 [1] - 模型在知识储备、编程能力、数学运算等维度与Gemini-2.5 pro、o4-mini等全球顶级闭源模型水平相当 [1][3] - 支持256K上下文长度,可处理长篇文档和多轮对话,避免关键信息丢失,在复杂问题拆解分析、流畅度和精准度方面较前代明显提升 [3] - Qwen3-235B-A22B-Instruct-2507(非思考版)在GPQA知识测评、AIME25数学测评中成绩超过Claude4等闭源模型 [3] - 训练使用36T tokens数据集覆盖书籍、代码库等多类型数据,通过多轮强化学习整合非思考与思考模型优化综合性能 [9] 性能表现与行业地位 - 在知识测评(SuperGPQA)、编程能力测评(LiveCodeBench v6)中表现接近顶尖闭源模型,在开源模型中处于前列 [3][4] - Qwen3-Coder在多语言SWE-bench测试中超过GPT4.1和Claude4,登顶HuggingFace模型总榜,该榜单综合下载量、使用频率和用户评分排名 [4][5] - 阿里已开源300余款通义大模型,衍生模型数量超过14万个,超过Meta的Llama系列,成为全球最大开源模型家族 [5] - 截至7月25日,千问API调用量在OpenRouter平台突破1000亿Tokens,包揽全球趋势榜前三,反映其受欢迎程度 [6] 实际应用与行业影响 - 程序员借助模型生成基础品牌官网最快仅需5分钟,新入行程序员效率可达到资深程序员一周工作量 [5] - 衍生模型经开发者微调后应用于教育、金融、医疗等行业,例如教育领域生成个性化习题,金融领域进行风险评估 [6] - 模型在法律行业可辅助审查长篇合同并提炼条款风险点,在科研领域快速抓取论文核心内容,节省人工时间 [7] - 开源模型允许中国企业免费商用,降低中小企业AI应用门槛,同时向美国、法国、德国等国家开放,推动技术全球普及 [6] 技术生态与商业协同 - 企业常将模型与阿里云数据库、安全服务打包采购,形成生态闭环,提升云产品使用深度与客户粘性 [6][7] - 模型开源属性降低使用成本,吸引中小开发团队,同时带动对GPU资源和IaaS服务的持续需求 [6][7] - Qwen3-Coder吸引二次开发,开发者添加特定行业代码库(如金融科技)并优化响应速度,适应实时编程场景 [10] - 通义大模型家族推动AI技术从实验室走向实际生产,为各行业提升效率 [10]