Workflow
MoE架构
icon
搜索文档
大厂AI模型专题解读
2025-09-28 14:57
大厂 AI 模型专题解读 20250927 摘要 国内大模型架构创新不足,依赖海外架构如 Transformer 和 MoE,导 致难以超越国外领先模型。算力方面,国内 AI 大厂 GPU 算力远低于海 外巨头,受中美贸易战影响,资源受限。 国内模型侧重推理成本和性价比,适应国内用户消费习惯,而国外如 GPT 追求顶级性能,商业模式差异导致模型上限存在差距。数据获取方 面,国内数据法律相对宽松,成为追赶海外大模型的优势。 阿里采取几乎全开源策略,包括模型权重、代码及训练数据,以扩大影 响力,并整合其云服务系统形成闭环互利模式。通过公开打榜测试验证 性能,提高可信度,因此开源认可度较高。 国内多模态模型聚焦国内场景,如电商广告、短视频等,生成内容更贴 近国人需求,性价比和成本控制优于海外模型。但在长文本理解、多样 化场景处理及泛化性方面仍有提升空间。 MoE 架构已成为大模型标配,通过门控系统分配输入内容给对应专家系 统处理,降低计算成本和推理时间。未来优化方向包括精准入口分层、 专家系统结构差异化和训练稳定性。 Q&A 目前国内的通用大模型与海外头部大模型的差距具体体现在哪些方面? 国内通用大模型与海外头部大 ...
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
机器之心· 2025-09-17 09:37
核心观点 - 蚂蚁百灵大模型团队开源MoE大模型Ling-flash-2.0 以总参数100B、激活仅6.1B的轻量级配置 在多个权威评测中展现出媲美甚至超越40B级别Dense模型和更大MoE模型的卓越性能 [1] - 通过极致的架构设计与训练策略 在推理速度、任务性能、部署成本之间找到新平衡点 为当前大模型参数膨胀趋势提供高效、实用、可持续的新路径 [1] 架构与性能优势 - 采用MoE架构 通过稀疏激活机制实现1/32激活比例 每次推理仅激活6.1B参数 计算量远低于同性能Dense模型 [4][6] - 实现7倍以上性能杠杆 6.1B激活参数带来约40B Dense模型的等效性能 [4][10] - 推理速度提升3倍以上 在H20平台上实现200+ tokens/s的高速生成 输出越长加速优势越明显 [9] - 通过专家粒度调优、共享专家机制、sigmoid路由+aux-loss free策略等技术优化架构设计 [6] 任务性能表现 - 在AIME 2025、Omni-MATH等高难数学推理任务中展现出稳定的推理链路与多步求解能力 [14] - 在LiveCodeBench、CodeForces代码生成任务中表现优于同规模模型 部分任务超越GPT-OSS-120B [14] - 前端研发能力通过大规模RL训练+视觉增强奖励机制 在UI布局、组件生成、响应式设计等任务中实现功能与美学双重优化 [14][19] - 在金融建模、工业调度、供应链优化等数学优化任务中展现实际解决问题能力 [38] 训练与数据体系 - 基于统一数据湖宽表设计的AI Data系统 支持样本级血缘管理 完成40T+ tokens高质量语料处理 [31] - 精选20T+ tokens最高质量语料用于预训练 分为三个阶段:10T高知识密度语料夯实基础、10T高推理密度语料提升推理能力、扩展至32K上下文引入思维链类语料 [31][36] - 词表从128K扩展至156K 新增大量多语言token 引入30个语种高质量语料提升跨语言理解与生成能力 [34] - 采用自研Ling Scaling Laws优化超参数配置 使用WSM调度器替代传统WSD调度器提升下游任务表现 [32] 后训练创新 - 通过解耦微调设计 同时学习即时回答与深度推理两种模式 覆盖数理科学、创意写作、情感对话、社科哲思等多个领域 [38] - 提出ApexEval评测方法 聚焦知识掌握度与推理深度 筛选最具探索潜力模型进入强化学习阶段 [39] - 采用演进式RL技术 以简洁思维链为起点 根据问题复杂度动态解锁更深层推理能力 [40] - 构建组内竞技场奖励机制 结合RubriX多维度评价标准 提升模型人性化与情感共鸣能力 [40] 开源与部署 - 开源Ling-flash-2.0对话模型和Base模型 为研究者和开发者提供灵活使用空间 [47] - Base模型在多个榜单展现强劲性能 具备良好知识压缩与推理能力 适用于下游任务微调与定制 [48] - 支持CLI接入 可方便融合到Qwen Code等服务中 [28]
扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
机器之心· 2025-09-12 11:31
模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE,使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B,推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制,突破自回归模型单向建模限制,支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率,在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架,支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上,支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分,在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分,MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分,优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布,突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性,支持局部片段重新采样修正,适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力,非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖,探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码,推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索,以AGI为北极星指标[46][47]
能像人类专家团一样干活的AI Agent,出现了吗?
36氪· 2025-08-18 10:16
AI Agent行业现状与挑战 - AI Agent领域被视为2025年最具想象力的赛道 但实际体验未达预期 任务表现参差不齐 用户需在技术炫技与人工兜底间切换[1] - 核心瓶颈在于单线程串行架构 导致无法并行处理复杂任务 理解用户复杂需求困难 处理速度慢且易全局堵塞[1][2] - 上下文记忆能力不足 多数Agent未从工具迈向知识库 执行任务难以实现个性化精准匹配[2] 百度文库GenFlow 2.0的技术突破 - 采用Multi-Agent创新架构 由100多个垂直领域专家Agent组成并行协作系统 替代单一线程模式[3][4] - 基于MoE(混合专家模型)技术 实现高质量与高效率双重提升 3分钟内并行完成超5个复杂任务[4][6] - 全端通用能力覆盖Web与App端 无需邀请码且限时免费 支持移动端碎片化场景办公[2][6] 人机交互与工作流重构 - 颠覆传统"助理"概念 以Flow工作流为核心 调度中枢动态分配专家Agent团 用户通过一两句话驱动百人AI团队[7][8] - 任务全程可干预 用户可随时暂停补充要求、调用网盘文件 解决生成过程"黑盒子"和结果不可控痛点[10][12] - 支持多模态输出 包括长研报、文生视频绘本、文生海报等 具备深度搜索与高质量交付特点[13] 生态建设与商业化应用 - 底层操作系统沧舟OS分三层架构:底座基建层处理公私域内容 中枢系统层调度多Agent并行 应用服务层整合数百个Agent[15] - 通过MCP协议接入第三方生态 三星手机调用百度网盘文件上传功能 荣耀原生接入GenFlow 2.0实现系统级调度[15][16] - MoE架构推理性价比为同级密度模型数倍 计算成本与参数规模脱钩 支持低成本高扩展性生态连接[14][16] 行业影响与未来方向 - 推动AI生产力从单点突破转向系统作战 实现"一个人开N家公司"的效率边界[17] - 沧舟OS制定AI内容领域"通用语言" 企业可低门槛调用专家团队 加速产业智能化[16][17] - 百度文库网盘转向通用Agent领域标准制定者 持续降低生态门槛并拓展商业场景[17]
能像人类专家团一样干活的AI Agent,出现了吗?
36氪· 2025-08-18 10:13
AI Agent行业现状 - 2025年被普遍认为是"AI Agent元年",该赛道成为人工智能领域最具想象力的方向之一 [2] - 当前AI Agent普遍面临三大核心瓶颈:单线程串行架构导致处理效率低下、复杂需求理解能力不足、上下文记忆能力薄弱 [5][6][7] - 行业出现两极分化现象:明星产品Manus面临窘境,而新推出的Agent产品用户体验仍达不到预期,存在"技术炫技"与"人工兜底"交替的问题 [3] 文库GenFlow 2.0技术突破 - 采用Multi-Agent创新架构,由100多个垂直领域专家Agent组成并行协作系统,取代传统单线程模式 [10] - 结合MoE(混合专家模型)技术,实现任务处理速度质的飞跃:从数十分钟生成单个文档提升至3分钟并行完成超5个复杂任务 [11] - 全端通用能力覆盖Web/App端,支持移动场景碎片化办公,消除传统AI办公的软硬件生态壁垒 [10][12] 人机交互模式革新 - 突破传统"助理"概念,构建"AI专家团队"调度中枢,用户通过自然语言即可驱动百人级专业AI团队 [16][17] - 实现任务全流程可干预机制,用户可随时暂停补充需求、调用网盘文件实时优化结果,解决生成过程"黑盒子"问题 [20][23] - 案例演示:输入"设计蜡笔小新盲盒"需求后,系统自动组建项目组完成3D设计、成本核算等全流程,并支持追加PPT制作等衍生需求 [20][22] 技术架构与生态优势 - 基于沧舟OS内容操作系统构建三层架构:底层基建处理跨模态内容、中枢系统调度多Agent并行、应用层整合数百个Agent形成闭环 [26] - MoE架构实现计算成本优化,同级密度模型下推理效率可达传统模型的数倍,仅激活相关专家模块保持高性价比 [24] - 通过MCP协议实现生态开放:已接入三星文件处理、荣耀YOYO助理等硬件系统,支持第三方Agent标准化接入 [26][27] 商业化与行业影响 - 推动"Agent即服务"生态成型,企业可低门槛调用专家团队能力,案例显示头部硬件厂商接入后实现系统级原生调度 [27][28] - 百度文库网盘转向通用Agent领域标准制定者,其智能PPT Agent等成熟产品已通过数亿用户验证 [23][28] - 行业效率边界被重新定义,实现"一个人开N家公司,一天完成800件任务"的新型生产力模式 [28]
赛道Hyper | 阿里开源通义万相Wan2.2:突破与局限
华尔街见闻· 2025-08-02 01:37
技术突破 - 阿里巴巴开源电影级视频生成模型通义万相Wan2.2,包含文生视频、图生视频和统一视频生成三款模型,其中文生视频和图生视频模型首次采用MoE架构 [1] - MoE架构由高噪声专家模型和低噪专家模型组成,分别负责视频整体布局和细节完善,总参数量27B,激活参数量14B,同参数规模下可节省约50%计算资源 [1][4] - 激活参数占比高达51.85%,远超行业水平(如GLM-4.5激活占比仅9%),体现公司在模型架构设计与优化方面的技术积累 [6][7] 技术架构创新 - MoE架构通过动态选择专家模型参与推理,提高计算效率和性能,特别适合大型神经网络训练和推理 [2] - 架构设计针对视频生成瓶颈,将模型拆分为处理整体布局的高噪声专家模型和专注细节的低噪专家模型,形成分工明确机制 [2] - 需要精准把握视频生成数据流向和处理逻辑,以及复杂的算法设计和大量实验调试才能实现高效参数激活策略 [7] 行业影响 - 公司选择开源策略,在GitHub、HuggingFace等平台提供模型代码,降低研究门槛并可能加速技术场景落地 [8] - 此举可能加剧视频生成技术迭代速度,因其他企业可基于开源技术进行优化升级 [8] - 代表中国企业在全球AI视频生成领域的重要发声,与国际竞争者形成差异化路径(资源效率提升vs时长优势) [10][11] 应用场景 - 当前5秒高清视频生成能力更适合创意工具场景,如影视前期策划可视化、广告短视频初稿制作 [9] - 存在明显局限性:复杂叙事需人工拼接,与电影级生产需求有差距,且美学控制依赖用户专业提示词 [9] - 未来需解决长时序下的逻辑连贯性、画面一致性等问题才能实现更广泛应用 [9][12] 行业趋势 - 视频生成技术处于快速进化阶段,从文本到视频的跨越需要算力、数据、算法综合突破 [12] - 技术价值在于提供新选择而非颠覆行业,未来渗透更多领域需突破技术瓶颈并验证商业模式 [12] - 企业面临平衡技术研发投入与商业回报的挑战,这比单纯技术突破更复杂 [12]
阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑
量子位· 2025-07-29 00:40
通义万相Wan2.2模型技术突破 - 阿里开源新一代视频生成模型通义万相Wan2.2,包含文生视频、图生视频和混合视频生成功能[4] - 首次在视频生成模型中实现MoE架构,包含Wan2.2-T2V-A14B和Wan2.2-I2V-A14B两个版本,可生成电影级质感视频[5] - 5B版本支持消费级显卡部署,是目前最快的24fps、720P基础模型[5] - 相比前代Wan2.1,图像训练数据增加65.6%,视频数据增加83.2%[31] 模型架构创新 - 采用MoE架构解决视频生成模型参数扩展难题,通过拆分高噪/低噪专家模型处理不同去噪阶段[26][28] - 引入900去噪时间步划分,高噪模型负责主体结构构建,低噪模型处理细节生成[28] - 自研高压缩比3D VAE结构实现16x16x4压缩比,降低显存占用同时保持重建质量[34][35] - 验证损失(Validation loss)达到行业最低水平,视频生成质量最优[29] 电影级美学控制系统 - 整合光影、色彩、镜头语言三大电影元素,提供12个美学维度和60+专业参数控制[37][38] - 支持精确调控光线时段/类型/强度/方向、构图法、拍摄角度、色彩情绪等[38][40][42] - 用户仅需添加美学关键词前缀即可自动生成专业导演质感的画面[46] 复杂运动与交互能力 - 构建面部原子动作系统,可生成微表情如"强忍泪水时的嘴唇颤抖"[47] - 优化手部动作系统,支持从基础操作到专业精密动作的生成[48] - 提升多人交互物理合理性,避免角色穿模现象[49] - 增强高强度运动(体操/滑雪等)的稳定性,减少动作失真[50] 产品生态与行业影响 - 通义万相系列累计下载量超4亿次,衍生模型超14万,全球排名第一[54] - 配套推出"万相妙思+"创作活动,设置兴趣组(5-15秒)和专业组(30秒+)赛道[54] - 模型已上线通义万相平台及GitHub/HuggingFace/魔搭社区[18][56] - 该技术突破可能重塑电影工业生产流程[55]
商汤高管出走,干出200亿AI独角兽……
钛媒体APP· 2025-06-25 08:08
公司概况 - MiniMax是中国估值超200亿的AI明星企业之一,每天用户交互量超30亿、API客户超5万家[3] - 公司采用MoE架构,推出视频模型海螺、音色工具Voice AI、自动化Agent等多款产品[3][10] - 创始人闫俊杰是清华博士,曾任商汤副总裁,2021年创业并带领公司快速成长[3][4] 创始人背景 - 闫俊杰1989年出生,清华自动化系本硕,美国伊利诺伊大学香槟分校机器学习博士[4] - 在商汤科技期间主导核心算法研发和平台技术建设,是"技术总管"[4] - 2021年从商汤离职创业,目标是做出"真正对普通人有用的AI"[4] 产品与技术 - 产品矩阵包括对话机器人星野、语音生成工具Voice AI、视频生成模型海螺等[6][10][11] - 采用MoE架构,在文本、音频、视频多模态上同步发力[10] - 技术路线强调"轻、快、能落地",操作门槛低,可跑在普通消费级显卡上[10][19] 商业化路径 - 从To C试水积累用户数据,转向To B构建API平台,形成完整商业闭环[6] - API平台吸引超5万家企业客户,覆盖教育、电商、金融等多个场景[16] - C端产品星野用户破千万,海螺视频模型吸引内容创作者和小微商家[14][19][20] 融资与发展 - 获得红杉中国、阿里创投、腾讯投资等头部机构投资[6] - 最新估值超200亿人民币,正筹备赴港IPO[6][14] - 2021年成立,2023年星野上线,2024年推出语音视频模型,发展迅速[14] 行业定位 - 在中国大模型赛道中用户活跃度最高、爆款能力最强、商业化最有进展[10] - 不追求"最强AI",而是最适合市场使用的AI产品[15] - 通过"底层效率论"构建核心竞争力,技术不求炫而求用[13]
一个上海AI独角兽爆发了
投资界· 2025-06-20 08:04
公司发展历程 - 公司MiniMax由89年博士闫俊杰于2022年初在上海创立,致力于通用人工智能(AGI)研发,是国内最早布局大模型的两家企业之一 [4][5][6] - 创始人闫俊杰曾任职商汤科技副总裁,发表顶级论文100余篇,Google Scholar引用超10000次,具备深厚学术和技术背景 [4] - 公司成立3年估值超30亿美元,完成多轮融资包括2023年6月2.5亿美元融资和2024年6亿美元A轮融资 [24] 技术突破与产品 - 2024年6月发布MiniMax-M1模型,支持100万上下文输入和8万Token输出,RL成本仅53万美元,推理效率数倍于同类模型 [12][14] - 推出视频生成模型Hailuo 02,参数量扩大3倍,数据量扩大4倍,成本优势明显,在AA视频竞技场"Image to Video"排名第2 [16][17][18] - 语音大模型Speech-02在国际权威评测榜单Hugging Face TTS Arena和Artificial Analysis拿下双料冠军 [20] - 2024年发布通用智能体MiniMax Agent和视频创作Agent Hailuo Video Agent,可完成长程复杂任务 [26][27] 市场表现与行业地位 - 公司大模型与全球终端用户日交互量达30亿次,海螺AI月访问量曾位列全球第一 [9] - 开放平台拥有全球超5万名企业客户和开发者,业务覆盖200多个国家和地区 [9] - 公司是国内首个推出MoE架构大模型的企业,abab6系列开创了MoE架构商业化部署先河 [7][8] - 在软件工程、长文本理解和工具使用等生产力场景中表现突出,部分指标超过Gemini 2.5 Pro [14][15] 发展战略 - 坚持技术驱动路线,优先开发算法上限高的功能,避免精力分散导致模型进步速度变慢 [6] - 选择非共识技术路径,如早期投入MoE架构而非跟随主流稠密模型迭代 [7] - 通过开源策略构建商业化突破口,形成规模化落地以获取持续发展资源 [16] - 按照"未来愿景型"创新路径发展,专注AGI长期目标而非短期痛点解决 [21][28]
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 10:34
华为Pangu Ultra MoE模型技术突破 - 华为推出参数规模高达718B的准万亿MoE模型Pangu Ultra MoE 该模型融合计算、通信和内存等多维度指标 在昇腾NPU平台上实现最佳平衡 [6] - 模型采用256个路由专家 每个token激活8个专家 总参数量718B 激活量39B 具有超大规模和超高稀疏比特性 [6] - 引入MLA注意力机制 有效压缩KV Cache空间 缓解推理阶段内存带宽瓶颈 优于传统GQA方案 [6] 模型架构创新 - 采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 使梯度突刺率从1.54%下降到0.76% 相对下降51% [13][17] - 设计EP-Group负载均衡loss 相比主流Micro-batch方案在大部分任务上平均提升1.5个点 [20][21] - 采用单头MTP进行训练 后续复用参数扩展至多头结构 实现多Token投机推理 接受长度提升约38% [26][27] 训练方法优化 - 全流程采用dropless训练模式 避免Drop&Pad训推不一致问题 提升训练数据效率 [7] - 预训练阶段在6k到10k张NPU上进行 具备128k长序列能力 [8] - 采用迭代难例挖掘与多能力项均衡的奖励函数 参考GRPO算法提升训练效率与推理性能 [29][31] 昇腾硬件亲和设计 - 隐藏维度设置为7680维 精准匹配DaVinci芯片的16×16 MatMul单元 充分发挥计算潜力 [7] - 设置61层Transformer结构 预留额外MTP层空间 保障计算负载均衡的流水线调度 [7] - 路由专家数量设为256 在TP×EP并行下提升All-to-All通信效率 加速分布式训练 [7] 模型性能表现 - 在C-Eval评测中得分90.8 CLUEWSC得分94.8 MMLU得分91.5 整体效果优于主流模型 [9] - 在推理能力评测中 AIME2024得分81.3 GPQA-Diamond得分75.3 MATH500得分97.4 [9] - 强化学习训练系统有效解决了多能力协同提升问题 保持模型在数学、代码和通用能力的均衡表现 [31]