混合架构

搜索文档
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
机器之心· 2025-08-25 09:10
大语言模型效率挑战与架构演进 - 大语言模型(LLMs)如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破,但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加,训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题,在长序列任务中成本高昂,FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求,加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文,形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》,系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类:线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展,涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向,包括Mamba、Lighting Attention、RWKV等代表性工作,通过降低注意力训练和推理复杂度,无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式,通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构,实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类,从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算,分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等,通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储,分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列,Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家(MoE)已成为语言和多模态大模型架构事实标准,通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向,路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡,分为层间混合和层内混合两种形式,在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务,在生成速度上取得大幅进步,分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域,以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务,多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]
DeepSeek V3.1发布后,投资者该思考这四个决定未来的问题
36氪· 2025-08-20 10:51
文章核心观点 - DeepSeek V3 1模型在编程基准测试中以71 6%的分数超越Claude 4 Opus 登顶开源模型榜首 同时成本优势显著 完成一次编程任务仅需1 01美元 比Claude Opus 4便宜68倍 其架构创新引发行业对混合架构的广泛猜测 这一发布促使投资者重新评估AI赛道的竞争格局 成本结构 商业模式和护城河演变 [1][2][5][7][18][20] 开源与闭源竞争格局 - 开源模型在特定能力如编程和数学上实现反超 挑战闭源巨头OpenAI和Anthropic的护城河 闭源优势可能从通用智能绝对领先收缩为多模态和超长上下文等功能的时间窗口优势 [8] - 企业采用混合模式成为主流 端侧和私有化部署优先使用微调开源模型处理敏感数据和高频任务 公有云调用闭源模型处理复杂非核心任务 这一趋势将重塑云厂商AI服务格局 并影响Snowflake和Databricks等一体化平台公司的战略 [8][9] 混合架构的商业影响 - 混合架构通过轻量级调度模型判断请求复杂度 分发给专家模型处理 可能将大模型推理单位经济效益提升一个数量级 冲击通用大模型API商业模式 并改变下游AI应用成本结构 [11][12] - 混合架构主流化可能导致数据中心算力需求多样化 需要更多低成本推理芯片 为NVIDIA之外厂商如AMD Intel和Groq打开新市场窗口 需将这一变量纳入NVIDIA长期投资逻辑考量 [12] 成本优势推动应用层变革 - 模型能力达到SOTA且推理成本降低60 70倍 将引发AI应用层质变 高昂API调用成本不再是商业化枷锁 商业模式可从按次调用转向按月订阅SaaS模式 提升营收稳定性和市场天花板 [12][13] - 基础模型因开源竞争逐渐商品化 价值链利润重心向上游应用层和解决方案层转移 护城河转向高质量私有数据 行业工作流理解和企业销售渠道 需重新评估传统软件巨头Microsoft Adobe Salesforce与AI原生创业公司的竞争格局 [14] 未来竞争核心维度 - 企业级就绪度成为下一个核心战场 包含模型稳定性 可预测性 安全性和合规性 提供包含模型 工具链和合规解决方案的企业级套件可能开启万亿级企业市场 [14][15] - 垂直领域深度优化与生态构建成为竞争焦点 商业价值爆发来自与法律 金融 生物医药等行业结合的垂直领域大模型 竞争从模型规模转向行业逻辑理解 生态系统包括开发者工具 API接口和社区支持成为长期壁垒关键 [15]
专家访谈汇总:小马智行与文远知行高管“互撕”?
阿尔法工场研究院· 2025-06-24 10:14
固态电池技术进展与市场前景 - 比亚迪、国轩高科、一汽集团等已成功下线60Ah车规级电芯,能量密度达350-400Wh/kg,充电倍率1C,循环寿命1000次,比预期提前半年 [1] - 预计2025年下半年至2026年上半年固态电池中试阶段将迎来关键节点,技术成熟度大幅提升 [1] - 硫化物电解质生产突破千米级大卷,加压条件降至1-2Mpa,预计2026年价格将降至250万/吨,长期可能降至几十万/吨 [1] - 固态电池在低空飞行器、动力系统及机器人领域应用前景广阔,预计2030年市场规模突破100GWh [1] 先导智能订单与技术布局 - 宁德时代与先导智能扩大合作,承诺将50%新电芯段核心设备投资优先给先导 [1] - 2025年一季度订单量预计回升至2022-2023年水平,全年订单有望增长20%-30%达240-260亿元 [1] - 干法电极设备技术突破,中道环节采用片机替代卷绕设备提升效率,后道布局等静压和化成分容设备 [2] - 已与多家车企及日韩固态电池企业建立战略合作,提供量产解决方案 [2] VMware商业模式变革 - 博通收购VMware后改为VCF订阅制套件,取消永久授权模式,用户反映授权费用暴涨8-15倍 [2] - 博通称改革旨在帮助用户解锁VCF的全面配置管理、安全防护等价值 [2] - 53%企业将私有云部署列为优先IT任务,69%评估将工作负载从公有云迁回本地 [2] - 60%企业优先选择本地IT系统运行核心负载,仅2%选择全公有云化 [2] 科技股驱动因素与特斯拉供应链 - 伊朗以色列停火协议改善市场情绪,美联储表态支持降息推动流动性 [3] - 特斯拉推出首批10辆Robotaxi服务,商业化进程加速 [3] - 联创电子预计2025年成为特斯拉镜头第一供应商 [3] - 拓普集团提供底盘系统等零部件并配套机器人项目 [3] - 旭升股份持续供应电池和传动系统零部件 [3] - 三花智控提供热管理零部件并深入机器人合作 [3] - 江苏雷利通过鼎智科技提供执行器和电机 [3] Robotaxi市场竞争格局 - 小马智行称竞争对手在规模化和无人化方面落后两年半,文远知行反驳并强调落地进展 [4] - 全球Robotaxi市场规模预计从2024年19.5亿美元增至2030年437.6亿美元(天风证券预测8349亿元) [4] - 小马智行采用多传感器融合方案,计划2025年车队规模扩至千台,车费收入同比增800% [4] - 文远知行2024年纳斯达克上市,首日市值44.91亿美元 [4] - 小马智行2022-2024年研发投入累计5.17亿美元,文远知行29.08亿元 [4] - 文远知行专利921项显著领先小马智行93项 [4] - 文远知行营收从2022年5.28亿元下滑至2024年2.50亿元 [4]
大模型专题:大模型架构创新研究报告
搜狐财经· 2025-06-06 11:38
大模型架构创新研究核心观点 - Transformer架构目前仍占据行业绝对主导地位,但面临二次计算复杂度高、长序列处理效率低、端侧部署受限等局限性 [1][9][16] - 行业正从两条路径突破:Transformer架构改进(Attention机制、FFN层优化)和非Transformer架构探索(新型RNN/CNN) [1][7][18] - 技术发展呈现混合架构趋势,如Mamba+MoE等组合,兼顾性能与效率 [2][9][18] - 2023年后进入架构创新密集期,学术界聚焦理论突破,工业界加速工程验证 [2][14] Transformer架构现状与挑战 - 当前占据大模型架构90%以上市场份额,通用性和可扩展性优势明显 [9][10] - 核心问题:计算复杂度O(n²)导致算力消耗激增,GPT-4推理成本达GPT-3的7倍 [16] - 长序列处理效率低下,KV缓存内存占用限制端侧部署 [16] - 预训练+微调范式见顶,效果提升边际递减(Grok3资源增10倍效果仅提升2%) [16] Transformer架构改进路径 Attention机制优化 - 稀疏注意力:采用局部窗口/块状计算降低复杂度至O(n log n),代表技术有Sliding Window、MoBA [24][25][26] - 动态注意力:NSA等新技术实现可学习动态路径,替代预定义结构 [27][28][32] - 线性注意力:将点积计算线性化降为O(n)复杂度 [24] FFN层改进 - 从Dense结构演进为MoE混合专家系统,提升稀疏连接效率 [1][21] - 持续探索动态化、稀疏化下一代技术 [21][23] 其他改进 - 位置编码优化:LongRoPE增强长序列建模 [1] - 归一化层与残差连接改进 [22] 非Transformer架构探索 - 新型RNN:RWKV通过广义Delta Rule优化状态演化,Mamba利用状态空间模型提升训练效率 [1][14] - 新型CNN:Hyena Hierarchy等架构尝试 [1] - 混合架构:2025年MiniMax-01实现456B参数工业级落地,采用Transformer+Mamba组合 [9][14] 行业发展趋势 - 混合架构成为主流选择,字节跳动、阿里等企业加速布局 [2][10] - 研究方向聚焦:算力适配(FP8混合精度)、多模态融合、端侧部署能力 [2][18] - 参数规模持续突破,2025年出现万亿级非Transformer架构 [9][14] - 训练范式革新:从预训练转向多阶段训练、RL优化等后训练技术 [16][18]
Z Research|我们距离Agent的DeepSeek时刻还有多远(AI Agent 系列二)
Z Potentials· 2025-06-06 02:44
AI Agent技术架构分析 - 拆解AI Agent运作流程为感知层(LLM/RAG)、决策层(Memory/Planning)、执行层(Tools)三层架构 [14][15] - 感知层负责信息收集处理,决策层进行任务拆解和推理,执行层完成实际操作 [14][15] - 当前技术痛点包括预训练收敛、检索效率瓶颈、隐私风险、工具兼容性等问题 [10] - 未来趋势包括RL强化、多源动态检索、记忆压缩技术、因果推理强化等方向 [10] 市场形态分类 - 提出AI Agent九宫格分类法,从形式和内容两个维度划分市场形态 [17][18] - 形式维度分为纯粹LLM自主、人类定义workflow、人工与AI结合三类 [17][18] - 内容维度分为通用Agent、垂类Agent和自定义平台三类 [17][18] - 需辨别真正有潜力公司与概念炒作者 [19] 技术路线之争 - OpenAI坚持"纯粹Agent"路线,强调LLM动态驱动决策 [23][24] - LangChain采用"混合架构"路线,主张Workflow与Agent结合 [25][26] - 两种路线在系统设计、开发门槛、可靠性等方面存在显著差异 [28] - OpenAI路线适合开放域任务,LangChain路线更适合企业级应用 [28] 模型能力进化 - SOTA模型已将工具调用能力内化,Agentic能力内化成为必然 [30] - OpenAI o4-mini与Claude 4代表两种技术路线:"隐形智能"与"可编程智能" [38][39] - 未来竞争将是"体验普惠"与"深度可靠"两条路线的角力 [40] - 工程整合对模型能力的贡献开始增加 [31] Multi-Agent系统 - Single-Agent存在内存、工具调用、React框架等局限性 [80] - Multi-Agent在复杂性、鲁棒性和扩展性上具有根本优势 [82] - 核心架构模式包括单智能体、网络架构、监督者架构等六种 [102][124] - 当前框架处于割据状态,主流玩家各自推出解决方案 [125] 行业应用现状 - 当前AI Agent存在技术同质化和"套壳"现象普遍的问题 [129] - 短期差异化来自数据工程和系统集成等"苦活累活" [130][131] - 长期看这些工作有被自动化重构的风险 [132] - 未来12-24个月内有望看到显著进展 [138]