Kimi K2
搜索文档
斯坦福报告揭秘中国开源AI全景:本土模型能否领跑全球?
搜狐财经· 2026-01-03 13:19
报告核心观点 - 斯坦福大学HAI与DigiChina项目联合发布的政策简报指出,中国开放权重AI模型已从全球追赶者变为领跑者,并形成了一个庞大且多元的生态系统,DeepSeek仅是其中一员 [1][3][42] 行业地位与市场数据 - 在开源大模型领域,中国已从追赶者变为领跑者 [4][30][43] - 阿里巴巴旗下的Qwen模型系列于2025年9月超越Meta的Llama,成为Hugging Face平台下载量最高的大语言模型家族 [4][17][44] - 截至2025年12月中旬,Qwen累计下载量达约3.85亿次,Llama约为3.46亿次 [4][17][44] - 2024年8月至2025年8月间,中国开发者的模型下载量占Hugging Face总下载量的17.1%,首次超过美国的15.8% [4][17][44] - 2025年9月,基于中国模型的衍生版本占Hugging Face当月新增衍生模型的63% [6][19][46] 主要参与者与模型特点 - 报告重点剖析了四个具有代表性的中国模型家族 [7][20][33] - **Qwen(阿里巴巴)**:定位于多语言和多模态能力最强的通用模型,支持119种语言,采用Apache 2.0许可证开源 [7][20][33] - **DeepSeek-R1(DeepSeek)**:以推理能力见长,在数学和复杂问题求解方面表现突出,提供多个蒸馏版本 [7][20][33] - **Kimi K2(月之暗面)**:聚焦于代码生成和智能体任务,强调快速推理 [7][20][33] - **GLM-4.5(智谱AI/Z.ai)**:走均衡路线,通过多专家训练整合推理、编程和视觉能力 [7][20][33] - 性能榜单显示,中国模型(如GLM-4.6、Kimi-K2-Thinking、Qwen3-VL-235B等)在Elo、Coding等多项评分中位居前列 [8][21][34] 技术架构与驱动因素 - 中国模型普遍采用混合专家(MoE)架构,核心优势在于效率,能在有限计算资源下获得更好性能 [9][22][35] - 采用MoE架构是应对美国自2022年起对先进AI芯片实施出口管制的策略 [9][22][35] - 以DeepSeek-V3为例,总参数量高达6,710亿,但单次推理仅激活370亿参数,在保证性能的同时大幅降低运行成本 [9][22][35] - 2025年,主要模型的开源许可证策略趋向宽松,如Qwen3采用Apache 2.0,DeepSeek R1采用MIT License,以吸引全球开发者并建立学术信誉 [10][23][36] - 开放潮流影响了此前坚持闭源的玩家,百度于2025年6月将其旗舰产品文心一言(ERNIE)4.5以开放权重形式发布 [10][23][36] 政策环境与商业模式 - 中国官方在顶层设计上支持开源AI发展,2017年的《新一代人工智能发展规划》已将“开源”和“开放”列为关键词汇 [10][23][36] - 2023年10月的《全球人工智能治理倡议》和2025年7月的《全球人工智能治理行动计划》将开源AI提升至国际话语权争夺的高度 [11][24][37] - 中国开放权重AI的繁荣更多是市场竞争、人才积累和工程文化共同作用的结果,而非纯粹自上而下的规划产物 [11][24][37] - 地方政府为参与开源社区的AI组织和项目提供定向财政支持,学术机构被鼓励将开源贡献纳入科研考核 [12][25][38] - 已有不少地方公共服务部门将DeepSeek模型的本地化版本集成到相关系统中 [12][25][38] - **阿里巴巴**的商业模式是将Qwen定位为“AI操作系统”,通过企业和政府客户采用模型来带动云计算业务增长,客户包括HP、阿斯利康,新加坡国家AI计划也基于Qwen3构建旗舰模型 [12][25][38] - **DeepSeek和智谱**走轻资产路线,采取协作部署策略,为不同云和算力提供商的客户提供本地化服务 [12][25][38] - 行业目前仍依赖间接变现:通过广泛采用的开放模型培育用户基础,再将其引导至付费产品和服务 [12][25][38] 全球影响与竞争态势 - 高性能中国模型的广泛可用,为资源有限的低收入和中等收入国家提供了获取先进AI能力的新路径 [13][26][39] - 中国模型因“够好用”、许可证宽松、使用成本低而受到青睐,例如Airbnb CEO透露公司使用Qwen而非ChatGPT为客服机器人供电,原因是“又快又便宜” [13][26][39] - DeepSeek R1的发布直接改变了美国对开放权重AI的政策态度,被特朗普总统称为“警醒时刻” [14][27][40] - 2025年7月,白宫发布《美国AI行动计划》,将开放权重模型提升为战略资产,同时强调加强对中国等对手的出口管制 [14][27][40] - 2025年8月,OpenAI时隔近六年首次发布开放权重模型,Sam Altman承认中国开源模型的竞争是促使该决定的重要因素 [14][27][40] - 真正的行业竞争已演变为生态竞争、工程竞争、成本竞争与合规竞争叠加的系统战 [15][28][41]
Kimi账上100亿,不着急上市
盐财经· 2026-01-01 09:42
月之暗面最新融资与估值 - 公司于2025年12月31日完成5亿美元C轮融资,且大幅超募,老股东阿里、腾讯、王慧文等均追加投资[4] - 本轮融资后,公司投后估值跃升至43亿美元,约合人民币300亿元[5][7] - 公司当前现金储备已超过100亿元人民币,资金规模几乎相当于即将IPO的智谱AI与MiniMax两家公司之和[5][13] 技术突破与行业地位 - 公司推出的“Kimi K2”模型在全球引发轰动,被《Nature》杂志评价为“另一个DeepSeek时刻”[7] - Kimi K2 Thinking在最核心的基准测试(如HLE)上超越OpenAI,取得SOTA(state-of-the-art)成绩[7] - 公司被视为当下大模型市场中少数实力强劲的选手之一[8] 商业化进展与用户增长 - 借助K2模型的SOTA表现,2025年9月至11月,公司C端商业化实现指数增长,海外和国内付费用户数平均月环比(MoM)增长超过170%[8] - 同期,K2 Thinking的发布显著带动了API收入增长,海外API收入增长4倍[8] - 2025年9月,公司推出具备Agent功能的“OK Computer”,可调用虚拟电脑工具进行开发、分析、生成等操作,被视为商业化进程的关键落子[7] 未来战略规划 - 2026年战略布局聚焦三点:1)通过技术改进和扩大规模,使K3模型的等效FLOPs提升至少一个数量级,在预训练水平上追平世界前沿模型;2)垂直整合模型训练与Agent产品,让K3具备“与众不同”的能力;3)产品和商业化聚焦Agent,不以绝对用户数量为目标,追求智能上限,创造生产力价值,实现营收规模数量级增长[9] - 公司团队目标是超越Anthropic等前沿公司,成为世界领先的AGI公司[9] - C轮融资部分资金将用于2026年的激励计划和期权回购计划[9] 行业上市潮与公司上市态度 - 国产大模型行业迎来上市潮,智谱AI已于港交所招股,计划2026年1月8日挂牌;MiniMax也已启动招股,计划1月9日登陆港股[12] - 智谱AI在IPO前完成8轮融资,累计规模超83亿元人民币;MiniMax自成立至今融资额约达100亿元人民币[12] - 公司现金储备雄厚,超过100亿元,而智谱AI截至2025年6月末账上现金为25.5亿元,MiniMax持有的现金及理财约10.5亿美元(约73亿元人民币),公司一家储备近乎等于前两者之和[13] - 公司判断仍可从一级市场募集更大量资金,其B/C轮融资金额已超过绝大部分IPO募资及上市公司定向增发,因此短期不着急上市,未来将把上市作为加速AGI战略进程的手段[13]
2025最后一天,Kimi杨植麟发内部信:我们手里还有100亿现金
36氪· 2025-12-31 12:38
公司财务与融资状况 - 公司近期完成5亿美元C轮融资,由IDG领投1.5亿美元,老股东阿里、王慧文等超额认购,投后估值达43亿美元[1] - 公司当前现金持有量超过100亿元人民币,资金储备充足[1][2][5] - 公司判断一级市场仍可募集大量资金,其B/C轮融资金额已超过绝大部分IPO募资及上市公司定增,因此短期不急于上市[5] - C轮融资资金将用于激进扩增显卡、加速K3模型研发,以及2026年的激励与期权回购计划[6] 业务运营与商业化进展 - 公司于2025年10月正式推行大规模付费协议,包括针对普通用户的会员订阅和针对开发者的API阶梯计费[1] - 2025年9月至11月,公司付费用户数月均环比增速超过170%[2][5] - 基于估算,若2025年初付费用户数为10万,按此增速年末可达约170万;按人均月付费50元计算,单月会员订阅营收约8500万元[2] - 同期,海外API收入增长4倍,结合API收入,公司单月总营收有可能接近1亿元人民币[2][5] - 2025年基于成果产出,公司累计实施调薪、期权奖励、现金奖励等激励措施324人次[6] 技术研发与产品迭代 - 2025年公司模型迭代重点从2024年的长文本突破,转向“思考过程的可解释性”与“复杂逻辑推理”[1] - 2025年9月和11月相继推出基座模型Kimi K2及对标强化学习推理路径的Kimi K2 Thinking系列[1][4] - Kimi K2是中国首个万亿参数基座模型,也是第一个开源的agentic model,在HLE等核心基准测试中超越OpenAI取得SOTA成绩[4] - 2026年战略包括:通过技术改进与扩展,使K3模型的等效FLOPs提升至少一个数量级,在预训练水平上追平世界前沿模型[7] - 2026年将垂直整合模型训练与agent产品,旨在让K3成为更“与众不同”、具备其他模型未定义过能力的模型[7] 公司战略与未来展望 - 公司最重要的目标是超越Anthropic等前沿公司,成为世界领先的AGI公司[2][6] - 2026年产品与商业化将聚焦于agent,不以绝对用户数量为目标,而是持续追求智能上限,创造更大生产力价值,并实现营收规模的数量级增长[7] - 公司计划将上市作为加速AGI的手段,但会择时而动,掌握主动权[5] - 2026年春节前将确定K2 Thinking及后续模型发布的奖励方案并发放,2026年公司平均激励预计是2025年的200%,并计划大幅上调期权回购额度[2][6] - 公司致力于成为“与众不同”和“不被定义”的LLM,追求Kimi-defined的创新,以对人类文明发展做出独特贡献[7][8]
Kimi账上100亿,杨植麟:我们不着急上市
搜狐财经· 2025-12-31 12:03
融资与估值 - 公司完成5亿美元C轮融资,且大幅超募,投后估值跃升至43亿美元(约合人民币300亿元)[2][3][4] - 本轮融资由阿里、腾讯、王慧文等老股东超额认购[2][4] - 公司当前现金储备已超过100亿元人民币[3][16] 技术与产品进展 - 公司K2系列模型在全球引发轰动,被《Nature》杂志评价为“另一个DeepSeek时刻”[4] - K2 Thinking在最核心的benchmark(例如HLE)上超越OpenAI取得SOTA(state-of-the-art)[4][15] - 公司于2025年9月推出Agent功能“OK Computer”,可调用虚拟电脑工具进行开发、分析、生成等,被视为商业化关键落子[4] - 公司计划在2026年推出K3模型,目标是通过技术改进和进一步scaling,将等效FLOPs提升至少一个数量级,在预训练水平上追平世界前沿模型[7][17] 商业化与财务表现 - 借助K2模型的SOTA表现,C端商业化实现指数增长,2025年9月至11月,海外和国内付费用户数平均月环比(MoM)增长超过170%[5][16] - K2 Thinking的发布显著带动了API收入,2025年9月至11月海外API收入增长4倍[5][16] - 公司2026年战略聚焦于Agent,不以绝对用户数量为目标,追求营收规模实现数量级增长[7][17] 行业竞争与上市动态 - 国产大模型公司智谱AI与MiniMax正启动港股IPO,智谱计划于2026年1月8日挂牌,MiniMax计划于1月9日登陆[8][9] - 智谱在IPO前累计融资超83亿元人民币,MiniMax累计融资额约达100亿元人民币[9] - 公司现金储备(超100亿元)几乎等同于智谱(25.5亿元)与MiniMax(约73亿元)两家之和[11] - 公司明确表示短期不着急上市,认为仍可从一级市场募集更大量资金,并计划未来将上市作为加速AGI战略进程的手段[11][12][16] 公司战略与目标 - 公司2026年战略包括:推进K3模型研发、垂直整合模型训练与Agent产品、在商业化上聚焦Agent以实现营收数量级增长[7][17] - 公司最重要的目标是超越Anthropic等前沿公司,成为世界领先的AGI公司[7][17] - C轮融资资金将用于激进地扩增显卡以加速K3模型训练,部分资金也将用于2026年的激励计划和期权回购计划[7][17]
Kimi账上100亿,杨植麟:我们不着急上市
投资界· 2025-12-31 10:47
月之暗面最新融资与估值 - 公司于2025年底完成5亿美元C轮融资,且大幅超募,投后估值跃升至43亿美元(约合人民币300亿元)[2][3] - 本轮融资由阿里巴巴、腾讯、王慧文等老股东超额认购[2][3] - 公司当前现金储备已超过100亿元人民币,资金规模接近即将IPO的智谱AI与MiniMax两家公司之和[2][7] 技术突破与行业地位 - 公司推出的“Kimi K2”模型在全球引发轰动,被《Nature》杂志评价为“另一个DeepSeek时刻”[3] - Kimi K2 Thinking在最核心的基准测试(如HLE)上超越OpenAI,取得SOTA(state-of-the-art)成绩[3] - 公司被视为当下大模型市场中少数实力强劲的选手之一[4] 商业化进展与增长数据 - 2025年9月,公司推出Agent功能“OK Computer”,可调用虚拟电脑工具进行开发、分析、生成等,被视为商业化关键落子[4] - 借助K2模型的SOTA表现,2025年9月至11月,海内外付费用户数平均月环比(MoM)增长超过170%[4] - 同期,K2 Thinking的发布显著带动了API收入,海外API收入增长4倍[4] 2026年战略规划 - **技术目标**:K3模型将通过技术改进和进一步扩展,提升等效FLOPs至少一个数量级,在预训练水平上追平世界前沿模型[5][12] - **产品目标**:垂直整合模型训练与Agent产品,让K3成为更“与众不同”的模型,提供其他模型未定义过的能力[5][12] - **商业化目标**:聚焦Agent产品,不以绝对用户数量为目标,持续追求智能上限,创造更大生产力价值,实现营收规模数量级增长[5][12] - **团队与激励**:部分C轮融资资金将用于2026年的激励计划和期权回购计划,公司平均激励预计是2025年的200%,并计划大幅上调期权回购额度[6][10] - **长期愿景**:公司最重要的目标是超越Anthropic等前沿公司,成为世界领先的AGI(通用人工智能)公司[6][10] 行业上市潮与公司资本策略 - 行业出现上市潮,智谱AI与MiniMax相继启动港股IPO,分别计划于2026年1月8日和1月9日挂牌[7] - 智谱AI在IPO前完成8轮融资,累计规模超83亿元人民币;MiniMax自成立至今融资额约达100亿元人民币[7] - 公司现金储备雄厚(超100亿元),远超智谱AI(25.5亿元)和MiniMax(约73亿元),因此对上市持从容态度[7] - 公司判断仍可从一级市场募集更大量资金,其B/C轮融资金额已超过绝大部分IPO募资及上市公司定增,因此短期不着急上市[8] - 公司未来将把上市作为加速AGI战略进程的手段,而非迫切的融资需求[8]
斯坦福大学发布研究报告称:中国开放权重模型重塑全球AI竞争格局
搜狐财经· 2025-12-29 09:03
中国AI模型能力与采用率 - 斯坦福大学研究报告指出,中国的人工智能模型,尤其是开放权重的大语言模型,在能力与采用率方面已接近甚至部分领先于国际先进水平 [2] - 报告重点分析了阿里巴巴的通义千问、DeepSeek-R1、月之暗面的Kimi K2以及智谱AI的GLM-4.5等四个代表性中国大语言模型系列 [3] - 在涵盖通用推理、代码生成与工具使用等多项基准测试中,这些中国AI模型已接近全球顶尖水平,所有进入前22名的中国开放权重模型均超越了OpenAI的开源模型GPT-oss [3] 中国开放权重模型表现 - 开放权重指AI模型的参数权重可被公开下载、使用与修改,允许开发者独立运行并调整模型以适应自身需求,与OpenAI的ChatGPT等闭源模型形成对比 [3] - 在开源大模型领域,中国已从追赶者转变为领跑者,例如通义千问的能力可媲美Anthropic的Claude,并接近OpenAI与谷歌的最佳模型,同时还具备显著的成本优势 [3] 全球采用率与成本效益 - 开发平台OpenRouter与风投机构安德里森·霍罗威茨的报告显示,中国开放权重模型在全球的使用率从2024年底的1.2%大幅攀升至2025年8月的近30% [4] - 中国的开源模型因价格实惠、部分免费且性能良好而获得青睐,有美国企业家表示通过采用通义千问而非ChatGPT,其公司每年节省约40万美元 [4] - Airbnb公司客服聊天机器人选用通义千问而非ChatGPT,原因是其“又快又便宜” [5] 市场影响力与下载数据 - 2025年9月,通义千问正式超越Meta的Llama,成为Hugging Face平台下载量最高的大语言模型 [5] - 截至2025年12月中旬,通义千问累计下载量已达约3.85亿次,高于Llama的3.46亿次 [5] - MiniMax与Z.ai的模型在海外同样广受欢迎 [5] 生态构建与衍生影响 - 中国AI模型的快速崛起助推了全球AI技术的广泛采用,基于通义千问与DeepSeek衍生的模型数量持续增长 [6] - 截至2025年9月,中国模型的衍生版本已占Hugging Face当月新增衍生模型的63%,表明全球开发者社区正以前所未有的速度围绕中国模型构建应用生态 [6] - 中国开放权重模型在全球的广泛采用可能重塑全球技术获取和依赖模式,影响全球AI治理、安全以及竞争格局 [6] 行业竞争与政策影响 - DeepSeek-R1的发布影响了美国对开放权重模型的政策态度,2025年7月白宫发布《美国AI行动计划》将开放权重模型提升为战略资产 [6] - 2025年8月,OpenAI时隔近6年首次发布采用Apache 2.0许可证的开放权重模型,其首席执行官坦言中国开源模型的竞争是促成该决定的关键因素 [6] - AI领域的全球领导地位不仅取决于专有系统的先进程度,也依赖于开放权重模型在全球的覆盖、采纳与规范影响力 [7] 技术迭代与前沿发展 - 中国AI模型开发持续快速迭代,不少企业已投身于AI代理的研发竞赛,这类具备推理能力的程序能通过聊天机器人完成在线任务 [5] - 友好且开源的设计,如月之暗面2024年11月发布的Kimi K2,已被广泛视为生成式AI发展的下一个前沿 [5]
英伟达1400亿“收购”,GPU拐点已现?
半导体行业观察· 2025-12-27 01:33
文章核心观点 - 英伟达以200亿美元现金收购Groq公司的技术授权,是其史上最大规模投资,旨在获取并整合被称为“高阶TPU”的可重构数据流架构(LPU),以应对AI推理市场日益增长的需求和非GPU架构的竞争压力 [1][3][17] - 以Groq LPU和谷歌TPU为代表的非GPU架构(包括ASIC和可重构数据流芯片)在AI推理环节展现出显著优势,包括更高的速度、能效比和更低的成本,正在动摇英伟达GPU在AI算力市场的绝对主导地位 [4][13][15] - AI算力芯片市场正从以训练为中心转向推理为重,技术路线呈现GPU与非GPU(ASIC/可重构数据流)两大流派并存的格局,非GPU架构的市场份额预计将显著提升 [4][18] 交易概述与战略意义 - 交易规模达200亿美元(约1400亿元人民币),相当于英伟达606亿美元现金及短期持有资本的三分之一,超出Groq此前估值的3倍 [1][17] - 交易性质为“非排他性授权协议”,英伟达获得Groq的知识产权许可并吸纳其核心团队(包括谷歌TPU缔造者Jonathan Ross),但未收购公司实体 [1][14] - 此次收购是英伟达为补齐非GPU赛道短板、巩固算力领域主导地位的关键布局,旨在将Groq的低延迟处理器整合到其AI工厂架构中,服务更广泛的AI推理和实时工作负载 [14][17] 非GPU架构技术优势(以Groq LPU为例) - **架构创新**:采用软件定义硬件的可重构数据流架构(LPU),消除内存带宽瓶颈,实现确定性执行和零延迟,被业界誉为“高阶TPU” [2][6] - **性能表现**:在处理大语言模型时,能实现每秒数百个Token的“瞬时”吐字;基于14nm工艺,无需外部HBM,通过动态调度让数百个核心同步工作,可实现40倍于传统方案的推理性能 [2][6] - **能效与成本**:能效比英伟达GPU最高可提升10倍;制造晶圆成本可能低于每片6000美元,远低于采用5nm工艺、成本近每片16000美元的英伟达H100芯片 [9][11] - **实际案例**:Groq的AI云算力系统在72小时内将月之暗面开源模型Kimi K2的性能提升40倍;运行开源模型Mixtral 8x7b时,吞吐量最高可达其他推理服务的4倍,价格却不到Mistral本身的三分之一 [7][11] 市场竞争格局变化 - **谷歌TPU的竞争**:谷歌第七代TPU Ironwood单芯片FP8稠密算力达4.6 petaFLOPS,略高于英伟达B200的4.5 petaFLOPS;一个集成9216颗芯片的Ironwood Pod,FP8峰值性能超42.5 exaFLOPS,在特定负载下性能相当于最接近竞品系统的118倍 [16] - **客户动向**:英伟达大客户Meta正考虑在其数据中心大规模采用谷歌TPU,此消息曾导致英伟达股价单日一度暴跌6%,市值蒸发数千亿美元 [15] - **市场份额预测**:花旗预测英伟达AI芯片市场份额将从90%逐步下滑至2028年的81% [16] - **其他玩家**:英特尔正就收购另一家可重构芯片设计公司SambaNova进行初步谈判,该公司估值达50亿美元 [18] 市场前景与数据预测 - **全球市场**:IDC预计2025年AI算力芯片市场规模将超过1285亿美元,同比增长47.1%;到2030年市场规模将达4138亿美元,其中非GPU架构芯片市场规模占比将超过21%,推理芯片占比将提升至65% [18] - **中国市场**:2024年中国加速服务器市场规模达221亿美元,同比增长134%,其中非GPU加速服务器占比已超过30%;IDC预测到2029年,中国非GPU服务器市场规模占比将接近50% [21]
斯坦福大学:中国开放权重模型重塑全球AI竞争格局
科技日报· 2025-12-27 01:03
中国AI模型能力与采用现状 - 斯坦福大学研究报告指出,中国开放权重大语言模型在能力与采用率方面已接近甚至部分领先国际先进水平 [1] - 在涵盖通用推理、代码生成与工具使用等多项基准测试中,阿里巴巴通义千问、DeepSeek-R1、月之暗面Kimi K2、智谱AI GLM-4.5等代表性中国模型已接近全球顶尖水平 [2] - 所有进入前22名的中国开放权重模型,均超越了OpenAI的开源模型GPT-oss [2] - 在开源大模型领域,中国已从追赶者转变为领跑者,例如通义千问能力可媲美Anthropic的Claude,并接近OpenAI与谷歌的最佳模型,同时具备显著成本优势 [2] 全球采用率与市场影响 - 中国开放权重模型在全球的使用率从2024年底的1.2%大幅攀升至2025年8月的近30% [3] - 2025年9月,通义千问正式超越Meta的Llama,成为Hugging Face平台下载量最高的大语言模型 [3] - 截至2025年12月中旬,通义千问累计下载量已达约3.85亿次,高于Llama的3.46亿次 [3] - 有美国企业通过采用通义千问而非ChatGPT等专有模型,每年节省约40万美元 [3] - Airbnb公司客服聊天机器人选用通义千问,原因是其“又快又便宜” [3] - 英伟达、人工智能公司Perplexity以及斯坦福大学员工均在工作中使用通义千问 [3] - MiniMax与Z.ai的模型在海外同样广受欢迎 [3] 技术生态与衍生发展 - 中国AI模型开发持续快速迭代,不少企业已投身于具备推理能力的AI代理研发竞赛 [4] - 月之暗面于2024年11月发布的Kimi K2等开源设计被广泛视为生成式AI发展的下一个前沿 [4] - 基于通义千问与DeepSeek衍生的模型数量持续增长 [5] - 截至2025年9月,中国模型的衍生版本已占Hugging Face当月新增衍生模型的63% [6] - 全球开发者社区正以前所未有的速度围绕中国模型构建应用生态 [6] 对全球竞争格局与政策的影响 - 中国开放权重模型在全球的广泛采用正悄然重塑全球AI技术领域的竞争格局 [1] - 其广泛采用可能重塑全球技术获取和依赖模式,影响全球AI治理、安全以及竞争格局 [6] - DeepSeek-R1的发布影响了美国对开放权重模型的政策态度 [6] - 2025年7月,白宫发布《美国AI行动计划》,将开放权重模型提升为战略资产 [6] - 2025年8月,OpenAI时隔近6年首次发布采用Apache 2.0许可证的开放权重模型,其CEO坦言中国开源模型的竞争是促成该决定的关键因素 [6] - AI领域的全球领导地位不仅取决于专有系统的先进程度,也依赖于开放权重模型在全球的覆盖、采纳与规范影响力 [6]
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍
机器之心· 2025-12-19 06:38
混合专家模型架构发展趋势 - 混合专家模型已成为实现语言模型规模化扩展的事实标准架构,其核心优势在于不显著增加计算成本[1] - 近期MoE模型呈现出高专家粒度和高稀疏性的明显趋势,即采用更小的专家中间层维度和在专家总数增加时保持激活专家数不变,这提升了单位FLOPs的模型质量[1] - 这一趋势在近期开源模型中表现突出,例如DeepSeek V3、Kimi K2以及Qwen3 MoE等,它们通过更细粒度设计和更高稀疏度,在保持激活参数量不变的同时大幅增加了总参数量[1] 代表性MoE模型参数对比 - 模型参数规模与稀疏度持续提升,例如Kimi K2总参数量达1.04万亿,专家激活比例仅为2.08%[2] - 专家粒度指标持续提高,例如Owen3-Next-80B-A3B-Instruct的专家粒度达到4.00[2] - 近期模型如DeepSeek-V3.2-Exp总参数量达6850亿,专家激活比例保持在3.13%[2] 细粒度MoE架构的硬件效率挑战 - 细粒度MoE设计导致严重的硬件效率下降问题,包括内存墙瓶颈、IO瓶颈和计算浪费[3] - 激活内存占用量随激活专家数量线性增长,导致前向和反向传播中内存压力剧增[4] - 由于专家更小更分散,算术强度显著降低,IO访问变得动态频繁,模型训练进入内存受限区间[4] - 高稀疏性场景下,Grouped GEMM内核中的Tile量化效应导致输入数据需填充以对齐硬件Tile大小,直接造成计算资源浪费[4] SonicMoE系统性解决方案 - 普林斯顿大学团队提出名为SonicMoE的系统性解决方案,专为NVIDIA Hopper和Blackwell架构GPU定制[3] - 核心贡献包括内存高效算法、计算与IO重叠技术以及Token舍入路由策略[3] - 在细粒度7B MoE模型测试中,前向传播相比高度优化的DeepGEMM基线速度提升43%[3] - 反向传播相比最先进的ScatterMoE和MoMoE基线,速度分别提升83%和115%[3] - 端到端训练仅依靠内核优化即可将训练吞吐量提升50%,配合Token舍入路由在扩展专家数量时可进一步获得16%的额外吞吐量提升[3] SonicMoE关键技术细节 - 内存高效算法通过重新设计MoE计算图,在计算路由梯度时不缓存激活值,对于细粒度7B MoE模型每层激活内存占用减少45%[4] - 随着专家粒度增加,其内存占用保持恒定,效率比现有基线高出0.20-1.59倍[4] - 利用Hopper架构GPU的WGMMA指令与生产者-消费者异步范式,设计新型GPU内核,将GEMM计算与从HBM加载数据的IO操作并行执行[4] - Token舍入策略将分发给每个专家的Token数量四舍五入为Grouped GEMM Tile大小的倍数,有效减少因填充导致的算力浪费[4] SonicMoE性能表现 - 仅使用64台H100运行SonicMoE,实现了每日2130亿token的训练吞吐量,与使用96台H100运行ScatterMoE的效率相媲美[6] - 在高稀疏性场景下,Tile感知的Token舍入算法在验证不损失下游任务精度的同时,显著提升了内核执行速度[6] - SonicMoE的前向计算吞吐量平均达到理论上限的88%,最高91%,最低86%[7] - 尽管采用高度模块化设计,SonicMoE仍展现出业界领先的训练吞吐量和最低的激活内存使用量[15] SonicMoE系统架构特点 - SonicMoE中的MoE计算启动8个内核,包括前向传播的up-proj、down-proj和专家聚合内核,以及反向传播的激活梯度内核[11] - 系统提供高效的基于Tensor Core的top-K路由,以及与任意路由逻辑兼容的接口[13] - 实现具有高度模块化特性,仅由经过优化的分组GEMM内核和专家聚合内核两部分组成[14][22] - 通过融合减少IO访问,将IO延迟与计算重叠,利用cp.async指令从HBM gather激活值[23] Token舍入路由算法 - 为消除稀疏MoE训练中因填充产生的GEMM tile计算浪费,提出路由方法token rounding[21] - 算法首先计算基础的TC路由结果,对每个expert对应的token按路由分数排序,在第二步排序中选择丢弃或补齐token[24] - 对路由权重矩阵进行处理,使得TC选中的token始终优先于EC token,确保丢弃或填充只影响每个expert的最后一个输入tile[25] - 实验表明该方法在实现更高训练吞吐量的同时,不会影响模型质量[26]
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 11:43
文章核心观点 文章核心观点认为,通用人工智能(AGI)的实现面临一系列根本性的物理和工程约束,而非单纯的理论或算法问题。当前AI行业的发展,特别是依赖模型规模扩展和硬件性能提升的路径,正在快速逼近其物理极限,预示着AGI可能不会以市场普遍预期的乐观方式到来 [1][4][9]。 被物理极限“锁死”的AGI - 计算是受物理规律约束的,信息移动的成本远高于计算本身,且成本随距离呈平方级增长,这构成了智能提升的根本限制 [5] - 芯片设计中,用于存储、互连和数据通路的面积远大于计算单元,更大的缓存必然更慢,制程进步使内存和带宽成本相对上升 [6] - Transformer架构的成功是在当前物理约束下接近最优的工程选择,其核心计算模式(局部MLP和受限的全局注意力)对应了硬件条件下最划算的操作,因此通过架构改进获得的边际收益正在快速下降 [4][7] 低垂果实已摘完 - 在成熟领域,获得线性改进往往需要付出指数级的资源投入,因为随着系统规模扩大,资源在时空和能量上的竞争导致协同效率下降 [10][16] - 绝大多数AI领域的“创新”是建立在已有框架上的渐进式改进,即使看似不同的方法(如状态空间模型与Transformer)也在解决同一核心问题,难以带来结构性跃迁 [4][11][12] - 这种约束在物理学中表现明显,验证更深层规律需要建造耗资数十亿美元的复杂装置,但带来的新答案有限,表明某些问题被资源和复杂度锁在现有能力之外 [15][17] GPU性能红利接近尾声 - AI过去的关键跃迁(如AlexNet、Transformer规模化)依赖GPU单卡性能提升和数量增加,但GPU性能的快速提升阶段大约在2018年已结束 [19][21][22] - 之后的“进步”依赖于一系列一次性、不可重复的工程红利,如采用FP16、Tensor Core、HBM高带宽内存、更低比特宽度(INT8/INT4)等,本质是用精度换吞吐,压榨物理边界 [23][24] - 这些“可压榨的空间”已基本用完,继续前进只能在计算效率与内存效率间权衡,无法带来数量级提升,硬件不再是能持续兜底问题的变量 [25][26][27][32] 规模化扩展面临成本拐点 - 过去模型规模的持续推进,依赖GPU指数级性能提升抵消了扩展所需的指数级资源投入,但现在变为指数级成本仅带来勉强的线性回报 [35][36] - 单纯靠规模扩展带来的提升窗口可能只剩一到两年,预计到2025年收益将非常有限,2026或2027年若无新研究路径或软件突破,扩展在物理上将不可持续 [36] - 当扩展的边际收益低于研究和软件创新时,硬件会从资产变成负担,一些小团队(如MoonshotAI, Z.ai)已证明无需天量算力也能接近前沿模型能力 [37][38][39] 基础设施护城河可能消失 - 大模型推理效率高度依赖规模本身,需要巨大用户规模来摊薄部署成本,这是当前开放权重模型未在成本上改写格局的原因 [41][42] - 一旦出现更适合中等规模的推理栈,能让大型模型(如3000亿参数)在较小规模下实现接近前沿实验室的推理效率,那么后者在基础设施上的护城河可能迅速消失 [44] - 小模型能力持续提升(如GLM 4.6)、AI应用垂直专业化降低对通用前沿模型的依赖、部署复杂度下降及硬件选择多样化,将共同使系统逼近物理最优解,规模优势的溢价会快速蒸发 [45] 缺乏物理载体的AGI是伪命题 - 真正的AGI需具备在现实世界中执行具有经济意义的体力劳动的能力,而这部分是人类经济活动中最受物理约束的领域 [4][48][49] - 机器人技术并未走向通用化,在受控环境(如工厂)中专用自动化系统已极其成熟且高效,而在非受控环境中,许多任务虽技术可行但经济上不成立,因为数据采集成本高而人类完成成本低 [50][51][52][54] - 机器人学习的扩展规律与大语言模型相似,但面临更严苛的现实约束(数据采集昂贵、反馈稀疏、状态空间巨大),其扩展速度远慢于纯数字环境 [53] “超级智能”叙事存在根本缺陷 - “超级智能”能自我改进并形成失控式跃迁的假设,忽略了智能是嵌入在物理系统中的能力,任何系统改进都需要资源,且线性改进往往需要指数级投入 [56] - 超级智能无法绕过GPU核心性能提升已近尾声、Transformer架构接近物理最优、大规模推理部署属成熟工程问题等基本物理和工程约束 [58] - 限制AI经济价值释放的关键是落地、部署与应用结构,而非能力上限,因此专注于降低部署门槛、推动经济普及的参与者更可能在长期胜出 [58][59]