Gemini 系列
搜索文档
哈佛老徐:为什么突然这么多人开始看好谷歌?聊聊背后的三个本质逻辑
老徐抓AI趋势· 2025-12-07 10:46
AI行业风向与谷歌的重新定位 - 过去半年AI行业风向出现明显拐点,越来越多的机构、产业人士和科技创业者重新将视线投向谷歌,这并非基于短期新闻或季度营收,而是基于一个更长期、更底层的判断逻辑[2] - 理解谷歌重新被看好的原因需要从技术、组织和视野三个维度进行分析[2] 关于TPU与GPU的竞争关系 - 市场近期关注点之一是谷歌的TPU比英伟达的GPU便宜30%,引发了TPU是否会替代GPU、从而威胁英伟达的担忧[4] - 谷歌的TPU已发展至第七代,公司造专用芯片已有8年历史,并非新事物,今年被置于聚光灯下的原因是AI进入深水区后,通用GPU的成本被视为下一个瓶颈[6] - 历史经验表明,同样的算力,使用非CUDA GPU的方案往往更贵、更慢、更难,因此TPU虽强,但完全替代GPU尚不现实[6] - 长期趋势是AI模型越来越大,需要“通用GPU”与“场景化专用芯片”并存,谷歌与英伟达分别专注于后者与前者,两者是生态关系而非KO关系[6] 谷歌的组织结构与长期主义 - 谷歌不能仅被理解为“搜索广告公司”,其真正实力在于其科研机构般的运营模式,公司内部拥有3-4位诺奖得主,如DeepMind的哈萨比斯、John Jumper以及曾在谷歌的Geoffrey Hinton[7] - 谷歌将长期主义刻入组织结构,关键一步是在2014年将公司重构成Alphabet,将不同业务解构成独立子公司,如搜索归Google、自动驾驶归Waymo、AI科研归DeepMind等,此举旨在避免强势的搜索业务扼杀创新[7] - 这种“研究型企业集团”的管理模式,使得公司敢于进行长期、高风险的投入,例如花费4亿美元收购DeepMind并支持其长达10年不盈利的科研工作[7][8] 谷歌的基础设施与全链条掌控能力 - 谷歌在基础设施上进行了长期投入,例如提前十几年布局了太平洋、大西洋海底的主干光缆[9] - 市场看好谷歌的核心原因在于,AI进入第二阶段后,竞争焦点从模型参数大小转向“基础设施的长期投入能力”[10] - 谷歌是少数能对AI基建实现“全链条掌控”的公司,其布局覆盖算法、硬件、科学研究、量子计算、数据中心、软件生态、全球光缆及AI操作系统,几乎涵盖了除能源和星际运载外的所有环节[10][12] - 具体布局包括:算力(TPU及自研数据中心冷却技术)、模型(Gemini系列)、算法(Transformer发明者在谷歌)、量子计算(走在全球前列)、基础设施(海底光缆)、无人驾驶(Waymo)以及AI科研(DeepMind)[12] 谷歌的核心价值与投资逻辑 - 作为一家市值超过3万亿美元的巨无霸公司,谷歌的价值增长需要耐心和理解,其核心价值在于科研能力、工程能力、组织能力、基建能力以及技术视野这五方面的叠加,构成了其“不可替代性”[13] - 投资AI和硬科技公司需要持续跟踪和深入研究,看清方向并保持耐心,不能仅凭单一概念逻辑,而需要进行系统性分析[15] - 未来几年是AI革命的时代,在AI和芯片的加持下发展会继续加速[16]
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 11:38
大语言模型架构发展 - 近年来大语言模型领域的研究热点集中在取代Transformer的高效模型架构及预训练 主要包括线性序列建模和混合专家(MoE)两部分 但两者的结合研究较少 Linear-MoE架构的开源实现此前完全缺失 [1] - 近期广受好评的MiniMax-01模型(使用Lightning Attention-MoE)和腾讯混元TurboS模型(使用Mamba2-MoE)均属于Linear-MoE架构 [1] - 上海人工智能实验室团队最新成果Linear-MoE首次系统性地实现了线性序列建模与MoE的高效结合 并开源了完整技术框架 包括Modeling和Training两大部分 支持层间混合架构 [1] 线性序列建模技术进展 - 线性序列建模技术核心优势在于线性时间复杂度的训练和恒定内存占用的推理 主要分为线性注意力(Linear Attention) 状态空间模型(SSM)和线性RNN(Linear RNN)三大类 [5] - 代表性工作包括Lightning Attention GLA Mamba2 RWKV等 研究表明这些模型可通过统一的递归形式表达 反映出技术流派逐渐收敛至统一表达形式 [5] 混合专家(MoE)技术应用 - 国际上的GPT-4系列 Gemini系列 Claude系列以及国内的DeepSeek系列 Qwen系列 腾讯混元LLM 字节豆包 MiniMax-01 Moonshot-Kimi等都在All in MoE [8] Linear-MoE架构设计 - Linear-MoE支持线性序列建模层与MoE层的灵活组合 同时兼容传统Softmax Attention Transformer层 形成混合架构 [10] - 模块化架构包括LSM层(支持Lightning Attention Gated-DeltaNet Mamba2等方法)和MoE层(集成Qwen-MoE DeepSeek-MoE Mixtral-MoE等实现) [10] - 高效训练技术基于Megatron-Core框架开发 支持张量并行 流水线并行 专家并行 LASP和MegaBlocks等优化技术 [10] Linear-MoE性能验证 - 混合模型(线性+Softmax Attention)比纯线性模型表现出更稳定的训练曲线 [13] - 借助专家并行和MegaBlocks 系统在超大参数规模下仍保持高吞吐量 [13] - 线性模型推理速度比传统架构快2-5倍 内存占用降低50%以上 [13] - 在不同规模基准测试中 Linear-MoE展现出良好的性能线性增长 [13] 开源生态与未来方向 - Linear-MoE已全面开源 支持多种主流线性序列建模方法和MoE实现 填补了技术空白 提供可复现的高效训练方案 [13] - 未来将探索Linear-MoE在长上下文理解 Vision-Language模型架构中的应用潜力 [13]
2025 大模型“国战”:从百模混战到五强争锋
佩妮Penny的世界· 2025-05-13 10:24
AI 2.0 行业格局演变 - AI 2.0 是近年投资最热赛道 国内AI基座模型公司格局正在快速变化 [1] - 2025年对AI大模型的认识不应停留在"AI六小虎"阶段 行业已进入新竞争态势 [1] AI六小虎资本局 - 六小虎中智谱(2019)和Minimax(2021)成立较早 其余均在2023年上半年ChatGPT爆火后成立 [1] - 不到两年时间 这些公司一级市场估值均超百亿人民币 智谱估值达250亿人民币 [1] - 创始人背景分为三类:行业大佬(李开复 王小川) 资深高管(微软姜大昕 商汤闫俊杰) 技术大牛(唐杰/张鹏 杨植麟) [2] - 几乎所有头部资本都参与投资 部分机构押注2-3家 融资体现创始人信誉和人脉变现 [3] 六小虎现状分化 - 零一万物团队并入阿里云 放弃超级大模型研发 百川智能转向医疗场景 [5] - Minimax和月之暗面探索多模态 开源模型及应用出海 智谱和阶跃星辰成为"AI国家队"代表 [5] - 部分公司面临融资难问题 原因包括高估值 商业模式问题 技术掉队及行业对Scaling law的质疑 [6] Deepseek的行业影响 - 2025年1月Deepseek以开源推理模型黑马姿态全球爆火 重启全球基座模型研究竞赛 [7][9] - 其发展证明模型智能仍有提升空间 推动更多公司开源基座模型并刷新多项Sota记录 [9] - 选择持续深耕语言和推理模型 而非商业化 推动行业智能上限提升 [14] 基座模型竞争格局 - 全球重量级玩家包括OpenAI Google Anthropic Meta XAI五家 [12] - 国内主要玩家为阿里通义 字节Doubao Deepseek 阶跃星辰 智谱五家 [12] - 阿里计划3年投入3800亿 字节年投入超1500亿 巨头通过高薪吸引创业公司人才回流 [12] - 阶跃星辰获上海国投资金 智谱获北京国资支持 两者均走国内上市路线 [15][16] - 智谱已完成股改并提交IPO辅导备案 预计2025年下半年完成 阶跃星辰在多模态领域表现突出 [16] 行业未来趋势 - 多模态输入输出 Agent自动化 垂直场景覆盖成为主要探索方向 [22] - 行业从单纯堆参数转向多维深水区 需容纳巨头和创业公司的多样性发展 [23] - 竞争格局持续动态变化 但中美市场均呈现实力聚拢和格局收敛趋势 [18] - 最终评价标准是愿意持续付费的客户数量及评价 而非营销宣传 [20][21]