Workflow
Jamba
icon
搜索文档
英伟达拟以最高30亿美元收购AI21 Labs,加速布局大模型与AI代理生态
环球网资讯· 2025-12-31 04:12
潜在收购交易 - 英伟达正与AI初创公司AI21 Labs就潜在收购展开深入谈判 交易估值预计在20亿至30亿美元之间 若按上限成交 将超过AI21在2023年上轮融资估值的两倍以上 [1] - 此次潜在收购紧随英伟达另一项重大技术合作之后 该公司近日宣布以200亿美元获得AI芯片初创公司Groq的技术授权 并吸纳其创始CEO及核心团队加入 [2] 目标公司概况 - AI21 Labs是一家专注于大型语言模型和AI代理开发工具的公司 核心产品包括开源长上下文模型系列Jamba以及面向企业开发者的Maestro平台 [1] - Jamba模型采用创新的混合架构 融合了传统Transformer机制与名为Mamba的状态空间模型 据称比同类模型快2.5倍 并大幅降低内存占用 [1] - Maestro是AI21的商业化支柱 年化收入约5000万美元 该平台帮助企业预处理结构化与非结构化数据 优化输入以供AI代理高效分析 并对生成结果进行准确性验证与格式化输出 [1] - AI21 Labs曾于2023年完成一轮由英伟达、谷歌、三星电子等共同参与的融资 并在今年早些时候低调完成3亿美元新融资 估值与前轮基本持平 [2] 战略意图与整合计划 - 英伟达有意将AI21的Maestro平台整合进其企业级AI软件套件NVIDIA AI Enterprise 以增强其在AI代理开发与部署领域的端到端能力 [2] - 此举将进一步丰富该套件中的预训练模型、开发工具及工作流管理功能 强化英伟达在生成式AI基础设施市场的领导地位 [2] - Groq专注于高性能推理处理器 其技术有望与英伟达现有GPU架构形成互补 [2] - 此次拟议收购表明英伟达正从“财务支持者”转向“战略整合者” 意图通过垂直整合关键AI软件能力 巩固其在大模型时代软硬协同的生态优势 [2]
斯坦福最新论文,揭秘大语言模型心智理论的基础
36氪· 2025-09-24 11:04
大模型心智理论研究进展 - 斯坦福大学近期发表于《npj Artificial Intelligence》的论文揭示,大型语言模型(LLM)中驱动“心智理论”(ToM)能力的关键参数仅占模型总参数的0.001%,表明该复杂社交推理能力高度集中于一小部分神经元上[2][8] - 研究采用基于Hessian矩阵的敏感度分析方法,精确测量了模型中每个参数对特定任务的重要性,发现关键参数呈现出结构化的低秩特性,并主要集中在注意力机制的查询(Query)和键(Key)矩阵中[7][8] 模型心智能力的技术基础与脆弱性 - 研究发现,使用RoPE(旋转位置编码)架构的模型(如Llama、Qwen)其心智能力具有脆弱性,当对关键的0.001%参数进行扰动时,模型会丧失上下文定位能力,导致心智能力崩溃[8][14] - 相比之下,未使用RoPE的Jamba模型在经受同样参数扰动后,其心智能力未受影响,表明这种脆弱性与特定的技术选择(RoPE)直接相关[8] - RoPE通过为每个词在序列中的位置赋予独特的旋转操作来编码上下文顺序信息,其运作依赖于特定的“主导频率激活”模式,而心智核心参数的作用与此模式精确对齐[9][10][11] 高级认知能力的涌现路径 - 论文提出了智能涌现的路径模型:首先,模型需要像RoPE这样的强大“GPS系统”来构建对语言序列和结构的精确理解,这是所有高级认知能力的绝对前提[15] - 其次,在有序的语言世界模型基础上,模型通过统计学分析内化语言中蕴含的世界规律,例如动词时态变化、时间副词与事件先后顺序的关联,从而模拟因果关系[16][19] - 最终,心智理论等高级能力被视作模型在掌握词语定位、意义构建及时间因果等通用机制后产生的一种涌现属性,而非孤立的认知模块[20]
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 12:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]