MoR架构
搜索文档
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 06:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-07-18 11:14
芯片与算力 - 英伟达H20 AI芯片销售成为芯片领域关注焦点 [2] - Meta部署Prometheus集群以提升算力能力 [2] 模型进展 - DeepMind推出MoR架构优化模型性能 [2] - OpenAI等公司采用CoT监控技术增强模型训练 [2] - 谷歌发布Gemini嵌入模型拓展多模态能力 [2] - UCSD和NYU联合开发MIRIX记忆系统提升模型记忆能力 [2] - Kimi推出K2模型聚焦垂直领域应用 [2] - xAI的Grok 4进入实测阶段 [2] - 微软研发Orbformer模型探索新型架构 [3] 应用创新 - 亚马逊推出AgentCore和Kiro IDE支持AI开发 [2][3] - Jackywine发布3D AI女友应用 [2] - 谷歌推出AI代打电话功能 [2] - Windsurf的Claude 4模型回归市场 [2] - CrePal开发视频创作Agent工具 [2] - 苹果增加CUDA支持优化AI计算 [2] - Mistral发布Voxtral语音模型 [2] - MiniMax布局Agent全栈开发 [2] - 昆仑万维推出AgentOrchestra框架 [2] - DeepMind开源Concordia软件库 [2] - ima推出学霸笔记AI学习工具 [2] - Grok上线AI智能伴侣功能 [2] - 秘塔AI推出DeepResearch工具 [2][3] - Perplexity发布AI Agent浏览器 [3] - 智源研究院升级RoboBrain 2.0 [3] - 美图推出AI影像Agent [3] - B站发布IndexTTS2语音合成技术 [3] - 拍我AI实现多关键帧生成功能 [3] - Higgsfield推出Soul ID身份识别系统 [3] 科技突破 - 他山科技研发触觉感知芯片 [3] - 多机构联合推出LabUtopia平台 [3] - 德克萨斯大学开发MedAgentGym医疗AI训练系统 [3] 行业观点 - John Jumper提出AI4Science科学应用前景 [3] - 英伟达关注中国供应链动态 [3] - Jason Wei探讨强化学习(RL)的边界问题 [3] - OpenAI分析AI对职场的影响 [3] - 《纽约客》讨论AI伴侣的社会影响 [3] - OpenAI强调结构化沟通在AI开发中的重要性 [3] - Perplexity阐述AI搜索战略 [3] - Karpathy提出AI氛围阅读概念 [3] - YC探讨AI时代生存策略 [3] - Kevin Lu分析互联网与AI的关键联系 [3] - METR指出AI编程的反直觉现象 [3] 资本动态 - Anthropic启动人才挽回计划 [3] - Meta收购PlayAI [3] - OpenAI收购Windsurf失败 [3] 行业事件 - Meta涉及人才挖角事件 [3] - Grok 4面临敏感问题处理挑战 [4] - OpenAI推迟开源模型计划 [4]
腾讯研究院AI速递 20250718
腾讯研究院· 2025-07-17 14:12
谷歌DeepMind新架构MoR - MoR架构结合参数共享与自适应计算,以更少参数实现大模型性能[1] - 动态路由机制根据token复杂度分配递归深度,减少冗余计算并优化KV缓存[1] - 实验显示推理吞吐量最高提升2.06倍,训练时间减少19%,峰值内存下降25%[1] 亚马逊AI Agent全家桶 - Bedrock AgentCore预览版提供7大AI agents核心服务,包括运行时、记忆、身份验证等[2] - 推出Nova定制选项和Strands Agents V1.0,简化多agents协同开发[2] - Amazon S3 Vectors云对象存储降低90%向量存储成本,Kiro AI IDE优化开发者体验[2] 马斯克Grok AI伴侣生态 - Grok男性AI伴侣征名"Draven",形象参考《暮光之城》风格[3] - 开源3D数字伴侣"Bella"分三阶段演进:感知核心、生成式自我和主动式陪伴[3] - 计划加入语音识别和好感度系统,但当前仅保留美少女形象[3] 谷歌搜索AI通话功能 - AI代打电话可自动预约本地服务如宠物美容[4] - 集成Gemini 2.5 Pro模型和Deep Search功能处理复杂查询并生成深度报告[4] - 新功能已在美国上线并将逐步全球推广[4] Claude Sonnet 4回归Windsurf - Pro用户每月可享250次免费调用Claude Sonnet 4模型[6] - 模型具备跨文件智能重构、20万token上下文窗口和精准代码补全[6] - 合作回暖是Windsurf在OpenAI收购失败后的战略举措[6] Anthropic人才与业务动态 - 两周内挽回Claude Code核心负责人Boris Cherny和Cat Wu[7] - Claude Code周下载量增长6倍达300万次,贡献超2亿美元年化收入[7] - 直接销售模型毛利率60%,但通过AWS/谷歌云销售为负30%[7] CrePal AI视频创作Agent - 通过一句话指令自动调度多种模型完成视频制作全流程[8] - 系统自动规划脚本、生成画面、添加音效,整合分散工具为一体化方案[8] - 创新点在于改变创作流程,降低技术操作门槛[8] 苹果MLX框架适配CUDA - MLX框架新增CUDA支持,允许开发者用英伟达GPU训练后部署回苹果设备[8] - 苹果向拥有500万开发者的英伟达生态妥协[8] - 虽2018年停止对英伟达显卡支持,现出于合规和生态考量重新合作[8] 他山科技触觉传感技术 - 研发全球首款AI触觉感知芯片,基于电容层析成像技术[10] - 实现"感控一体"融合,服务国内70%以上机器人厂商[10] - 从硬件提供商转型为整体触觉解决方案提供商[10] AlphaFold与AI4Science前景 - AlphaFold通过统一框架实现蛋白质结构原子级精度,被引用35000次[11] - 算法研究价值是数据的100倍,推动结构生物学发展速度提升5-10%[11] - 预言AI4Science将更通用化,各科学领域应用遍地开花[11]