量子位

搜索文档
国产类脑大模型适配国产沐曦GPU!长序列推理提速超百倍,仅用2%数据匹敌主流模型
量子位· 2025-09-11 10:19
SpikingBrain团队 投稿 量子位 | 公众号 QbitAI 超长序列推理时的巨大开销如何降低? 中国科学院自动化所李国齐、徐波团队 发布的 类脑脉冲大模型SpikingBrain (瞬悉)-1.0 提出了新思路。 SpikingBrain借鉴大脑信息处理机制,具有线性/近线性复杂度,在超长序列上具有显著速度优势。 在GPU上1M长度下TTFT 速度相比主流大模型提升26.5x,4M长度下保守估计速度提升超过100x;在手机CPU端64k-128k-256k长度下较 Llama3.2的同规模模型Decoding速度提升4.04x-7.52x-15.39x。 SpikingBrain适配了面向 沐曦MetaX国产GPU集群 的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,表明了构建国 产自主可控的新型非Transformer大模型架构生态的可行性。 SpikingBrain-1.0就是这一思路下的初步尝试。 大模型时代的新视角 人脑是目前唯一已知的通用智能系统,包含约1000亿神经元和约1000万亿突触数量、具有丰富的神经元种类、不同神经元又具有丰富的内部 结构,但功耗仅20W左 ...
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-09-11 07:43
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行 的企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现 并致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人 ...
Kimi开源又放大招!20秒更新万亿参数的中间件来了
量子位· 2025-09-11 05:19
技术突破 - Kimi K2推出checkpoint-engine中间件 实现万亿参数模型权重更新进入"秒更时代" [1][6] - 该中间件可在约20秒内完成在数千个GPU上对1万亿参数的更新操作 [7] - 支持两种更新模式:一次性将更新完的权重从一个节点同时发送给所有节点 以及点对点动态更新 [2] 性能表现 - 在8×H800 TP8配置下 GatherMetas耗时0.17秒 Update(Broadcast)耗时3.94秒 [2] - 在16×H20 TP16配置下 GatherMetas耗时1.44秒 Update(Broadcast)耗时12.22秒 [2] - 在256×H20 TP16配置下 GatherMetas耗时1.40秒 Update(Broadcast)耗时13.88秒 [2] 系统架构 - 采用混合共置架构 训练引擎和推理引擎部署在同一组工作节点上 [8] - 每个引擎都针对高吞吐量进行深度优化 通过资源释放和调配实现高效协同 [9][10] - 使用参数逐条更新的流水线方式 将内存占用降至最低 [19] 技术创新 - 采用三阶段流水线:H2D阶段将权重分片异步复制到缓冲区 广播阶段将分片复制到IPC缓冲区并广播到所有GPU 重载阶段推理引擎从另一个IPC缓冲区加载参数 [20] - 选择将完整参数集广播到整个集群 简化系统设计并降低对训练和推理引擎的侵入性 [24][25] - 通过牺牲微小开销实现训练引擎与推理引擎的完全解耦 大大简化维护和测试流程 [26] 系统优化 - 优化启动时间 让每个训练工作节点选择性地从磁盘读取参数并广播至对等节点 确保所有节点只需集体读取一次检查点 [28][29] - 在启动阶段复用检查点引擎 集体从磁盘读取检查点后更新未初始化的推理引擎状态 [31][32] - 系统可抵御单点故障 某个推理副本可独立重启而无需与其他副本通信 [33]
81岁甲骨文创始人冲上首富!难怪马斯克念念不忘OpenAI
量子位· 2025-09-11 05:19
甲骨文股价异动 - 甲骨文股价单日一度暴涨43% 收盘上涨36% 打破多项美股涨幅纪录 [1] - 创始人拉里·埃里森身价单日增加1000亿美元 总身家达3930亿美元 短暂超越马斯克 [4][5] OpenAI算力采购协议 - OpenAI与甲骨文签订3000亿美元算力采购协议 年均支付额600亿美元 2027年生效 [9][12] - 该协议属于OpenAI"星际之门"数据中心计划的一部分 为全球最大云计算合同之一 [11][17] - 甲骨文早在6月文件中间接披露该协议 称自2027年起每年将带来超300亿美元收入 [13] 协议风险与挑战 - OpenAI年度营收仅约100亿美元 不足年均支付额的五分之一 资金消耗速度全球罕见 [14] - OpenAI预计到2029年才能实现盈利 此前累计亏损将达440亿美元 [14] - 协议可行性建立在ChatGPT用户增长和企业广泛采用的基础上 [15] - OpenAI面临人才竞争成本压力 与微软谈判紧张 盈利架构受监管审查 [16] 甲骨文战略投入 - 甲骨文计划在怀俄明州、宾夕法尼亚州、得克萨斯州布局新数据中心 [22] - 履行合同需4.5吉瓦电力供应能力 相当于两座胡佛水坝发电量或400万户家庭年用电量 [22] - 甲骨文债务权益比达427% 远高于微软的32.7% [23] - 过去12个月经营现金流215亿美元 资本支出达274亿美元 投入超出现金流水平 [23] AI基础设施行业趋势 - 全球芯片、服务器及数据中心基础设施投入规模预计达2.9万亿美元(2024-2028年) [24] - 科技企业因资金承载能力不足转向债务市场融资 规模扩大被比作"现代淘金热" [24]
李飞飞一年前究竟说了啥?怎么又火了
量子位· 2025-09-11 01:58
大语言模型的局限性 - 语言信号基于人类输入生成,无法独立于人类存在 [2][4] - 语言模型底层表示为一维离散token序列,与三维物理世界存在本质差异 [12][14] - 物理世界具有客观存在的三维结构和物理定律,需要不同的信息处理方式 [5][19] 空间智能与语言模型的差异 - 三维世界信息提取需匹配任务类型,直接处理3D数据可改善表示效果 [15] - 空间智能需从真实世界提取、表示和生成信息,涉及物理约束和材料特性 [17][19] - 多模态模型将其他模态强行嵌入一维序列导致物理信息损失 [14] 模型在物理任务中的表现缺陷 - 多模态大模型在Animal-AI测试中仅能完成最简单任务,复杂任务失败率极高 [24][26] - 增加教学案例后模型表现仍无显著提升 [27] - 模型表现远逊于人类儿童及专用测试机器人 [28] 物理推理能力测试结果 - ABench-Physics测试中最佳模型Phy A正确率仅43% [32][34] - 修改题目数值后(Phy B)模型准确率下降22.5% [33][34] - 视觉感知任务中模型最高正确率51%,远低于人类95.7%的水平 [37][38] 行业技术发展方向 - 模型开发正向物理基础与多模态理解扩展 [44] - 人工智能可能创造独立于人类语言的新表征体系 [47] - 需探究语言训练取得成就的核心因素以突破现有局限 [48]
她们估值840亿,刚发了第一个AI成果
量子位· 2025-09-11 01:58
公司估值与团队背景 - 公司尚未有具体产品但估值已达120亿美元[1][51] - 公司完成20亿美元种子轮融资由a16z领投英伟达等知名机构跟投[51] - 团队核心成员包括OpenAI前CTO Mira Murati、PPO算法开发者John Schulman等三分之二成员来自OpenAI[38][40][47] 研究核心发现 - 大语言模型推理结果难以复现的根源在于批次不变性缺失[4][12] - 浮点数非结合性导致计算顺序差异在Transformer多层迭代中被放大[13][16] - 解决方案需使RMSNorm、矩阵乘法和注意力机制具备批次不变性[16] 技术实现方法 - RMSNorm通过固定归约顺序分配核心处理批次元素确保一致性[18] - 矩阵乘法采用拆分2D块策略并编译统一内核配置牺牲20%性能换取确定性[19][21][22] - 注意力机制固定KV缓存分块大小(如256)自适应拆分数量保持归约顺序[23][24] 实验验证结果 - 使用批次不变性内核后1000次推理结果完全一致未使用时出现80次分化[26][27][28] - 确定性推理存在性能损失但处于可接受范围(如注意力内核优化后时间从55秒降至42秒)[30][31] - 在线强化学习中确定性推理使KL散度始终为0无需离线校正[34][35] 产品与战略方向 - 首代旗舰产品命名为Connection Machine致敬连接主义理念[7][52] - 公司承诺持续分享研究成果并与研究社区保持开放联系[6]
清华唐杰新作:大模型能打掼蛋吗?
量子位· 2025-09-10 10:01
研究核心发现 - 大语言模型能够通过专门训练掌握8种不同类型的棋牌游戏 包括斗地主 掼蛋 立直麻将 Uno 金拉米 Leduc扑克 限注德州扑克和无限注德州扑克 [2][8] - 经过混合训练的微调模型在复杂棋牌游戏中表现显著优于基础模型和API模型 其中GLM4-9B-Chat-mix在6款游戏中获得最高分 [40][42] - 游戏规则相似性会影响模型表现 规则相近的游戏之间存在正向促进作用 而规则差异大的游戏可能出现性能冲突 [45][46][52] 模型性能对比 - 在5种API模型中 GPT-4o综合表现最佳 在大多数游戏中取得最高分 其中在Leduc扑克获得0.84分 在限注德州扑克获得0.60分 [37][39] - GLM-4-plus在斗地主中获得0.345分 表现优于GPT-4o的0.180分 但GPT-4o在无限注德州扑克获得2.73分 显著优于GLM-4-plus的3.21分 [39] - 微调模型中 GLM4-9B-Chat-mix在斗地主获得0.882分 掼蛋0.698分 Uno 0.252分 均位列第一 [42] - Llama3.1-8B-Instruct-mix在无限注德州扑克获得6.02分 立直麻将1.38分 表现突出 [43] 训练方法设计 - 研究采用教师模型生成高质量轨迹数据进行训练 针对不同游戏复杂度设计差异化数据采集方案 [14][20] - 斗地主 掼蛋和立直麻将各收集100万个训练实例 其余5款游戏各采样40万个实例 [20] - 训练数据量对性能提升至关重要 随着数据量增加 模型在斗地主和掼蛋中的表现逐渐接近教师模型 [24] - 混合训练数据集包含310万条数据 各游戏数据量分别为70万 95万 65万 20万 5万 25万 20万和10万 [35] 模型能力分析 - 模型在斗地主中表现出角色差异 GLM在地主角色表现优于Qwen和Llama 但在农民角色表现较差 [29][30] - 数据过滤时只保留获胜方数据 导致农民角色数据质量较低 影响模型表现 [31][32] - 即使没有教师模型 大模型在立直麻将中仍达到与顶尖麻将AI相当的表现 [25] - 模型规模影响性能 研究对参数规模从0.5B到14B的Qwen2.5进行微调以评估规模效应 [22] 通用能力影响 - 在所有游戏上微调的混合模型出现通用能力显著下降 包括知识问答 数学和编程能力 [54] - 通过加入通用数据对游戏模型进行微调 模型的通用能力得到一定程度恢复 [56] - 研究表明只要加入一定量的通用数据 模型打牌能力与通用能力可实现平衡 [6]
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
量子位· 2025-09-10 10:01
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 全球最快 的开源大模型来了——速度达到了 每秒2000个tokens! 虽然只有320亿参数(32B),吞吐量却是超过典型GPU部署的10倍以上的那种。 它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)和初创公司G42 AI合作推出的 K2 Think 。 名字是不是有点熟悉? 没错,它和月之暗面前不久推出的Kimi K2在命名上是有点小撞车,不过阿联酋这个多了个"Think"。 但非常有意思的一点是,在K2 Think的背后,确实有 "made in China" 的味道。 因为从HuggingFace中的Model tree来看,K2 Think是基于 Qwen 2.5-32B 打造的: 目前,K2 Think已经给出了可以体验的地址(见文末)。 我们先小试牛刀测试一把IMO的试题: Let a_n = 6^n + 8^n. Determine the remainder when dividing a_{83} by 49. 可以肉眼看到,在没有任何加速的情况下,K2 Think在思考过后输出答案的速度,真的就是"啪的一下"。 从底部 ...
快手AI超级员工上线!一句话剪出完整短视频,从文案到发布一条龙
量子位· 2025-09-10 08:01
文章核心观点 - 快手推出AIGC视频生成工具Kwali 通过多Agent框架实现从文本描述到完整短视频的自动化生产 大幅降低视频制作门槛和成本 [1][2][37][39] 技术架构与功能 - 基于云端多Agent框架 整合意图解析、脚本生成、镜头匹配、剪辑合成等多个功能Agent协同工作 [4][8][42] - 支持一句话生成带脚本、字幕和BGM的完整视频 生成时间仅需几分钟 [1][3][18] - 采用可独立操控的节点化设计 脚本、镜头、配音与特效拆分为独立节点支持实时预览和单独修改 [15][16][43] 素材资源系统 - 接入快手千寻素材库与数字人模特库 提供按播放量和完播率排序的热门垂类高分镜头及脚本模板 [7][11] - 支持私有素材上传并自动添加多维标签 实现平台素材与用户素材的无缝混剪 [14] - 素材库包含餐饮等行业热门内容 例如玫瑰青提视频完播率达92.11% 曝光转化率8.51% [25][26] 应用案例演示 - 以烧烤店宣传视频为例 生成过程包含五个环节:创意解析、脚本撰写、素材匹配、后期包装和最终合成 [22][24][33][35] - 脚本自动生成台词与画面描述 例如"炭火慢烤"对应食客保温烤串画面 [29][30] - 支持一键推送至快手主页 实现从创意到发布的全流程闭环 [36] 行业影响与趋势 - 重构视频生产供应链 将传统需要脚本策划、外拍团队、后期剪辑的多节点流程压缩为"生成-发布"一体化 [37][38][44] - 使小店、个人品牌等低预算主体能保持稳定内容输出 更新频率从"排期几天"变为"随时动手" [39][40] - 通过降低制作成本(设备与人力支出)让商家将预算转向优惠礼赠等前端投入 加速资金回笼 [45][46]
真·博士水平!GPT-5首次给出第四矩定理显式收敛率,数学教授只点拨了一下
量子位· 2025-09-10 08:01
时令 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5真不愧是博士水平的AI! 在数学教授引导下,它 首次将定性的第四矩定理扩展为带有显式收敛率的定量形式 。 简单来讲就是,原来的定理仅说明收敛会发生,却没有给出具体速度,而借助GPT-5,这项研究首次明确了收敛速率。 OpenAI联合创始人Greg Brockman对此表示甚是欣慰。 网友同样表示,真是奇迹。 借助GPT-5解决第四矩定理的定量收敛率 上个月,OpenAI研究人员Sebastien Bubeck称,GPT-5 Pro在数分钟内解决了凸优化领域的一个开放性问题,将已知的边界值从1/L改进为 1.5/L。 受此启发,三位数学教授在Malliavin–Stein框架下开展了一项对照实验。 目标在于考察GPT-5能否突破既有成果,将定性的第四矩定理推广为带有显式收敛率的定量形式,并涵盖高斯情形与泊松情形。 首先,研究人员从以下初始提示开始: 论文2502.03596v1建立了一个定性的第四矩定理,适用于两个Wiener–Itô积分(阶数分别为p和q)的和,其中p和q的奇偶性不同。 基于Malliavin–Stein方法(具体可参见1203. ...