量子位

搜索文档
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
量子位· 2025-09-12 08:46
模型发布与定位 - Qwen团队发布下一代模型架构Qwen3-Next 作为Qwen3 5的抢先预览版 [1] - 基于新架构开源首个模型Qwen3-Next-80B-A3B-Base [2] 架构创新与技术改进 - 采用混合注意力机制Gated DeltaNet 以3:1比例混合标准注意力 在上下文学习能力上优于滑动窗口注意力和Mamba2 [10] - 引入高稀疏度MoE结构 总参数量800亿但每次推理仅激活约30亿参数 [13] - 专家系统扩展至512总专家 采用10路由专家加1共享专家设计 提升资源利用率 [15] - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 提高训练稳定性 [16] - 初始化时归一化MoE router参数 确保专家无偏选择 [17] - 引入原生多token预测机制(MTP) 提升推测解码接受率和主干性能 [18] 性能表现与效率优势 - 训练成本不到Qwen3-32B的十分之一 推理吞吐在32k以上上下文达到后者十倍以上 [3] - 训练GPU计算资源仅需Qwen3-32B的9 3% [22] - 预填充阶段吞吐量在4k上下文接近Qwen3-32B的7倍 32k以上上下文提升10倍以上 [24] - 解码阶段4k上下文吞吐提升约4倍 32k以上上下文保持10倍优势 [26] 基准测试结果 - Base模型在多数基准测试超越Qwen3-32B-Base 显著优于Qwen3-30B-A3B [28] - MMLU得分84 72 超越Qwen3-32B的83 61 [29] - MATH得分62 36 超越Qwen3-32B的61 62 [29] - Instruct模型在RULER测试中全上下文长度表现优于Qwen3-30B-A3B-Instruct 在256k范围内超越Qwen3-235B-A22B-Instruct [33][34] - Thinking模型在多项基准测试超越闭源模型Gemini-2 5-Flash-Thinking 部分指标接近Qwen3-235B-A22B-Thinking [35] 应用能力展示 - 支持多模态输入 可处理图像内容 [39] - 成功解答AIME数学竞赛题 答案完全正确 [40] - 能够生成可运行的扫雷游戏代码 [43][44] - 具备天气卡片生成等创意应用能力 [47] 资源获取与部署 - 模型已在魔搭社区和抱抱脸平台开源 [48] - 可通过Qwen Chat免费体验或调用阿里云百炼API服务 [48]
高德一夜刷榜:十亿用户用脚投票,美食到店榜单乱象被AI横扫
量子位· 2025-09-12 08:46
高德扫街榜产品发布 - 高德正式发布全新信用体系"高德扫街榜" 主打真实全面且永不商业化 [2] - 该体系每天为全国线下服务业商家多带去1080万消费者 [2] - 高德升级为阿里巴巴线下生活服务的超级入口 服务10亿用户且日活跃用户超1.7亿 [2] 榜单核心机制 - 采用"用脚投票"机制 基于5143万人的13亿次导航数据生成排名 [12] - 数据覆盖用户反复前往的118万家回头店 时间跨度长达一年 [12] - 对应导航里程达228亿公里 相当于绕地球57圈 [12] - 必须到店才能做出评价 未到店评价被系统识别为无效 [45][65] 技术实现方式 - 利用AI技术通过数据角度和多模态大模型保证评分真实性 [48][51] - 输入数据均为用户真实行为包括搜索分享导航到店和评价 [48] - 通过高德空间智能处理行为数据 结合芝麻信用判断行为可信度 [48] - 综合评分采用复合函数计算 包含用户行为分和用户评价分等多变量 [52][54][61] 榜单分类体系 - 包含状元榜扫街榜热门打卡和城市指南等多维度榜单 [14] - 状元榜为年榜覆盖美食景点和酒店 扫街榜每日更新且更细化 [15] - 设有轮胎磨损榜体现远距离专程前往 多次前往榜单体现回头客数量 [19] - 包含本地人爱去地方小吃老字号等动态更新条目 [23] 数据积累与AI赋能 - 高德拥有20年数据积累 用户量超10亿且每日有亿万次搜索导航到店行为 [67][68] - 通义千问基础大模型和高德AI垂直优化激活沉淀数据 [68] - AI技术将大数据萃取成扫街榜 在用户与门店间架起桥梁 [69] 行业影响与差异化 - 颠覆传统到店评价体系玩法 用真实打败虚假 用行为打败空口 [3][8] - 让未被发掘的人间烟火店铺获得曝光机会 解决信息不对称问题 [39] - 在AI生成内容时代用AI守住真实 获得用户信任 [71]
外滩大会今年太AI了!王坚暴论:OpenAI确实站在了历史错误的一边
量子位· 2025-09-12 03:24
大会概况 - 外滩大会展示前沿科技包括机器宠物恐龙、AI健康检测、炒菜机器人、打鼓机器人、蛋壳雕刻机器人、AI健身房及核聚变装置[1][3][5] - 科技展览面积达10000平方米 科技集市面积达5000平方米[5] - 大会设置1场开幕主论坛和44场见解论坛 探讨智能上限、产业落地困难及算力差距等议题[6] - 参会嘉宾包括新晋图灵奖得主理查德·萨顿、阿里云创始人王坚、金沙江创投朱啸虎、尤瓦尔·赫拉利及宇树科技CEO王兴兴等来自16个国家地区的550位嘉宾[6][71] 人工智能发展趋势 - 人类数据红利正逼近极限 人工智能进入以持续学习为核心的经验时代[9][10] - 智能体需通过观察、行动和奖励三种信号与世界交互生成新数据源[14][16] - 强化学习推动经验时代发展 但需突破持续学习与元学习技术瓶颈[18] - 人工智能超越人类不可避免 权力资源将流向最聪明智能体[19][21] 开源战略与竞争格局 - 开源已成为AI竞争关键变量 美国将模型权重纳入出口管制但仅限闭源模型[22][25] - 开源概念从1998年源代码开放演变为数据、算力和模型权重等核心资源共享[26][27] - 2017年Transformer与Tokenization技术推动数据资源化 带动AI指数级飞跃[28] - 模型权重开放降低AI门槛 使全球开发者能基于前人成果创新[29][30] 技术突破与产业应用 - 之江实验室将8B大模型与12颗卫星送入太空 实现太空在轨智能计算与数据全域处理[31][32] - 三体计算星座计划在开放资源前提下实现多主体高效协作 构建太空计算能力共享生态[34][35] - 具身智能产业崛起 赋予机器人AGI能力实现自主感知规划与行动[50] - AI与机器人融合面临数据采集质量不足、多模态融合困难及模型与控制模态对齐等技术挑战[51] 投资与商业化前景 - 低代码/无代码软件将被AI替代 尤其编辑类与协作类工具[54] - 投资人关注AI产品用户留存指标 召回成本达移动互联网产品10倍以上[55][56] - 2025年AI应用将爆发式增长 新头部企业可能已在2024年成立[57] - 中国创业者擅长在AI外构建差异化体验 侧重C端市场而非美国B端模式[58][59] 智能本质与科学路径 - 当前AI缺乏智能本质科学理解 发展阶段仅相当于生命初期种系智能阶段[37][39][41] - 智能需从依赖试错的"黑箱"转向基于数学原理与闭环反馈的"白箱"模型[42] - 自然大脑能效比GPU训练高10个数量级 需借鉴自然反馈控制与连续学习机制[43][44] - 智能演化经历种系遗传、个体发育、群体智能最终到人工智能四阶段[40] 社会影响与治理框架 - AI不仅是自动化工具更是会行动的主体 能自主决策并创造新想法[61][62] - 技术进步需兼顾速度与治理 缺乏刹车规则的高速发展非真正进步[64][67] - 全球需建立可验证承诺 为社会保留适应时间以保存记忆信任与情感[69][70] - 衡量进步标准在于合作力度与共情深度而非技术速度[70]
陶哲轩都拿不到暑期工资,被迫给自己和学生筹钱
量子位· 2025-09-12 03:24
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 顶级如 陶哲轩 这般的数学家,也已经拿不到暑期工资了。 这事还是陶哲轩本轩在接受《华盛顿邮报》采访时亲口说的: 研究所的经费仍然无法发放,连暑期工资都拿不到了。 之所以会如此,是因为美国在今年的7月25日,突然暂停了国家科学基金会(NSF)、国立卫生研究院(NIH)等机构对 UCLA 的资助, 金额高达 5亿美元 之多。 即便后来事态有所好转,联邦法院在8月12日决定恢复部分拨款,但直到9月初,资金仍旧没有到位。 现如今,就连陶哲轩也不得不将精力从科研转向 筹款活动 。 陶哲轩撰文痛诉 陶哲轩其实并不是第一次对中断科研资助的事情发声。 早在上个月,他就亲笔撰写了一篇长文痛诉这一现状: 而比起陶哲轩自己的工资,他本人表示 更加担心自己的学生 : 我没关系,我能承受。但这些资助主要目的是支持我的研究生。 这份经费能支持这些年轻人参加学术会议,这对他们的职业发展非常重要。 (为完整表达内容,下文将以陶哲轩第一人称来展开。) 在短短六个月内,美国科学基础设施遭受了全面冲击,科研项目进行到一半就被取消了资助,培养下一代研究人员的奖学金被大幅削减。这 些决定已经侵蚀了 ...
Meta超级智能实验室新论文陷争议!被指忽略大量前人研究
量子位· 2025-09-12 00:59
henry 发自 凹非寺 量子位 | 公众号 QbitAI 究竟是啥论文? 让模型在博弈中学习 总的来说,MSL这篇新论文的核心思想是通过一种 Language Self-Play (LSP)的方法,让大型语言模型 在没有额外训练数据的情况下实 现自我提升 。 这一方法旨在应对当前大语言模型高度依赖大规模、高质量训练数据,且训练数据有限所带来的困境。 为此,LSP将模型的学习过程设计成一个博弈框架,让同一个语言模型扮演两个角色进行对抗,从而实现无数据训练。 Meta超级智能实验室(MSL)又被送上争议的风口浪尖了。 不过,这次不是人事风波,而是他们的 第二篇 论文《Language Self-Play For Data-Free Training》被质疑 忽视前人研究、缺乏创新 。 具体来说,这两个角色分别是: 在对抗过程中,挑战者不断生成越来越刁钻的问题或指令,以降低解决者的预期回报;而解决者则必须努力理解并回答这些指令,以最大化自 身回报——这其实就是我们熟悉的极小极大博弈(minimax game)。 通过这样的对抗训练,模型能够在不断博弈中持续改进,逐步提升能力。 此外,与传统对抗训练不同,LSP让 ...
姚顺雨离职OpenAI,开启下半场
量子位· 2025-09-12 00:59
姚顺雨职业动态 - 姚顺雨已从OpenAI离职 但尚未官宣下一步去向 [2][3] - 传闻其可能加盟中国科技巨头或选择个人创业 但均未获证实 [2][53] - 有爆料称其以上亿薪资入职腾讯 但已被腾讯官方辟谣 [53] 教育背景与早期成就 - 合肥一中毕业 高考704分位列安徽省第三 进入清华姚班主修计算机科学 [4][10] - 曾获全国信息学奥林匹克竞赛(NOI)银牌(495分) [10] - 普林斯顿大学计算机博士 研究方向为自然语言处理与强化学习 [4][22] 学术研究与技术贡献 - 提出思维树(Tree of Thoughts)方法 显著提升大语言模型复杂问题解决能力 [6][39] - 开发SWE-bench评估数据集和SWE-agent开源AI程序员工具 [6][34] - 创建ReAct框架 使语言模型在交互中同步进行推理与行动 在AlFWorld任务中成功率提升至71% [36][38] - 构建WebShop模拟电商环境 验证语言智能体在真实任务中的泛化能力 [31] - 累计学术引用15253次 h指数24 i10指数29 [42] 行业观点与职业转向 - 提出AI发展进入"下半场" 重点从模型构建转向现实任务定义与评估 [46][47] - 强调语言作为实现AI泛化的核心媒介 其研究聚焦通用智能体开发 [28][30][41] - 职业规划从学术研究转向产品与商业应用 曾表达创建万亿美金级Agent公司的意向 [50][51]
万万没想到,大学生都开始拿AI来养猪了
量子位· 2025-09-11 10:19
奕然 发自 凹非寺 量子位 | 公众号 QbitAI 有被大学生们使用AI的强度震惊到(doge)。 不仅写作业、做PPT使用AI辅助成为常态, 解梦算命什么的也不算新鲜事 ,现在连如何科学养猪、葡萄品种怎么区分这种更深度的专业课 题,都要拉AI来讨论讨论了。 这不开学第一天,夸克在中国人民大学搞了次分享会,把大学生用户们如何在学习生活中使用夸克,都给"曝光"了。 数据显示, 每10个大学生中就有7人在使用夸克,并且不仅北上广,在高考大省山河四省,大学生们也都在高频使用AI。 其中AI搜索、AI拍题、AI扫描、AI写作和AI总结位列最受欢迎的五大场景。 还不止是泛泛一用。举个例子, 有28.8%的大学生用户都在使用夸克生成班委竞选PPT 。仅9月上旬,就已产生 42万份 与学生竞选、社团 面试相关的PPT需求…… 在AI拍题方面,使用最多的专业top3是 临床医学、计算机科学与技术以及高等数学 。位居榜首的一类题目是 高数 。(果然大学生都逃不开 高数的折磨) 更多有意思的细节,一起来看。 00后大学生,AI原生一代 夸克数据显示, 夸克大学生用户 中AI渗透率达 到了80% 。大学生用户们不仅仅是用AI进行 ...
DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
量子位· 2025-09-11 10:19
产品发布与核心特性 - 华为发布DeepDiver-V2原生多智能体系统 采用团队作战模式 包括一个Planner负责任务分解和进度管理 多个专业Executor并行处理子任务 通过共享文件系统交换信息 [1] - 系统基于多智能体形态训练 具备更强的角色扮演和协同推理能力 能够生成数万字的高质量深度研究报告 [2] - 该系统专攻AI深度搜索和长文调研报告生成 目前已开源 [3] 性能表现与基准测试 - 在WebPuzzle-Writing基准测试中 DeepDiver-V2生成报告平均长度达24.6K tokens 是OpenAI o3 DeepResearch(10.6K tokens)的两倍多 [4] - DeepDiver-V2-38B在BrowseComp-zh测试中达到34.6分 超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分) [5] - DeepDiver-V2-38B在BrowseComp-en测试中达到13.4分 为同规模开源模型中最高 超过WebSailor-72B(12.0分) [5] - 在自动评测中 DeepDiver-V2效果与主流agent产品相当 Content Diversity指标表现优异 [4] 系统架构创新 - 采用以Planner为中心的多智能体系统架构 协调多个Executor 取代V1版本的单模型超长上下文处理模式 [7] - Planner进行自适应复杂度评估 构建任务树分解复杂问题 并采用竞争赛马机制提高结果可靠性 [8][9] - 智能体通过共享文件系统交换精炼任务摘要和文件元数据 而非完整上下文 实现可扩展通信和并行执行 [11] - 系统包含专业化Executor:Information Seeker负责信息收集与验证 Writer负责长文本生成与章节构建 [12] 训练方法与技术支撑 - 采用Planner-centric分配机制解决多智能体训练中的责任归属问题 [13] - 训练流程包括冷启动监督微调 拒绝采样微调(RFT)和在线RFT 使用动态轨迹缓存批处理策略 [15][16] - 训练完全使用Atlas 800I A2集群 依托1000+ NPU组成的大规模计算集群 通过华为高速缓存一致性系统(HCCS)互联 [17] - 开发专门强化学习框架 包括Agent Factory代码库和Trajectory-wise过滤机制 [17][18] 实验发现与性能分析 - 系统性能对Executor能力极其敏感 但对Planner要求相对宽松 7B Planner已能胜任大部分协调工作 [19][21] - 38B Information Seeker单独使用时在BrowseComp-zh得分26.3 超越WebSailor-32B(25.5分) [23] - 将7B Executor升级为38B后 BrowseComp-zh分数增加9分(18.3→27.3) 而升级Planner仅提升6.3分(18.3→24.6) [25] - 在长文本写作任务中 升级Writer带来的提升(5.51→5.80)远超升级Planner(5.51→5.56) [25] - 多智能体训练使子智能体在处理扩展任务集时更加鲁棒 具备独当一面的能力 [26] 应用前景与行业影响 - 从单一模型到多智能体系统的转变为解决复杂现实问题开辟道路 [27] - 未来将在企业调研 科学文献综述 专业数据分析等专业领域发挥巨大作用 [27]
央企怎么做超级智能体?对谈中电信天翼AI:自研模型为底座,自主规划是必须,能适应千行百业才行
量子位· 2025-09-11 10:19
文章核心观点 - 中国电信天翼AI发布星辰超级智能体 在DBC德本咨询2025企业级AI Agent榜单中位列央企第一 [1] - 智能体是当前人工智能发展的重点方向 国务院首次将其列为重点发展领域 [4] - 星辰超级智能体基于全栈国产化技术 具备多模态理解、复杂推理和增强记忆能力 定位为深入业务架构的数字化生产力单元 [9][12][13][16] - 智能体平台能直接产出应用 是大模型落地产业的主流模式和最佳模式 [8][20][65] 智能体技术架构与能力 - 星辰超级智能体支持全模态理解 包括语音、视觉、文本等模态 支持文生图、文生视频 [11] - 采用完全国产化技术栈 包括自研底层模型、国产算力和国产框架训练 [12] - 定向增强复杂推理和记忆能力 上下文可扩展到百万字级别 针对办公、客服、金融、工业等场景优化 [13] - 采用四模块架构:感知与理解、认知与决策、记忆与知识、行动与执行 [27] - 通过数据加密和容器化隔离保障安全 满足ToC和企业级用户安全要求 [14] 智能体发展路线与现状 - 行业存在三种智能体发展路线:自主规划智能体(全自动+简单任务)、工作流智能体(半自动+复杂任务)、超级智能体(全自动+复杂任务) [23] - 超级智能体具备动态调整能力 通过虚拟机环境自主修正错误 无需人工编排工作流 [25][26] - 当前超级智能体已达到70分水平 能为人类提供有效帮助 但执行时间可能长达几分钟至十几分钟 [8][30][32] - 能力上限取决于底层模型能力和系统嵌入程度 底层模型持续迭代中 [34] 产业落地与应用场景 - 智能体落地需要嵌入企业主业系统 中国电信江苏公司案例显示智能体可实现客服工单自动预处理 [36][37] - 优先落地场景包括客服、营销、办公软件和IT化程度高的行业 因业务流程清晰且与大模型适配度高 [52] - 在客服网络运维领域实际应用中 智能体使员工处理工单效率提升30%以上 [40] - 市场需求强烈 国外资本市场和科技企业大幅投入 国内推动AI+产业落地 [43] 市场竞争格局 - 市场存在四类玩家:大模型厂商、科技大厂、创业公司、央国企 [53] - 央国企优势在于内部海量落地场景、全国本地化服务团队和丰富产业经验 [54] - 中国电信2024年产业数字化收入达1466亿元 与中车、中物流、国能等国企有深度合作 [56] - 星辰智能体平台采用内部开源模式 允许省专公司二次开发以适应各种场景 [54] 研发背景与人才培养 - 中国电信2024年初开始布局智能体平台 提前卡位新兴趋势 [22] - 专职投入大模型算法研发团队约300人 与高校和科研机构合作攻关下一代技术 [59] - 获得工信部授权运营"智能体开发工程师"职业认证培训 培养专业人才 [50] - 通过应用创意挑战赛和方案实现赛挖掘企业核心落地场景 [44]
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理
量子位· 2025-09-11 10:19
文章核心观点 - 美团等机构研究团队提出可验证的过程奖励机制(VSRM) 通过奖励有效步骤和惩戒无效步骤 显著减少大型语言模型(LRM)在思维链(CoT)推理中的过度思考问题 在保持模型性能的同时实现输出长度的大幅缩减 [1][7][9][13][18] 过度思考问题分析 - 过度思考问题表现为模型对简单问题生成冗长输出(例如8734个token) 包含大量无效推理步骤 导致中间结论错误并影响最终答案准确性 [4][5][6] - 案例显示模型在计算闭区间[-500,500]内整数数量时反复修正步骤 最终错误输出500(正确答案应为501) 无效步骤占比超过50% [5] - 根本原因是中间步骤无法推动解题进展 甚至引入错误 需通过后训练机制抑制无效步骤 [6][7] VSRM机制设计原理 - 通过特殊token(例如"However"、"Therefore")划分推理步骤 结合三条规则确保步骤可读性:跳过初始重述、避免过度分割、调整句子内部token位置 [11] - 使用子轨迹正确率差值计算步骤奖励:$$\mathcal{A}_{\mathcal{T}_{i}}=\frac{1}{N}\sum_{j=i}^{N}I(\mathrm{IsCorrect}(\mathrm{LRM}(\mathcal{T}_{i})_{j}))$$ 和 $$d_{i-1}=\mathcal{A}_{i}-\mathcal{A}_{i-1}$$ [12] - 引入前瞻窗口机制解决奖励稀疏问题 通过折扣因子传播未来正确率变化 使奖励信号更密集:$$R_{\mathcal{T}}=[\ldots,r_{1},\ldots,r_{t},\ldots,r_{k},\ldots,r_{\mathcal{T}}^{\mathrm{result}}+r_{\mathcal{T}}^{\mathrm{format}}]$$ [13] - 机制与强化学习算法解耦 可适配支持过程奖励的方法 结合结果奖励和格式奖励实现高效推理 [13] 实验结果 - 在AIME24、AIME25、MATH-500等数学基准测试中 VSRM使1.5B/7B/DeepScaleR模型输出长度缩减35%-60% 同时保持或提升准确率 [14][15] - 1.5B模型在MATH-500上输出长度从4960 token降至2400 token(降幅51.6%) 准确率保持82.2% [15] - 7B模型在AMC23上输出长度从6884 token降至3704 token(降幅46.2%) 准确率提升1.8个百分点至80.9% [15] - 消融实验验证前瞻窗口必要性:移除后输出长度增加39%(从7065升至8638 token) 显式长度惩罚会降低准确率(例如AIME25从23.0%降至20.9%) [16] 机制优势 - 从源头区分步骤有效性 避免直接长度惩罚对性能的损害 保持模型探索多解能力(Pass@k指标趋势一致) [13][16][18] - 适用于不同规模模型和RL算法(PPO/R++) 在OlympiadBench等复杂任务中均有效 [15][18]