量子位

搜索文档
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
量子位· 2025-08-07 10:13
强化学习探索难题 - 传统RL框架下大语言模型存在探索与利用严重失衡问题,模型熵值迅速下降导致推理路径固化[1] - 过早收敛现象削弱了模型多样性生成能力并限制性能上限突破[2] FR3E框架设计原理 - 核心思想受OpenAI论文启发,采用"先返回,再探索"两阶段结构[2][4] - 通过识别高不确定性关键token作为锚点引导多样化展开,系统性重建探索机制[4] - 采用双难度混合数据策略:低难度数据稳定初期训练,高难度数据激发深层推理[23] 算法实现细节 第一阶段:First Return - 对每条prompt进行多次rollout收集轨迹及奖励信号,采用拒绝采样过滤全正确样本[12] - 构建基准路径并计算token生成熵,筛选top-n高熵token划分partial rollout[13] 第二阶段:Entropy-Eliciting Explore - 在GRPO++基础上引入动态优势调制机制,公式化定义优势调制因子αj[16][17] - 调控后的Advantage A'根据价值边际改善动态缩放学习信号[18] - 正向影响时降低advantage保留探索空间,负向影响时放大信号突破瓶颈[20][22] 实验结果验证 - 在GSM8K等7个数学推理基准测试中,FR3E平均表现较GRPO++提升1.8%-3.1%[25] - Qwen2.5-32B模型在AIME24基准取得6.1%显著提升[25] - 训练动态显示FR3E熵值衰减更慢,响应长度更长,突破微调模型僵化困境[26] - 全正确轨迹数量显著增加,全错误轨迹比例大幅降低[27] 方法论价值 - 结构化探索范式有效解决LLM强化学习中探索不足的核心瓶颈[28] - "结构化反馈+自适应调节"思想具备良好可扩展性,为未来训练提供新范式参考[29]
AI修Bug新SOTA:SWE-Bench Lite60.33%修复率,像人一样能积累经验,中科院软件所出品
量子位· 2025-08-07 10:13
ExpeRepair团队 投稿 量子位 | 公众号 QbitAI AI学会像人一样修Bug了! "这个Bug我上周刚修过""这个报错怎么又来了""新人怎么又在同一个地方踩坑"…… 如果你是程序员,是否经常遇到这些令人抓狂的场景? 现有的AI修复工具就像"金鱼",只有7秒记忆,每次遇到问题都从零开始。人类工程师最大的优势,恰恰是 能从历史经验中快速找到解决方案 ExpeRepai r ——具有"双重记忆"的仓库级缺陷修复系统,它通过模拟人类认知的两种记忆模式: 当遇到新问题时,ExpeRepair会同时唤醒两种记忆: 从情景记忆中 调取相似案例作为参考 ,从语义记忆中提取通用策略指导决策 ,动态生 成量身定制的修复方案。 在权威评测SWE-Bench Lite上,ExpeRepair以60.33%的修复率登榜首: 。 情景记忆 :存储历史修复案例 (如"具体如何修复Sympy项目的安全漏洞") 语义记忆 :提炼高阶修复策略 (如"处理资源泄漏时需同时关闭文件和释放句柄") 这项研究由来自中国科学院软件研究所的团队提出,以下是更多细节。 而现在,这个优势被AI学会了: 揭秘ExpeRepair"最强大脑" 1、双 ...
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
量子位· 2025-08-07 10:13
强化学习框架MCP·RL - 科技公司OpenPipe推出全新开源强化学习框架MCP·RL,专注于LLM+RL结合[2] - 该框架只需提供MCP Server地址,agent即可自动发现工具、生成任务并通过强化学习闭环反馈优化策略[3] - 在2/3的基准测试中达到或超越SOTA性能[4] 传统MCP流程痛点 - 传统MCP需人工配置完整工作流(数据准备、工具注册、prompt编写)[8] - 需设置回退逻辑且功能增多时配置量呈指数级上升[9][10] - 用户需完全掌握任务拆分、工具调用及逻辑设计能力[11][12][13] MCP·RL技术突破 - 实现"做中学"模式:自动发现工具、生成任务、实战训练及策略优化[16][18] - 训练流程四步走:工具发现→任务生成→实战训练→测试泛化[18][25] - 无需人工标注数据,适配任意Server且开箱即用[23] 应用效果与案例 - ART框架对Qwen 2.5-14B强化训练后,在电子邮件检索任务中超越o3达到SOTA[26] - 网友评价其实现从"AI调用MCP工具"到"AI利用MCP"的范式转变[20][21] 技术背景与扩展 - 基于OpenPipe的ART系统(Agent Reinforcement Trainer),核心为LLM经验学习机制[24] - ART可集成GRPO至Python应用,通过RULER评估策略实现参数优化[24][25]
全球最大AI模型聚合平台诞生!不争冠军只做擂台
量子位· 2025-08-07 09:02
战略核心 - 亚马逊云科技提出"Choice Matters"战略,强调AI价值在于为不同场景选择最适合的模型而非追求单一最强模型 [1][2] - 该战略基于云计算领域的洞察:AWS提供429项计算服务、266项存储服务、513项数据库服务和421项AI/机器学习服务 [3][4] - 战略得到市场验证,OpenAI开源模型加入Amazon Bedrock平台,gpt-oss-120b与gpt-oss-20b展现3倍于Gemini、5倍于DeepSeek-R1的性价比优势 [6][8] 平台能力 - Amazon Bedrock平台提供217款商业API服务,Amazon SageMaker支持185款商业和开源模型部署 [21] - 平台聚合超过400款主流商业及开源大模型,成为全球最大AI模型聚合平台 [22] - 平台模型合作伙伴包括Anthropic、Meta、DeepSeek、Google、OpenAI等顶级AI公司 [22] 模型性能 - Claude Opus 4.1在Agentic coding SWE-bench测试中达74.5%,高于OpenAI 03的69.1%和Gemini 2.5 Pro的67.2% [12] - Claude Opus 4.1在Graduate-level reasoning GPQA测试中达80.9%,低于OpenAI 03的83.3%和Gemini 2.5 Pro的86.4% [12] - Claude Opus 4.1在Multilingual Q&A MMMLU测试中达89.5%,与OpenAI 03的88.8%相当 [12] 应用模式 - "最佳匹配"模式:特定场景选用单一模型,如实时翻译选Nova、学术研究选DeepSeek、内容创作选Claude [14] - "协同增效"模式:复杂场景多模型协作,如翻译系统组合DeepSeek R1/Claude 3.7与Nova Lite [15][16] 生态发展 - 2023年4月Anthropic入驻,2023年7月Meta Llama系列加入,2023年9月Stability AI推出Stable Diffusion系列 [23] - 2024年2月Mistral AI带来混合专家模型,2025年2月DeepSeek R1模型登陆,2025年8月OpenAI开源模型加入 [23] - 生态案例包括野村证券使用Llama处理数据、Doordash使用Claude优化客服、Zalando借助Mistral AI实现电商智能化 [25]
奥特曼出新招防挖角!员工期权变钞票,按5000亿美元估值兑现
量子位· 2025-08-07 04:15
员工期权兑现计划 - 公司启动新一期员工期权兑现计划,按照5000亿美元估值兑现,旨在防止人才流失[1] - 现有投资者Thrive Capital等已接触公司,有意参与该计划购买员工股份[5] - 此前2024年2月类似操作使公司估值从290亿美元飙升至800亿美元[6] 公司估值与资本运作 - 当前估值达3000亿美元,计划通过员工股份出售推动估值至5000亿美元[4][18] - 近期完成由Dragoneer领投的83亿美元融资,获5倍超额认购,黑石、红杉资本等跟投[17] - 计划以65亿美元收购苹果老将创立的AI设备初创公司,进军硬件领域[16] 产品与用户增长 - ChatGPT周活跃用户达7亿,较3月底5亿增长40%,较去年增长4倍[9] - 付费企业用户从300万增至500万[10] - 年度经常性收入从6月100亿美元跃升至130亿美元,预计年底超200亿美元[11] 技术进展 - 开源模型GPT-oss在MMLU、GPOA-等多项测试中刷榜,120B版本最高得分达90分(MMLU)[12] - 吴恩达测试后认可GPT-oss-120B性能强大[12] - GPT-5虽未官宣但已引发行业高度关注[15] 行业竞争动态 - 竞争对手Anthropic计划融资50亿美元,估值或达1700亿美元[21] - 马斯克xAI寻求2000亿美元估值以抢占市场份额[23] - 微软与公司谈判涉及股权分成、云服务合作等核心议题,结果或影响行业格局[20] 人才争夺战 - Meta超级智能部门研究员待遇显著高于其他部门,引发OpenAI反挖角讨论[25][26][27] - 扎克伯格高薪挖角导致公司流失数名研究人员[7][18]
GPT-5内测抢先公布:日常推理首次击败人类,编程数学科学问题能力都很强
量子位· 2025-08-07 04:15
GPT-5性能表现 - 推理能力首次超越人类,在10道逻辑题测试中仅错1题,正确率90%,高于人类平均水平[2][4][5] - 编程、数学及解决科学问题的能力显著提升,被调侃可能取代博士[7][8][30] - 多模态能力飞跃式进步,可直接生成高质量独角兽SVG,效果远超GPT-4[26][28] 技术突破与挑战 - 参数规模比GPT-4大幅增加,但数据缺乏成为主要瓶颈[31][33] - 预训练周期长达数月,因模型规模导致调试难度指数级上升[35] - OpenAI雇佣科学家专门编写优质训练数据以弥补数据缺口[32] 行业竞争动态 - 谷歌和Anthropic在GPT-5预热期间密集发布新模型抢夺热度[36][37] - 谷歌计划推出开源大模型直接对标OpenAI[38] - 创始人Sam Altman通过《星球大战》死星图片隐喻GPT-5将主宰竞争对手[41][42] 发布信息 - OpenAI通过将官网直播链接"livestream"改为"live5tream"暗示GPT-5发布[10] - 发布会定于北京时间8月8日凌晨1点,内测用户反馈性能提升幅度可能不及GPT-3到GPT-4的跨越[30][39]
长得这么“乖”的人形机器人,第一次见
量子位· 2025-08-07 00:56
产品发布 - 傅利叶发布全尺寸人形机器人Care-bot GR-3 采用莫兰迪暖调配色和动物系头部造型 突破传统冷硬感设计 [3][4] - 机身采用柔肤软包覆材料 触感提升 配备全感交互系统 实现视觉 听觉 触觉三维交互 [5][7] - 实现直腿行走 摇摆步态 碎步小跑等拟人化步态 标准行走时可同步完成弯腰 下蹲动作 [10][12] 技术参数 - GR-3身高165cm 体重71kg 全身55个自由度 单手承载3公斤负载 搭载自研一体化执行器及12自由度灵巧手 [15][16] - 视觉模块集成结构光 RGB广角镜头及摄像头 配合动态视线追踪确保交互连续性 听觉模块配备4麦克风阵列实现全向收声 [18][19] - 采用双电池热插拔架构 单次续航3小时 支持动态能源调配和无缝切换 [24][25] 交互系统 - 引入注意力管理机制 统一调度多模态功能 实现手眼脑协同反馈 提升交互连贯性 [21] - 采用双路径响应机制 单一指令触发"快思考"反馈 多次触发启动"慢思考"模式 由大模型生成复合应答 [23] - 听觉系统具备声源定位 回音消除 定向增强技术 可精准捕捉发声位置并自动转向 [20] 应用场景 - 聚焦社交陪伴和辅助陪护场景 构建情感连接 延伸服务功能 覆盖独居老人陪伴 儿童互动 健康监测等需求 [14][34] - 未来将深入康复机构 养老院等场景 提供慢病照护 日常生活协助等精准服务 [34] 公司背景 - 傅利叶2015年成立于张江孵化器 以康复机器人起家 创始人顾捷毕业于上海交大 [29][30] - 此前已发布GR-1 GR-2全尺寸人形机器人 并开源小尺寸机器人Fourier N1 [30] - 提出"Care-bot"概念 未来十年聚焦"以人为本的具身智能"方向 [32][33] 开发者支持 - 优化开发框架 支持服务器-客户端架构算法开发 未来将提供交互API降低使用门槛 [27][28] - 开源小尺寸机器人Fourier N1现场展示热舞功能 [37]
全网开测GPT-oss!技术架构也扒明白了
量子位· 2025-08-07 00:56
模型性能表现 - GPT-oss在多项基准测试中表现优异,横扫GPQA Diamond、AIME 2024、AIME 2025和Codeforces榜单,超越DeepSeek R1、Qwen3、Llama 4、Kimi K2等开源模型 [4][5] - 在MMLU测试中Qwen3-235B略胜一筹,Kimi-K2在SWE-Bench上得分更高 [7] - GPT-oss-120B在核心推理基准测试中与o4-mini效果相当,可在单个80GB GPU上高效运行 [9] - 20B模型在编码测试中表现出色,能准确模拟复杂物理场景和完成3D渲染任务 [11][12][13] - 模型通过经典逻辑测试如"英文草莓里有多少个字母'r'"和鹈鹕推理测试,展现强大空间想象力和逻辑连贯性 [15] 技术架构分析 - GPT-oss结构设计更宽,拥有更多注意力头、更高隐藏维度和更多Transformer模块 [22] - 注意力机制中添加了偏差单元,这一结构曾在GPT-2中出现 [24] - 采用MoE Transformer核心架构,通过细节优化提升性能并降低复杂度 [26] - 使用改进的swiglu激活函数,通过α=1.702让silu近似gelu,并采用裁剪激活值等技术防止梯度爆炸 [26][27] - 采用YaRN技术扩展上下文窗口,提升长文本处理能力 [28] 应用场景与生态 - 网友开发多种应用场景,包括论文解读、数据整理和构建GPT-oss Pro版(10个模型连接) [17][18][20] - 模型可轻松将PDF、Word等原始数据转换为LLM测试集 [19] - AWS宣布通过Amazon Bedrock和Amazon SageMaker上线该模型,便于构建生成式AI应用 [34] - 吴恩达等专家测试后认为GPT-oss-120B性能强大,Binyuan Hui指出其合成数据训练方法有助于小模型性能提升 [37] 成本与可用性 - GPT-oss-120B训练成本约420万至2310万美元,20B模型成本为其十分之一 [30] - 20B模型可在16GB内存边缘设备运行,适合本地推理和快速迭代 [9] - 用户可通过LM Studio下载20B模型,或使用AWS平台部署 [33][34] 局限性及改进 - 模型在非英语文本上表现不佳,55%情况下存在语法或拼写错误 [30] - 官方发布技术文档指导用户通过LoRA微调实现多语言支持 [32]
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus
量子位· 2025-08-07 00:56
核心观点 - Qwen团队最新发布两款4B端侧模型Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,在性能上实现显著突破,尤其在小模型尺寸下超越部分大模型表现 [2][3][5][7] - 两款模型分别针对通用任务和专家级推理任务优化,支持256K长上下文并具备端侧部署优势 [7][8][16][17][24] - Qwen3-4B-Thinking-2507在AIME25数学测评中得分81.3,超越Gemini 2.5 Pro和Claude 4 Opus [4][5][23] 模型性能突破 Qwen3-4B-Instruct-2507 - 通用能力超越闭源模型GPT-4.1-nano,与30B MoE模型Qwen3-30B-A3B性能接近但参数量仅其1/7.5 [13][14][15] - 关键指标:MMLU-Redux得分84.2(vs GPT-4.1-nano 80.2),GPQA得分62.0(vs 50.3),LiveBench 20241125得分63.0(vs 41.5) [18] - 增强多语言覆盖和长文本理解能力,支持扩展至1M上下文 [17] Qwen3-4B-Thinking-2507 - 专攻复杂推理任务,AIME25得分81.3超越前代65.6分及Qwen3-30B-A3B的70.9分 [23][25] - 推理性能提升显著:HMMT25得分55.5(vs 前代42.1),ZebraLogic得分80.2(vs 35.2) [18][25] - 在Agent任务中全面碾压前代,如TAU1-Retail得分66.1(vs 33.9),TAU2-Airline得分58.0(vs 28.0) [25] 技术特性与行业影响 - 端侧适配性:支持树莓派等设备,提供GGUF量化版本和llama.cpp部署方案 [2][8][27][28] - 模型效率:4B密集模型性能接近30B MoE模型,重新定义小模型能力边界 [11][15][23] - 开源策略:通过抱抱脸和魔搭社区提供模型下载,与OpenAI同期开源形成竞争 [26][34][35] 开发者支持 - 部署工具链完整:支持Ollama、LMStudio、MLX-LM等主流框架 [27] - 优化建议:针对内存限制设备推荐缩短上下文长度,复杂推理任务建议使用>131K词元 [28][29] - Prompt设计规范:提供数学题逐步推理和选择题JSON结构化回答模板 [31] 行业动态 - 发布时间点卡位OpenAI开源窗口,引发开发者社区高度关注 [34][35] - 性能对比:Qwen3-4B系列在多项基准测试中优于GPT-4.1-nano和Claude 4 Opus [18][25] - 市场期待:用户呼吁Qwen团队加速发布Qwen3-8B系列模型 [31][33]
华为版CUDA,全面开源了
量子位· 2025-08-06 08:14
华为昇腾AI生态开源战略 - 华为宣布开源昇腾AI GPU的CANN软件工具包,旨在构建开放生态对抗英伟达CUDA封闭体系[1][3] - CANN作为华为版CUDA,提供多层编程接口和算子加速库,支持开发者针对昇腾硬件深度定制[4][5] - 配套开源MindSpore深度学习框架及工具链,形成完整AI软硬件方案[8][15] - CANN 8.0版本推出社区版和商业版双轨制,已适配12款操作系统[7] 昇腾技术架构特性 - CANN神经网络计算架构包含多技能栈,支持PyTorch/TensorFlow等主流框架[15] - 提供Mind系列应用使能套件,降低开发者迁移成本[3][7] - 通过开源策略解决CUDA生态锁定问题,允许代码自主优化[7][12] 行业竞争动态 - 传奇GPU架构师Raja Koduri创立Oxmiq Labs,开发兼容CUDA的软件堆栈[14][18] - Oxmiq采用RISC-V架构GPU IP核OxCore,集成标量/矢量/张量计算引擎[22] - 其OXPython组件可直接运行未经修改的CUDA Python应用[29][31] - 软件战略独立于硬件,初期将部署在Tenstorrent AI加速器[30][31] 生态建设进展 - 华为联合业界发起《CANN开源开放生态共建倡议》[11] - 昇腾生态已覆盖深度学习框架、第三方库及操作系统适配[7][15] - Oxmiq通过芯片集设计支持边缘推理到大规模训练场景的灵活配置[25]