Workflow
机器之心
icon
搜索文档
从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
机器之心· 2025-09-09 11:46
在当前由大语言模型(LLM)驱动的技术范式中,检索增强生成(RAG)已成为提升模型知识能力与缓解「幻觉」的核心技术。然而,现有 RAG 系统在面对需多 步逻辑推理任务时仍存在显著局限,具体挑战如下: 为建立严格的评估体系,学术界提出了 BRIGHT—— 首个面向推理密集型检索的权威测试集。该基准涵盖了源自经济学、心理学、数学及编程等多个知识密集型 领域的真实查询。这些查询的共性在于其答案无法通过传统的直接检索显式获得,使得很多 RAG 系统失效。而 BRIGHT 必须通过多步推理构建证据链,也就是所 谓的「第一性原理」, 从 「根源」 推导,而非 「类比」来解决问题。 论文标题: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval arXiv 地址:https://arxiv.org/pdf/2508.07995 代码与模型开源地址: 表面相关性 (Surface Relevance):基于 TF-IDF/BM25 等传统方法过度依赖词汇重叠度,倾向于召回与查询共享关键词的文档,导致检索结果停留于浅层文本 匹配 ...
文心新出的推理大模型,给了我们信心
机器之心· 2025-09-09 11:46
文心大模型X1.1核心升级 - 百度发布文心大模型X1.1深度思考模型 为4月旗舰模型X1的升级版 免费开放体验并通过智能云千帆平台向企业客户与开发者开放[2] - 模型综合能力显著提升 事实性提升34.8% 指令遵循提升12.5% 智能体能力提升9.6%[2] - 升级重点包括事实性、指令遵循、智能体及工具调用能力 处理复杂任务时可灵活调度外部工具与系统资源[2][3] 事实性能力突破 - 在中文问答、幻觉和多步任务等权威基准上实现领先 整体效果优于DeepSeek R1-0528 与GPT-5和Gemini 2.5 Pro等国际顶尖模型不相上下[9] - 精准识别常识性错误 如指出花生为地下成熟作物 纠正"树上结花生"的错误描述[15] - 正确处理时效信息 如准确解析2025年网络新梗"脱脂牛马"含义 描述其为"一边上班拼命工作 一边努力减肥管理身材"的双重压力状态[38][43] 指令遵循与复杂任务处理 - 在强约束条件下执行高精度指令 如规避"我叫"等禁用词 灵活调整表达方式完成自我介绍任务[55] - 处理多条件模糊需求 如规划国庆亲子游时排除杭州 基于南方城市、三大人两小孩等条件推荐厦门并详细规划行程交通、景点及预算[57][59] - 指令遵循能力显著拓宽应用边界 尤其在多条件、强约束、模糊描述等高要求场景中展现高精度理解与高可控输出[70] 智能体与工具调用能力 - 实现全链条智能体能力 如在共享单车客服场景中自主规划任务流程 调用adjust_order_fee、get_bike_info等工具处理费用免除、车辆维修及情绪安抚[8] - 主动调用联网搜索工具处理时效信息 如确认北京杜莎夫人蜡像馆2025年10月1日起永久关闭 并提供替代方案及参考链接[72][77] - 工具调用支持联网搜索、文档和图片上传 增强回答可溯源性及信息权威性[7][81] 多模态与综合能力 - 代码生成能力突出 如使用p5.js生成百余行动画代码并实现良好运行效果[88][91] - 图像理解与推理能力达标 可解析含文字梗图并输出合理结论[93] - 风格化创作能力优异 如模仿林黛玉文风撰写职场吐槽段子 融合古典韵味与现代职场情绪[97] 核心技术升级 - 采用迭代式混合强化学习训练框架 融合通用任务与智能体任务效果 优化推理路径和行为策略[100] - 通过自蒸馏数据迭代生产及训练提升整体效果 基于知识一致性的强化学习技术提高事实性推理可靠性[100][101] - 飞桨框架升级至v3.2 实现极致计算优化与高效并行策略 文心4.5文本模型预训练取得47%的MFU[103] - 推理层面采用2比特极致压缩、多步投机解码等技术 ERNIE-4.5-300B-A47B模型在TPOT 50ms延迟下吞吐量达57K tokens/s[104] 开发者生态与开源 - 飞桨文心生态已接入233万开发者和76万家企业[107] - 开源深度思考模型ERNIE-4.5-21B-A3B-Thinking 基于ERNIE-4.5-21B-A3B-Base训练 具备深度思考能力且速度更快[110] - 开源释放前沿AI能力开放信号 为开发者提供直接可用的大模型[111] 行业影响与定位 - 文心大模型X1.1代表国产大模型推理能力新高度 在逻辑思考及降低幻觉方面的优势推动AI技术实用化[113] - 百度构建从芯片、AI框架、模型到应用的全栈AI能力 在全体系AI领域占尽先机并持续发力[113] - 国内大模型进入实用化、产业化新阶段 AI加速向现实生产力转化[114]
SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
机器之心· 2025-09-09 11:46
机器之心报道 编辑:冷猫 我们已经进入了大模型时代,越来越多的应用依赖大模型的能力,可以说大模型已经成为智能化基础设施的核心组成部分,支撑着语言,视觉分析,智能驾驶, 机器人等各种下游应用。 在大模型的实际使用中我们发现,大部分的模型还只是某个细分领域任务的大牛,离我们理想中的 AGI 仍然遥遥无期。 准确的说,这些投入部署的大模型 大 多是「静 态」模型 ,对于其预训练或微调时优化的系列任务表现良好,但是在动态学习,自我提升这部分能力是缺位的。 如果我们希望实现更加通用的大模型,使其能像长期的智能助手一样,随时间不断适应新的任务与需求,很多技术瓶颈亟待突破。而最大的挑战之一就是「灾难 性遗忘」。 相信大家对这个概念已经非常熟悉了,灾难性遗忘指的是模型在学习新任务时,会丢掉之前学到的技能。扩大模型规模、增加预训练数据确实能稍微缓解遗忘现 象,但始终不能彻底解决。 图源:小红书 @ 机器坏人( AI 版) 针对灾难性遗忘的问题,研究者们提出了各种各样的改进方法,包括正则化、经验回放、参数微调等等。 但有没有一种可能,我们对大模型遗忘的研究想的有些太复杂了,如无必要勿增实体的 剃刀原则 才是根治问题的最佳手段。 ...
DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
机器之心· 2025-09-09 08:56
论文作者团队 :来自杜克大学 CEI Center,由实习生陈欣骅、黄思韬及郭聪博士共同完成,指导教师为李 海教授、陈怡然教授。 扩散大语言模型(dLLMs)凭借并行解码与独特的全局规划能力,有望解决自回归(AR)大模型的效率瓶 瓶颈和规划能力缺陷。但其「全局规划」能力依赖于其双向注意力对所有后文的关注,这带来了严重的计 算冗余,从而导致现有开源模型的潜力远远未被释放。 当前的 dLLM 存在「路线之争」:一是保留全局规划能力但推理效率极低的「全局双向注意」(如 LLaDA),二是追求速度却牺牲规划能力的「块内双向注意」(如 Block Diffusion)。如何在这两条路线之 间调和折中,让模型既能「着眼全局」,又能加速推理,已成为学界日益关注的问题。 针对以上问题,杜克大学陈怡然团队另辟蹊径,揭示了 dLLM 中实现全局规划的「草稿纸机制」,并发现 其存在高度冗余。据此,他们提出免训练方法 DPad(Diffusion Scratchpad),通过先验地丢弃大量无效后 缀 token,既极大地降低了计算量,又保留了核心规划能力,尝试在两条路线中走出一条「中间路线」。该 方法与现有优化技术结合后,在几乎无损 ...
硅谷也996实锤了?AI的火,烧掉了硅谷的周末
机器之心· 2025-09-09 08:56
文章核心观点 - 硅谷工作文化呈现高强度和高压力特征 996工作制逐渐从中国科技公司特有现象转变为硅谷部分企业的现实[1][2] - 金融科技公司Ramp通过交易数据分析发现旧金山员工周六工作时间增加 消费数据量化体现996工作制[3][7] - AI行业超长工时现象普遍 从业者面临高强度工作压力 部分企业甚至要求每周工作84小时[13][17] 旧金山996现象数据验证 - Ramp公司卡数据分析显示2025年1-8月旧金山企业员工周六中午至午夜消费占比显著提升 同比2024年同期消费活动明显增加[7] - 周六消费激增为2025年新现象 2024年及更早年份未出现类似趋势 且该现象为旧金山特有[8] - 纽约周六消费增长仅为旧金山四分之一 且集中在晚上8点后 表明旧金山增加的是全天工作时间而非单纯晚餐消费[8] - 消费增长覆盖Ramp平台各行业旧金山公司 不仅限于科技行业 表明996现象具有行业普遍性[8] 硅谷工作文化现状 - 马斯克在公司搭帐篷通宵开发Grok4 体现极端加班文化[9] - OpenAI技术团队成员Jason Wei公开作息表显示每日工作时长超过996 从早9点工作至凌晨1点15分[11][12] - AI初创公司普遍存在超长工时现象 需求过多导致24小时连轴转仍感觉时间不足[13] - Greptile CEO总结旧金山科技工作者状态包括不喝酒、996、举重、跑步、早婚、睡眠追踪和特定饮食模式[14] 行业人士观点分歧 - 硅谷VC投资人Deedy认为创始人应通过激励而非强迫方式提升效率 过度压榨会导致人才流失影响公司进度[18][19][20] - 部分企业公开要求员工每周工作84小时(每天12小时×7天)并明确表示不存在工作与生活平衡[17] - 欧洲工作文化对比显著 被调侃为"每月休9天 连续9个月 夏天连休6周"的宽松模式[25][26]
Altman亲自发博客点赞,这两大杰出人才是谁?
机器之心· 2025-09-09 06:45
公司核心人物介绍 - OpenAI首席执行官Sam Altman特别介绍两位核心研究员Jakub Pachocki和Szymon Sidor 称他们在结合前沿研究与工程实践方面解决诸多难题 对公司发展至关重要 [1] - Altman形容两人为完美互补的传奇搭档 Pachocki作为首席科学家负责制定公司宏观研究路线图 Sidor则负责将宏大愿景付诸实践 [1] 技术贡献与成就 - 在强化学习普遍不被看好的情况下 两人力排众议坚持规模化探索其潜力 最终促成Dota项目的辉煌成就 [4] - 构建了坚实的基础设施 为众多科学突破铺平道路 领导了GPT-4的预训练工作 [4][8] - 与Ilya Sutskever和Lukasz共同孕育了实现推理能力突破的早期思想 在探索全新范式上取得卓越进展 [4] - Pachocki在OpenAI Five项目中领导团队 使AI在电子竞技游戏《Dota 2》中击败人类世界冠军 增强了公司内部对规模化强化学习潜力的信心 [8] - Sidor参与构建大规模强化学习系统及基础设施 在机器人学领域实现模拟环境训练到真实机械手零样本迁移的复杂操作 [13] - Sidor的名字出现在GPT-4技术报告中 并且是推理模型系列(如o1 o3)的关键贡献者 [14] 专业背景与资质 - Pachocki青少年时期专注于竞争性编程 六次入围国际信息学奥林匹克竞赛决赛 2009年获得银牌 2012年同时获得Google Code Jam冠军和国际大学生程序设计竞赛世界总决赛金牌 [6] - Pachocki博士论文专注于为大规模网络和高维数据设计高效算法 涉及谱图论和凸优化等领域 这些理论知识为理解和解决神经网络扩展过程中的工程瓶颈提供基础 [6] - Sidor与Pachocki毕业于同一所波兰精英高中 在MIT获得电气工程与计算机科学硕士学位 [12] - Sidor 2016年硕士论文探索强化学习与自然语言处理的交叉点 使用深度Q学习技术让智能体理解并执行自然语言指令 这项早期研究完美契合OpenAI后来的技术路线 [12] 公司治理与权力结构变化 - 2023年11月17日OpenAI董事会突然宣布解雇CEO Sam Altman 背后是公司内部存在的深刻分歧 一方主张加速技术研发与商业化应用 另一方更强调AI安全与审慎发展 [16] - 作为对董事会决定的直接回应 时任研究总监的Pachocki和高级研究员Sidor联合AI风险评估负责人Aleksander Madry向公司提出辞职 他们的行动是后续超过700名员工签署联名信要求原董事会辞职并迎回Altman的导火索之一 [16] - 危机过后OpenAI权力结构发生变化 Ilya Sutskever影响力减弱并于2024年5月正式离职 Jakub Pachocki被任命为OpenAI新任首席科学家 [17] 产品更新与用户反馈 - OpenAI宣布将于2025年9月9日正式退役ChatGPT的标准语音模式 包括Cove Juniper Ember和Breeze等经典语音选项 引发大量用户不满 [20] - 用户认为标准语音更温暖自然适合日常对话和情感连接 新推出的高级语音模式虽然更先进但缺乏亲切感 无法完全替代 [20] - 有用户表示对许多残障人士来说标准语音是唯一可用选项 移除它会制造数字无障碍危机 [20] - OpenAI推出GPT-5模型后计划逐步减少或移除GPT-4o的可用性 让依赖GPT-4o的用户感到失望 遂发起keep4o运动呼吁永久保留GPT-4o作为可选模型 [20] - 这两个话题在Reddit X及OpenAI官方社区引发广泛讨论 社交媒体上出现许多抗议海报 [21]
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
机器之心· 2025-09-08 10:30
范式迁移 - 大语言模型训练从基于人类或数据偏好的强化学习(PBRFT)转向智能体强化学习(Agentic RL)[2] - PBRFT范式存在缺乏长期规划、环境交互与持续学习能力的局限[2] - Agentic RL将LLM从被动对齐进化为主动决策的智能体 在动态环境中规划、行动、学习[2] 理论框架 - Agentic RL将LLM置于部分可观测马尔可夫决策过程(POMDP)下进行多步交互[6] - 动作空间从单一文本扩展为文本加操作[8] - 奖励从单步评分扩展为时序反馈 优化整条决策轨迹[8] - 目标函数从期望奖励最大化转变为带折扣因子的累积奖励最大化[10] 算法体系 - 强化学习优化算法形成从通用策略梯度到偏好优化的谱系[10] - PPO家族包含VAPO、PF-PPO、VinePPO等算法 采用策略梯度方法和奖励信号[12] - DPO家族包含B-DPO、SimPO、IPO等算法 采用偏好优化方法和人类偏好信号[12] - GRPO家族包含DAPO、GSPO、GMPO等算法 采用策略梯度方法和基于组的奖励信号[12] 核心能力模块 - 规划能力通过外部引导或内部驱动为复杂任务设定子目标与多步行动序列[14] - 工具使用从静态提示模仿演进到工具集成强化学习 让智能体自主选择组合工具[15] - 记忆能力包括基于外部数据库检索记忆、Token级别记忆和结构化记忆[17] - 自我改进能力分为基于语言强化学习、训练内化自提升能力和迭代自训练三类[18] - 推理能力分为快速直觉推理和慢速缜密推理两种模式[19] - 感知能力通过定位驱动、工具驱动和生成驱动等方式提升多模态信息理解效果[19] 任务应用领域 - 搜索与研究领域优化多轮检索与证据整合策略[25] - 代码领域将编译错误与单元测试结果用作奖励 推动智能体能力进化[25] - 数学领域在非形式化推理中利用正确率或中间过程奖励塑造推理轨迹[26] - 图形界面领域在网页和桌面环境中学习点击、输入、导航等操作[27] - 视觉与具身领域融合视觉感知与决策规划 实现看-思-做连续决策闭环[28] - 多智能体系统通过奖励设计促使多个模型在竞争或合作中涌现沟通与分工能力[28] 环境与框架 - 现有环境涵盖网页、GUI、代码、游戏等多种开源平台[32] - 配套评测基准包括LMRL-Gym、ALFWorld、TextWorld等457项资源[33] - Agentic RL框架包括Verifiers、SkyRL-v0、AREAL等9种类型[34] - RLHF和LLM微调框架包括OpenRLHF、TRL、trlX等6种系统[34] - 通用强化学习框架包括RLlib、Acme、Tianshou等5种平台[34] - 综述整合500+篇相关研究 在GitHub上开源Awesome-AgenticLLM-RL-Papers资源库[34] 发展前景 - Agentic RL已成为LLM演进的重要训练范式[37] - 单步对齐已难以支撑复杂任务 LLM训练范式进入Agentic RL下半场[37] - 强化学习是将核心能力从启发式功能转化为稳健智能行为的关键机制[37] - LLM将有望从会说迈向会做 成长为更通用、更自主的智能体[38]
Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
机器之心· 2025-09-08 10:30
他说在日常生活中通常将 OpenAI 的 ChatGPT 作为首选 AI 产品工具,当然他的使用目的往往是工作需求、用于研究等。可没想到有一天,ChatGPT 竟会「入侵」 他的个人生活,他和前女友分手居然是通过 ChatGPT 完成的。 机器之心报道 机器之心编辑部 近日,人工智能教父杰弗里・辛顿(Geoffrey Hinton)在接受媒体采访时,透露了一则趣闻。 原来在两人分手期间,前女友曾将辛顿的一些行为发送给 ChatGPT,要求 ChatGPT 来证明他是一个多么「糟糕」的人。 之后,她还将这些对话一并发给了辛顿。但辛顿并不觉得自己很糟糕,所以 ChatGPT 的说辞「并没有让我感觉太糟糕。」 当然,这只是一个趣闻,辛顿之所以讲起这件事,是在表达一个不争的事实:如今 AI 的触角正蔓延至人类生活的细枝末节中,甚至成为一些人际交往的重要参与 者。 无论是答疑解惑、写文档、起草电子邮件、解决日常问题,还是像辛顿那样借助 AI 来分手,一一都在表明,AI 正在塑造着人类的新型沟通范式,人类甚至越来越 依赖 AI。但,这是一件好事吗…… 今年 3 月份的时候,OpenAI 和麻省理工学院媒体实验室的研究人员 ...
字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
机器之心· 2025-09-08 09:17
机器之心报道 编辑:杨文 打开多模态自由创作的大门。 谷歌 Nano Banana 掀起的全球创作狂欢尚未消退之际,字节又玩了把大的。 近日,字节跳动开始内测最新的豆包・图像创作模型 Seedream 4.0。与此前版本相比,Seedream 4.0 首次支 持多模态生图,同一模型可以实现文生图、图像编辑、组图生成,并在核心能力上迎来了显著提升: 主体一致性增强 :无论是文本驱动还是图像驱动,都能稳健保持主体特征,避免「失真」与「错 位」。 提示词:将平视视角改为俯视视角,将近景改为中景,并把画面比例改为 16 : 9 。 多图灵活创作 :支持文本、图像的多维组合输入,轻松实现参考生成、融合生成与编辑。 提示词:根据参考图中两个男生的形象,生成一组动作片分镜,原比例。 从更长远的技术发展视角来看,多模态自由创作正成为大势所趋。无论是文本驱动、图像驱动,还是多图 融合,用户都期待能以更自然、更随心的方式与 AI 协作。 Seedream 4.0 内测一出,网友们就把它玩出了花。 比如基于多图融合能力,上传两张角色照片,再加上火柴人自拍动作,即可实现同框合影。 提示词:将图 1 男子和图 2 女子合进一张画面,参 ...
扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
机器之心· 2025-09-08 06:22
Meta REFRAG技术突破 - Meta Superintelligence Labs推出REFRAG框架 彻底重构RAG 实现LLM上下文容量提升16倍 速度最高提升31倍 且准确率零下降[2] - 框架通过四步流程优化解码:压缩(16个token浓缩为块向量)、缩短(输入序列长度减少16倍)、加速(计算开销降低)、选择(RL策略保留关键片段)[5][11] - 在16k tokens场景下实现超过16倍TTFT加速 文本越长优势越明显 加速效果随上下文规模呈指数级提升[7] 长上下文处理挑战 - 传统LLM注意力机制的计算和内存开销随输入长度平方增长 文本长度翻倍速度可能慢4倍 导致系统延迟和内存消耗增加[4] - RAG应用中大量检索段落仅小部分与查询相关 不相关段落造成计算资源浪费[4] - REFRAG通过识别并跳过非相关上下文的无效计算来优化解码过程[4] 性能验证结果 - 在GSM8K基准测试中处理80个chunk(8倍更长上下文) 运行速度提升一倍 成绩从6.71提升至12.08(接近翻倍)[12] - 在多项任务(RAG、多轮对话、长文档摘要)中验证有效性 BoolQ任务精度达68.48[9] - 相比基线方法CEPE和REPLUG REFRAG在长上下文任务中表现显著更优[9] 技术实现细节 - 采用持续预训练(CPT)方法 基于下一段落预测任务对齐编码器与解码器[13] - 引入重建任务和课程学习方案:重建任务鼓励依赖上下文记忆而非参数化记忆 课程学习逐步增加块重建难度[14][15] - 强化学习策略以困惑度为奖励信号 选择性保留关键信息块 避免压缩导致信息丢失[17] 行业应用前景 - 框架使大上下文RAG从理想变为现实 能处理更海量信息[9] - 最终价值需在更广泛实际应用场景中检验[10]