Workflow
机器之心
icon
搜索文档
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 00:51
本文第一作者戴语琴,清华大学博士生。该工作为戴语琴在蚂蚁大安全实习期间完成,该工作属于蚂蚁集团大安全 Venus 系列工作,致力于打造搜索智能体 / UI 智能体。本文通讯作者为该校副教授吕帅,研究方向包括大语言模型、多模态生成、AI4Design。共同通讯作者沈永亮,浙江大学百人计划研究员,博士生导 师,研究方向包括大模型推理、RAG 检索增强生成、多模态生成模型等。 在检索增强生成(RAG)飞速发展的当下,研究者们面临的最大困境并非「生成」,而是「稳定」。 低信噪比 让关键信息淹没在冗余文档里, 错误累计 则让推理链像骨牌一样层层坍塌。这两大顽疾,使得现有 RAG 系统在复杂任务中难以真正可靠。 近期,一项由蚂蚁集团、清华大学、浙江大学、MIT、UC Berkeley、香港大学和新加坡国立大学等机构联合完成的研究提出了全新方案—— EviNote-RAG 。它 不仅在多个权威基准上实现了显著性能提升,更在训练稳定性与推理可靠性上带来了质的飞跃。 核心秘诀在于两个创新: 这一组合带来的改变是革命性的:训练曲线不再震荡,答案推理更加稳健。消融与补充实验进一步验证了这一点—— SEN 是性能提升的基石,而 EQ ...
全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
机器之心· 2025-09-12 00:51
模型架构创新 - 采用混合注意力机制Gated DeltaNet与Gated Attention以3:1比例混合 实现性能与效率双重优化 在长序列建模中兼顾高效率和强召回能力[5][9] - 标准注意力层引入三项增强设计:输出门控机制缓解低秩问题 注意力头维度从128扩展至256 仅对前25%位置维度添加旋转位置编码[10] - 采用高稀疏度MoE架构 总参数量800亿 每次推理仅激活约30亿参数 稀疏度低至3.7%[11][20] 性能突破 - 80B参数模型仅激活3B参数 性能媲美235B旗舰模型Qwen3 并超越Gemini-2.5-Flash-Thinking[2][21] - 在编程评测LiveCodeBench v6、人类偏好对齐Arena-Hard v2及综合能力评测LiveBench中超越开源旗舰模型[21] - 数学推理AIME25评测获得87.8分 全面超越Gemini2.5-Flash-Thinking[21] 效率提升 - 预填充阶段吞吐量达Qwen3-32B的7倍(4k tokens上下文)和10倍以上(32k+ tokens上下文)[17] - 解码阶段吞吐量提升近4倍(4k上下文)和10倍以上(32k+长上下文)[18] - 训练成本仅为Qwen3-32B的十分之一以下 实现极致训练和推理性价比[20] 技术实现 - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 解决QK-Norm导致的权重异常增长问题[12] - 初始化时归一化MoE router参数 确保训练早期专家被无偏选中[13] - 引入原生Multi-Token Prediction机制 优化多步推理性能并提高Speculative Decoding接受率[14] 模型发布 - 模型已在Qwen.ai平台上线并开源至HuggingFace和Kaggle[4][6] - 开源指令模型Qwen3-Next-Instruct和推理模型Qwen3-Next-Thinking两款模型[20] - 第三方平台已接入新模型 包括anycoder的vibe coding示例[24][25]
攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取
机器之心· 2025-09-11 07:13
本工作核心作者为汤子瑞(上海交通大学)、牛博宇(上海交通大学)。合作者为李帛修、周炜、王健楠、李国良、张心怡、吴帆。通讯作者为上海交通大学计 算机学院博士生导师周煊赫。团队长期从事人工智能与数据交叉研究。 半结构化表格是我们日常工作中常见的 "拦路虎"—— 布局五花八门、结构复杂多变,让自动化数据处理变得异常困难。 | 学校名称: | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 编号 | 项目名称 | 한 그 | 出特點處 | | 编号 委目名称 | | | 매각 본선관회 | | | | | | | | 学生个人基础信息 | | | | 1 | 时名 | | | 8 | | | | 身份证件更型 | | 2 | 日常 | | | 9 | | | | 或份证件是 | | 3 | 出生日期 | | | 10 | | | | 难震台研究 | | 4 | 用体验 | | | 11 | 改治國說 | | | | | క | | | | | | | | | | లు | R& | | | 13 | | | | | | ...
3000亿美元OpenAI大单,让世界首富位置换人了
机器之心· 2025-09-11 07:13
财务业绩 - 2026财年第一财季总营收149亿美元 同比增长12% [2] - 剩余履约义务(RPO)达4550亿美元 同比暴增359% [2] - 云业务收入预计2030财年跃升至1440亿美元 较当前财年不到200亿美元有大幅增长 [3] 股价表现 - 股价单日涨幅超过35% [4] - 最高价345.72美元 昨收241.51美元 [5] - 总市值达9330.20亿美元 [5] - 联合创始人拉里・埃里森身家单日增加1000亿美元 一度达3930亿美元 [6] 重大合同 - 与OpenAI签署约3000亿美元算力合同 为期五年 [8] - 合同将于2027年生效 预计每年带来超过300亿美元收入 [12] - 需配套4.5千兆瓦电力容量 相当于四百万户家庭用电量 [9] - 该合同为有史以来最大云计算合同 [9] 业务转型 - 公司正全美范围建设AI基础设施 [1] - 可能需贷款购买GPU芯片 [1][10] - 2016年开始将云计算作为重要发展战略 2021年进行云化重构 [17] - 近期宣布全球裁员3000多个岗位 涉及云基础架构等领域 [17] 行业影响 - OpenAI年收入约100亿美元 不足年均600亿美元成本五分之一 [9] - 科技巨头2024-2028年在芯片服务器数据中心支出预计达2.9万亿美元 [12] - OpenAI采用多云策略 同时使用甲骨文谷歌云服务 [13] - 5000亿美元"星际之门"项目为OpenAI数据中心业务品牌 [13] 股权结构 - 联合创始人拉里・埃里森持有公司41%股份 [11] - 埃里森曾向马斯克收购推特注资10亿美元 [8] - 埃里森与马斯克关系密切 2018-2022年担任特斯拉董事 [8]
交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
机器之心· 2025-09-11 04:53
机器之心报道 机器之心编辑部 强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出,人工智能正在迈入「经验时代」—— 在这个时代,真正的智能不再仅仅依赖大量标注数据的监督 学习,而是来源于在真实环境中主动探索、不断积累经验的能力。正如人类通过实践理解世界、优化行为一样,智能体也必须在交互中积累经验、改进策略,才 能掌握长期决策的能力。 无独有偶,特斯拉前 AI 负责人,OpenAI 联合创始人 Andrej Karpathy 进一步指出,环境的多样性与真实性,是智能体获得泛化能力、应对复杂任务的关键前提。 缺乏丰富的环境,智能体就无法充分暴露于多样化情境,也难以从经验中形成稳健的决策策略。 在这一背景下, 复旦 、创智 、字节 的研究者们 基于智能体自我进化框架 AgentGym,全新打造了 多环境强化学习智能体训练框架 AgentGym-RL 。 本文的第一作者为复旦大学自然语言处理实验室博士生奚志恒,通讯作者为复旦大学自然语言处理实验室的桂韬教授和张奇教授。 这一框架是首个无需监督微调、具备统一端到端架构、支持交互式多轮训练,且在多类真实场景中验证有效的 LLM 智能体强化 ...
英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
机器之心· 2025-09-11 03:36
AI软件开发突破 - NVIDIA Research推出SATLUTION框架 首次将LLM代码进化能力从算法内核扩展到完整代码库规模 可处理包含数百个文件、数万行C/C++代码的复杂项目[3] - 该系统在布尔可满足性(SAT)问题上取得突破 进化出的求解器在2025年SAT竞赛中击败人类设计冠军 并在2024年基准测试集上同时超越2024和2025年两届冠军[5] - 实验显示SATLUTION在70个进化周期内实现稳健性能提升 第50次迭代时已优于2025年人类冠军 总成本低于20000美元 远低于人类专家数月到数年的开发投入[19][21] 技术架构特点 - 采用双智能体协同架构:规划智能体负责高层次战略制定和修改方向分析 编码智能体负责具体代码编辑和构建系统管理[10] - 配备动态规则系统 包含初始静态规则(编码领域知识和硬性约束)和可自我进化的规则库 能根据失败经验自动添加禁止代码模式[11][12] - 建立严格的两阶段验证流程:第一阶段进行编译和115个简单CNF实例的基本功能测试 第二阶段在更大基准测试集上进行完整正确性验证[14] 性能评估体系 - 通过验证的求解器会部署到800个CPU节点集群 在包含400个实例的SAT Competition 2024基准测试集上进行并行评估[15] - 评估过程仅需约一小时完成 提供近乎实时的性能反馈 包括已解决实例数量、内存使用情况和核心PAR-2分数指标[15] - 性能衡量采用PAR-2分数(越低越好) SATLUTION进化出的求解器家族分数显著低于2025年人类冠军和亚军[7] 行业应用前景 - 该技术突破表明AI开发复杂软件的时代即将到来 能处理现实世界中庞大而复杂的系统工程[1][3] - 框架具备处理精密编译系统和无数相互关联模块的能力 在被誉为"计算理论基石"的NP完全问题上展现强大潜力[3][4] - 系统在迭代过程中同步自我进化其进化策略与规则 展现出高度稳定性和持续优化能力[4][19]
大模型智能体不止能写代码,还能被训练成白帽黑客
机器之心· 2025-09-11 03:36
大模型在网络安全领域的新范式 - Amazon AWS AI的Q Developer团队提出训练网络安全大模型的两种新方法Cyber-Zero和CTF-Dojo 实现AI在网络安全攻防中的实战应用 [2][3] - 闭源大模型如Google Gemini系列已展现漏洞发现潜力 但训练范式不透明且无法自主改造 存在潜在风险 [8] - 传统训练方式需搭建真实运行环境 成本高、风险大且高质量安全攻防数据稀缺 制约AI白帽黑客发展 [8] Cyber-Zero免运行时训练方法 - 核心思想是通过runtime-free training利用CTF竞赛writeups生成高质量行为轨迹 无需真实环境 [9][11] - 基于不同人格模拟攻防对话 攻击者生成利用路径 防御者进行应对 形成训练轨迹 [11] - 实验显示其训练效果与真实环境轨迹相当 部分指标更优 32B模型性能接近Claude-3.7-Sonnet但推理成本仅1% [13][15] - 关键发现:通用软件工程智能体无法直接迁移至网络安全任务 模型规模与性能正相关 [15] CTF-Dojo实战训练体系 - 构建可运行CTF攻防环境 智能体可直接执行命令并与系统交互 发现利用漏洞 [17] - 使用CTF-Forge工具自动搭建运行时 几分钟部署数百挑战实例 大幅降低人力成本 [17] - 基于pwn.college CTF Archive数据集 筛选658个独立任务实例覆盖六大漏洞类别 [19][21] - 通过推理增强技术收集1000+成功轨迹 最终获得486条高质量验证轨迹 [21] - 训练后模型在En IGM A+基准取得最高11.6%绝对提升 性能随样本增加持续提升 [22][24] 虚拟与实战结合的闭环体系 - Cyber-Zero提供安全可扩展的训练数据 CTF-Dojo提供实战演练环境 形成完整能力培养路径 [26] - 两者结合解决数据成本与能力迁移问题 推动AI网络安全应用落地 [26] 技术前景与挑战 - 应用场景包括企业安全自动扫描、红队演练测试、教育陪练等 有望实现普惠安全 [28] - 双重用途风险突出 免运行时方法降低训练门槛 可能被滥用于进攻目的 [28] - 未来方向包括构建实时更新CTF基准和强化学习交互 需平衡开放与安全 [29]
刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
机器之心· 2025-09-11 03:36
文章核心观点 - Thinking Machines Lab发布首篇研究文章指出大语言模型推理不确定性的根本原因是缺乏批次不变性而非浮点非结合性或并发性[1][17][41] - 通过实现批次不变性核函数可彻底解决LLM推理不确定性问题使模型在温度参数为0时产生完全确定性输出[41][86][91] - 确定性推理对强化学习训练至关重要可避免策略偏离实现真正的在策略强化学习[90][91] 公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2025年2月创立并推出博客栏目Connectionism致敬20世纪80年代连接主义学派[1][3] - 公司首篇博客由PyTorch核心开发者Horace He主笔其于2025年3月从Meta离职加入该公司[8] LLM推理不确定性现象 - 即使温度参数设为0大语言模型API仍无法保证确定性输出[11] - 开源推理库如vLLM或SGLang在自有硬件上运行同样存在非确定性采样问题[12] - 实验显示Qwen3-235B模型在1000次重复生成中产生80种不同结果最高频结果仅出现78次[85] 传统假设的局限性 - "并发+浮点"假设认为浮点非结合性与并发执行导致不确定性但未解释根本机制[13][14] - GPU矩阵乘法在相同输入下可保持位级一致性证明并发性并非主因[15][21] - 前向传播过程本身具有运行间确定性但系统级不确定性源于批次大小变化[39][41] 批次不变性原理 - 核函数输出结果受批次大小影响导致同一请求在不同服务器负载下产生差异[41][44] - 缺乏批次不变性的操作包括RMSNorm矩阵乘法和注意力机制[49] - 归约顺序随批次大小变化是打破不变性的关键因素例如RMSNorm中核心分配策略受batch size影响[52][56] 技术实现方案 - 矩阵乘法需固定核函数配置避免使用Split-K策略以保持批次不变性[63][67] - 注意力机制需确保KV缓存内存布局一致性并采用固定拆分大小策略而非动态调度[74][79] - 已开源批次不变性核函数库batch-invariant-ops并提供确定性vLLM示例[82][83] 性能与实验数据 - 确定性核函数使Qwen3-235B模型1000次生成结果完全一致首次差异出现于第103个token[86] - 未优化确定性vLLM在Qwen-3-8B模型推理中耗时42秒较默认配置26秒存在性能损耗但属可接受范围[88][89] - 确定性推理使强化学习训练KL散度降至0避免奖励崩溃问题[91] 行业意义 - 解决数值差异可提升科学实验可复现性并优化强化学习训练流程[90][91] - 呼吁社区深入理解系统底层机制而非容忍不确定性[94]
00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
机器之心· 2025-09-10 11:30
赛事概况 - 2025外滩大会AI科创赛于9月10日在上海落幕 包含人工智能硬件科创赛、AFAC金融智能创新大赛和全球AI攻防挑战赛三大赛道 共80个项目获奖[1] - 赛事规模达去年2倍 吸引全球近20个国家地区8000多支战队、近2万名参与者 其中00后选手占比超50%[1][3][4] - 大赛提供总额162万元奖金池 配套创新展示与资源对接渠道 冠军团队直通投资机构对接[4] 人工智能硬件赛道 - 首次增设人工智能硬件科创赛 聚焦AI智能硬件落地与市场化潜力 获奖项目涵盖AI数字医疗、老年人生活助理、编程拼图及陪伴玩具等领域[5] - 投资方高度认可项目成熟度与软硬件融合能力 指出AI+实体成为主流趋势[7] - 机器人职业技能表演赛展示具身智能应用 包括救援操作与多任务执行能力[7] - 首次引入大众评审机制 强调技术实用性与生活化应用[7] 金融智能赛道 - AFAC金融智能创新大赛依托真实业务场景与海量数据 推动光通信、卫星遥感、图计算等技术产业化[10] - 获奖项目聚焦反欺诈、反洗钱、信用评估等金融业核心痛点 提供跨学科解决方案[10] AI安全赛道 - 全球AI攻防挑战赛由学术机构与企业联合主办 聚焦数字身份认证安全 采用多模态攻防竞技模式[13] - 赛事积累海量生成样本 推动安全技术迭代 并开源全球首个多模态AI安全基准数据集OpenMMSec[13] - 推出"燧石人才计划" 通过直通offer吸引安全领域人才[13] 政策与产业支持 - 赛事获上海市科学技术委员会指导 覆盖AI技术到应用的完整生态 旨在推动项目落地与科创中心建设[15]
CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
机器之心· 2025-09-10 11:30
本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。通讯作者为香港大学数据科学研究院及电机电子工程系助 理教授杨言超。InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。 出发点与研究背景 在具身智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic): 无论具身智能体要 "关抽屉" 还是 "堆积木",系统提取的特征的方式始终相同(利用同样的神经网络参数)。 想象一下,一个机器人在厨房里,既要能精准抓取易碎的鸡蛋,又要能搬运重型锅具。传统方法让机器人用同一套 "眼光" 观察不同的任务场景,这会使得场景表 征中包含大量与任务无关的信息,给策略网络的学习带来极大的负担。这正是当前具身智能面临的核心挑战之一。 这样的表征提取方式与人类的视觉感知差异很大 —— 认知科学的研究表明,人类会根据任务目标和执行阶段动态调整注意力,把有限的感知资源集 ...