Workflow
量子位
icon
搜索文档
Meta超级智能实验室首篇论文:重新定义RAG
量子位· 2025-09-08 07:00
文章核心观点 - Meta超级智能实验室提出REFRAG高效解码框架 重新定义RAG技术 最高可将首字生成延迟加速30倍 [1][13][24] - 该框架通过压缩-感知-扩展流程优化长上下文处理 在保持准确性的同时显著提升推理效率 [14][27][28] - 技术突破解决RAG计算冗余问题 为AI应用规模化部署提供重要解决方案 [9][12][29] RAG技术背景与挑战 - RAG通过外部知识库检索增强LLM回答准确性 但存在推理效率与信息量的权衡问题 [6][7] - 长上下文处理导致计算复杂度呈平方级增长 首字生成延迟显著增加 [8] - 不同文档片段间交叉注意力得分低 标准Transformer架构却进行全局计算造成资源浪费 [12] REFRAG技术原理 - 压缩阶段用轻量编码器将文本块转化为向量表示 使输入序列从数千词元缩减至数百嵌入 [16][17] - 感知阶段通过强化学习策略网络智能识别需保留原始文本的关键信息块 [20][21] - 扩展阶段向LLM输入混合序列 结合压缩嵌入与原始文本实现高效解码 [22][23] 性能表现 - 首字生成延迟最高加速30.85倍 较先进方法提升3.75倍 [24] - 困惑度与下游任务准确率无性能损失 上下文窗口等效扩大16倍 [27][28] - 框架适用于多轮对话和长文档摘要等长上下文处理任务 [29]
英伟达推出通用深度研究系统,可接入任何LLM,支持个人定制
量子位· 2025-09-08 05:04
核心观点 - 英伟达推出通用深度研究(UDR)系统 支持用户完全自定义研究策略 无需额外训练或微调即可接入任何大语言模型(LLM)[1][6][13] - 系统通过自然语言编译生成可执行代码 将研究逻辑与语言模型解耦 显著提升计算效率和灵活性[11][13][19] - 当前版本仍存在策略执行准确性依赖模型代码生成质量 用户预设策略合理性 以及缺乏实时干预功能等局限性[21][22] 系统架构与功能 - UDR系统由用户界面和代理逻辑两部分组成 用户界面用于接收研究提示并实时更新进度 代理逻辑支持代码代理或LLM代理协调工具组合[7][16] - 支持自然语言定制研究策略 用户可用自然语言定义工作流并转换为可执行代码[12] - 采用与模型无关的架构 允许封装任何供应商或架构的大语言模型[13] - 提供用户可控策略驱动界面 支持实时修改策略 选择预设策略库 接收进度通知和查看分析报告[15] 性能优势 - 通过区分控制逻辑与语言模型推理提升效率 研究流程调度由CPU执行代码负责 避免成本高出数十倍的LLM推理开销[19] - LLM调用仅在处理代码变量中精简文本片段时触发 显著降低GPU资源消耗和执行延迟[20] - 支持用户自主设置资源优先级 验证信息权威性并控制搜索成本 弥补现有深度研究工具(DRTs)的不足[18] 应用潜力 - 突破智能体自主性限制 非常适合企业工作场景[4] - 可生成高价值行业需要的专业文档分析方案 解决现有DRTs功能僵化问题[18] - 允许用户将最新或最强大模型与智能体灵活组合 形成更强大的研究工具[18] 当前局限性 - 策略执行准确性完全依赖底层AI模型生成代码质量 模糊策略可能导致理解偏差或逻辑错误[21] - 默认用户预设策略合理且可执行 若策略设计不佳可能导致报告质量低下或无法生成[21] - 执行过程中不支持用户实时干预或调整方向 所有决策需预先设定 限制长时间探索性任务的灵活性[21][22] 未来发展 - 研究人员提出配备可修改策略库 探索用户控制语言模型自由推理过程 以及自动转化用户提示为确定性控制智能体等改进方案[23] - 系统目前处于原型阶段 未正式推出 但已提供带用户界面的研究演示原型在GitHub开源[3][25]
大模型破译甲骨文创下新SOTA!复旦团队推出新框架
量子位· 2025-09-08 05:04
复旦大学团队 投稿 量子位 | 公众号 QbitAI 让大模型破译从未见过的甲骨文,准确率拿下新SOTA! 来自复旦大学的研究人员提出了一种 基于部首和象形分析的可解释甲骨文破译框架 —— 不仅在公开基准数据集HUST-OBC和EV-OBC上,达到最先进的Top-10识别准确率以及优异的零样本破译能力。 而且面对未破译甲骨文,所提方法也能够输出可解释性的分析文本,从而为考古破译工作提供潜在帮助。 事实上,作为最古老的成熟文字系统,甲骨文长期以来因其稀有性、抽象性和象形多样性,给考古破译工作带来了重大挑战。 当前基于深度学习的方法在甲骨文破译任务上取得了令人鼓舞的进展, 但现有方法往往忽视了甲骨文字形与语义之间的复杂关联 。 这导致了有限的泛化能力和可解释性,尤其是在处理 零样本场景 和 未破译的甲骨文 时。 为此,本文提出了一种基于大型视觉语言模型的可解释甲骨文破译方法,该方法通过联合部首分析与象形语义理解,弥合了甲骨文字形与语意 之间的鸿沟。 下面具体来看—— 首个象形解析甲骨文破译数据集 概括而言,团队提出了一种渐进式训练策略,引导模型从部首识别和部首分析,过渡到象形分析,最后进行部首-象形交互分析,从而 ...
开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
量子位· 2025-09-08 05:04
衡宇 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 继π0后,具身智能基座模型在中国也终于迎来了真正的开源—— 我们调研了一圈发现,在4.2B参数规模下,融合了超大规模的高质量真机数据进行预训练的 WALL-OSS ,是唯一一个具备语言、视觉、动 作多模态端到端统一输出能力的开源具身模型。 如果你是搞具身的开发者,了解它的基本资料,你就一定不会想错过它: 它是一个 通用基础具身模型 ,泛化性和推理能力一流,你可以在自有本体上部署,快速微调后用起来。 它还是一个 多模态具身模型 ,输入与输出的数据,有语言、视频、动作等多种形态,具备良好的因果推理、空间理解和反思能力。 这一波操作,不香都难。 刚刚, WALL-OSS 宣布正式开源! 在多项指标中,它还超越了 π0。 它凭什么这么能打?我们得从背后的团队说起。 用最近的流行梗来说,模型"基础",背后团队就不基础——成立于2023年底的 自变量机器人 。 目前,分层架构与端到端模型是两条具身的主要技术路径。从成立起自变量就全身心押注后者。去年11月,团队推出了WALL-A,全球最大规 模的端到端统一具身大模型。 | 常到端架构 | 百亿级参数 | 跨任务爵 ...
OpenAI内部大重组!模型行为团队并入Post Training,负责人另起炉灶
量子位· 2025-09-08 05:04
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI又要成立新团队了! TechCrunch消息,OpenAI正在对其模型行为 (Model behavior) 团队进行重组。 模型行为团队,就是OpenAI内部专门塑造模型"个性"的核心研究小组。迄今已参与GPT-4、GPT-4o、GPT-4.5与GPT-5等版本的后训练工 作。 随着重组的进行,其创始负责人 Joanne Jang ,也正在组建一个名为 OAI Labs 的新研究团队。 作为模型行为团队改组行动的一部分,OpenAI将会成立新的OAI Labs。 其使命是"发明并原型化人类与AI协作的全新交互方式",重点不再局限于聊天或Agent模式,而是把AI视作"具备思考、创作、学习、连接能力 的工具"。 目前实验室仍处于组建早期,但已明确的研究方向包括两条主线。 其一是 交互层面的探索 ,团队将围绕"互动工具"这一概念,设计可直接操控、可复用且能在迭代中实时反馈的多模态原型,帮助用户更直观 地塑造模型意图、在创作流程中随时调转方向,并以可视化方式呈现AI的多种推理路径与中间结果。 其二是 行为层面的延续研究 ,OAI Labs吸收了原 ...
光刻机巨头ASML,108亿控股了一家大模型公司
量子位· 2025-09-08 03:05
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 光刻机巨头 ASML ,也来投大模型了。 就在刚刚,荷兰半导体设备巨头ASML正式成为法国AI明星公司 Mistral AI 的第一大股东,一口气砸下13亿欧元(约108亿元人民币)真金 白银。 这次ASML领投Mistral AI 的C轮融资总额17亿欧元(约142亿元人民币),直接把这家成立时长两年半的公司估值推高到100亿欧元(约835 亿元人民币),一举成为欧洲最值钱的AI公司。 更有意思的是,ASML不仅要掏钱,还要求 进董事会占一个席位 。 全球唯一能造EUV光刻机的半导体巨头,正式和"欧洲的OpenAI"深度绑定了。 Mistral的开挂之路 根据知情人士透露,这笔交易的谈判过程相当低调,双方都签了保密协议。 美国银行作为ASML的财务顾问,在整个过程中发挥了重要作用。 就在几周前,彭博社报道就透露Mistral AI的估值可能达到140亿美元(约119亿欧元或1000亿元人民币)的投前估值,最后来看ASML还是 拿到了一个相对合理的价格。 回顾Mistral AI的融资历程,速度可谓坐火箭。 从成立到百亿美元估值,Mistral AI只用了 ...
幸好图灵不是一位好棋手
量子位· 2025-09-07 07:00
图灵与国际象棋对AI发展的影响 - 图灵的国际象棋水平平庸 这使其与水平相当的唐纳德·米奇成为固定棋友并展开合作 [7][8][19] - 二人每周下棋时的闲聊话题围绕"学习型机器"和"机器下棋" 这些讨论对后来AI发展产生深远影响 [4][20] 博弈树算法与启发式搜索的起源 - 图灵与米奇合作开发博弈树算法 该算法成为后来AlphaGo的核心技术 [3] - 米奇基于破译密码的思路开发MACHIAVELLI算法 采用"走一步看一步"的受限搜索策略 [24][25] - 该策略后来被命名为启发式搜索 突破暴力计算方式 解决复杂问题的计算可行性 [33][34] 启发式搜索的应用与扩展 - 启发式搜索已应用于导航 物流 游戏规则制定 AI诊断等日常生活各个方面 [35] - 米奇与詹姆斯·多兰开发图遍历程序 解决从起点到终点的最佳路径问题 奠定AI中路径规划 博弈搜索 图像识别基础 [35][36] 国际象棋作为AI研究载体的价值 - 米奇强调国际象棋是AI研究的"果蝇" 适合研究机器中知识的表示和测量 [43] - 国际象棋提供定义明确且规范化的领域 挑战最高智力水平 可分解为子游戏进行单独分析 [42] - 米奇对国际象棋残局的研究在70 80年代许多项目中起关键作用 其博士生开发出ID3决策树学习算法 [44][45] 国际象棋与AI能力的关联性反思 - 国际象棋高手可能逻辑能力差 擅长国际象棋并不意味着在其他领域特别出色 [50][52] - 当前追求的AGI既不擅长下棋 也不善于伪装成人类 引发对AGI本质的思考 [53]
3999让机器人家务全包,抱抱脸联合创始人:开源YYDS!
量子位· 2025-09-07 04:36
产品概述 - 开源机器人项目XLeRobot以3999元人民币起售的低成本DIY套件为特色 具备家务全能功能包括擦桌子、浇植物和陪宠物玩耍 [1][2][4][6][8] - 项目被抱抱脸联合创始人Thomas Wolf公开推荐 在GitHub获得1600星标关注度 [9][30] 成本结构 - 基础版套件在美国/欧盟/中国分别售价约660美元/680欧元/3999人民币 含单目RGB摄像头和笔记本电脑连接方案 [13] - 可选升级组件:双目RGB摄像头增加30美元/30欧元/199人民币 RealSense RGBD摄像头增加220美元/230欧元/1499人民币 树莓派增加79美元/79欧元/399人民币 [13] - 核心硬件包含LeKiwi开源机械手、SO-100/SO-101机械臂、宜家RÅSKOG推车(249人民币)和Anker SOLIX C300电源站(899人民币) [13][16][17] 技术方案 - 采用LeRobot Sim2real训练框架 仅需单块4090 GPU在Maniskill模拟环境中进行1小时强化学习即可部署 [22] - 提供完整教程链:从Conda环境配置到相机可视化 再到机械臂控制系统部署 [22][24] - 使用17个STS3215舵机(单价97人民币)和4英寸全向轮(135人民币)等标准化组件 组装时间约4小时 [16][17] 商业化进展 - 计划下周在淘宝和京东平台面向开发者正式发售组装套件 [35] - 未来升级将采用模块化附加件形式 保持核心架构的扩展性 [33] 团队背景 - 创始人王高天(中国科大物理本科/莱斯大学机器人博士)曾与波士顿动力AI研究所合作开发Caging in Time框架 成果发表于IJRR顶刊 [38][41] - 团队含4名核心成员 分别负责RL仿真部署、文档网站搭建和Mujoco仿真模块 [42][43][44][45]
深度长文AI一键生成:实测字节扣子空间新功能
量子位· 2025-09-07 04:36
字节扣子空间产品定位 - 定位为深度长文写作加速器 专注于体系化思考与高效表达的结合 [2][3] - 目标用户为内容创作者 特别适合以内容为核心的自媒体快速生成深度文章 [32] 核心功能特性 - 一键优化提示词功能允许用户在已有模板上修改生成结果 [5][6] - 支持在线修改功能 文档生成前提供可修改的大纲 [27] - 输出格式支持PDF/MarkDown/Docx三种文件格式 支持一键生成文章配图/网页/播客 [28] - 对超过500字的内容采用产物式交付 以文件形式而非文本形式输出 [37] 内容生成能力验证 - 研究论文生成测试中 成功输出学术论文式结构内容 所有标注链接均可点开且附有详细搜索记录 [7][9][10] - 生成社会议题分析时输出中肯的深度内容 避免过多煽动性表达 [19][20] - 情感博客生成测试显示散文风格增强故事可读性 但存在中英文混杂的出戏问题 [21] - 旅游攻略生成能力突出 十分钟内可生成图文并茂内容 [22][24] 技术实现特点 - 生成的参考文献能与链接准确对应 有效避免幻觉问题 [11] - 具备超强搜索能力 单次搜索可返回4-12个结果 [11] - 支持多语言混合搜索 包括中英文术语混合查询 [11] 应用场景适配性 - 最适合资料整理型内容创作 十分钟内可生成丰富且有来源的深度文章 [32] - 不适用于故事创作 剧情生成测试输出结果更接近公众号内容而非故事体裁 [33][34] - 在生成打斗场景时会出现不符合情境的物体破坏统计等异常内容 [35] 市场定位差异 - 与通用AI写作工具形成差异化定位 专注于深度长文生产场景 [2][36] - 工具定位明确 辅助设计剧情/构建故事框架/整理资料 但不替代人类创作 [37][38]
大模型破译甲骨文创下新SOTA!复旦团队推出新框架
量子位· 2025-09-07 04:36
甲骨文破译技术突破 - 复旦大学研究人员提出基于部首和象形分析的可解释甲骨文破译框架 在公开基准数据集HUST-OBC和EV-OBC上达到最先进的Top-10识别准确率 并具备优异的零样本破译能力[1] - 该方法能够对未破译甲骨文输出可解释性分析文本 为考古破译工作提供潜在帮助[2] 甲骨文破译挑战与现有方法局限 - 甲骨文因稀有性、抽象性和象形多样性给考古破译工作带来重大挑战[3] - 当前深度学习方法忽视了甲骨文字形与语义之间的复杂关联 导致有限泛化能力和可解释性 特别是在处理零样本场景和未破译甲骨文时表现不佳[4][5] PD-OBS数据集构建 - 研究团队构建包含47,157个汉字的象形破译甲骨文数据集(PD-OBS) 其中3,173个汉字关联甲骨文图像 10,968个汉字提供古代隶书图像 所有汉字均配备现代楷书图像[7][9] - 数据集标注过程分为三阶段:通过《说文解字》检索部首标签和解释 利用GPT-4.1丰富部首标签并总结分析内容 最后通过自我检查和人工修正确保质量[10][11][12][13] 模型架构与训练策略 - 框架基于Qwen2.5-VL-7B构建 引入空间patch合并模块作为视觉适配器 并设计分类器预测部首标签[15] - 采用渐进式训练策略:从部首识别开始 接着进行部首和象形分析 最终实现联合分析[6][15][22] - 提出部首-象形双重匹配机制 从数据库中选择最合适字符替代直接输出 提升零样本性能[16][29][30][31] 实验性能表现 - 在HUST-OBC验证集上达到80.6% Top-1准确率和87.8% Top-10准确率 在EV-OBC验证集上达到76.3% Top-1和81.7% Top-10准确率[41] - 零样本场景表现突出:在HUST-OBC上Top-10准确率达53.7% 比次优方法高出26.2% 在EV-OBC上Top-10准确率达64.1% 高出13.6%[41][45] - 可解释性评估显示 该方法在验证集和零样本设置下的BERT-Score分别比GPT-4.1高出21.60%和12.95%[49][51] 技术应用价值 - 该方法对未破译甲骨文能生成语义合理预测并提供可解释分析 在考古研究中具有巨大应用潜力[67][72] - 构建的PD-OBS数据集包含47,157个注释汉字 为未来甲骨文研究提供宝贵资源[73]