量子位

搜索文档
开源Agent模型榜第一名,现在是阿里通义DeepResearch
量子位· 2025-09-18 04:20
模型性能与开源情况 - 阿里开源旗下首个深度研究Agent模型通义DeepResearch 该30B-A3B轻量级模型在HLE BrowseComp-zh GAIA等多个权威评测集上取得SOTA成绩 超越OpenAI Deep Research和DeepSeek-V3.1等Agent模型 [1] - 模型 框架和方案均已全面开源 可通过Github Hugging Face和魔搭社区下载 [3] 数据策略 - 采用基于全合成数据的增量预训练和后训练策略 核心目标是不依赖昂贵人工标注即可大规模生成高质量训练数据 [4][5] - 通过Agentic CPT增量预训练为模型奠定Agent基础 开发系统化可扩展数据合成方案 形成数据生成正向循环 [6][7] - 基于知识文档 爬虫数据 知识图谱和训练轨迹等构建以实体为锚定的开放世界知识记忆 并构造多风格问题答案对覆盖真实场景 [8] - 基于多风格问题和历史轨迹构建规划 推理和决策三类动作数据 在离线环境下大规模探索推理-动作空间 消除对商业工具API调用的需求 [9] - 开发全自动合成数据生成方案 通过WebWalker WebSailor和WebShaper迭代保证数据质量和可扩展性 [11][12] 数据生成技术 - 通过知识图谱随机游走和表格数据融合从真实网站提取信息 通过策略性模糊隐藏问题信息增加难度 [14] - 将问答难度建模为可控原子操作 系统化提升问题复杂度 基于集合论形式化建模信息搜索问题 解决合成数据验证难题 [14] - 开发自动化数据引擎生成需要多学科知识和多源推理的博士级研究问题 通过工具配备和循环深化实现任务难度可控升级 [14] 推理模式 - 支持原生ReAct Mode和Heavy Mode ReAct Mode采用思考-行动-观察范式 128K上下文长度支持大量交互轮次 [15][16] - Heavy Mode基于IterResearch范式处理极端复杂多步研究任务 将任务解构为研究轮次 每轮使用上一轮关键输出重建精简工作空间 [17][18] - 迭代过程中整合关键发现形成核心报告并决策下一步行动 通过综合与重构保持认知焦点和高质量推理能力 [19][20] - 提出Research-Synthesis框架 多个IterResearch Agent并行探索同一问题后整合报告和结论以获得更准确答案 [21] 训练范式 - 革新Agent model训练流程 从Agentic CPT到RFT再到Agentic RL 打通全链路并引领新时代Agent model训练范式 [23][25] - 建立Agentic CPT→Agentic SFT→Agentic RL的端到端训练范式 重点通过强化学习完成最终优化 [27] 强化学习实践 - 基于GRPO进行定制优化 严格遵循on-policy训练范式确保学习信号与模型能力匹配 采用token级策略梯度损失函数优化目标 [30] - 使用留一法策略降低优势估计方差 选择性排除负样本避免训练不稳定和格式崩溃现象 [31] - 通过增大批次和组规模维持较小方差并提供充足监督信号 训练过程奖励呈持续上升趋势 策略熵维持高水平促进探索 [32][34] - Web环境非平稳性促进稳健自适应策略形成 无需显式熵正则化 [35] 数据质量与训练环境 - 数据质量和训练环境稳定性是Agentic RL成功的关键因素 合成数据提供一致性更高分布 使模型有效学习和拟合 [36][37] - BrowseComp人工标注数据噪声多且规模有限 模型难以提炼潜在分布 影响学习和泛化能力 [38][39] - 使用离线维基百科数据库和自定义工具套件创建模拟训练环境 通过SailorFog-QA-V2流程生成专属高质量数据 [44] - 开发统一工具沙盒确保训练评估期间工具稳定调用 通过缓存结果 重试失败调用和饱和式响应处理并发和故障 [44] - 实时优化数据并动态调整训练集 通过数据生成和模型训练的正向循环确保训练稳定性和性能提升 [44] - 基于rLLM实现异步强化学习训练推理框架 多个智能体实例并行与环境交互并独立生成轨迹 [44] 内部应用落地 - 赋能阿里巴巴内部应用包括高德出行Agent 高德地图导航+本地生活业务场景和丰富专用工具具备构建Agent土壤 [42] - 通义团队与高德团队共建合作 通义提供模型 高德提供工具和Agent链路 打造高德App助手小德的复杂查询体验 [43] - 通义法睿作为大模型原生法律智能体 升级司法DeepResearch能力 高效执行多步查询与复杂推理 [46] - 实现权威类案精准检索 法条智能匹配和专业观点深度融合 在法律问答的答案要点质量 案例引用质量和法条引用质量上领先行业 [46]
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万
量子位· 2025-09-18 00:51
核心成就与行业地位 - 公司成为首家登上《Nature》封面的中国大模型企业,创始人担任通讯作者,标志着中国AI研究的国际突破 [2] - 全球范围内仅有极少数企业(如DeepMind)曾通过AlphaGo、AlphaFold等成果获得类似荣誉 [3] - 模型被Nature认证为"首个经历同行评审的大型语言模型",开创行业先例 [5] - 研究被赞为"几乎影响所有在大语言模型中使用强化学习的研究",体现其方法论的开创性 [6] - 开源模型在Hugging Face下载量达1090万次,居开源模型下载量第一,GitHub Star数达91.1K [7] 训练成本与效率突破 - 总训练成本仅29.4万美元(折合人民币208万元),使用512张H800 GPU [5][10] - R1-Zero和R1分别训练198小时和80小时,按H800每GPU小时2美元租赁价计算 [10] - 具体成本分配:R1-Zero耗202K美元(101K GPU小时),SFT数据创建耗10K美元(5K GPU小时),R1耗82K美元(41K GPU小时) [11] - 660B参数规模的模型以不足30万美元成本完成,显著低于行业千万美元级投入 [12][13] 技术方法与架构创新 - 采用纯强化学习(RL)框架,仅基于最终答案正确性提供奖励信号,不依赖人工标注推理轨迹 [19] - 使用GRPO(Group Relative Policy Optimization)作为强化学习框架,提升模型推理能力 [19] - 通过多阶段训练:冷启动数据微调→强化学习训练→拒绝采样生成SFT数据→重新训练基础模型 [25][26] - 提出模型蒸馏技术,将大模型推理能力迁移至小模型(如Qwen2.5-32B),性能优于直接应用强化学习 [29] 性能表现与基准测试 - R1-Zero在AIME 2024上pass@1分数从15.6%提升至71.0%,多数表决后达86.7%,与OpenAI-o1相当 [21] - 在MATH-500测试中pass@1达95.9%,优于OpenAI-o1-0912的94.8% [23] - R1与OpenAI-o1-1217性能不相上下,在多项基准测试中达到顶尖水平 [27] - 蒸馏模型性能随参数规模提升:32B版本在AIME 2024 pass@1达72.6%,70B版本在CodeForces评级达1633 [30] 数据构建与安全性 - 数据集涵盖数学(26K题)、编程(17K题)、STEM(22K题)、逻辑(15K题)、通用(66K题)五类 [15][16][18] - 数学数据包含定量推理题和竞赛题,编程数据包含算法题和代码修复问题,STEM数据覆盖物理化生等多学科 [18] - 安全性评估显示模型固有安全水平与GPT-4o相当,结合风险控制系统后可进一步提升 [18] - 公开详细安全评估,涵盖多语言安全性、越狱攻击鲁棒性等维度 [22] 开源贡献与行业影响 - 公开R1和R1-Zero模型权重,并开源基于Qwen2.5和Llama3系列的蒸馏模型 [30] - 推动中国AI研究从顶会(如CVPR、ICLR)向Nature、Science级成果跃升 [7] - 低成本高效训练范式挑战行业"巨额投入才能打造顶级AI模型"的传统认知 [13]
ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三
量子位· 2025-09-18 00:51
这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。 在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上, OpenAI 的系统完美解决全部12道题目,若计入排名将 位居第一 。 谷歌 的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准 名列第二 。 这场顶级赛事汇集了来自全球103个国家、近3000所大学的139支顶尖队伍。 而AI系统在ICPC官方监督的独立"AI实验赛道"中,与人类选手面对相同题目和评测标准,表现非常抢眼。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 其中比较难的一道 "问题C" ,没有一个大学团队能够解决,Gemini和OpenAI的模型组合都解决了。 | Rank Name | Solved Time | | A | B | C | D | 트 | E | G | H | I | 기 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 81 St. Petersburg State University | ...
豆包大模型开始上车了!上汽荣威率先进入AI智舱新拐点
量子位· 2025-09-17 12:09
文章核心观点 - AI大模型正在重塑汽车行业 推动AI智舱发展 实现从被动指令到主动服务的转变 [1][5][12] - 豆包深度思考大模型首搭上汽荣威M7 DMH 重新定义人车交互模式 提供智能便捷的座舱体验 [3][13][20] - 车企与互联网大厂合作成为行业新趋势 上汽荣威凭借数据优势 硬件接口和创新精神成为豆包大模型首发合作伙伴 [24][27][30] AI智舱定义与需求 - 真正AI智舱需具备主动感知用户需求能力 识别模糊对话意图 执行复杂操作并保持长期记忆 [8][10][11] - 当前座舱系统存在三大局限:只能被动接受指令 无法解析复杂操作 缺乏长期记忆功能 [8] - 用户期待"千人千面"的智能服务 希望车辆成为移动出行空间而非单纯交通工具 [5] 豆包大模型技术特性 - 具备深度思考和推理能力 单刷高考新一卷数学144分 海淀模拟理科706分文科712分 [25] - 自适应思考模式可自动识别任务复杂度 自主切换思考时间 无需手动选择模式 [25] - 拥有记忆贯穿能力 能记住用户需求 车辆状态和地理位置信息 提供个性化服务 [16] 荣威M7 DMH具体应用 - 汽车大师功能精准解答新手车主问题 缩短产品熟悉周期 [15] - 多场景服务能力:用车顾问 百科导师 觅食搭子 哄娃助手等角色切换 [16][17][22] - 多任务协同处理:讲故事同时自动调节声量 温度和车窗状态 [18][19] - 支持本地与云端双存储路径 确保服务连续性和数据安全性 [16] 合作基础与行业影响 - 上汽荣威拥有近二十年数据积累 数十款车型 年销量数十万辆 提供丰富训练场景 [27] - SOA平台具备超320项车控能力 行业最多 为原子化服务组合提供基础 [27][29] - 打造业内首个云端NLP以大模型为主的对话链路 加速行业向AI智舱时代迈进 [23] - 代表汽车座舱转折点 从冰冷机械指令式交互转变为富有人感的对话式交互 [12][20]
腾讯披露元宝已是TOP3应用
量子位· 2025-09-17 11:06
文章核心观点 - 腾讯通过C端AI产品成功验证并逐步向B端落地 形成"好用AI"战略 同时加速全球化布局 通过基建投资和生态输出扩大国际市场份额 [4][17][19][27] C端产品进展 - 腾讯元宝上线一年多成为国内日活排名前三AI应用 用户日提问量达年初月总量水平 [5] - 腾讯元宝与微信 腾讯会议等10余款核心应用深度集成 成为AI生态连接器 [6] - 腾讯会议AI纪要功能用户量年增长超150% [8] - 混元实验室年推出30多个模型 混元翻译获30项国际第一 混元3D下载量超260万 [10] - 混元3D 3.0模型首创3D-DiT分级雕刻技术 建模精度提升3倍 几何分辨率达1536³ [12] B端应用落地 - 腾讯云CodeBuddy实现全流程AI一体化开发 内部新增代码50%由其生成 [18] - 美的通过腾讯会议日均举办2000场跨国会议 效率提升55% [18] - 华住集团采用AI酒店管家实现7×24小时客房服务 [18] - 阿斯利康利用医疗大模型构建一体化服务平台 [18] - 腾讯云智能开发3.0平台3个月完成近600项需求开发 提升RAG能力与插件生态 [15] 全球化战略 - 腾讯云投资1.5亿美元在沙特新建数据中心 布局11个区域办公室与9大技术支持中心 [24] - EdgeOne Pages适配多地区网络环境 兼容海外开发工具 上线3个月用户破10万 [25] - 输出经国内亿级用户验证的音视频技术 小程序平台及AI数字人解决方案 [21] 技术理念 - 强调"以人为本"的AI发展路径 注重提升工作效率 优化交互体验及提供情绪价值 [14] - 通过智能化提升产业效率 通过全球化扩大收入规模 形成双引擎驱动 [27]
小红书首次公开AI技术体系,为最大规模校招拼了
量子位· 2025-09-17 11:06
小红书2026校招规模与人才战略 - 公司启动有史以来最大规模校招 开放八大职类包括算法、研发、产品、数据、商业、运营、设计、职能 [1] - 技术岗位需求同比暴涨2.5倍 反映公司对技术人才的高度重视 [1] - 校招规模扩大源于两方面:公司处于高速发展期导致新业务和功能对人才需求激增 以及往届校招生快速成长为业务骨干的积极示范效应 [3] - 公司人才战略由社招向校招倾斜 表明其愿意从早期阶段陪伴年轻人才成长 [42][43] AI技术体系架构 - AI技术体系首次公开 分为五大核心板块:AI基础设施、基础模型、内容理解与创作、信息分发、社区守护 [4][7][16] - AI基础设施提供计算平台和数据处理框架支撑AI模型高效运行 [16] - 基础模型包含微调开源模型和自有基座模型 用于内容理解、推荐排序和个性化推送 [16] - 内容理解与创作板块运用AI处理图文生成和多模态内容 提升创作效率 [16] - 信息分发板块通过大模型优化搜索和推荐系统 实现精准内容推送 [16] - 社区守护板块运用AI技术维护社区生态健康与安全 [16] - 整个技术体系支撑着月活超3.5亿的UGC社区运营 [10] 搜索与推荐算法优势 - 搜索系统融合NLP语义理解与多模态技术 能同时处理文本、图片、视频等内容 [23] - 与传统搜索引擎不同 更强调社区互动价值 通过算法挖掘评论区深度互动内容 [15] - 突破关键词输入范式 支持自然语言提问 系统能结合用户历史行为与兴趣偏好提供个性化结果 [15] - 推出"问一问"功能 针对复杂问题通过NLP技术综合多篇笔记生成答案并附引用出处 [15] - 搜索系统不仅是信息检索工具 更是社区互动与知识获取的关键入口 [23] 算法体系多领域协同 - 算法体系涵盖信息处理与数据管理、推荐系统算法、多模态推理等多个关键领域 [24] - 多模态技术应用于翻译场景 使多语言翻译更快更自然且兼顾语境与文化习惯 [26] - 算法协同作用提升内容处理智能化水平 增强用户互动价值与信息获取效率 [25] 企业文化与人才培养 - 公司提供丰富文化活动 包括每季度约700场社团日、周五Pet日、REDacademy大师课等 [29][31] - 实施"薯光计划"为校招生提供两年期培养计划 帮助快速融入公司文化并与同事共同成长 [44][46] - 针对不同序列设立专属培养项目:产品类有RPT和RPG 技术类有RTC Alpha和Beta项目 [47] - 组织架构极度扁平化 专业线不设职级 赋予新人充分自主权以促进实践成长 [49] - 人才培养目标超越职业技能提升 更注重激发创造力与全方位成长 契合公司"Inspire Lives"理念 [50] 行业人才发展观点 - 企业选拔人才时更看重潜力而非经验 项目实践中的学习态度与投入度比学校标签更重要 [34][35] - 大模型领域商业落地空间大于前沿探索 对多数从业者而言抓住商业应用机会更为现实 [38] - 建议求职者结合兴趣方向塑造独特价值 同时关注外部发展实现脚踏实地与创新突破的平衡 [39]
稚晖君机器人炸场:全球首秀“真男人必会的韦伯斯特空翻”
量子位· 2025-09-17 11:06
机器人技术突破 - 灵犀X2成为全球首个完成韦伯斯特空翻的机器人 该空翻属于中高级水平动作 对腿部爆发力和协调性要求极高[1][2] - 机器人身高1.3米 全身25-31个自由度(完成空翻时去除头部 减少2个自由度)[13][14] - 采用强化学习训练Mimic策略 通过2D视频转换BVH动捕数据 再通过仿真环境训练RL policy 最终实现高精度执行 控制频率达1kHz[23][24] 运动性能表现 - 具备人类基本运动水平 可应对各种地形跑步 实现自主避障 并能快速调节全身稳定性抵抗外力冲击[16][17] - 完成空翻需要超过30个自由度协同控制 实现精确角动量分配和毫秒级姿态调整 验证了硬件高可靠性[23][25] - 基于统一Locomotion base-model训练 未来将推出zero-shot WBC(全身控制)模型[26] 产品系列布局 - 灵犀X2-W为轮式双臂作业机器人 可"盲走"上台阶并手持12斤物品 双腿六自由度 轮式模式能通过单边桥等复杂地形[28][30][31] - 灵犀X2-N支持轮式与足式双形态自由切换 适配不同地形场景需求[34] - 系列产品采用轮毂电机驱动 集成动态平衡系统和柔性材料 具备抗冲击设计[32][33] 商业化进展 - 灵犀X2预计2025年下半年规模化出货 2026年底出货量达数千台[36] - 公司定位机器人系统为1+3全栈能力:本体+运动智能/交互智能/作业智能[26] - 交互智能方面首创灵动交互概念 通过情感计算引擎和多模态Agent实现生成式动作表达 作业智能已具备实际部署水平[26]
AI在实时视频里秒“剪”出你想要的部分!输入文字/图/视频片段,它都能秒懂|ICCV2025
量子位· 2025-09-17 11:06
OVG-HQ团队 投稿 量子位 | 公众号 QbitAI 还在实时视频里找特定事件找半天?最新技术直接开挂了。 试想一下,安防监控中,几个人影短暂掠过,利用新技术可以秒级调出这段"可疑聚众"的精准片段。 △ 图片为AI生成 在VR训练场,你戴上VR眼镜练习投篮,提前在手机App输入"定位和这个视频示范 (库里完美三分片段) 相似的动作"。训练开始,每一次 出手,眼镜在后台默默分析第一视角视频流。当你做出动作、发力、弧线都神似库里的三分时,眼镜立刻就能在虚拟界面高亮标记这个片段。 △ 图片为AI生成 不卖关子,这就是来自深圳北理莫斯科大学、阿德莱德大学的研究团队提出的新任务。 名叫 混合模态在线视频定位 (Online Video Grounding with Hybrid-modal Queries, OVG-HQ) 。 用大白话说,这项技术能让系统一边直播/录像,一边根据你提供的多种"线索",包括文字、参考图、示范视频片段或组合等,瞬间在实时视频 流中找出并精准裁剪出你关心的完整事件。 论文已收录于ICCV2025。 "离线"是硬伤 :主流技术必须等视频录完才能干活,事后分析如同马后炮,无法满足安防"秒级响 ...
390亿美元,全球具身智能第一估值来了!英伟达持续加注中
量子位· 2025-09-17 11:06
西风 发自 凹非寺 量子位 | 公众号 QbitAI 与OpenAI分道扬镳后,Figure不仅技术进展一波接着一波,融资方面也有新进展了。 最新消息,C轮融资已拿到 超10亿美元承 诺资本,投后估 值高达390亿美元 ,一举创下当前公开信息中具身智能赛道的最高估值纪录。 本轮融资由Parkway Venture Capital领投,英伟达继续加注,Brookfield Asset Management、麦格理资本、英特尔资本、Align Ventures、Tamarack Global、LG Technology Ventures、Salesforce、T-Mobile Ventures、高通风投等也都有参与。 宣布好消息的同时,Figure不忘发布"招贤令",AI-Helix、BotQ制造、电气、设施、运营等13个方向开启招聘。 | | figure.ai | | | | | | --- | --- | --- | --- | --- | --- | | | Careers Figure | | | | | | | 招贤纳士 数字 | | | | | | | We're bringing the huma ...
@CEO,你的下一个私人助理何必是人类
量子位· 2025-09-17 03:43
鱼羊 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI CEO私人助理的活儿,也被Agent盯上了。 每天能独立更新出全公司的 日报版"今日头条" ,还是完全 本地部署 、 开箱即用 的那种: 本体甚至能被CEO拎着走。 没错,整个机箱就A4大小,跟iPhone 15 Pro Max对比起来是这样的: 不卖关子,这么个新鲜角色,名叫智跃Agent一体机。很有意思的一点是,这是市面上首个专门面向CEO打造的软硬一体私有化Agent,目标 用户非常明确。 不愧是"Agent应用元年",连AI新硬件都开始彰显"个性"了。 到底怎么一回事,量子位编辑部的同事们也是率先过了一把CEO瘾,咱们一边实测,一边看看2025年的AI新硬件,都进化成什么样的形态了 —— 开箱即用的"信息管理助手" 传统的一体机大家已经比较熟悉了,大体上是算力+模型供给的模式,基本上买到手里还是得给它配个专门的开发团队。 与之相比,智跃Agent一体机实际上属于一个 全新的概念,定位并不相同 。 在硬件层面,它采用小巧的12L机箱设计,搭载 单卡4090 ,可以说是超小型化的Agent方案。 所有数据处理、存储环节均可以在本地完成,无需依赖外 ...