机器之心

搜索文档
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
机器之心· 2025-09-18 01:01
模型性能与开源优势 - 通义DeepResearch在Humanity's Last Exam、BrowseComp、GAIA等多项权威基准测试中取得SOTA效果,综合能力对标并超越海外旗舰模型[1] - 30B-A3B轻量级模型在WebWalkerQA、FRAMES等基准测试中表现优于基于基础模型的ReAct Agent和闭源Deep Research Agent[1] - 实现模型、框架、方案全面开源,相比海外旗舰模型昂贵且受限的调用方式具有显著成本优势[1] 技术架构与训练方法 - 提出端到端Agent训练范式,覆盖Agentic CPT(增量预训练)→Agentic SFT(有监督微调)→Agentic RL(强化学习)全流程[3][17][18] - 采用基于GRPO的定制化强化学习算法,通过token级策略梯度损失函数和留一法降低优势估计方差[21] - 使用128K上下文长度支持多轮交互,在ReAct模式(思考-行动-观察)基础上创新开发Heavy深度模式[11][12] 数据策略创新 - 开发全合成数据生成方案,不依赖人工标注即可大规模生成高质量训练数据[5] - 通过知识图谱随机游走和表格数据融合构建开放世界知识记忆,基于实体锚定生成多风格(问题,答案)对[6] - 采用自动化数据引擎生成"博士级"研究问题,通过策略性信息隐藏和集合论建模系统提升问题复杂度[9] 推理模式突破 - Heavy模式采用IterResearch范式,将任务解构为多轮研究,每轮重构精简工作空间保持认知焦点[13][14] - Research-Synthesis框架支持多IterResearch Agent并行探索同一问题,整合报告提升答案准确性[15] - 基础ReAct模式无需提示工程即可释放模型能力,深度模式进一步探索复杂推理与规划上限[3][12] 基础设施与应用落地 - 构建仿真训练环境替代实时Web API,基于离线维基百科数据库和自定义工具套件提升研发效率[27] - 开发统一工具沙盒通过缓存、重试和饱和响应机制确保工具调用稳定性,防止错误响应干扰学习轨迹[27] - 在高德App地图导航+本地生活场景落地应用,基于纯agentic+ReAct技术提供复杂查询体验[28] 行业应用案例 - 通义法睿法律智能体在答案要点质量(88.28分)、法条引用质量(81.01分)、案例引用质量(64.26分)三大维度均超越OpenAI(88.25/75.83/57.56)和Claude(85.30/76.11/40.43)[30][31] - 司法DeepResearch能力支持多步查询与复杂推理,实现类案检索、法条匹配与专业观点融合[30] - 过去六个月每月持续发布技术报告,累计发布五篇,本次同步发布六篇新报告及开源模型[33]
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
机器之心· 2025-09-18 01:01
在机器人与智能体领域,一个长期的挑战是:当你给机器人一个「去客厅把沙发上的书拿来」或者「沿着楼道走到门口,再右转」这一类指令时,机器人能不能 不仅「看见环境」,还能「理解指令」、「规划路径」、然后「准确执行动作」? 之前的许多方法表面上看起来也能完成导航任务,但它们往往有这样的问题:推理(reasoning)的过程不够连贯、不够稳定;真实环境中路径规划与即时控制之间 难以兼顾;在新的环境里泛化能力弱等。 Nav-R1 出场:什么是 Nav-R1? 这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文,提出了一个新的「身体体现式(embodied)基础模型」(foundation model),旨在让 机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说,它不仅「看到 + 听到+开动马达」,还加入清晰的中间「思考」环节。 核心创新 1.Nav-CoT-110K:推理轨迹的冷启动(cold-start)基础 在强化学习阶段,Nav-R1 不只是简单地奖励「到达目的地」,它引入了三种互补的奖励机制,使得行为更精准、更有 ...
刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
机器之心· 2025-09-17 17:00
机器之心报道 机器之心编辑部 太令人意外! 却又实至名归! 最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。 也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。 这篇Nature论文通讯作者 正是梁文锋。 论文链接: https://www.nature.com/articles/s41586-025-09422-z 在封面的推荐介绍中,Nature 写到: 如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但 这对人工智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入下 训练一个模型,并使其进行推理。 DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推 理——逐步解决问题并 ...
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
机器之心· 2025-09-17 09:37
核心观点 - 蚂蚁百灵大模型团队开源MoE大模型Ling-flash-2.0 以总参数100B、激活仅6.1B的轻量级配置 在多个权威评测中展现出媲美甚至超越40B级别Dense模型和更大MoE模型的卓越性能 [1] - 通过极致的架构设计与训练策略 在推理速度、任务性能、部署成本之间找到新平衡点 为当前大模型参数膨胀趋势提供高效、实用、可持续的新路径 [1] 架构与性能优势 - 采用MoE架构 通过稀疏激活机制实现1/32激活比例 每次推理仅激活6.1B参数 计算量远低于同性能Dense模型 [4][6] - 实现7倍以上性能杠杆 6.1B激活参数带来约40B Dense模型的等效性能 [4][10] - 推理速度提升3倍以上 在H20平台上实现200+ tokens/s的高速生成 输出越长加速优势越明显 [9] - 通过专家粒度调优、共享专家机制、sigmoid路由+aux-loss free策略等技术优化架构设计 [6] 任务性能表现 - 在AIME 2025、Omni-MATH等高难数学推理任务中展现出稳定的推理链路与多步求解能力 [14] - 在LiveCodeBench、CodeForces代码生成任务中表现优于同规模模型 部分任务超越GPT-OSS-120B [14] - 前端研发能力通过大规模RL训练+视觉增强奖励机制 在UI布局、组件生成、响应式设计等任务中实现功能与美学双重优化 [14][19] - 在金融建模、工业调度、供应链优化等数学优化任务中展现实际解决问题能力 [38] 训练与数据体系 - 基于统一数据湖宽表设计的AI Data系统 支持样本级血缘管理 完成40T+ tokens高质量语料处理 [31] - 精选20T+ tokens最高质量语料用于预训练 分为三个阶段:10T高知识密度语料夯实基础、10T高推理密度语料提升推理能力、扩展至32K上下文引入思维链类语料 [31][36] - 词表从128K扩展至156K 新增大量多语言token 引入30个语种高质量语料提升跨语言理解与生成能力 [34] - 采用自研Ling Scaling Laws优化超参数配置 使用WSM调度器替代传统WSD调度器提升下游任务表现 [32] 后训练创新 - 通过解耦微调设计 同时学习即时回答与深度推理两种模式 覆盖数理科学、创意写作、情感对话、社科哲思等多个领域 [38] - 提出ApexEval评测方法 聚焦知识掌握度与推理深度 筛选最具探索潜力模型进入强化学习阶段 [39] - 采用演进式RL技术 以简洁思维链为起点 根据问题复杂度动态解锁更深层推理能力 [40] - 构建组内竞技场奖励机制 结合RubriX多维度评价标准 提升模型人性化与情感共鸣能力 [40] 开源与部署 - 开源Ling-flash-2.0对话模型和Base模型 为研究者和开发者提供灵活使用空间 [47] - Base模型在多个榜单展现强劲性能 具备良好知识压缩与推理能力 适用于下游任务微调与定制 [48] - 支持CLI接入 可方便融合到Qwen Code等服务中 [28]
没想到,音频大模型开源最彻底的,居然是小红书
机器之心· 2025-09-17 09:37
开源AI音频模型发展现状 - 近几个月国内科技公司开源成为主旋律 七八月国内厂商接连开源33款和31款各类型大模型 主要集中在文本、图像、视频、推理、智能体及世界模型领域 音频生成占比很小[1] - 音频生成面临技术和数据特殊挑战 音频信号计算建模复杂 数据获取难度更大 同时出于安全版权风险考量 OpenAI、ElevenLabs等主流玩家选择闭源或半开源[2] 小红书音频开源技术成果 - 小红书技术团队自去年起在音频领域保持稳定开源节奏 推出FireRedTTS和FireRedASR等系统级音频能力 取得SOTA级别效果并具备工业级可商用属性[3] - FireRedTTS语音合成系统构建基座语音合成框架 只需给定文本和几秒参考音频即可模仿任意音色和说话风格 实现自由定制[6] - FireRedASR语音识别系统包含两个模型 FireRedASR-LLM追求极致识别精度 FireRedASR-AED兼顾准确率与推理效率[6] - 在AISHELL-1/2、WenetSpeech等中文普通话测试集上 FireRedASR字错率(CER)为3.05% 优于豆包Seed-ASR的3.33%和阿里通义Qwen3-ASR-Flash的3.52%[7][8] - 新一代FireRedTTS-2解决语音合成现有方案痛点 在音色克隆、交互式对话和播客生成的主客观测评中实现行业领先 成为当前最强开源播客生成大模型[9][11] - FireRedTTS-2在zero-shot播客生成中全面优于MoonCast、ZipVoice-Dialogue、MOSS-TTSD等开源竞品 支持4位说话人多轮对话生成 可通过扩展数据进一步扩展[14] - 推出业内首个完全开源的全双工语音对话系统FireRedChat 在智能判停与延迟等关键指标达到开源SOTA 端到端性能接近工业级水准[17] - FireRedChat一站式提供VAD、ASR、TTS、上下文感知TTS、音频LLM、Dify支持等核心模块 支持私有化部署 为非专业人士提供快速部署语音助手能力[17] 小红书开源战略布局 - 小红书通过开放高质量音频模型提升技术影响力与话语权 将开源作为长期战略布局 构建高粘性音频大模型开源社区[4] - 围绕文本转语音、语音识别和语音对话形成完整技术栈 探索出以FireRedASR技术为支撑的语音评论等新功能 提升用户粘性与互动趣味性[18] - 开源覆盖语音交互核心环节 从TTS、ASR到语音对话技术矩阵日趋完善 未来计划推出音乐大模型FireRedMusic、多语种语音识别系统FireRedASR-2及音频感知大模型[22] - 开源从模型层走向体系层 扩展至全链路模块 提供系统化能力 降低开发者集成与部署门槛 扩大音频生态创新边界[22] - 目标是建立首个工业级可商用音频大模型开源社区 涵盖语音识别理解、语音音效生成、全双工语音交互、音乐理解生成四大方向[23] - 工业级可商用属性释放更大价值 开发者和企业用户可直接部署使用 缩短技术到产品周期 降低试错成本[23] - 通过开源生态与全球开发者协同进化 推动行业标准演进 为全球创作者创造价值 开启内容生产新范式[23] 开源生态行业影响 - 开源让先进AI能力不再被少数巨头垄断 沉淀为行业共享底层资源 推动大模型技术跃迁[25] - 在开源生态中 模型框架和工具快速迭代自由组合 通过更多创新尝试加快新技术落地 尤其在AI应用长尾场景中 社区广泛参与推动AI从实验室走向产业化[25] - 小红书通过开源持续推动音频大模型技术演进 释放前沿能力 实现技术平权 为开发者和中小企业提供平等技术起点[25] - 在开源生态主导权上的长远布局 为小红书在未来AI音频市场竞争中抢占先机[26]
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
机器之心· 2025-09-17 09:37
并行思维技术突破 - 腾讯AI Lab等机构首创Parallel-R1框架 通过强化学习实现大模型并行思维能力 解决监督微调方法的泛化难题[2][9] - 框架采用渐进式课程设计 从简单数学题(GSM8K)生成并行数据成功率83.7% 复杂难题(DAPO)成功率0.0%[10][12] - 交替式奖励策略平衡准确性与多样性 使并行思维使用率达63.0% 同时在AIME测试中取得最佳性能[13][14] 性能提升表现 - 在AIME25测试中实现42.9%性能飞跃 AIME24准确率提升至42.2% AMC23达91.5%[17][26] - 平均准确率提升8.4% MATH基准测试达84.5% 显著超越单一思维模型[2][17] - 两阶段训练策略使模型在减少并行格式依赖后 准确率仍持续攀升至25.6%[26][28] 技术实现机制 - 渐进式课程分两阶段:先通过SFT学习并行格式语法 再通过RL泛化到复杂任务[19] - 奖励系统设计:80%时间采用准确率奖励 20%时间采用分层奖励(并行正确+1.2分 非并行正确+1.0分)[19] - 模型思维策略动态演化:从早期探索阶段的多路径并行 转变为后期验证阶段的答案复核[18][20][22] 应用价值拓展 - 并行思维作为临时训练脚手架 可帮助模型探索更优能力区间 即使后续停止使用仍保持性能增益[24][26] - 框架突破人工合成数据依赖 避免复杂数据管道构建需求 提升方法可扩展性[7][10] - 技术适用于大模型、强化学习、AI系统架构等方向 具备规模化潜力与长期价值[39][47]
「AI助手」真来了?谷歌牵头推进Agent支付协议AP2
机器之心· 2025-09-17 09:37
机器之心报道 机器之心编辑部 近日,Agent 领域再次传来新进展,谷歌宣布推出 Agent 支付协议 ——AP2(Agent Payments Protocol ),这是一种开放的共享协议,为 Agent 和商家之间安全合 规的交易提供通用语言。 换句话说,这一协议是用于 AI Agent 跨平台主导发起与处理的购买支付,为每笔交易提供可追溯的记录。 具体来看,AP2 可视为是 A2A 协议和 MCP 协议的扩展。 今年年初,Manus 在全球范围内掀起 Agent 热潮,带着 MCP 协议变热,而这一协议是由 Athropic 于 2024 年 11 月推出,为的是让 Agent 更好与外部资源、工具、 API 接口集成,使 Agent 能够具备更多的能力。 之后今年 4 月,谷歌推出了开放的 A2A(Agent2Agent)协议,这面向的是 Agent 与 Agent 之间的「交互」,基于这一协议,Agent 之间可以相互协作、一起完成 复杂任务。 其实很好理解,虽然 Agent 成为今年 AI 主流叙事,开启「百 Agent 混战」模式,但更多是聚焦垂类,距离通用还很遥远,如果用户想要处理一件事情需要 ...
LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
机器之心· 2025-09-17 04:00
大模型开源开发生态全景图2.0核心变化 - 全景图收录114个项目 较上一版减少21个 覆盖22个领域 其中39个为新晋项目 60个项目被淘汰[7] - 生态中位年龄仅30个月 平均寿命不足三年 62%的项目诞生于2022年10月"GPT时刻"之后 包含12个2025年新项目[10] - 分类框架从Infrastructure/Application进化为AI Agent/AI Infra/AI Data三大板块 反映行业以智能体为中心的技术趋势[15][16] 项目活跃度与更替 - PyTorch以92,039个Star位居榜首 vLLM以53,912个Star位列第二 新晋项目GERTINI获得66,881个Star[11] - TensorFlow因迭代迟缓退出市场 PyTorch实现生态统一[8] - 头部前十项目覆盖模型生态全链路 平均Star数接近3万 远超历史同期开源项目[10] 开发者地域分布 - 全球366,521位开发者中 美国占37.41% 中国占18.72% 中美合计贡献超55%[17][20] - 美国在AI Infra领域贡献度达43.39% 为中国的两倍 在AI Data领域优势更明显[18][19] - 中国在AI Agent领域贡献度达21.5% 与美国24.62%接近 反映应用层投入集中[23] AI Agent领域演进 - AI Coding成为最活跃赛道 完成从"补代码"到"全生命周期智能引擎"的跨越 支持多模态与团队协同[43] - Chatbot领域经历高光后回归理性 Lobe-Chat保持64.7k Star Cherry Studio以"个人知识助理"定位逆势上榜[50][53] - Agent Workflow Platform向基础设施演化 Dify提供从原型到生产的一站式平台 RAGFlow等项目快速走红[54][57] - Agent Tool领域爆款频出 Browser-use9个月获60k Star mem0解决记忆管理问题 Supabase成为GenAI数据基础设施[57] AI Infra技术趋势 - Model Serving持续高热 vLLM和SGLang主导云端推理 NVIDIA TensorRT-LLM绑定GPU硬件巩固算力优势[62][66] - 本地化推理快速发展 ollama使大模型可运行于个人设备 GPUStack等新框架持续涌现[68][70] - LLMOps接棒MLOps 成为2025年增长最快赛道 Phoenix/Langfuse等项目覆盖监控至工作流管理全环节[71][72] - 模型训练热度回落 社区更关注低成本微调方案如Unsloth集成QLoRA[78] AI Data领域状态 - 技术成熟度较高 多数项目诞生于2014-2020年 Chroma成为少数抓住RAG机遇的新秀[82] - 向量数据库等基础组件缺乏突破点 Milvus/Weaviate/Elasticsearch等已成为标准拼图[86] - 企业级场景特性使开发者关注度难以维持 但向量化/RAG/多模态处理正推动数据平台向智能中枢演进[87] 开源许可模式演变 - 新项目多采用限制性许可协议 保留许可方干预权 Dify使用BSL变体 n8n采用Fair-code条款[92][93][94] - 部分项目按用户规模设限 月活超阈值需重新授权 GitHub出现代码闭源但获高星现象[91][94] 大模型技术发展动向 - MoE架构成为主流 DeepSeek/Qwen/Kimi等模型参数达万亿级 推理时仅部分激活[101] - Reasoning能力成为标配 DeepSeek R1通过强化学习增强推理 Qwen/Claude引入"快思慢想"混合模式[102] - 多模态全面爆发 语言/图像/语音交互成基础能力 语音模态工具链Pipecat/LiveKit Agents快速完善[103][104] - 模型评价体系多元化 从人工投票平台转向OpenRouter等API网关的"数据投票"排行榜[106]
突破单链思考上限,清华团队提出原生「并行思考」scale范式
机器之心· 2025-09-17 00:07
大语言模型推理瓶颈与突破 - 当前大语言模型依赖深度思考策略,通过增加测试时计算量生成长思维链来提升复杂推理能力 [2] - 但该路径面临明显瓶颈:计算资源持续投入后性能提升微乎其微甚至停滞 [3] 隧道视野现象 - 性能瓶颈源于顺序推理策略的根本缺陷,即"隧道视野"现象:模型在生成思维链初期一旦出现瑕疵,就会被锁定在次优推理路径难以纠正 [6][12] - 实验证明错误前缀越长,模型拨乱反正得到正确答案的概率越低 [12] 并行思考新范式 - 清华大学AIR团队提出原生并行思考方案ParaThinker,通过训练模型在一次推理中同时生成和综合多个推理路径规避隧道视野问题 [4][6] - 与串行扩展计算深度相比,并行扩展计算宽度被证明是更有效高效的推理策略 [7] ParaThinker技术框架 - 引入专用可控Token(如<think i>)显式引导开启独立思考路径确保多样性 [19] - 设计思维特定位置嵌入(Thought Embedding)解决多路径位置信息混淆问题 [19] - 采用两阶段注意力掩码:并行阶段限制路径内部注意力,汇总阶段开放全局注意力 [19] - 关键工程优势:汇总阶段重用并行推理生成的KV缓存,延迟开销极低(8倍路径数增加仅导致约10%延迟增长) [17][24] 性能提升数据 - 1.5B参数模型使用8条并行路径在AIME/AMC/MATH-500等基准上平均准确率提升12.3%(从基准值提升至63.2%) [23][24] - 7B模型使用8条并行路径平均准确率提升7.5%(从基准值提升至77.0%) [23][24] - 在AIME 2024任务中,1.5B模型准确率从26.1%提升至48.1%(提升22个百分点),7B模型从51.9%提升至68.8%(提升16.9个百分点) [24] 与传统方法对比 - 传统多数投票方法依赖可量化验证的答案格式,对开放式生成式任务束手无策 [20] - ParaThinker能智能整合提炼不同推理过程信息,处理不可分解的复杂任务 [20][21] - 与多数投票结合可达到更高正确率:1.5B模型在P=8时maj@16达到60.0%准确率 [27][28] 行业意义 - 预示LLM规模化发展将从单纯"深度"扩展转向更有效的"广度"扩展 [29] - 为处理代码生成、数学证明、复杂智能体工作流等开放式任务提供新范式 [20]
刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
机器之心· 2025-09-17 00:07
产品发布 - 斯坦福大学教授李飞飞的创业公司World Labs发布空间智能模型Marble的限量测试预览版 [1][11] - 用户可通过加入白名单访问预览版 白名单地址为https://www.worldlabs.ai/waitlist [8][9] 技术特性 - 模型支持通过单张图片或文本提示生成持久存在的3D世界 用户可自由导航探索且完全免费 [4][5][13] - 生成的世界规模更大、风格更多样化、几何结构更干净 支持从平面卡通到逼真图像的多种风格转换 [14][20][21] - 模型支持将生成的世界导出为高斯点云 通过Spark开源渲染库集成至Three.js实现多端兼容运行 [14] - 生成场景具备更丰富的几何复杂度 支持从输入视角背后或远处进行探索 超越深度图或点云的限制 [17] - 当前模型主要面向3D环境创建 暂不支持单个中心对象(如人物或动物)的生成 [18] 应用拓展 - 用户可通过组合多个生成结果构建更大世界 得益于模型在风格一致性和几何一致性上的进步 [15][25] - 以房间尺度为起点的世界可扩展至更宏大环境 支持空间拼接和连续导航浏览 [25]