机器之心

搜索文档
英伟达50亿美元入股英特尔,将发布CPU+GPU合体芯片,大结局来了?
机器之心· 2025-09-19 00:46
战略合作与投资 - 英伟达投资50亿美元收购英特尔5%股份 每股价格23.28美元[4][5] - 双方达成长期战略合作 共同开发多代定制数据中心及PC产品[4][5] - 合作重点为通过NVIDIA NVLink技术整合双方架构 结合AI加速计算与x86生态系统优势[4] 技术整合与产品规划 - 英特尔将为英伟达定制x86 CPU 集成至AI基础设施平台[5] - 英特尔将推出集成RTX GPU芯片组的x86系统级芯片(SoC) 支持高端PC产品[5] - 计划开发融合CPU与GPU的超级SoC 目标年销量1.5亿台的笔记本电脑市场[11] 市场反应与资本影响 - 消息公布后英伟达股价上涨3.49% 英特尔股价暴涨22.77%[6] - 英特尔当日交易量达5.24亿股 成交额163.86亿美元 市值达1427.7亿美元[6][7] - 对冲基金因重仓英特尔单日盈利超10亿美元[8] 历史背景与授权变化 - 英特尔2006年取消英伟达x86交叉授权 最终以15亿美元专利费和解[14] - 本次合作使英伟达重新获得x86架构授权[15] - 双方曾于2005年洽谈200亿美元收购未果[14] 潜在合作扩展 - 市场猜测英伟达可能利用英特尔芯片代工业务 目前主要依赖台积电[16] - 黄仁勋预估合作年商业机会规模达250-500亿美元[11] - 美国政府持有英特尔10%股权 软银以每股23美元认购20亿美元首次发行股票[10]
刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
机器之心· 2025-09-18 04:32
机器之心报道 编辑:杨文、+0 IMO 之后,OpenAI 与 Gemini 双双加冕 ICPC 2025 金牌。 就在刚刚,OpenAI 和 Gemini 都声称达到了 ICPC 金牌水平。 其中,OpenAI 在 5 个小时内解决了所有 12 个问题,相当于人类排名第 1 位,超过了所有参赛大学团队。 而 Gemini 解决了 12 个问题中的 10 个,总用时 677 分钟,达到了金牌水平,如果与人类团队比较,将排名第 2。 人类团队方面,俄罗斯圣彼得堡国立大学的参赛队伍排名第 1,解决了 11 个问题。北京交通大学、清华大学、北京大学、中国科学技术大学的参赛队伍分别排名 2、4、5、9。 | Rank | Name | Solved Time | | A | B | C | D | E | | G | H | I | 2 | K | L | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 1 | 91 St. Petersburg State Univ ...
从一个公众号智能体说起:好用的Agent,究竟需要什么?
机器之心· 2025-09-18 04:32
文章核心观点 - Agent行业正从概念讨论转向工程化落地 强调可靠平台和用户触达是实现价值的关键[8][28][36] - 腾讯云智能体开发平台ADP 30通过工业化流程解决Agent开发复杂性 近3个月完成近600个功能开发[12][16] - 企业应用Agent需突破"最后一公里"难题 无缝嵌入现有用户生态才能激发最大商业价值[29][31][36] Agent工业化平台能力 - 知识处理升级至Agentic RAG 智能体可自主规划多步任务 解决单一检索无法应对复杂查询的瓶颈[17] - Workflow支持全局Agent视野和节点智能回退 华住集团借此搭建38条工作流 实现超95%问答准确率[15][19][20] - Multi-Agent新增两种协同模式 包括工作流嵌入和Plan-and-Execute模板 提升复杂任务处理能力[21][24] 开放生态构建 - 模型广场支持腾讯混元及月之暗面 Minimax等三方模型 避免企业被单一供应商锁定[25] - 上架超过140个高质量插件 与腾讯云TI-ONE平台打通 实现模型一键同步[26] - 将开源优图实验室核心技术 包括Youtu-Agent框架和Youtu-GraphRAG知识图谱框架[26] 用户触达与商业应用 - 绝味食品AI会员智能体通过企业微信触达用户 销售业绩达人工组31倍 支付转化率提升24倍[31] - 微信生态内实现营销闭环: 企微触达-AI互动-小程序转化-数据沉淀 企微好友删除率降低47%[31] - 华住集团服务2.88亿会员和上万家门店 智能体5秒内响应需求并自动生成工单调度机器人[11][14][15] 行业发展趋势 - 竞争焦点从模型参数转向工程化与生态化能力 强调可靠工具链和用户触达路径[36] - 企业增长核心动力转向智能化提升产业效率 全球化提升市场效率[35] - Agent需从"对话"转向"干活" 实现从技术可行到商业可信的跨越[15][28]
OneSearch,揭开快手电商搜索「一步到位」的秘技
机器之心· 2025-09-18 04:32
文章核心观点 - 快手提出业界首个工业级部署的电商搜索端到端生成式框架OneSearch 通过融合大语言模型能力解决传统级联搜索架构在语义理解、个性化排序和冷启动场景的局限性 显著提升搜索准确性和用户体验 [4][5][36] 技术架构创新 - 提出关键词增强层次量化编码(KHQE)模块 采用RQ-OPQ混合编码方案生成5层商品语义标识(SID) 前3层通过RQ-Kmeans捕捉层次化语义特征 后2层通过OPQ量化残差向量保留商品差异化属性 [12][16][19] - 设计多视角用户行为序列注入策略 显式引入短期行为序列直接编码至模型输入 隐式通过QFormer压缩长期行为序列至(n, 768)维向量 解决传统用户ID缺乏语义信息的问题 [12][18][21] - 构建偏好感知奖励系统(PARS) 结合三阶段监督微调(语义对齐/协同对齐/个性化建模)与自适应强化学习机制 通过六等级用户行为划分和动态权重调节提升排序精度 [12][23][30] 性能提升表现 - 离线实验显示最终版本在HR@350指标上订单数据提升至66.46%(较基线51.74%提升14.72个百分点) 点击数据提升至71.06%(较基线64.40%提升6.66个百分点) [35] - 在线部署后订单量提升3.22% 买家数提升2.4% 商品点击率(Item CTR)提升1.67% 页面浏览量点击率(PV CTR)提升3.14% [36][37] - 机器计算效率(MFU)从3.26%提升至24.06% 相对提升8倍 线上推理成本(OPEX)降低75.40% [38] - 在中长尾查询场景表现突出 中频查询点击率提升2.27% 冷启动商品点击率提升3.31%(显著高于常规商品2.34%) [42] 技术实现细节 - 商品语义建模采用四任务对齐机制:Q2Q/I2I对比损失对齐协同相似对 Q2I对比损失增强语义相关性 Q2I边际损失学习行为级别偏差 LLM难样本纠偏保障相关性水位 [14] - 用户行为序列加权计算采用指数平方根加权公式 短期序列权重λ_i=exp(√i)/∑exp(√i) 长期序列权重μ_j=exp(√j)/∑exp(√j) [18] - 奖励模型设计保持与原精排模型结构一致性 采用Listwise DPO对齐用户偏好 通过近7天CTR/CVR动态调节样本权重 [30][32] 应用与拓展 - 系统目前已部署于快手多个电商搜索场景 每日服务数百万用户 处理数千万PV量级 [36] - 未来将探索在线实时编码方案 结合多模态特征强化推理能力 并优化强化学习机制以精准匹配用户偏好 [46]
B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
机器之心· 2025-09-18 04:32
最近在 B 站上,你是否也刷到过一些 "魔性" 又神奇的 AI 视频?比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音 色,连情感和韵律都做到了高度还原!更让人惊讶的是,它们居然全都是靠 AI 生成的! 英文版 甄嬛传他来 了 论文标题: IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech 让坦克飞 B 站开源 index-tts-2.0 长视频测试,效果真的强,曹操大战孙悟空 如果让 AI 开中文苹果发布会, indextts2 效果展示 据悉,这些视频都是运用了 哔哩哔哩 Ind ex 团队最 新开源的文本转语音模型 IndexTTS-2.0 , 这一模型从 demo 发布起,就在海内外社区引发了不少的关注。目前 该工作在 Github 已超过 10k stars 。 论文链接:https://arxiv.org/abs/2506.21619 近年来,大规模文本转语音(Text-to-Spe ...
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
机器之心· 2025-09-18 01:01
模型性能与开源优势 - 通义DeepResearch在Humanity's Last Exam、BrowseComp、GAIA等多项权威基准测试中取得SOTA效果,综合能力对标并超越海外旗舰模型[1] - 30B-A3B轻量级模型在WebWalkerQA、FRAMES等基准测试中表现优于基于基础模型的ReAct Agent和闭源Deep Research Agent[1] - 实现模型、框架、方案全面开源,相比海外旗舰模型昂贵且受限的调用方式具有显著成本优势[1] 技术架构与训练方法 - 提出端到端Agent训练范式,覆盖Agentic CPT(增量预训练)→Agentic SFT(有监督微调)→Agentic RL(强化学习)全流程[3][17][18] - 采用基于GRPO的定制化强化学习算法,通过token级策略梯度损失函数和留一法降低优势估计方差[21] - 使用128K上下文长度支持多轮交互,在ReAct模式(思考-行动-观察)基础上创新开发Heavy深度模式[11][12] 数据策略创新 - 开发全合成数据生成方案,不依赖人工标注即可大规模生成高质量训练数据[5] - 通过知识图谱随机游走和表格数据融合构建开放世界知识记忆,基于实体锚定生成多风格(问题,答案)对[6] - 采用自动化数据引擎生成"博士级"研究问题,通过策略性信息隐藏和集合论建模系统提升问题复杂度[9] 推理模式突破 - Heavy模式采用IterResearch范式,将任务解构为多轮研究,每轮重构精简工作空间保持认知焦点[13][14] - Research-Synthesis框架支持多IterResearch Agent并行探索同一问题,整合报告提升答案准确性[15] - 基础ReAct模式无需提示工程即可释放模型能力,深度模式进一步探索复杂推理与规划上限[3][12] 基础设施与应用落地 - 构建仿真训练环境替代实时Web API,基于离线维基百科数据库和自定义工具套件提升研发效率[27] - 开发统一工具沙盒通过缓存、重试和饱和响应机制确保工具调用稳定性,防止错误响应干扰学习轨迹[27] - 在高德App地图导航+本地生活场景落地应用,基于纯agentic+ReAct技术提供复杂查询体验[28] 行业应用案例 - 通义法睿法律智能体在答案要点质量(88.28分)、法条引用质量(81.01分)、案例引用质量(64.26分)三大维度均超越OpenAI(88.25/75.83/57.56)和Claude(85.30/76.11/40.43)[30][31] - 司法DeepResearch能力支持多步查询与复杂推理,实现类案检索、法条匹配与专业观点融合[30] - 过去六个月每月持续发布技术报告,累计发布五篇,本次同步发布六篇新报告及开源模型[33]
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
机器之心· 2025-09-18 01:01
在机器人与智能体领域,一个长期的挑战是:当你给机器人一个「去客厅把沙发上的书拿来」或者「沿着楼道走到门口,再右转」这一类指令时,机器人能不能 不仅「看见环境」,还能「理解指令」、「规划路径」、然后「准确执行动作」? 之前的许多方法表面上看起来也能完成导航任务,但它们往往有这样的问题:推理(reasoning)的过程不够连贯、不够稳定;真实环境中路径规划与即时控制之间 难以兼顾;在新的环境里泛化能力弱等。 Nav-R1 出场:什么是 Nav-R1? 这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文,提出了一个新的「身体体现式(embodied)基础模型」(foundation model),旨在让 机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说,它不仅「看到 + 听到+开动马达」,还加入清晰的中间「思考」环节。 核心创新 1.Nav-CoT-110K:推理轨迹的冷启动(cold-start)基础 在强化学习阶段,Nav-R1 不只是简单地奖励「到达目的地」,它引入了三种互补的奖励机制,使得行为更精准、更有 ...
刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
机器之心· 2025-09-17 17:00
机器之心报道 机器之心编辑部 太令人意外! 却又实至名归! 最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。 也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。 这篇Nature论文通讯作者 正是梁文锋。 论文链接: https://www.nature.com/articles/s41586-025-09422-z 在封面的推荐介绍中,Nature 写到: 如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但 这对人工智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入下 训练一个模型,并使其进行推理。 DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推 理——逐步解决问题并 ...
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
机器之心· 2025-09-17 09:37
核心观点 - 蚂蚁百灵大模型团队开源MoE大模型Ling-flash-2.0 以总参数100B、激活仅6.1B的轻量级配置 在多个权威评测中展现出媲美甚至超越40B级别Dense模型和更大MoE模型的卓越性能 [1] - 通过极致的架构设计与训练策略 在推理速度、任务性能、部署成本之间找到新平衡点 为当前大模型参数膨胀趋势提供高效、实用、可持续的新路径 [1] 架构与性能优势 - 采用MoE架构 通过稀疏激活机制实现1/32激活比例 每次推理仅激活6.1B参数 计算量远低于同性能Dense模型 [4][6] - 实现7倍以上性能杠杆 6.1B激活参数带来约40B Dense模型的等效性能 [4][10] - 推理速度提升3倍以上 在H20平台上实现200+ tokens/s的高速生成 输出越长加速优势越明显 [9] - 通过专家粒度调优、共享专家机制、sigmoid路由+aux-loss free策略等技术优化架构设计 [6] 任务性能表现 - 在AIME 2025、Omni-MATH等高难数学推理任务中展现出稳定的推理链路与多步求解能力 [14] - 在LiveCodeBench、CodeForces代码生成任务中表现优于同规模模型 部分任务超越GPT-OSS-120B [14] - 前端研发能力通过大规模RL训练+视觉增强奖励机制 在UI布局、组件生成、响应式设计等任务中实现功能与美学双重优化 [14][19] - 在金融建模、工业调度、供应链优化等数学优化任务中展现实际解决问题能力 [38] 训练与数据体系 - 基于统一数据湖宽表设计的AI Data系统 支持样本级血缘管理 完成40T+ tokens高质量语料处理 [31] - 精选20T+ tokens最高质量语料用于预训练 分为三个阶段:10T高知识密度语料夯实基础、10T高推理密度语料提升推理能力、扩展至32K上下文引入思维链类语料 [31][36] - 词表从128K扩展至156K 新增大量多语言token 引入30个语种高质量语料提升跨语言理解与生成能力 [34] - 采用自研Ling Scaling Laws优化超参数配置 使用WSM调度器替代传统WSD调度器提升下游任务表现 [32] 后训练创新 - 通过解耦微调设计 同时学习即时回答与深度推理两种模式 覆盖数理科学、创意写作、情感对话、社科哲思等多个领域 [38] - 提出ApexEval评测方法 聚焦知识掌握度与推理深度 筛选最具探索潜力模型进入强化学习阶段 [39] - 采用演进式RL技术 以简洁思维链为起点 根据问题复杂度动态解锁更深层推理能力 [40] - 构建组内竞技场奖励机制 结合RubriX多维度评价标准 提升模型人性化与情感共鸣能力 [40] 开源与部署 - 开源Ling-flash-2.0对话模型和Base模型 为研究者和开发者提供灵活使用空间 [47] - Base模型在多个榜单展现强劲性能 具备良好知识压缩与推理能力 适用于下游任务微调与定制 [48] - 支持CLI接入 可方便融合到Qwen Code等服务中 [28]
没想到,音频大模型开源最彻底的,居然是小红书
机器之心· 2025-09-17 09:37
开源AI音频模型发展现状 - 近几个月国内科技公司开源成为主旋律 七八月国内厂商接连开源33款和31款各类型大模型 主要集中在文本、图像、视频、推理、智能体及世界模型领域 音频生成占比很小[1] - 音频生成面临技术和数据特殊挑战 音频信号计算建模复杂 数据获取难度更大 同时出于安全版权风险考量 OpenAI、ElevenLabs等主流玩家选择闭源或半开源[2] 小红书音频开源技术成果 - 小红书技术团队自去年起在音频领域保持稳定开源节奏 推出FireRedTTS和FireRedASR等系统级音频能力 取得SOTA级别效果并具备工业级可商用属性[3] - FireRedTTS语音合成系统构建基座语音合成框架 只需给定文本和几秒参考音频即可模仿任意音色和说话风格 实现自由定制[6] - FireRedASR语音识别系统包含两个模型 FireRedASR-LLM追求极致识别精度 FireRedASR-AED兼顾准确率与推理效率[6] - 在AISHELL-1/2、WenetSpeech等中文普通话测试集上 FireRedASR字错率(CER)为3.05% 优于豆包Seed-ASR的3.33%和阿里通义Qwen3-ASR-Flash的3.52%[7][8] - 新一代FireRedTTS-2解决语音合成现有方案痛点 在音色克隆、交互式对话和播客生成的主客观测评中实现行业领先 成为当前最强开源播客生成大模型[9][11] - FireRedTTS-2在zero-shot播客生成中全面优于MoonCast、ZipVoice-Dialogue、MOSS-TTSD等开源竞品 支持4位说话人多轮对话生成 可通过扩展数据进一步扩展[14] - 推出业内首个完全开源的全双工语音对话系统FireRedChat 在智能判停与延迟等关键指标达到开源SOTA 端到端性能接近工业级水准[17] - FireRedChat一站式提供VAD、ASR、TTS、上下文感知TTS、音频LLM、Dify支持等核心模块 支持私有化部署 为非专业人士提供快速部署语音助手能力[17] 小红书开源战略布局 - 小红书通过开放高质量音频模型提升技术影响力与话语权 将开源作为长期战略布局 构建高粘性音频大模型开源社区[4] - 围绕文本转语音、语音识别和语音对话形成完整技术栈 探索出以FireRedASR技术为支撑的语音评论等新功能 提升用户粘性与互动趣味性[18] - 开源覆盖语音交互核心环节 从TTS、ASR到语音对话技术矩阵日趋完善 未来计划推出音乐大模型FireRedMusic、多语种语音识别系统FireRedASR-2及音频感知大模型[22] - 开源从模型层走向体系层 扩展至全链路模块 提供系统化能力 降低开发者集成与部署门槛 扩大音频生态创新边界[22] - 目标是建立首个工业级可商用音频大模型开源社区 涵盖语音识别理解、语音音效生成、全双工语音交互、音乐理解生成四大方向[23] - 工业级可商用属性释放更大价值 开发者和企业用户可直接部署使用 缩短技术到产品周期 降低试错成本[23] - 通过开源生态与全球开发者协同进化 推动行业标准演进 为全球创作者创造价值 开启内容生产新范式[23] 开源生态行业影响 - 开源让先进AI能力不再被少数巨头垄断 沉淀为行业共享底层资源 推动大模型技术跃迁[25] - 在开源生态中 模型框架和工具快速迭代自由组合 通过更多创新尝试加快新技术落地 尤其在AI应用长尾场景中 社区广泛参与推动AI从实验室走向产业化[25] - 小红书通过开源持续推动音频大模型技术演进 释放前沿能力 实现技术平权 为开发者和中小企业提供平等技术起点[25] - 在开源生态主导权上的长远布局 为小红书在未来AI音频市场竞争中抢占先机[26]