机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

Scaling Laws起源于1993年？OpenAI总裁：深度学习的根本已揭秘

机器之心· 2025-09-02 06:32

扩展定律的历史溯源 - 人工智能扩展定律的起源可追溯至1993年贝尔实验室发表的NeurIPS论文，该研究通过在不同规模数据集和模型上训练分类器并拟合幂律，首次系统揭示了模型性能与资源投入的关联 [1][3][7] - 论文提出通过预测方法避免高成本训练过程，证明单层及多层网络中错误率与训练数据量在对数曲线上呈现规律性变化，为后续扩展定律奠定理论基础 [10][14] - 研究显示经过12000种模式训练后新网络性能超越旧网络，证明模型规模扩大可提升智能水平，该定律从早期机器学习延伸至现代万亿参数模型（如GPT-4）仍持续有效 [14] 关键研究者与贡献 - 论文一作Corinna Cortes学术引用量超10.4万次，与Vladimir Vapnik合作提出支持向量机（引用7.7万次），并参与构建MNIST数据集 [17][19][20] - Vladimir Vapnik总引用量达33.5万次，提出统计学习理论核心的Vapnik-Chervonenkis理论，其1995年著作《统计学习理论的本质》成为领域里程碑 [25][26] - Lawrence D Jackel（引用4.8万次）与Yann LeCun合作完成高引用的反向传播研究，Sara A Solla（引用1.6万次）提出《Optimal Brain Damage》论文推动神经网络规模优化 [21][23][24] - John S Denker为跨领域天才研究者，涉足量子物理、神经网络及航空安全，拥有多项专利及50余篇论文 [27][28][31] 学术脉络的早期探索 - 扩展定律概念可能早于1993年：心理学领域最早探索学习曲线，Vladimir Vapnik于1960年代已研究样本规模定律，Frank Rosenblatt 1958年感知器论文已描述学习曲线 [34][35][36] - 日本学者甘利俊一1992年论文证明普适学习曲线渐近行为，提出预测熵收敛规律〈e*(t)〉~d/t（d为参数数量），较贝尔实验室研究更早 [38][39] - 扩展定律的发展是跨学科长期积累的结果，从心理学、感知器理论到统计学习与神经网络，经OpenAI等机构大规模验证后形成系统化定律 [41]

扩展定律（Scaling Laws）

支持向量机

统计学习理论（Statistical Learning Theory）

Artificial Intelligence

统计学习理论（Statistical Learning Theory）

Artificial Intelligence

GPT - 4

MNIST数据集

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

机器之心· 2025-09-02 06:32

核心技术：SRCA框架及其优势 - 华为诺亚方舟实验室联合香港中文大学等机构提出逐步推理检查点分析框架，旨在解决现有测试时扩展方法存在的路径同质化和中间结果利用不足两大缺陷[2] - SRCA框架包含三大核心组件：检查点注入、答案聚类搜索和检查点候选增强，通过在推理步骤间引入“检查点”并集成新策略来提升模型推理能力[8][13] - 实验结果显示，SRCA框架加持的1B参数小模型在MATH500数据集上达到65.2%准确率，首次超越参数量70倍的70B大模型[25] 核心组件：检查点注入 - 检查点注入是SRCA的基础技术，核心思路是强制模型在每一步推理后暂停并输出阶段性答案，通过检测步骤结束符和插入特定提示语来实现[10][11] - 该方法收集的中间答案可代表模型当前的思考过程，并通过合理的KV Cache管理将推理状态回滚以避免重复计算，降低开销[12] 核心组件：答案聚类搜索 - 答案聚类搜索算法旨在防止“思路扎堆”，鼓励不同解法，它基于检查点答案对推理路径进行分组[14] - ACS采用双层筛选机制：先在组内按PRM总分择优，再在组间采用轮询调度方式从每组抽取最优路径，以保证解题路径的多样性[17] - 该策略仅需16次采样即可达到其他TTS方法128次采样的精度，在同等硬件条件下推理效率提升达8倍[25] 核心组件：检查点候选增强 - 检查点候选增强策略旨在抢救“半成品好答案”，通过收集所有中间检查点答案来辅助最终决策，即使路径未完成，其高质量中间答案也可参与最终投票[19][20] - CCA成功从中间步骤拯救了19.07%的正确答案，通过复用高质量中间结果构建了强大的错误容忍机制[25] - 具体示例显示，模型最终推理答案为9，但CCA通过识别第5步的检查点答案27并给予其最高分0.7192，从而修正了错误答案[21] 性能与效率提升 - SRCA相较于现有TTS方法在多个数学数据集上推理准确性均有提升，例如在OlympiadBench上也有优异表现[2] - 通过设置合理阈值，当候选池中出现超过阈值的检查点答案时可提前停止推理，平均节省27%的推理步骤，且准确率仅轻微下降0.58%[25]

Test Time Scaling（TTS）技术

大语言模型推理

Artificial Intelligence

SRCA（Stepwise Reasoning Checkpoint Analysis）框架

Test Time Scaling（TTS）技术

大语言模型推理

Artificial Intelligence

SRCA（Stepwise Reasoning Checkpoint Analysis）框架

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

机器之心· 2025-09-02 03:44

向量嵌入的技术原理与应用演进 - 向量嵌入是将文字、图片或声音等复杂信息转化为多维空间坐标点的技术，例如将“苹果”一词转化为一串几百维的数字以捕捉其语义 [2] - 该技术使相似概念在向量空间中彼此靠近，从而实现计算机对海量数据的快速搜索和比较 [2] - 嵌入技术最初主要用于检索任务，如搜索引擎中的相似文档查找和推荐系统的个性化推荐，随后其应用拓展至推理、指令遵循和编程等更复杂的任务 [4] 向量嵌入的理论局限性 - 向量嵌入的本质是将高维复杂概念强行压缩成固定长度向量，此过程不可避免地导致信息丢失 [4] - DeepMind研究结合几何代数与通信复杂度理论，证明向量嵌入能力存在数学下界：对于任意给定嵌入维度d，当文档数量超过临界点时，总存在一些相关文档组合无法通过查询同时召回 [6][7] - 该理论瓶颈表明嵌入模型存在不可逾越的限制，无法单纯依靠扩大模型规模来突破 [7] 理论局限对RAG系统的现实影响 - 检索增强生成（RAG）系统的工作机制是先用向量嵌入从知识库检索信息，再交由大模型生成答案 [9] - 当知识库规模足够大且问题需要多份文档共同回答时，即使最先进的嵌入模型也可能因维度不足而无法完整召回关键信息，导致大模型生成答案时受到错误或不完整上下文的干扰 [9] - 研究者构建的LIMIT数据集显示，即使任务简单如“谁喜欢苹果？”，SOTA嵌入模型也难以解决，在完整设置中模型recall@100难以达到20% [10][34] 实证研究与临界点分析 - 研究者采用“自由嵌入”优化方法，直接优化查询和文档向量以匹配测试集的qrel矩阵，展示可能出现的最高性能 [24] - 实验发现对于每个嵌入维度d都存在一个临界点，一旦文档数量超过该点，嵌入维度就不足以编码所有组合 [25] - 通过多项式回归曲线外推得到的临界n值显示，对于网页级搜索，即使理想测试集优化下，最大嵌入维度（如4096维对应2.5亿文档）也不足以建模所有组合 [26] SOTA模型在LIMIT数据集上的表现 - 评估的模型包括GritLM、Qwen 3 Embeddings、Promptriever、Gemini Embeddings、Snowflake的Arctic Embed Large v2.0以及E5-Mistral Instruct [34] - 在46个文档的小规模版本中，即使是recall@20，模型也无法解决该任务 [34] - 在训练集上训练模型几乎无法提升性能，表明性能较弱并非由领域迁移造成，而是任务本身难度所致 [37]

向量嵌入的理论局限性

Scaling Laws

Artificial Intelligence

向量嵌入（Vector Embeddings）

Artificial Intelligence

向量嵌入（Vector Embeddings）

检索增强生成（RAG）

LIMIT数据集

冲上热搜！美团大模型，靠「快」火了

机器之心· 2025-09-02 03:44

文章核心观点 - AI行业正从单纯追求模型性能转向注重实用性和效率重点关注如何在保证准确性的前提下降低算力消耗和提升响应速度[1] - 美团开源的LongCat-Flash模型通过架构创新和系统优化实现了高速推理和低成本部署成为实用化AI的代表作[5][42][64] 模型性能表现 - 在H800显卡上推理速度超过每秒100个token 实测达到95 tokens/s[6] - 在多项测试中达到与Claude 4 Sonnet(7.40分)和DeepSeek v3.1(6.30分)相媲美的7.70分性能[8] - 每百万输出token成本仅为0.7美元相比同类模型具有显著成本优势[15][42] 技术架构创新 - 采用混合专家模型架构总参数量5600亿仅激活186亿至313亿参数(平均270亿)[12] - 引入零计算专家机制根据token重要性动态分配计算资源减少简单token的计算浪费[19][21] - 创新快捷连接MoE(ScMoE)架构实现通信与计算并行降低50%的理论输出token时间[28][34] - 采用64头注意力机制(MLA) 显著减少KV缓存需求并实现压缩[47] 训练效率与稳定性 - 使用超过20万亿token训练数据训练时间不足30天系统可用率达98.48%[12] - 开发高效的模型扩展策略包括超参数迁移和模型增长初始化方法[33][35] - 实施多层次稳定性套件确保训练过程无不可恢复的损失骤增[37][39] 系统优化技术 - 设计单批次重叠(SBO)调度策略实现四阶段流水线执行[44][45] - 采用推测解码加速技术达到约90%的接受率[47] - 实施TV融合策略和重叠调度器最小化内核启动开销[48] - 应用细粒度块级量化方案优化性能-准确率权衡[50] 实际应用表现 - 首token输出延迟极低用户体验显著改善[58] - 在智能体应用中实现单轮工具调用延迟控制在1秒以内[53] - 联网搜索功能响应迅速并能附带引用来源确保信息可信度[61] 行业意义 - 代表AI行业从性能竞赛向实用导向转变的趋势[64] - 为预算有限的开发者和企业提供了可参考的技术路径[65] - 美团的技術投入一贯聚焦真实业务痛点此次开源延续了其实用化技术路线[65]

性能逼近闭源最强，通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

机器之心· 2025-09-02 03:44

文章核心观点 - 通义实验室发布全新Mobile-Agent-v3开源解决方案，包含GUI-Owl模型和配套框架，在桌面、移动和Web端实现全链路GUI自动化能力 [1] - GUI-Owl-7B模型在多项基准测试中超越同类开源模型，32B版本性能接近甚至超越GPT-4o和Claude 3.7等顶级闭源模型 [1][21][29] - 通过自我进化数据生产系统和可扩展强化学习体系，实现模型在真实环境中的持续优化和稳定运行 [11][13][23][26] 技术架构创新 - 基于云环境的全链路开源解决方案，支持Android、Ubuntu、macOS、Windows多操作系统云环境基础设施 [11] - 创新性采用自我进化GUI轨迹生产链路系统，自动化生成和筛选训练数据，将人工参与降至最低 [11][13] - 通过轨迹正确性评估模块（Step-Level Critic和Trajectory-Level Critic）实现双重校验机制 [13] - 针对困难任务生成指南生成模块，通过VLM提炼关键动作描述，LLM总结成通关攻略 [14] 性能表现数据 - GUI-Owl-7B在AndroidWorld基准测试中成功率达到59.5%，超越UI-TARS-72B的14.8%和Qwen2.5-VL-72B的52.6% [21] - GUI-Owl-32B在OSWorld-Verified子集测试中达到48.4%成功率，显著超过Seed-1.5-VL的39.7%和Qwen2.5-VL-72B的38.6% [21] - 32B版本在多项评测中展现超越闭源顶级模型的实力 [29] 核心能力构建 - 极致UI元素定位能力：构建复合型Grounding数据集，融合功能、外观、布局等多维信息 [16] - 深度长任务规划与动作语义理解：从历史成功轨迹中蒸馏经验，并从Qwen3-235B等大模型中学习通用规划知识 [19] - 强大稳健推理与泛化适配能力：从Mobile-Agent-v3多智能体框架中蒸馏推理数据，学会多角色视角思考 [20] - 采用SAM对PC界面进行子区域分割，MLLM进行精细定位，解决元素密集界面定位难题 [16] 强化学习体系 - 设计可扩展的环境级强化学习体系，采用统一任务插件接口支持长短任务 [23] - 引入Trajectory-aware Relative Policy Optimization算法，解决奖励信号稀疏和延迟问题 [26] - 采用Replay Buffer机制缓存成功案例，确保模型始终获得正向反馈 [26] - 经验生成与策略更新完全解耦，优化训练效率与成本平衡 [23] 应用价值 - 单一模型即可胜任复杂单体任务与多智能体协作中的不同角色，显著降低部署和资源开销 [29] - 天然具备跨环境、跨角色泛化能力，即插即用到第三方Agent框架仍保持优异性能 [20] - 通过云端沙箱灵活性，能够快速适应并解决各类新场景下的自动化难题 [29]

AI读网页，这次真不一样了，谷歌Gemini解锁「详解网页」新技能

机器之心· 2025-09-02 03:44

谷歌URL Context功能技术特点 - 使Gemini模型能够直接访问并处理来自URL的内容包括网页 PDF和图像[1] - 深度解析PDF 能理解表格文本结构甚至脚注[7] - 多模态理解能处理PNG JPEG等图片并理解其中图表和图示[7] - 支持多种网页文件格式 HTML JSON CSV等[7] - 单次请求最多处理20个URL 单个URL内容上限为34MB[5][29] 与传统AI处理URL方式的差异 - 传统方式通过通用浏览工具或搜索引擎插件读取网页摘要或部分文本[5] - URL Context通过API指令Gemini将URL全部内容作为权威上下文进行深度完整解析[5] - 专门为开发者设计的编程接口可实现更精准的信息提取效果[5][14] 对RAG技术的潜在影响 - 被评价为"RAG的又一颗棺材钉" 提供处理公开网络内容的简单替代方案[8][13] - 无需传统RAG流程中的文本提取分块矢量化存储等复杂步骤[13] - 开发者只需几行代码就能实现更精准效果无需搭建复杂管道[13][14] 实际应用表现 - 准确提取特斯拉50页财报PDF第4页表格中的总资产$93,941百万和总负债$39,446百万数据[14][17] - 能识别PDF末尾员工遣散信中被星号屏蔽的离职日期及脚注中的解释说明[20][22] - 采用两步检索流程优先从内部索引缓存获取内容未命中则进行实时抓取[25] 技术限制与行业趋势 - 无法处理需要登录或付费的"付费墙"内容[29] - 不处理YouTube视频 Google Docs等有专门API的内容[29] - 按处理内容Token数量计费引导开发者进行高效应用设计[27] - 反映基础模型正将外部能力内置化底层模型服务吸收原应用层数据处理工作[27]

谷歌(US:GOOG)

URL Context Grounding

URL Context Grounding

14B打败671B！微软rStar2-Agent在数学推理上超过DeepSeek-R1

机器之心· 2025-09-02 01:27

核心观点 - 微软研究院开发了rStar2-Agent主动式强化学习方法，通过高效基础架构、GRPO-RoC算法和优化训练方案，使14B参数模型在数学推理任务上达到或超越671B参数模型的性能 [2][12][25] 环境与问题描述 - 研究使用Python编程工具和解释器作为环境，拓宽模型行动空间并支持中间步骤验证 [6][9] - 环境复杂性引入噪声，错误代码导致反馈延迟和token浪费，仅结果奖励机制加剧低质量推理轨迹问题 [9] - 大规模训练需处理数万个并发工具调用，对基础设施要求极高 [9][10] 技术方案创新 - 构建高吞吐量代码环境，支持45K并发工具调用且平均反馈时间仅0.3秒 [14] - 采用动态负载均衡调度程序，根据GPU键值缓存容量分配请求以提升计算利用率 [15] - 提出GRPO-RoC算法：通过非对称采样保留故障模式作为负向信号，筛选高质量正向轨迹 [16][18] - 训练方案从非推理SFT开始，避免过拟合并保持响应简短，后续通过多阶段强化学习逐步提升难度 [21][22] 性能表现 - rStar2-Agent-14B在AIME24准确度达80.6%，超越o3-mini(medium)1.0%、DeepSeek-R1 0.8%和Claude Opus 4.0 3.6% [26] - AIME25准确度69.8%，HMMT25达52.7% [26] - 平均响应长度显著缩短：AIME24仅9339.7 token（对比DeepSeek-R1-Zero的14246.8 token） [29] - 泛化能力强：GPQA-Diamond科学推理达60.9%（超越DeepSeek-V3），BFCL v3工具使用任务60.8% [29] 训练效率 - 使用64块MI300X GPU一周完成训练 [16] - 仅需510个强化学习步骤达到前沿性能，远低于同类方法（如MiMo需175K步骤） [23][24]

自搜索强化学习SSRL：Agentic RL的Sim2Real时刻

机器之心· 2025-09-02 01:27

研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成，聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法，通过结构化提示和格式奖励有效提取模型世界知识，降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性，并验证接入真实搜索引擎后SSRL训练的模型表现更优，体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库，成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为，但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定，多轮工具调用导致rollout效率降低，外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识，在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率，在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列，与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限，增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标，通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励，防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型，训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练，SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率，在NQ上达到58.4%，在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率，在NQ上达到62.6%，在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果，发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%，Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长，显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法，根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能，Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升，Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上，Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]

机器之心· 2025-09-01 08:46

AI核心概念与学习方法 - 人工智能通过机器学习从数据中自行学习规律而非依赖预设规则核心方法包括有监督学习(使用标记数据训练模型) 无监督学习(从未标记数据中发现模式)和强化学习(通过试错和奖励机制优化行为策略) [9][12] - 2012年Google通过无监督学习使神经网络在观看海量YouTube视频后自发识别"猫"的概念成为深度学习里程碑事件 [11] - AlphaGo击败人类棋手和ChatGPT的崛起标志着AI技术进入爆发期深度学习依赖算力(GPU) 数据(互联网)和算法三要素共同推动 [6][69] AI技术基础能力 - 数学是AI底层逻辑的核心线性代数处理向量与矩阵概率统计管理不确定性微积分通过梯度下降优化模型参数 [13] - Python是AI开发首选语言拥有简洁语法和强大生态圈关键工具库包括NumPy/Pandas(数据处理) Scikit-learn(机器学习) TensorFlow/PyTorch(深度学习) [19][21] - 其他编程语言各有侧重 R语言擅长统计分析 C++适用于高性能计算 Java用于企业级系统开发 [23] 实践与学习路径 - 学习过程需结合理论深度(数学) 工具掌握(编程)和实践高度(项目) 建议通过Kaggle竞赛 GitHub开源项目和复现论文等方式积累经验 [28][47][53] - 建议建立持续学习机制关注顶级学术会议(NeurIPS/CVPR/ICML) 筛选高质量信息源避免被技术营销内容干扰 [24][25] - 初学者可从微项目入门如用Pandas分析天气数据用Scikit-learn预测泰坦尼克号幸存者逐步构建可交互的Demo展示能力 [50][51][53] AI应用领域与职业方向 - 核心职业路径包括机器学习工程师(算法落地) 数据科学家(数据洞察) 算法研究员(前沿探索) 具体职位衍生出算法工程师 AIGC工程师等细分方向 [38][40] - AI与垂直领域结合创造新价值包括艺术设计(生成式AI创作) 金融商业(量化交易/风控) 医疗健康(新药研发/影像分析) 材料科学(分子模拟)等领域 [42][43] - AI技能将成为通识能力未来差距体现在顶尖人才(创造AI)与普通劳动者(使用AI)之间需注重培养解决问题能力和人机协同思维 [37][45][55] AI发展历程 - 1956年达特茅斯会议正式提出人工智能概念早期发展形成符号主义(逻辑推理) 联结主义(模式识别) 行为主义(环境交互)三大流派 [58][64] - 经历两次AI寒冬后统计机器学习崛起 2012年AlexNet在ImageNet竞赛中以压倒性优势夺冠标志着深度学习时代的开启 [66][67] - 现代AI正融合三大流派优势追求兼具学习能力逻辑推理和行动能力的综合智能体系 [65]

OpenAI大神：人工智能导论课程停在15年前，本科首选该是机器学习导论

机器之心· 2025-09-01 08:46

人工智能教育课程选择趋势 - 核心观点：对于未来计划从事AI职业的学生，建议优先选择机器学习导论而非人工智能导论作为第一门AI课程，因为前者更贴近当前技术主流 [2][3] - 过去15年人工智能技术因深度神经网络而爆炸式发展，但许多学校的人工智能导论课程大纲仍停留在2010年前后，仅用几节课讲解机器学习 [3] - 课程选择不应仅依据名称，而应仔细查看课程大纲，理想课程应涵盖线性回归、梯度下降、反向传播和强化学习等内容 [3] 传统与现代AI课程内容对比 - 人工智能导论课程内容传统，涵盖搜索策略、约束满足问题、专家系统等，而机器学习导论聚焦线性回归、逻辑回归、神经网络、深度学习等现代主流技术 [6][10] - 有案例显示部分大学的人工智能导论课程完全未提及神经网络，教学内容与当前工业界和学术界热点脱节 [8][10] - 当前大多数技术突破源自机器学习和深度学习，而非传统人工智能导论课程中的主题 [11] 行业人才需求与培养 - 公司算法类岗位聚焦大模型、机器学习基础理论、多模态、强化学习、AI for Science等方向 [16] - 公司研发类岗位聚焦大规模分布式训练框架、高性能计算、AI系统与架构等方向 [16] - 行业为人才提供超大规模算力集群、跨团队重大项目协作机会以及清晰的职业发展通道，以支持具备规模化潜力和长期价值的研究 [22]