Workflow
机器之心
icon
搜索文档
被拒≠失败!这些高影响力论文都被顶会拒收过
机器之心· 2025-12-11 02:47
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法,该方法借鉴了创建Gemini Flash模型的经验,旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出,其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿,但如今已成为模型压缩和大模型落地的标配方法,论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**:由Sepp Hochreiter和Jürgen Schmidhuber提出,在1996年被NIPS拒稿,拒稿理由包括参数过多、过于复杂且缺乏生物学合理性,如今引用量达139,707次,并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**:由David Lowe提出,在1997年和1998年先后被ICCV和CVPR拒稿,理由是被认为“过于繁琐”、“不够优雅”,最终以Poster形式发表,曾统治计算机视觉领域长达15年,如今引用量达27,389次[11][14] - **Dropout**:由Geoffrey Hinton团队提出,在2012年投稿NIPS时被拒,评审认为其核心思想过于激进且缺乏数理逻辑,但该技术迅速成为AlexNet夺冠ImageNet的关键,如今引用量达60,231次[17] - **Word2Vec**:由Tomas Mikolov等人提出,在首届ICLR会议上收到“Strong Reject”评价,评审认为其“比较不科学”、“定义模糊”,但通过开源代码迅速成为NLP领域基石,并于2023年获NeurIPS“时间检验奖”,如今引用量达50,855次[19][20] - **YOLO**:由Joseph Redmon等人提出,在2015年被ICCV拒稿,评审因其定位精度不如R-CNN系列而拒绝,但忽视了其实现45 FPS实时检测的速度优势,如今YOLO系列已迭代至v13,成为工业界最受欢迎的检测框架,引用量达69,782次[27][28][30] - **RoBERTa**:由Meta AI研究人员提出,在投稿ICLR 2020时被拒,评审认为其新颖性和技术贡献有限,只是“仔细调参”和“使用更多数据”,但该模型超越了原始BERT,成为后续NLP研究的标准基线,如今引用量达23,479次[32] - **Mamba**:由Albert Gu和Tri Dao提出,在ICLR 2024评审中折戟,评审理由包括与其前作S4相比增量不足、未全面超越Transformer等,但该架构在社区引发热烈讨论,基于其的变体大量涌现,成为2024年最具影响力的架构创新之一,如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后,表现为“简单性陷阱”,即倾向于将数学复杂性等同于研究贡献,从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者,存在“范式惯性”,当YOLO或Deep Image Prior等新思想出现时,旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域,过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破,例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石,但难以摆脱人类认知的局限性,它善于识别错误,却往往拙于鉴别天才,真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]
全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了,灵初智能发布
机器之心· 2025-12-11 00:43
以下文章来源于灵初智能 ,作者PsiBot 灵初智能 . 灵初智能推进基于强化学习算法的机器人技能集训练、场景化的数据生成及采集、端到端解决方案的研 发及落地,打造业界领先的通用操作智能体。 机器之心发布 机器之心编辑部 灵初智能发布全球首个具身原生人类数据采集方案 Psi-SynEngine。该方案由灵初智能全栈自研,包含便携 式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移 模型,并已率先将采集到的人类数据应用于物流等真实场景。同时,灵初智能同步发布覆盖视觉、语言、 触觉、动作的大规模真实世界多模态数据集 Psi-SynNet-v0。这一突破性成果标志着灵初智能全自研的真实 世界具身数据引擎已经正式启动。 相比大模型和自动驾驶,数据问题一直是困扰整个具身智能领域的痛点。行业现有的数据采集方案: 灵初智能 Psi-SynEngine 从根本上突破了上述困境,直接采集一线作业人员在真实工作中的操作数据,而非 在搭建的数采场中高成本低保真度采集。采集场景覆盖物流、工厂、商超、酒店和家庭,数据源自真实场 景,无需二次迁移。 这与灵初智能从创立之初就选择 ...
扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈
机器之心· 2025-12-11 00:43
针对这一缺陷,来自北大的研究团队提出一种新的 dLLM 推理加速框架 ODB-dLLM(Orchestrating Dual- Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models)。它通过 分析现有 dLLM 推理框架中交错的计算和访存瓶颈阶段,引入了自适应长度预测策略和跳跃共享推测解 码,以优化 dLLM 在硬件平台上的计算访存特性,最大限度地提高推理效率。 本研究由北京大学研究团队完成。通讯作者为李萌,北京大学人工智能研究院和集成电路学院助理教授, 博导,PKU SEC Lab 负责人,他的研究兴趣集中于高效、安全人工智能加速算法和芯片,旨在通过算法到 芯片的跨层次协同设计和优化,为人工智能构建高能效、高可靠、高安全的算力基础。第一作者韦临烨, 北京大学集成电路学院博士一年级在读,主要研究方向为多模态高效 AI 系统和加速器设计。 基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力, 最近吸引了广泛的关注。例如 F ...
微软发布首个测试时扩展大规模研究,还给出了终极指南
机器之心· 2025-12-10 10:30
文章核心观点 - 大语言模型在推理阶段的测试时扩展并非简单的算力堆砌,其效果高度依赖于模型自身的“视界”属性,没有一种策略是普遍最佳的[1][4][11] - 微软的研究通过大规模实验,将模型划分为“短视界”和“长视界”两大阵营,并基于此提出了针对不同模型类型、问题难度和计算预算的实用TTS策略配方[2][26][38] - 研究颠覆了“让模型多想一会儿总是更好”的直觉,发现对于“短视界”模型,增加计算(如增大束搜索的束大小N)可能有害,而多数投票或其变体在多数情况下是性价比最高的选择[16][20][48] 测试时扩展方法简介 - TTS策略主要分为并行、序列、混合/元方法以及内部计算机制四大类[4] - **并行扩展策略**:通过聚合多个独立推理路径的答案来提升性能,例如Self-consistency、Best-of-n采样和利用早停机制的Short-m@k[8] - **序列扩展策略**:通过迭代式修正、重启或回溯来扩展推理深度,例如思维链、思维树、思维图以及AlphaGeometry的符号证明搜索[9] - **混合扩展策略**:融合并行与序列两个维度,使用元调度器根据任务难度动态选择策略,例如Meta-Reasoner、AgentTTS和PEARL[10] 研究实验设计 - 研究系统性涵盖了从7B到235B参数量的8个开源大语言模型[5] - 在4个推理数据集上生成了超过300亿个token进行测试[5] - 重点分析的算法包括最先完成搜索、最后完成搜索和束搜索[11] 关键研究发现:束搜索的逆扩展现象 - 对于“短视界”和“非推理”模型家族,束搜索表现出逆扩展模式,即随着束大小N的增加,性能单调下降[16] - 例如R1和QwQ-32B模型,当束大小N超过2时,准确率急剧下降[20] - 这意味着对某些模型增加束搜索的计算量不仅是浪费,甚至有害[20] 关键研究发现:模型视界划分与路径长度偏好 - 根据推理路径长度与答案质量的关系,模型被清晰划分为两大阵营[26] - **短视界模型**(如R1, QwQ-32B, DAPO-32B):更短的推理路径总是比更长的路径更可能是正确的,长路径可能意味着无效循环或错误[26][31] - **长视界模型**(如Qwen3-32B, GPT-OSS-120B):在简单问题上偏好短路径,在困难问题上则偏好长路径,展现出更强的适应性[28][29][31] 预算与策略的博弈分析 - 对于最后完成搜索系列方法,在给定总计算量下,最大性能总是在k=N(即退化为多数投票)时实现[32] - 对于短视界模型,较大的N值总是最好的,应采样大量样本并选出最短的一批进行投票[34] - 对于长视界模型,存在权衡:高计算预算换取高性能需选择较小的N(简单解码),而在非推理模型上则相反[35] - 最佳TTS策略需要随着计算预算的增加而动态扩展[36] 实用TTS策略配方 - 基于海量实验数据,研究总结出一套针对不同模型家族、问题难度和计算预算的决策矩阵[38] - **短视界模型**:低预算时,使用FFS-k@N且设定k=1(即挑最短答案);高预算时,使用MV@N(即多数投票)且N尽可能大[41][42][43][44] - **长视界模型**:低预算时,使用简单解码;高预算时,使用大N的MV@N[41][53] - **核心结论**:对于绝大多数情况,多数投票或其变体是性价比最高的选择,尤其对于短视界模型,应避免让其“长考”,而从大量快速回答中投票筛选共识[48]
GPT-5.2真身是它?OpenAI紧急端出全套「下午茶」,新一代图像模型同步泄露
机器之心· 2025-12-10 10:30
OpenAI新模型发布动态 - 公司内部出现代号为“Olive Oil Cake”(橄榄油蛋糕)的新模型选项,标识码与现有GPT-5.1不同,被普遍猜测为GPT-5.2 [4][7] - 公司计划发布代号为“Chestnut and Hazelnut”(栗子和榛子)的下一代图像生成模型,疑似对应Image-2及其轻量版Image-2-mini [4][10][11] - 新图像模型旨在解决早期模型的色彩偏差问题,提升细节保真度,融合复古与先进视觉风格,并具备图像中撰写代码的能力 [11] - 这套“图像模型全家桶”预计将直接集成在ChatGPT中,服务于设计师和创意工作者 [16] 行业竞争与发布背景 - 公司此次行动被视为在内部“红色代码(Code Red)”警戒下,为阻击谷歌Gemini 3而进行的紧急反击 [5][8] - 谷歌Gemini 3在各项榜单上的强势表现,迫使公司可能将原计划于月底或明年的GPT-5.2发布时间提前 [8] - 在预测平台Polymarket上,市场押注的发布风向标从12月9日转向12月11日(本周四) [8] - 公司此举意在不让谷歌独占2025年末的市场关注度 [16]
LLM距离AGI只差一层:斯坦福研究颠覆「模式匹配」观点
机器之心· 2025-12-10 10:30
文章核心观点 - 大语言模型的理论基础可能面临改变,传统认为“LLM只是模式匹配器”的观点被颠覆[1][2] - 实现通用人工智能的瓶颈在于缺少一个“协调层”来组织模型的模式以实现可靠推理,而非单纯扩大模型规模[3][4][5] - 提出“基础层加协调层”的第三条道路,其中LLM作为系统-1基础层(模式存储库),而缺失的系统-2协调层负责将模式与外部约束绑定、验证输出并维护状态[5][8] 关于AGI瓶颈与协调层理论 - 人工智能界围绕大语言模型本质存在分裂:扩展派认为LLMs足以实现AGI,而批评者认为LLM仅是模式匹配器,在结构上不具备推理能力,是死胡同[5] - 核心观点认为争论建立在错误的二分法上,LLM的失败不是因为缺乏推理能力,而是缺少将其模式与目标绑定的系统[5] - 使用捕鱼隐喻解释:海洋代表模型庞大的模式库,无饵撒网只能捕获最常见鱼类(通用模式);智能行为需要下饵(传达意图)和过滤,诱饵的密度需要优化以高效吸引目标鱼类(特定概念)[6] - “缺失的层”是协调层,其作用是优化计算转移后验分布所需的精确密度,同时控制成本[8] UCCT理论与推理相变 - 作者引入统一认知意识理论来形式化协调机制[9] - UCCT最激进的观点是:LLM从幻觉到推理的转变是一个相变,而非线性过程,类似于水在冰点凝结[10] - 相变由锚定分数决定,该分数综合考虑三个关键变量:有效支持、表征失配和自适应锚定预算[10][13] - 幻觉是模型在未加诱饵情况下输出其模式存储库的最大似然先验;推理则是外部约束将后验分布从通用统计模式转向目标的结果[10] - 只要提供足够密度的“诱饵”和“渔网”(即协调层的锚定机制),LLM就能被组织起来执行可靠推理[10] MACI架构与核心组件 - 为将UCCT理论转化为实际架构,作者构建了多智能体协作智能,这是一个为LLMs提供类似人类“执行功能”的协调堆栈[12] - MACI架构通过三个核心组件映射并解决UCCT中决定推理相变的三要素[13] - **有效支持**:指外部约束对目标任务提供的强度和密度,作用是拉动模型走向目标,有效锚点越多分数越高[13] - **表征失配**:指模型当前潜在模式与目标任务或外部约束之间的差异程度,作用是惩罚模型偏离约束,失配度越大分数越低[13] - **自适应锚定预算**:代表为达到目标愿意付出的上下文成本和计算资源,作用是平衡效率与可靠性[13] - 当锚定分数低于阈值时,模型基于训练数据的统计学最大似然先验输出,表现为幻觉;高于阈值时,目标导向约束主导后验分布,推理行为被激活[13] - 深度协调模式将推理视为受控过程,智能体进行辩论、交叉检查、修改方案等,由锚定信号指导,本质上是在底层模式基质之上叠加执行功能[14] MACI的具体实现机制 - **行为调制的辩论**:用于最大化有效支持,让多个智能体扮演不同角色进行辩论,主动检索、生成和验证证据,确保审议多角度且有证据支持[18] - **苏格拉底式评判CRIT**:用于最小化表征失配,CRIT作为专门裁判,在推理每一步严格审查智能体的提议和论点,查找过滤与事实或约束矛盾的内容,防止低质量或幻觉性内容污染推理循环[18] - **事务性内存**:用于优化锚定预算,以持久化和事务性方式存储经过验证的关键中间状态,避免重复计算和上下文膨胀[18] 对AGI路径的重新认知 - AGI不会来自于更大的模式之海,而将来自于组织这些模式以形成可靠推理的网、诱饵、过滤器和记忆机制[14] - 如果该技术能够扩展,LLM将不再是“自动补全”,而会成为完整推理系统的认知基质[14] - 大语言模型是实现AGI的必要“认知基质”,其瓶颈不在于底层模式规模,而在于缺失一个将这些模式组织和绑定到目标的“协调层”[14]
「豆包手机」为何能靠超级Agent火遍全网,我们听听AI学者们怎么说
机器之心· 2025-12-10 08:13
文章核心观点 - 字节跳动推出的豆包手机助手(搭载自研UI-TARS引擎)通过“GUI Agent + 系统级权限”的深度集成,实现了端侧AI能力的重大突破,能够执行跨应用、长链路的复杂任务,将手机交互范式从“人找服务”推向“服务找人”,可能成为下一代手机操作系统的核心能力[1][3][6][12][26] 豆包手机助手的产品表现与市场反响 - 搭载豆包手机助手的工程机近期引爆科技圈,在某宝平台价格被炒至近五千元,让公众首次真切感受到触手可及的AI Agent[1] - 豆包手机助手是技术预览版,其核心创新在于将AI Agent嵌入系统底层,而非作为独立App存在,使其成为与操作系统深度绑定的“超级管家”[3] - 该助手能够执行模糊且复杂的长链条需求,例如无中断地完成“地图上标记餐厅、查找博物馆以及旅行平台订票”的多需求任务,其智能化表现引发广泛讨论[5][6] 系统级GUI Agent的技术挑战与行业趋势 - 行业趋势显示,手机厂商和AI硬件公司正探索将原生AI能力深度融入设备系统,核心形态之一是引入AI Agent,特别是系统级GUI Agent[8] - 实现系统级GUI Agent需克服四大层面障碍:感知层(毫秒级识别与抗干扰)、规划层(跨App逻辑连贯与自我反思)、决策层(强泛化与细粒度操作)、系统层(低延迟与打破权限壁垒)[9][10] - 学术界专家指出当前瓶颈包括:长链路任务规划与状态管理、上下文记忆与推理速度、轻量级模型的记忆管理,以及因权限和数据访问限制导致无法完全对齐用户操作空间[10][11] - 现有尝试(如AppAgent、Rabbit等)仍存在成功率低、等待时间长、处理突发UI能力弱等问题,限制了系统级GUI Agent的稳定性和实用性[12] 豆包手机助手的技术路径与优势 - 豆包手机助手采取“GUI Agent + 系统级权限”路径,通过深度系统集成获得Android系统级权限(需用户授权),可模拟用户点击、滑动、键入及跨App操作[12] - 同时借助视觉多模态能力识别屏幕、理解界面、解析意图并执行规划,自主决定下一步操作,被专家形容为“幽灵手指 + 大脑 + 决策系统”[12] - 其原生GUI视觉操作与系统底层指令模拟,与依赖无障碍服务的第三方App有本质区别,具备更强通用性、稳定性及更接近真人的执行过程[13] - 该助手在兼容性、跨App自动化执行、长链路任务处理、多任务调度等多个维度上,已展现出优于传统脚本自动化或无障碍接口方案的能力[14] 核心技术引擎:UI-TARS - 豆包手机助手的能力背后是字节跳动自研的UI-TARS系统级GUI Agent引擎,其闭源版本针对移动使用进行了大量优化,性能优于开源版本[16] - UI-TARS的发展历程:2025年1月奠定基础框架,4月发布UI-TARS-1.5(融合强化学习增强推理),9月推出UI-TARS-2将体系推进到新阶段[16] - UI-TARS通过四大关键技术构建可落地的基础能力: 1. 可扩展的数据飞轮机制:通过模型生成智能体轨迹并动态分配至不同训练阶段(如SFT、CT),形成“更好的模型产生更好的数据,更好的数据训练更强的模型”的自我强化闭环,以缓解GUI场景数据稀缺难题[17] 2. 稳定的多轮强化学习框架:针对长链场景,采用带状态保持的异步rollout、流式更新及增强版PPO算法,以解决奖励延迟和训练不稳定的问题[20] 3. 混合式GUI环境:使智能体不仅能操作屏幕,还能调用文件系统、终端等外部工具,将操作空间从纯GUI动作拓展为更高维的动作集合,突破纯GUI操作限制[21] 4. 统一沙箱平台:通过共享文件系统等创新,支持大规模、高吞吐的强化学习训练与评估,保证复杂任务的稳定性与可复现性[22] - 学界专家评价UI-TARS-2为通用GUI Agent提供了一套经过验证、可扩展的端到端基础框架,其通过大规模数据、算力与强化学习体系,补足了学术界在资源与工程实践方面的短板,是兼具工业与学术价值的规模化探索[22][23][24] 对未来手机交互与行业发展的展望 - 未来手机可能不再以独立App为中心,而是由一个“无所不能”的系统级GUI Agent自动解决问题,手机操作系统将从资源管理器进化为“意图调度器”,实现真正的AI原生,交互范式由“人找服务”转变为“服务找人”[26] - 专家认为,当“意图驱动+自动化+Agent”成为系统自带功能,系统级GUI Agent有望成为下一代手机操作系统的标配能力[26] - GUI Agent被认为是当前AI手机的实现路径之一,其操作智能水平很快可能媲美人类,其提供的“用了就回不去”的便利性,如同触屏取代实体键盘,预示着未来的发展方向[26]
南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot
机器之心· 2025-12-10 08:13
来自南京大学 PRLab 的魏佳哲、李垦,在准聘助理教授司晨阳的指导下,提出专业级海报设计与编辑大模型 PosterCopilot 。本研究联合了 LibLib.ai 、 中国科学院自动化研究所等多家顶尖机构,共同完成了首个解耦布局推理与多轮可控编辑的图形设计框架研发。PosterCopilot 能够实现专业设计级的版式 生成、语义一致的多轮编辑,并具备高度可控的创作能力。 此外,受华为-南京大学鲲鹏昇腾科教创新孵化中心支持,该模型已完成对国产昇腾算力平台的适配与部署,进一步推动了国产 AI 设计技术的发展与落地。 行业痛点: 从生成式失控到多模态「盲推」 平面设计是视觉传达的基石,但要实现真正的自动化专业设计,目前仍面临巨大挑战。尽管以 Stable Diffusion 为代表的文生图(T2I)模型在图像合成上 表现强劲,但在实际的工业设计流中,它们因无法处理分层结构,往往导致用户素材失真且无法进行精细化控制。 论文标题: Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Des ...
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
机器之心· 2025-12-10 05:10
费森俞,上海创智学院 & 同济大学博士一年级学生,导师赵宪忠教授,研究方向为 VLA 强化学习后训 练。王思尹,上海创智学院 & 复旦大学博士二年级学生,导师邱锡鹏教授,研究方向为多模态具身智能。 为本文共同第一作者。 龚经经,上海创智学院全时导师。邱锡鹏,复旦大学教授,上海创智学院全时导师。为本文共同通讯作 者。 你是否想过,机器人也能像人一样, 从失败中学习,不断自我提升 ? 当前,视觉语言动作(VLA)模型在机器人操作任务中表现出色,但其性能严重依赖专家示范数据,不仅 成本高昂,还存在「示范偏差」,性能难以突破人类上限。而强化学习虽好,却常因「奖励稀疏」问题, 让机器人无法从失败中真正受益。 针对这一瓶颈,来自复旦大学、同济大学与上海创智学院的 OpenMoss 与 SiiRL 团队联合提出了 自参考策 略优化框架(SRPO) ,通过构建内生的自参照评估机制,实现了无需外部专家数据注入、免除任务特定奖 励工程的自适应策略优化。SRPO 在 LIBERO 榜单上以 99.2% 的成功率刷新 SOTA,在 LIBERO-Plus 的泛化 任务上性能暴涨 167%,并能大幅提升 等开源模型的真机表现。 动机与 ...
Mistral再开源!发布代码模型Devstral 2及原生CLI,但大公司被限制商用
机器之心· 2025-12-10 05:10
机器之心报道 编辑:Panda 刚刚,「欧洲的 DeepSeek」Mistral AI 再次开源,发布了其下一代代码模型系列: Devstral 2 。 该系列开源模型包含两个尺寸:Devstral 2 (123B) 和 Devstral Small 2 (24B)。用户目前也可通过官方的 API 免费使用它们。 此外,Mistral AI 还发布了自家的原生 CLI: Mistral Vibe 。 Mistral AI 的进击速度令人咋舌。仅仅一周前, 他们才发布 Mistral 3 系列模型 ,被视为欧洲正式以此跻身 AI 前沿竞争的序幕。仅仅过了 7 天,Devstral 2 系列与 Mistral Vibe 便紧随其后问世,这种高频的发布节奏,似乎正在印证人们对欧洲 AI 崛起的判断。 考虑到 Mistral 近期在欧洲的大幅扩张,以及图灵奖得主 Yann LeCun 回到欧洲创业的消息,欧洲大陆这片 AI 热土的未来风景,或许值得我们投入更多期待。 亮点汇总 下面是 Mistral 官方总结的核心亮点: 下面来具体看看 Mistral AI 今天新发布的模型和工具。 Devstral:下一代 SOT ...