Workflow
机器之心
icon
搜索文档
世界模型,是否正在逼近自己的「ChatGPT时刻」?
机器之心· 2025-11-29 01:49
世界模型的定义与愿景 - 世界模型本质上是预测模型,给定当前状态及动作序列,预测下一个状态 [4] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量3A大作级的虚拟环境模拟 [4] - 终极目标是将世界1:1建模,可能到原子级别,但实际只需依照不同任务目的进行建模 [4] 世界模型的应用前景 - 为自动驾驶、具身智能等多模态任务提供更多数据 [4] - 建立模型与世界的结合以替代传统模拟器 [4] - 最终成为端到端系统的一部分 [4] 数据瓶颈与构建路径 - 自动驾驶公司积累上亿公里数据,但99%都是晴天道路数据,真正危险场景数据稀缺 [5] - 构建世界模型时采集数据的成本在千万级,非研究团队能直接承担 [5] - 可行路径为:先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强模型 [5] - 采用“生成数据 + 真实数据”的混合模式,通过模型、产品、数据的循环推动发展 [5] 技术路径与架构分歧 - 技术路径分歧明显:有团队偏向融入物理信息以保持一致性(如重力),而面向影视、游戏等创意领域则视频生成可能更合适,甚至不需要严格遵守物理规律 [7] - 模型最终形态可能是纯生成的,但随着生成能力增强,对物理规律的掌握会越来越好 [7] - 在架构上,扩散模型从随机噪声中逐步还原内容,更接近物理世界生成方式及人脑解码机制,被认为更适合世界模型 [8] - 观察到技术融合趋势,如OpenAI正探索将不同架构(如token化的扩散)统一 [9] - 扩散模型擅长捕捉现实世界真实分布,但需自回归模型补足时序与逻辑连贯性,已有扩散和自回归结合的工作 [9] 商业化挑战与发展时间表 - 世界模型存在ToB和ToC两方面的商业化挑战:ToB端需定义视频生成数据对用户的价值,ToC端需提升token价值 [10] - 业内人士估计世界模型的“ChatGPT时刻”可能需要三年左右出现 [10] - 目前最困难的是缺乏高质量长视频数据,视频生成时长大多在5到10秒,大厂演示也只能做到一分钟量级 [10] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟,需开拓新研究方向推动AI进步 [10] 未来技术演进方向 - 未来世界模型可能更需要训练强化学习Agent,以及如何将VLA(视觉-语言-动作)进化为WLA(世界-语言-动作) [11]
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
机器之心· 2025-11-29 01:49
文章核心观点 - REG方法通过将预训练视觉模型的class token与图像latent在空间维度拼接并共同加噪训练,显著加速Diffusion模型的训练收敛,并提升生成性能上限[9] - 该方法仅需引入一个额外token,计算开销小于0.5%,几乎不增加推理成本,却能实现数十倍的训练加速[9][17] - REG在ImageNet 256×256任务上相比基线方法SiT和REPA分别实现63倍和23倍的收敛加速[10][17] 技术方案创新 - REG采用high-level class token与low-level latent混合纠缠的去噪训练范式,使模型具备直接从纯噪声生成图像-类别对的能力[9] - 训练时对class token和latent同时加噪并联合去噪优化,推理时只需将随机初始化的class token参与去噪过程[14][15] - 与REPA仅进行特征对齐不同,REG显式将DINOv2表征作为模型输入,实现真正的语义引导生成[13] 性能表现 - 在ImageNet 256×256上,SiT-XL/2+REG在400K步时FID达到3.4,显著优于SiT-XL/2+REPA的7.9[18] - 经过4M步训练后,REG的FID进一步降至1.8,显示其性能上限优势[17][18] - 使用CFG时,REG在480 epochs达到1.40 FID,超越REPA 800 epochs的1.42 FID[19][20] - 在ImageNet 512×512任务上,REG仅用80 epochs即达到1.68 FID,优于REPA 200 epochs和SiT 600 epochs结果[21] 效率优势 - 训练效率大幅提升,达到相似FID时,REG相比SiT-XL/2训练时间减少98.36%,相比REPA减少95.72%[24][25] - 推理开销几乎可忽略,参数、FLOPs和延迟增加均小于0.5%,但FID比SiT-XL/2+REPA提升56.46%[26][27] - 仅需400K步的SiT-L/2+REG即可优于4M步的SiT-XL/2+REPA,实现10倍训练时长节约[10][17] 技术验证 - 消融实验表明DINOv2 class token效果最佳,high-level全局判别信息能大幅提升生成质量[29][30] - 即使单独插入class token并进行联合加噪训练,也能带来显著性能提升[31][32] - CKNNA指标显示REG在所有训练阶段、网络层和时间步均保持更高的判别语义相似度[35][36][37] 机制分析 - REG促进生成模型的"理解-生成"解耦,class token指引模型前层专注理解噪声latent,后层聚焦生成任务[38] - 通过attention机制传递判别语义,实现"先理解、后生成"的高效生成范式[36][38] - 该方法首次提出high-level与low-level token混合纠缠的训练理念,为生成模型设计提供新思路[38]
AAAI 2026 | 电子科技大学提出OWL,基于双路径注意力干预的多模态大模型物体幻觉缓解
机器之心· 2025-11-28 08:05
文章核心观点 - 论文提出一种名为Owl的新框架,旨在缓解视觉语言大模型中的物体幻觉问题 [2] - 该框架基于因果关系,采用双路径注意力干预方法,通过量化跨模态依赖关系并动态纠正注意力偏差来抑制幻觉 [2][4][7][8] - 在多个基准测试中,Owl方法显著降低了幻觉指标,同时保持甚至提升了模型的基本理解能力和生成内容的丰富度 [13][14][16] 现有问题与Owl的解决方案 - 现有方法普遍存在两大问题:忽视双模态注意力交互失衡的核心诱因,以及缺乏对解码过程中跨模态依赖关系的量化衡量 [5] - Owl通过构建结构因果模型,将视觉与文本注意力形式化为关键中介变量,揭示了混杂因子通过扭曲注意力导致幻觉的路径 [4] - 提出VTACR指标,通过计算视觉token平均注意力与文本token平均注意力之比,量化模型在每一解码层对两种模态的依赖程度,为干预提供信号指导 [7] - 采用双路径对比注意力干预方法,构建视觉增强路径和文本增强路径,利用对比解码策略放大差异,动态纠正注意力偏差 [8][10] 实验结果 - 在CHAIR基准上,Owl在LLaVA-1.5模型上将句子级幻觉降低17.6%,实例级幻觉降低21.4%,同时生成了更长的文本 [13] - 在五个VQA任务测试中,Owl在多数任务上性能持平甚至提升,如在VizWiz任务上提升7.6%,表明其增强了复杂视觉场景下的理解能力 [14] - 通过GPT-4V进行的人工对齐评估显示,Owl在生成内容的正确性上提升20.1%,在详细度上提升11.3%,内容更忠实且信息量更丰富 [16] - 评估覆盖三个代表性LVLMs(LLaVA-1.5、MiniGPT-4和Shikra),并对比了包括VCD、PAI、OPERA和CausalMM在内的先进基线方法 [12]
刚刚,神秘模型登顶视频生成榜,又是个中国模型?
机器之心· 2025-11-28 08:05
神秘模型Whisper Thunder登顶AI视频榜 - 一个名为Whisper Thunder (aka) David的神秘模型登上了Artificial Analysis视频榜榜首,超越了包括Veo 3、Veo 3.1、Kling 2.5以及Sora 2 Pro在内的所有公开AI视频模型 [1] Artificial Analysis榜单排名详情 - 在Artificial Analysis全球公开权重模型排行榜上,Whisper Thunder (aka) David以1,247的ELO评分位列第一 [2] - 排名第二的是谷歌的Veo 3 (无音频版),ELO评分为1,226 [2] - 快手KlingAl的Kling 2.5 Turbo 1080p以1,225的ELO评分位列第三 [2] - 谷歌的Veo 3.1 Preview (无音频版)和Veo 3.1 Fast Preview (无音频版)分别以1,223和1,219的ELO评分位列第四和第五 [2] - Luma Labs的Ray 3排名第六,ELO评分为1,210 [2] - OpenAI的Sora 2 Pro (无音频版)以1,205的ELO评分位列第七 [2] - MiniMax的海螺02 Standard O和海螺2.3 O分别以1,198和1,188的ELO评分位列第八和第九 [2] - Lightricks的LTX-2 Pro (无音频版)以1,187的ELO评分位列第十 [2] Whisper Thunder模型特性与市场反应 - 该模型生成的视频时长固定为8秒,且运动幅度肉眼可见更强 [3] - 目前其在平台上的出现频率有所降低,用户可能需要反复刷新尝试才能遇到 [3] - 由于测试平台无音频测试机制,该模型是否具备原生音频能力仍是未知 [3] - 不少网友从其生成效果和审美倾向推测,这个神秘模型很可能来自中国 [4] - 尽管在高动作场景下会出现一些抖动,但其生成效果仍然非常令人印象深刻 [11] - 作为榜单头名,该模型在Artificial Analysis Arena的用户投票机制下,仍然存在不少的生成瑕疵 [13] - 行业关注度极高,在下一次刷新之前,所有人都在等待它闪亮登场 [14] Whisper Thunder模型生成示例 - 能够生成复杂的延时摄影场景,如起重机吊装钢梁、城市天际线快速变化的建筑工地 [5] - 可处理特殊镜头效果,如产生变形镜头光斑的沙漠高速公路经典汽车飞驰场景 [6] - 擅长动漫风格内容生成,如将钢琴键转化为彩色音符环绕角色的情感化音乐表演场景 [7] - 能够生成具有电影感的城市景观,如从圣保罗屋顶拍摄的洗衣绳、天线与城市网格 [8] - 可创建环保主题场景,如太阳能电池板追踪日光、风力发电机转动的宁静山谷 [9] - 能够生成超现实主义内容,如月光泻湖中鳞片闪烁的美人鱼 [10] - 可精确生成动物行为细节,如针鼹用长舌捕捉蚂蚁时刺的颤动 [12]
亚马逊研究奖获奖名单出炉:王晋东等26位华人入选
机器之心· 2025-11-28 04:11
亚马逊研究奖2025年春季获奖概况 - 亚马逊研究奖最新一期共评选出63位获奖者,来自全球8个国家的41所大学,其中华人学者有26位,占比约41% [1][2] - 该奖项设立于2015年,为多学科研究提供资助,获奖者可访问700多个亚马逊公共数据集,使用AWS AI/ML服务与工具,并获得亚马逊专家的咨询支持 [2] AI信息安全领域 - AI信息安全方向有8位研究者获奖,其中包含3位华人学者 [3] - 加州大学欧文分校Zhou Li的研究课题为利用LLM在审计日志中实现精确且分析人员友好的攻击溯源 [4] - 弗吉尼亚大学Yu Meng的研究聚焦于弱监督RLHF,旨在建模人类偏好中的模糊性与不确定性 [5] - 东北大学Ziming Zhao的研究兴趣涵盖系统与软件安全、网络与Web安全 [6] 亚马逊广告研究方向 - 亚马逊广告研究方向共有两位获奖者,均为华人学者 [8] - 东北大学Xiaojing Liao的研究课题为理解大语言模型的攻击方式:可解释的漏洞检测与修复 [10][11] - 弗吉尼亚大学Tianhao Wang的研究方向包括差分隐私和机器学习隐私,重点在于设计实用算法 [14] AWS Agentic AI方向 - 智能体AI是亚马逊资助的热门方向,今年共有30位研究者获奖 [16] - 达特茅斯学院Cong Chen的研究目标是通过优化、经济学和AI方法推动全球能源转型,涉及面向能源用户的大语言模型 [17][19][23] - 慕尼黑工业大学Chunyang Chen的研究领域位于软件工程、人机交互与AI的交叉处,采用AI和LLM辅助自动化移动应用开发 [20][21][24] - 蒙特利尔大学Bang Liu深耕基础智能体研究,联合发起Foundation Agents开源组织,并构建材料科学大模型与智能体 [26][28][33] - 加州大学圣地亚哥分校Lianhui Qin的研究目标是构建在复杂环境中进行交互、推理与泛化的AI智能体 [30][34][35] - 威廉与玛丽学院Jindong Wang的研究兴趣涵盖机器学习、大型基础模型及面向社会科学的生成式AI,其成果曾应用于微软健康产品,减少15% token消耗 [36][38][42] - 加州大学圣地亚哥分校Xiaolong Wang的研究聚焦于利用数据中的结构学习视觉表示,特别是视频中的时空结构 [39][41][43] - 明尼苏达大学Zhi-Li Zhang的研究重点包括开发AI/ML算法以实现智能软件定义网络基础设施和边缘/云系统 [45] - 石溪大学Jiawei Zhou的研究聚焦于广义语言应用与生成式AI,致力于改进LLM和多模态模型的效率、知识增强、事实性等方面 [46][51] 在Trainium上构建 - Trainium是AWS开发的定制AI芯片系列,旨在以更低成本提供高性能的ML模型训练和推理,支持PyTorch和TensorFlow等流行框架 [48] - 该方向共有20名获奖者 [49] - 康奈尔大学Kuan Fang的研究课题为机器人感知与控制的多模态基础模型快速适应 [50][53][59] - Lieber研究所Shizhong Han的研究旨在结合多组学数据和深度学习技术揭示脑部疾病的遗传基础并开发新型治疗方法 [55][60] - 加州大学欧文分校Sitao Huang的研究兴趣包括高效硬件加速器、硬件系统的编程语言与综合流程 [58][61][79] - 加州大学默塞德分校Dong Li的研究聚焦高性能计算,并与大规模AI/ML系统密切相关 [63][68][78] - 不列颠哥伦比亚大学Xiaoxiao Li的研究集中在AI与医疗的交叉领域、通用人工智能的理论与技术 [66][69] - 早稻田大学Jiang Liu的研究兴趣包括无线通信与感知、无线网络系统 [67][70] - 加州大学默塞德分校Xiaoyi Lu的研究兴趣包括并行与分布式计算、高性能通信与I/O技术、深度学习 [72][78] - 普渡大学Xupeng Miao的研究课题为通过数据流感知优化实现大型基础模型的通信高效分布式训练 [73][74] - 明尼苏达大学Yanning Shen的研究兴趣包括机器学习、数据科学、网络科学 [76] - 加州大学伯克利分校Yun Song的研究方向为数学与计算生物学 [80] - 伊利诺伊大学厄巴纳-香槟分校Minjia Zhang的研究兴趣包括大规模深度学习与AI应用、高效算法及高效机器学习系统 [83][89] Think Big方向 - Think Big方向旨在资助通过变革性理念推进科学前沿的研究者,今年共有三位获奖者,其中一位为华人 [85] - 北卡罗来纳大学教堂山分校Tianlong Chen的研究课题为利用分子动力学赋能蛋白质AI模型 [86][88]
Nature | ApdativeNN:建模类人自适应感知机制,突破机器视觉「不可能三角」
机器之心· 2025-11-28 04:11
当前计算机视觉模型面临的挑战 - 高精度模型在实际落地中面临巨大挑战,推理过程需激活上亿参数处理高分辨率图像或视频,导致功耗、存储需求和响应时延急剧上升[2] - 模型难以部署在算力、能耗、存储等资源高度受限的实际系统中,如机器人、自动驾驶、移动设备或边缘终端等,甚至在医疗、交通等场景下可能因延迟决策危害生命安全[2] - 大型模型庞大的推理能耗带来了大规模部署的环境可持续性问题[2] - 现有视觉模型普遍采用全局表征学习范式,计算复杂度随输入尺寸呈至少平方或立方增长,形成能效瓶颈,导致信息丰富的高分辨率输入、性能领先的大型模型、高效快速推理三者难以同时满足[3] 人类视觉系统的启示与AdaptiveNN的提出 - 人类视觉系统通过一系列“注视”动作主动、选择性地采样关键区域,以小范围高分辨率感知逐步拼接认知,能大幅降低计算开销[5] - 清华大学团队在《自然・机器智能》上提出AdaptiveNN架构,将视觉感知建模为由粗到精的最优序贯决策问题,逐步定位关键区域并累积信息,在信息足够时主动终止观察[7] - AdaptiveNN通过结合表征学习与自奖励强化学习,给出了离散-连续混合优化问题的端到端求解方法[7] - 该架构在保持精度的同时实现了最高28倍的推理成本降低,并可在线动态调整行为以适配不同任务需求与算力约束[7] AdaptiveNN的技术原理与架构 - AdaptiveNN将视觉感知建模为多步序贯决策过程,模型依次在若干感兴趣区域上进行“注视”,逐步积累信息形成内部视觉表征,并动态决定何时结束观察[11] - 框架模拟人类从全局到局部、从粗到细的视觉策略,先快速扫视建立低分辨率初始状态,再通过精细注视捕获关键信息[11] - 架构具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构和多种类型的任务[12] - 训练过程提出了面向离散-连续混合优化问题的端到端求解方法,优化过程自然分解为表征学习目标和自激励强化学习目标两部分[15][16] AdaptiveNN的实验性能与效果 - 在使用相同主干网络的情况下,AdaptiveNN-DeiT-S和AdaptiveNN-ResNet-50分别以2.86 GFLOPs与3.37 GFLOPs的平均计算量,取得与传统静态模型相当甚至更优的准确率,实现了5.4×与3.6×的计算节省[22] - 在六个细粒度视觉识别任务上,AdaptiveNN在保持精度基本不变甚至略有提升的情况下,实现了5.8×–8.2×的计算量节省[23][26] - 模型的注视轨迹自动聚焦于类别判别性区域,当目标较小或远离摄像机时,会自适应地延长观察序列,与人类视觉的逐步注视过程高度一致[22][26] AdaptiveNN的类人行为与可解释性 - AdaptiveNN在空间注视位置与任务难度判断两个层面,都展现出与人类视觉高度一致的自适应行为,在“视觉图灵测试”中,人类受试者几乎无法区分模型与真实人类的凝视轨迹[25] - 模型自发聚焦于任务判别性区域,如鸟类的喙部、犬类的面部、汽车的灯组等,而无需任何显式的定位监督[26] - 这一成果对认知科学研究具有启发意义,为理解人类视觉行为的关键问题提供了新的启发,并展示了其作为通用计算模型的潜力[25] AdaptiveNN在具身智能领域的应用 - 将AdaptiveNN应用于具身智能的基础模型上,在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算开销大幅降低4.4-5.9倍[29] - 这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径[29]
华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源
机器之心· 2025-11-28 04:11
行业趋势:大模型竞争焦点转向推理效率 - 大模型竞争焦点从训练规模与能力突破转向推理效率,推理效率成为影响模型能否落地的关键变量[2] - 推理环节比拼的是以低成本、低延迟将模型稳定运行起来的能力,尤其对于超大规模MoE模型而言[3] - 推理成本是否可控决定了大模型的可用性,并直接影响其能否高效进入业务场景[3] 超大规模MoE模型推理面临的挑战 - 超大规模MoE模型推理面临计算、通信、访存和并行策略等最优策略选择的挑战[3] - 在高度耦合的推理链路中,调度或资源分配上的微小偏差可能被放大为延迟上升、吞吐下降[3] - 大EP部署下MoE模型推理体系异常复杂,每个环节都可能成为大规模部署中的瓶颈[3] 华为昇腾技术栈解决方案概述 - 华为推出面向准万亿参数MoE推理的完整技术栈,包括openPangu-Ultra-MoE-718B-V1.1模型和昇腾亲和加速技术[2] - 该技术栈使超大规模MoE模型具备了走向生产级部署的现实可行性[2] - 解决方案涵盖框架层面、调度层面到算子层面的系统性优化[10] 模型核心参数与能力 - openPangu-Ultra-MoE-718B-V1.1总参数为718B,激活参数量为39B[4] - 该模型基于昇腾硬件训练,提升了Agent工具调用和其他综合能力[4] - 模型的量化版本openPangu-Ultra-MoE-718B-V1.1-Int8已在昇腾硬件上构建完整推理路径[4] 框架层面优化:Omni-Infer与Omni Proxy - Omni-Infer为vLLM、SGLang等主流开源推理框架提供昇腾亲和加速库[11] - Global Proxy在Omni-Infer V0.3.0中带来超过10%的推理性能提升[11] - Omni Proxy作为第二代请求调度特性,基于Nginx打造,解决传统调度器在大模型推理场景下的局限性[13] Omni Proxy五大创新技术 - 将推理请求拆解为10个细粒度生命周期阶段,实现基于全链路性能数据的精确请求级调度[17] - 提供sequential和parallel两种模式,适配vLLM与SGLang在P/D分离场景下的不同KV Cache传输方式[19] - 通过APC感知实现高效KV缓存复用与智能调度,减少重复计算与节点传输开销[22] - 在上游预先完成对话模板展开与tokenizer处理,在多机P/D分离场景下降低约30%的tokenizer开销[24] - 通过对请求按长度与等待时间加权排序,实现长短请求的动态平衡和节点精准匹配[26] 全栈推理加速体系 - 推理加速套件包含服务扩展、任务调度、专家管理到算子加速等组件[30] - Omni Placement通过Layer-wise与Uneven机制实现大规模专家的高效调度[31] - MTP提高多token并行生成能力,Fusion Operator通过算子融合减少冗余计算[31] 算子层面创新:AMLA技术突破 - AMLA将昇腾硬件算力利用率最高推至86%,在推理场景下绝无仅有[36] - AMLA采用"以加代乘"的高性能MLA算子,通过数学层面对计算逻辑进行解构[36] - 在昇腾硬件上跑出最高614 TFLOPS性能,算力利用率达到理论峰值的86.8%[45] - 远高于当前最好的开源FlashMLA(在NVIDIA H800 SXM5上算力利用率约66.7%)[45] 技术组合的商业价值 - 技术组合让准万亿参数MoE推理在成本、性能与稳定性之间找到可落地的平衡点[50] - 为超大规模MoE模型迈向商业可行性奠定了基础[50] - 模型能力与推理效率的双向提升让大模型加速走向产业化落地阶段[50]
学术圈炸了!ICLR评审大开盒,原来低分是好友打的
机器之心· 2025-11-28 00:51
事件概述 - 学术评审平台OpenReview出现严重前端漏洞,导致数据库泄露,使双盲评审变为公开[1] - 泄露方法极为简单,通过替换网址中的论文ID和审稿人编号即可查看任何审稿人身份及评分[1] - 漏洞为系统级,影响ICLR、NeurIPS、ICML、ACL等多个AI顶会的历年论文评审[6] - 漏洞在事件发生后被紧急修复,ICLR发布官方声明警告将处罚信息使用和分享者[8][10] 泄露影响与社区反应 - 泄露事件导致学术社区广泛调查,引发大量关于评审不公的讨论和实例[2] - 部分审稿人被指因个人恩怨、为自身同赛道论文让路等理由恶意打低分[3] - 有审稿人在身份暴露后紧急大幅提高其原先给出的论文评分[4] - 事件将AI顶会长期存在的论文审稿矛盾推向高潮[5] - 尽管官方警告,仍有人爬取并分析全部泄露数据,评选出打分异常低的审稿人名单[13][16] 行业背景与数据洞察 - AI领域顶会面临投稿暴增、审稿人不足的问题,审稿质量下降备受抱怨[6] - 数据分析显示ICLR 2026约21%的同行评审完全由AI生成,超一半评审带有人工智能使用痕迹[6] - 同时发现199篇投稿论文完全由AI生成,9%的论文中超过50%文本由AI生成[7] - ICLR 2026大会收到19490篇研究论文投稿,产生75800篇同行评审意见[7] - 基于前1万篇投稿的分析显示,不同国别审稿人打分习惯存在差异[16] 事件深远影响 - 事件严重损害学术公平,审稿人匿名丧失阻碍对研究的批判性输出[21] - 作者获得反击可能破坏原有平衡,影响论文接收结果的可信度[21] - 事件引发对完全匿名审稿制度是否应改变的思考[22] - 学界业界大佬密切关注,ICLR理事会成员表示需紧急开会讨论[20]
大模型作为评估者的「偏好」困境:UDA实现无监督去偏对齐
机器之心· 2025-11-28 00:51
文章核心观点 - 当前大模型评估体系存在严重的“自我偏好偏差”问题,即模型在作为评估者时会系统性偏爱自己生成的答案,导致评估结果不公平[2] - 智谱AI提出的无监督去偏对齐方法UDA,通过将去偏问题转化为动态校准优化的序列学习问题,有效解决了上述偏差问题[7][13] - UDA方法无需人工标注,通过无监督共识驱动训练,在ArenaHard数据集上实现了评估方差减少59%和人类对齐度提升24.7%的显著效果[20][23][24] 现有LLM评判系统问题 - 现有系统如Chatbot Arena采用Elo评分机制,面临自我偏好固化、异质性偏差和静态评分缺陷三大挑战[4] - 自我偏好偏差幅度从-38%到+90%不等,导致不同裁判模型评分标准差最高达158.5分[2][5] - 传统Elo使用固定K因子,无法区分关键对决与平庸比较,小样本下信噪比极低[5] UDA方法框架 - 将成对评估建模为实例级自适应过程,通过轻量级网络动态生成调整参数,输出校准后的Elo更新[10] - 特征工程涵盖高维特征、标量特征和自我感知特征,这些特征无需人工标注,完全从响应分布中自动构建[11][12] - 训练目标采用多任务损失函数,驱动各裁判轨迹向共识收敛、保持排名相关性并强化集体一致性[14] 理论创新 - 核心理论洞见是对齐多样化裁判的共识将降低系统总偏差,通过凸组合收缩实现集体方差缩减[16][17] - 即使共识本身有噪声,减少离散度仍能提升整体可信度,为无监督对齐提供了理论动机[18] 实验结果 - 在ArenaHard数据集上,UDA将平均裁判间标准差从158.5降至64.8,减少59%[23] - 与人类评估的相关性系数从0.651提升至0.812,提升24.7%[23][24] - 在零样本迁移中未经重新训练仍实现63.4%的方差缩减,证明领域无关的去偏能力[23] - 消融实验显示自我感知特征至关重要,移除后人类相关性暴跌至0.510[23][24] 技术影响 - 评判校准从提示工程问题转变为可学习的问题,模型能在交互中自主演化出公平评分策略[25] - 该框架有效提升了低质量评委的表现,使其接近高质量评委水平,显著增强了评估的鲁棒性、可复现性与人类对齐度[25]
DeepSeek强势回归,开源IMO金牌级数学模型
机器之心· 2025-11-27 12:13
模型发布与性能突破 - DeepSeek在Hugging Face上新发布了数学推理模型DeepSeek-Math-V2 [1] - 新模型基于DeepSeek-V3.2-Exp-Base开发,性能优于Gemini DeepThink,实现了IMO金牌级水平 [5] - 在Putnam 2024竞赛中以扩展测试计算实现了接近满分的118/120分(98.3%)[20][21] 技术架构创新 - 公司提出由验证器、元验证和生成器组成的自我验证系统,类比“学生-老师-督导”机制 [12][13][17] - 验证器将证明过程分为三档评分:1分(完美)、0.5分(有小瑕疵)、0分(有根本错误)[16] - 元验证机制专门检查验证器评语的合理性,解决模型幻觉问题,提升评估准确性 [14] - 生成器具备自我评价功能,采用诚实奖励机制,对诚实指出错误的行为给予奖励 [17][18] 性能表现数据 - 在IMO 2025竞赛中取得83.3%的成绩,在CMO 2024中取得73.8%的成绩 [21] - 在IMO-ProofBench基准的Basic子集上达到近99%的高分 [22] - 在Advanced子集上表现略逊于Gemini Deep Think (IMO Gold) [22] 方法论突破 - 从“结果导向”转向“过程导向”,不再依赖最终答案正确性作为唯一奖励 [7][20] - 设计自动化闭环系统,通过“左右互搏”实现自我进化,自动筛选难题作为训练数据 [19][23] - 该方法不依赖大量数学题答案数据,而是教会AI像数学家一样严谨审查证明过程 [20]