机器之心
搜索文档
刚上市的摩尔线程,即将揭晓新一代GPU架构
机器之心· 2025-12-09 03:17
大会概况 - 摩尔线程将于2025年12月19日至20日在北京举办首届MUSA开发者大会(MDC 2025)[2] - 大会是国内首个聚焦全功能GPU的开发者盛会,旨在汇聚全球AI与GPU领域开发者,共同探索国产算力突破路径[2] - 大会将全面展示从硬件到软件、从技术到场景的全栈能力与生态进展,推动国产全功能GPU技术扎根千行百业[2] 核心议程与发布 - 主论坛将聚焦智能算力,公司创始人将首次系统阐述以MUSA为核心的全栈发展战略与未来愿景[4] - 主论坛将重磅发布新一代GPU架构,并推出涵盖产品体系、核心技术及行业解决方案的完整布局[4] - 演讲将分享公司在AI计算、图形渲染、科学计算及多场景融合中的落地实践与生态进展[4] 技术专题与生态建设 - 大会设立超过20场技术分论坛,议题覆盖智能计算、图形计算、科学计算、AI基础设施、端侧智能、具身智能等关键领域[6] - 将设立“摩尔学院”以赋能开发者成长,通过技术共享、资源整合与人才培养,共同构建国产GPU应用生态[6] 沉浸式体验与展示 - 大会将联合生态伙伴打造超过1000平方米的沉浸式“MUSA嘉年华”[8] - 现场设置多元主题展区,内容覆盖AI大模型&Agent、具身智能、科学计算、空间智能等前沿技术领域[8] - 展示将延伸至工业智造、数字孪生、数字文娱、智慧医疗等热门应用场景,通过Live Demo让技术可体验[8] - 具体互动体验包括具身智能(如机械臂/机器狗/机器人)、数字人实时交互与3D建模、国产GPU在游戏等数字文娱中的应用等[12][13][15] 行业应用赋能 - 大会将展示全功能GPU如何深度赋能千行百业[19] - 覆盖的行业应用领域包括智慧农业、工业智造、智慧教育、智慧医疗、智慧出行、专业视觉、互联网及运营商等[21] 公司定位与愿景 - 公司以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业数智化转型提供AI计算支持[26] - 公司目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台[26]
ICLR 2026还会好吗?300篇投稿50篇含幻觉,引用example.com竟也能过审
机器之心· 2025-12-08 10:11
ICLR 2026审稿中发现的AI生成内容与引用幻觉问题 - 第三方统计发现ICLR 2026有21%的审稿意见完全由AI生成[1] - OpenReview评审系统发生“开盒”事件,波及超过10000篇投稿[1] - AI检测平台GPTZero扫描了300篇投稿论文,发现其中50篇至少包含一处明显的引用幻觉内容[1] - 部分存在幻觉内容的投稿已经过3-5名领域专家的同行评审,但绝大多数未能被识别[5] - 部分存在幻觉的投稿平均评分高达8/10(满分10分),几乎确保被录用[6] 幻觉引用的具体表现形式与案例 - 引用链接直接使用默认示例链接“example.com”[3] - 作者名单仅为一串大写字母,而非真实姓名[4] - 引用论文真实存在,但所有作者信息错误[6] - 引用论文前几位作者信息正确,但后续作者为虚构或不在论文中[6] - 引用完全不存在的论文[8] - 具体案例包括论文《TamperTok》和《MixtureVitae》,其引用均存在作者信息完全错误或部分虚构的问题[6][7] GPTZero的幻觉检测工具与方法论 - 该工具自2024年1月推出,已测试过包括政治报告、公司报告在内的数百份文件[13] - 工具使用内部训练的AI智能体标记无法在网上找到的引用,标记后需人工审查确认[18] - 将“幻觉”定义为:使用生成式AI产生的、对真实来源标题、作者或元数据进行改写或拼凑的引用[18] - 工具假阴性率(漏报率)极低,成功发现有缺陷引用的概率可达99%[21] - 工具假阳性率(误报率)相对较高,因为它会标记任何无法在线验证的引用[22] - 该工具为同行评审提供两大关键益处:大幅减少验证文档来源所需的时间和人力,并使过程更公平透明[25][26][30] 学术出版行业面临的系统性压力 - 2016年至2024年间,每年发表的科学文章数量激增了48%[11] - 撤稿和其他学术丑闻层出不穷[11] - 科学会议和期刊难以找到合格的同行评审员,评审员因时间需求增加而不堪重负[11] - 生成式AI、论文工厂和发表压力共同引发了投稿狂潮,压垮了学术期刊与会议[10][11] - ICLR等顶级会议投稿和评审中AI撰写迹象普遍,包括行文冗长、滥用列举项、伪造数据和引用幻觉[11] 事件影响与行业警示 - GPTZero仅扫描了2万篇投稿中的300篇,预计未来几天将发现数百篇包含幻觉内容的论文[10] - 根据ICLR编辑政策,即使只有一处明确幻觉内容也构成伦理违规,可能导致论文被拒稿[10] - 事件暴露了在AI生成内容效率与人工验证成本之间存在不对称对抗,正在击穿同行评审防线[28] - 该事件被视为一个警告,表明在拥抱AI效率红利时,必须建立与之匹配的数字安检机制[28] - 否则,学术会议可能从思想碰撞的场所,演变为AI生成内容的自我狂欢[28]
AAAI 2026 Oral | 手机传感器正在泄露隐私?PATN实时守护隐私安全
机器之心· 2025-12-08 10:11
移动传感器数据隐私保护技术研究 - 移动应用通过加速度计、陀螺仪等运动传感器数据支撑关键功能,但细粒度数据存在隐私泄露风险,可被用于推断用户性别、年龄等敏感属性 [2] - 行业亟需在保持传感器数据实用性的同时有效保护用户隐私 [2] PATN隐私保护框架概述 - 西安交通大学与东京科学大学在AAAI 2026上提出了移动传感器隐私保护框架PATN [3] - 该框架基于对抗攻击思想,通过微小扰动实现隐私保护,同时不影响数据语义和时序结构 [3] - 框架旨在提供高保真、连续的隐私防护,有效抑制敏感属性推断,且不影响正常应用功能 [3] 现有方法的局限与关键问题 - 现有数据混淆和生成模型通常需缓存完整序列,难以满足实时防护需求 [7] - 大多数对抗攻击方法假设可访问完整序列并按固定时间线生成扰动,而实际攻击可能随时发生,导致扰动与攻击错位,降低防护效果 [7] - 关键问题一:实时扰动生成——如何在数据产生的瞬间生成未来方向的扰动,确保隐私防护能够零时延、连续地生效 [7] - 关键问题二:防御与攻击的时间错位——如何保证在攻击时间与防御扰动存在偏移的情况下,扰动仍能有效覆盖目标窗口 [8] PATN技术方法详解 - PATN假设可访问开源隐私推断模型及其梯度,并利用历史传感器数据预测未来扰动 [10] - 系统包含训练阶段和设备端部署两部分,通过三类损失联合优化实现隐私保护与数据保真的平衡,并在设备端实现零时延扰动生成 [10] - 扰动范围被严格限制在每个传感器维度均值或标准差的5%范围内,并参考设备自然传感器波动,使扰动保持在用户难以察觉的正常噪声水平内 [12] - 基于历史数据的扰动生成模型采用序列到序列结构,由LSTM编码器和解码器组成,仅使用过去的传感器序列预测未来序列的对抗扰动,实现零未来依赖的实时隐私保护 [12] - 历史感知top-k优化策略通过将上一轮与当前扰动拼接,并选取前k个最高对抗损失窗口进行优化,使模型重点提升在“最难防护”时间区域的攻击效果,确保扰动在时间上一致且防护能力稳定 [13] 实验性能评估 - 在MotionSense和ChildShield两个数据集上评估,隐私对抗模型采用卷积神经网络 [14][15] - 在MotionSense数据集上,PATN的ASR(攻击成功率)达到40.11%,EER(等错误率)达到41.65%,AUC为0.662,F1_Score为0.611 [14] - 在ChildShield数据集上,PATN的ASR达到44.95%,EER达到46.22%,AUC为0.549,F1_Score为0.537 [14] - PATN在实时保护性能方面明显优于DP、UAP、FGSM、PGD等传统基线方法 [15] 技术优势:迁移性与数据可用性 - 在迁移性方面,PATN展现出良好的泛化能力和时间适应性,固定输出长度生成的扰动即可有效攻击不同输入长度的黑盒模型 [17] - 面对MobileNet、Xception、FCN等结构完全不同的黑盒模型,PATN依然维持较高的攻击成功率(ASR在29.43%至36.57%之间)和EER(在36.76%至38.79%之间) [17] - 在数据可用性方面,PATN优于现有方法PrivDiffuser,在行为识别和步态检测等下游任务中,使用PATN扰动后的数据几乎不影响任务性能 [18] - 在步数检测任务中,原始数据步数为7916,PATN扰动后数据步数为7937(仅增加21步),而PrivDiffuser扰动后步数为8683(增加767步) [16] - 在行为识别任务中,原始数据的HAR-EER为5.08%,PATN扰动后数据为6.57%(仅增加1.49个百分点),而PrivDiffuser为6.92%(增加1.84个百分点) [16] 总结与未来方向 - PATN是一种基于历史数据的扰动生成框架,通过利用过去的传感器信号预测未来扰动,实现对实时数据的零延迟隐私保护,同时保持原始数据的时序与语义完整性 [19] - 未来工作将拓展PATN在黑盒模型下的适用性,并覆盖更多敏感属性 [19]
斯坦福最火CS课:不让学生写代码,必须用AI
机器之心· 2025-12-08 10:11
课程概况与市场反响 - 斯坦福大学计算机系新开设的课程《现代软件开发者》(CS146S: The Modern Software Developer)成为AI圈热门话题,课程主旨是教授在不编写一行代码的情况下进行编程开发[1][2] - 该课程在2024年9月首次上线即被学生挤爆,候补名单超过200人,反映了市场对AI时代软件开发技能转型的强烈需求[5] - 课程历时10个月精心打造,是首个专注于人工智能软件原理与实践的课程,资料齐全,涵盖阅读材料、作业练习、示例代码和全套课件[8][9] 课程核心教学理念 - 课程明确鼓励学生尽可能不写代码,专注于使用AI工具进行“氛围编码”(Vibe Coding),学生提交作业需附带与AI的对话记录[5] - 教学重点并非AI原理或调优,而是教授如何使用Cursor和Claude等AI代码工具,并应对AI的“幻觉”问题[5] - 课程旨在帮助学生完成从使用AI到构建AI驱动软件的转变,为成为未来的AI原生软件工程师打下基础[16] 课程具体内容与结构 - 课程为期十周,内容循序渐进,从LLM基础知识与提示工程开始[10] - 第二至四周深入编程智能体(Agent)的内部结构、AI集成开发环境以及人机协作模式[11][12][13] - 第五至七周涵盖AI增强的现代终端、AI在测试与安全领域的应用,以及AI在软件支持与维护中的价值[14] - 第八至十周探讨AI驱动的自动化UI/App构建、智能体部署后的运维管理,以及人工智能软件工程的未来发展方向[15] 行业趋势与技能转型 - 课程的出现表明,在快速发展的大语言模型冲击下,行业最关注的问题已转变为如何适应充满AI的世界[5] - 课程最终周主题为“人工智能软件工程的未来”,聚焦软件开发职业的未来方向、新兴的AI驱动编码范式以及行业发展趋势[6][15] - 讲师指出,AI技术发展迅速,明年的课程内容可能会大不相同,暗示了行业技术迭代的高速度[23] 目标学员与前置要求 - 课程兼顾实用与有趣,配套实践项目,要求学习者具备与CS111相当的编程经验(编程语言、操作系统和软件工程)[9] - 推荐学员已修完CS221/229课程(高等数学、机器学习基础),表明课程面向已有一定技术基础的学习者[9] - 讲师Mihail Eric计划在明年教授一个面向专业开发者的公开版本课程,名为《AI Software Development: From First Prompt to Production Code》,显示该技能培训正从学术向职业领域扩展[19]
从分钟级等待到20倍超速:LightX2V重写AI视频生成速度上限
机器之心· 2025-12-08 04:27
核心观点 - 开源项目LightX2V通过算法与工程的全栈优化,旨在将高质量视频生成推向消费级硬件上的1:1实时体验,其技术栈在社区中迅速流行,单月下载量超过170万次[2] 技术架构与性能 - 项目目标是在主流硬件上实现视频生成的1:1实时体验,远超现有框架[2][4] - 通过系统级优化,将生成5-10秒视频的时间从几分钟压缩到与视频时长接近的水平,实现接近1:1的实时体验[7] - 在同类开源方案中,相比SGLang Diffusion、FastVideo等框架,在延迟和吞吐上具有明显优势,尤其在8GB-24GB消费级显卡区间能跑满硬件能力[7] 核心算法创新 - **Phased DMD步数蒸馏**:将原本40-50步的视频扩散过程压缩到4步,同时保持时间一致性和运动细节,基于此技术的少步模型在Hugging Face趋势榜长期靠前,累积下载量达百万级[10][11] - **LightVAE轻量级VAE**:针对视频生成场景设计,在保持高清画质和时间一致性的前提下,有效降低编解码开销,为4步推理释放更多预算[12] - 两项核心算法协同,先在算法层面打通路径,再通过工程优化榨干硬件性能[13] 全栈性能工程优化 - 通过一系列关键技术模块,将“能跑”变成“跑得快、跑得省”,并支持从单机单卡扩展到多卡集群[14][15][16] - **显存门槛**:通过步数蒸馏、低比特量化和分级Offloading,将完整工作流的显存需求压至8GB以下,入门级消费卡即可运行[21] - **吞吐与延迟**:综合使用低比特算子、稀疏注意力与特征缓存,在常见5秒视频场景下达到接近1:1的实时生成速度[21] - **低比特算子**:采用MXFP8/MXFP6/NVFP4等技术,在不明显损伤画质的前提下压缩计算与带宽,释放硬件算力[21] - **稀疏注意力算子**:利用视频时空特征的稀疏性,减少冗余计算,提升大分辨率下的吞吐[21] - **特征缓存**:对中间特征进行缓存与复用,降低重复计算,进一步缩短延迟[21] - **三层延迟隐藏Offloading**:通过精细化的显存-内存调度,在8GB显存上完成28B级别MoE模型推理[21] - **FP8通信多卡并行**:结合FP8通信和流水线/序列并行,在多卡环境下提升吞吐,面向5090等消费级新卡实现更高帧率的强实时目标[21] 模型与硬件生态支持 - **模型生态**:已支持Wan2.1/Wan2.2、CogVideo1.5、HunyuanVideo1.5等主流视频生成模型,以及Matrix Game、MagicDrive等世界模型,并提供4步或少步数配置与加速方案[21] - **应用生态**:深度集成ComfyUI,其LightVAE等核心组件已进入社区主干工作流,用户可在图形界面中直接调用加速推理[21] - **硬件生态**:除支持NVIDIA 3060/4090/5090及A100/A800/H100/H800/H200等显卡外,还原生支持寒武纪MLU590、沐曦C500等国产AI芯片,为本地化、大规模部署提供基础[21] 使用与落地场景 - **个人开发者**:只需带独显的笔记本或台式机,即可本地启动带前端界面的视频生成工具,在ComfyUI中完成素材调试、风格迭代和项目输出[21] - **企业用户**:通过服务化部署方案,可一键搭建面向外部的API服务和Web应用,并按需扩展到多机多卡集群,支持批量视频生产和内部工具集成[21] - **普通用户**:可直接访问网页版入口x2v.light-ai.top,在浏览器中体验少步视频生成和实时预览[21] - 应用覆盖从图像转视频、文本转视频,到世界模型和自动驾驶仿真等领域,旨在通过开源方式将高质量、低成本、强实时的视频生成能力普及[19]
DeepSeek V3到V3.2的进化之路,一文看全
机器之心· 2025-12-08 04:27
DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型,随后推出基于相同架构的专用推理模型DeepSeek R1,使其成为最受欢迎的开放权重模型之一,成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中,公司模型策略从专用推理模型转向混合模型,V3.1和V3.2均为兼具通用聊天和推理能力的混合模型,而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp,旨在为更大规模的发布准备生态系统和推理基础设施,该模型引入了非标准的稀疏注意力变体,需要定制代码[17][18] - 2025年12月1日,公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale,与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新:注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构,MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存,虽然增加了一次额外的矩阵乘法,但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力,该机制由Lightning Indexer和Token选择器组成,基于学习到的相关性分数选择性地关注部分过去的Token,而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk),其中L是序列长度,k是选定Token的数量,在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构,集成了MLA和DSA机制,主要动机是提高整体模型性能的同时,将计算效率视为巨大驱动因素[107][110] 训练方法演进:从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力,其核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码[37][38] - RLVR流程使用了GRPO算法,这是“近端策略优化”算法的一个简化变体,GRPO取消了评论家模型,而带GRPO的RLVR进一步移除了奖励模型,转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点,公司在DeepSeekMath V2中引入了自我验证与自我修正技术,开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查,使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间,公司使用单一模型同时执行证明生成和验证,这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求,通过多达8次的自我修正迭代,模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序,但更新了奖励机制,对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励,对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域,公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身,公司进行了一系列稳定性更新,包括:零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体,其在RL阶段仅在推理数据上进行训练,并减少了长度惩罚以允许模型输出更长的响应,这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色,在数学基准测试中获得了金牌级的表现,同时在训练时也考虑到了工具的使用,在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性,例如在AIME 2025基准上达到96.0,在HMMT Feb 2025基准上达到99.2,但同时也生成了更多的Token[127]
百万人围观的「萌娃教训小狗」视频火了,结果都是AI生成的|附教程
机器之心· 2025-12-07 04:33
AI生成视频内容的现象与流行 - 近期社交平台涌现大量萌娃与宠物狗温馨互动的短视频,内容治愈且传播力强,例如有小孩严肃“教训”小狗或与小狗拥抱对话的场景[2][3][4][5][6] - 这类视频在社交平台上获得了巨大的流量,点赞量动辄上万,播放量多则上百万,少则也有几十万[7] - 这些高传播度的视频实际上是由AI生成,视频时长多在15秒以内,符合当前主流AI视频生成模型的时长限制[7][8] AI视频生成技术的关键工具与进展 - 生成此类视频可使用Sora2、Veo3.1及快手可灵新推出的Video 2.6等模型,其效果依赖于精心设计的提示词[10] - 提供了一段具体的提示词示例,用于生成一个14个月大欧亚混血男孩与金毛幼犬互动的场景,描述包括人物外貌、动作、对话及画面风格[11] - Sora 2模型相较于前代在物理真实性、细节呈现和音画同步方面有显著提升,能生成高度匹配的对话、音效和背景音乐,细节写实度足以媲美真实家庭录像[12] - 快手可灵的Video 2.6模型也能实现音画同步,但生成的语音语调有时略显不自然[14] AI视频内容流行的内在逻辑 - 萌娃与宠物互动的内容精准击中了人性中对纯粹、美好情感的渴望,其治愈属性能够跨越文化和语言障碍[15] - 过去捕捉此类完美瞬间需要大量时间和运气,而AI技术实现了理想画面的批量生产,大幅增加了优质内容的供给[16] - 平台算法识别到用户对此类内容的高完播率和互动率后,会加大推荐力度,形成“用户观看越多,推送越频繁”的持续强化循环[17] Sora应用的市场表现与产品定位困境 - Sora 2上线初期凭借强大的AI视频生成能力一度冲上美国App Store榜首,每天下载量达20万[20] - 然而其用户留存率迅速衰减,数据显示第1天留存率降至10%,第7天为2%,第30天为1%,第60天则归零;相比之下,TikTok同期的留存率稳定在30%左右[21] - 分析指出,新社交应用普遍经历初期热度后用户流失的过程,用户会评估是否有持续使用的动力[23] - Sora面临双重身份困境:它既是强大的创作工具,又试图成为社交平台;但其平台内几乎全是AI生成内容,缺乏真实社交圈的内容,导致用户难以长期留存[27] - 一个完全由AI生成内容构成的信息流,其体验远不如真人内容与AI内容混合的平台,因为用户更希望看到真实的人和故事;最好的Sora内容往往被导出到其他平台如Instagram、TikTok[28] - 判断认为,Sora将继续作为一个强大的创意工具(类似视频创作者的Photoshop)蓬勃发展,但作为社交产品可能难以取得成功,因为工具类产品用户留存率天然不高[29]
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心· 2025-12-07 04:33
强化学习在大语言模型中的新公式化方法与稳定训练实践 - 阿里千问团队提出了一种针对大语言模型(LLM)的全新强化学习(RL)公式化方法,核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token级目标作为其一阶近似 [2] - 该方法从原理上解释了多种RL稳定训练技巧的有效性,包括重要性采样权重、剪切(Clipping)机制以及针对混合专家(MoE)模型的路由重放(Routing Replay)方法 [2] - 团队使用一个30B参数的MoE模型进行大量实验,总计耗费数十万GPU小时以验证理论并探索稳定训练实践 [4] 研究背景与核心问题 - 强化学习已成为提升大语言模型复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展RL至关重要 [2] - 主流RL算法普遍存在“奖励在序列级、优化在token级”的不匹配问题,引发了对其理论健全性与训练稳定性的担忧 [2] - 在MoE模型的RL训练中,动态专家路由机制可能破坏token级重要性采样比的有效性,带来了新的挑战 [2] 核心理论框架 - 团队专注于序列级优化,即对整个模型生成的响应赋予一个标量奖励,而不采用基于价值函数的方法,因为构建通用、可扩展且可靠的价值模型极为困难 [6][7] - 直接优化期望序列级奖励非常困难,主要挑战在于训练与推理之间的数值差异,以及用于采样响应的rollout策略与需要优化的目标策略之间的偏差 [8][9] - 团队从序列级奖励期望出发,通过重要性采样进行等价变换,并引入一个替代的token级优化目标,其梯度形式即为带token级重要性采样权重的基本策略梯度算法(REINFORCE) [11][12] - 该token级目标被视为序列级目标的一阶近似,其成立的关键条件是目标策略与rollout策略必须足够接近 [13] 针对MoE模型的挑战与解决方案 - 对于MoE模型,专家路由与训练-推理差异、策略陈旧的紧密耦合,更容易导致基于一阶近似的token级替代优化目标失效 [15][16] - 团队提出Routing Replay方法以稳定MoE模型的RL训练,核心思想是在策略优化过程中固定路由到的专家,使其在优化行为上更接近稠密模型 [17] - Routing Replay有两种具体实现方式:Vanilla Routing Replay(R2)旨在减轻专家路由对策略陈旧的影响;Rollout Routing Replay(R3)旨在减轻专家路由对训练-推理差异的影响 [18][19] 实验结果与主要结论 - 团队在数学推理任务上进行了实验,构建了包含4096道题目的RL训练提示集,并在HMMT25、AIME25和AIME24基准上评测 [21] - 在on-policy训练中,带重要性采样校正的基本策略梯度算法(MiniRL)取得了最佳性能和最高训练稳定性 [10][22] - 在on-policy训练中,引入长度归一化会导致性能下降,因为其破坏了对真实序列级奖励的一阶近似;移除重要性采样校正则会导致训练迅速崩溃 [22] - 在引入off-policy更新以加速收敛时,必须同时使用Routing Replay与Clipping才能实现稳定训练,缺失任一项都会导致训练提前崩溃和峰值性能下降 [10][23] - 不同冷启动初始化方式的模型最终性能趋于一致,表明研究重点应更多放在RL方法本身,而非冷启动细节 [10][27] - 无论是on-policy还是off-policy,只要训练过程稳定,其峰值性能都高度一致,说明稳定的训练过程在成功扩展RL中起决定性作用 [27]
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估
机器之心· 2025-12-07 04:33
论文成果与学术认可 - 趣丸科技与北京大学软件工程国家工程研究中心合作发表的关于大语言模型情感支持评估框架的论文,获人工智能顶级学术会议AAAI 2026录用 [2] - AAAI 2026会议投稿竞争激烈,共收到31000篇投稿,最终录用4167篇,录用率仅为17.6%,创历史新低 [3] 研究背景与问题定义 - 情感支持是人机交互的核心能力,但现有大语言模型评估多依赖简短静态对话,未能捕捉情感支持的动态和长期性质 [5] - 情感支持对话已从情绪识别和生成,扩展到角色扮演、心理陪伴等更广泛的以人为中心的任务 [5] - 开发有效的情绪支持不仅能减少负面情绪,还能通过持续高质量互动帮助维持积极的情绪状态 [5] 核心贡献与评估框架 - 团队提出了一套名为ETrajEval的全新评估框架,用于更科学系统地评估大语言模型在长期对话中提供情感支持的能力 [6] - 该框架旨在解决现有评估方法的两大局限:缺乏长期动态互动,以及过分强调以模型为中心的响应质量 [8][9] - 框架采用以用户为中心的视角,关注用户在整个交互过程中的情感轨迹,认为能持续改善并稳定用户情绪状态的模型才具备情感支持能力 [9] - 基于心理学理论,框架提出了三个轨迹层面的量化指标:平均情绪水平、情绪轨迹波动和情绪质心位置,用于表征用户情绪状态的动态变化 [11] - 动态评估框架由三大支柱组成:评估环境、动态交互和基于情感轨迹的指标 [12] 实验设计与数据集构建 - 构建了一个包含328个交互环境以及1152个可能影响人类情绪的干扰事件的大规模基准,以模拟真实情绪变化并评估模型的适应性 [14] - 利用基于心理学理论的情绪调节策略来约束模型响应,鼓励符合已验证治疗原则的支持性行为 [14] - 模拟了涉及重复情绪干扰的长期动态交互,用户情绪轨迹被建模为一阶马尔可夫过程,并应用因果调整的情绪估计来实现对情绪状态的无偏追踪 [14] - 主要贡献包括:提出了动态长期的评估框架与三个轨迹级指标;构建了大规模基准数据集;通过对业界领先模型的广泛评估,发现它们在长期情感支持能力方面存在显著差异 [15] 模型评估结果与关键发现 - 评估了包括闭源与开源在内的多款业界领先大语言模型,如ChatGPT-4o-Latest、Gemini-2.5-Pro、Claude-Opus-4、DeepSeek系列、Qwen系列、Kimi-K2-Preview等 [16] - 关键发现一:顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异 [16] - 关键发现二:专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型大语言模型 [16] - 关键发现三:模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力,大多数模型能帮助用户在英语对话中维持更高的平均情绪水平 [17] - 关键发现四:在具体策略应用方面,模型在英语对话中动态调整策略的能力不足;而在中文对话中,模型引导用户改变外部环境以改善情绪的策略应用明显较弱 [17] 可视化分析与深度洞察 - 通过情绪质心位置可视化分析发现,表现最佳的模型(如ChatGPT-4o-Latest、Kimi-K2-Preview)在引导用户达到积极稳定的情绪状态方面能力更强 [21] - 一些针对英语指令调整的模型的质心定位优于其对应的中文模型,表明不同语言的预训练和对齐方式在情绪调节策略上存在差异 [21] - 情绪轨迹可视化表明,情绪轨迹波动得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复,并对多次干扰事件表现出更强的抵抗力 [22] 模型校准与人类一致性验证 - 为验证情感识别模型与人类感知的一致性,构建了一个包含近2000个中英文多轮对话的人工标注数据集 [26] - 提出的因果增强估计校准方法能有效降低混杂因素的影响,提升模型的情感识别性能,应用后不同模型的性能均得到提升 [26] - 评估模型结合校准方法后,与人类判断具有高度一致性,在中文对话上的准确率达到75%,在英文对话上的准确率达到90% [27] 总结与关联项目 - 提出的情感动态轨迹分析框架能更全面、多维度地评估模型的情感支持能力,且与人类评估结果高度一致 [28] - 团队还开源了关联项目,包括测评体系和框架PQAEF,以及情感陪伴能力测评基准和数据集MoodBench [29][30] - 同时开源了趣丸开天情感陪伴大模型供交流与体验 [32]
两个LLM互相对线,推理能力起飞:康奈尔团队发布大模型版类GAN训练法
机器之心· 2025-12-07 02:52
研究背景与核心观点 - 当前大型语言模型在数学推理等任务上仍高度依赖外部监督数据,如人工标注[2] - 研究提出一种类似生成对抗网络的训练范式,通过两个模型(Proposer和Solver)的对抗与共同进化,旨在解决单一模型难以胜任的任务[2] - 该框架名为PasoDoble,由康奈尔大学团队提出,其核心特点是在整个训练过程中完全不依赖任何监督信号[3] 方法论与框架设计 - PasoDoble框架包含四个核心组件:问题生成模型、问题求解模型、知识库以及用于离线训练的题目缓冲区[9] - 训练过程分为在线与离线两种范式,在线训练中两个模型同步更新,离线训练中则交替冻结进行更新[9][10] - 问题生成模型的奖励机制由难度奖励和多样性奖励构成,旨在鼓励其生成既困难又新颖的问题[13][21] - 难度奖励与求解模型的通过率成反比,即使问题非常简单也能获得基础奖励,以确保问题生成的持续性[15][16] - 多样性奖励通过计算与历史问题的Jaccard相似度来鼓励生成独特问题,避免模式退化[17][20] - 问题求解模型的奖励设计相对简单,仅依赖于其答案与问题生成模型提供的标准答案是否一致的正确性奖励[22][23] 实验结果与性能提升 - 在Qwen3-1.7B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从2.22%提升至7.22%,在AIME 2025从1.67%提升至7.22%[6] - 在Qwen3-4B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从6.11%提升至18.89%,在AIME 2025从2.78%提升至18.89%[6] - 在完全无监督条件下,PasoDoble使Qwen3-1.7B-Base在数学任务上的平均性能提升约13个百分点,使Qwen3-4B-Base提升约16个百分点[7] - 在MATH-500基准上,使用Qwen3-1.7B的求解模型准确率从45%提升至67%,并在第20步训练后即超过基线模型[11] - 性能提升具有规模效应,在Qwen2.5-1.5B/3B和Qwen3-1.7B/4B等更大规模模型上提升更为显著[28] - 消融实验表明,使用完全随机奖励进行训练会使求解模型在所有数学基准上的平均准确率几乎降至零,证明了从问题生成模型答案中学习的重要性[36][37] 模型行为分析 - 对问题生成模型的分析显示,即使提示问题前缀重叠达到80%,其生成问题与提示的精确匹配率也仅为12%(使用知识库)和31%(不使用知识库),表明绝大多数生成的问题源于推理而非对训练数据的简单记忆[38][39] 研究意义与未来方向 - 该研究为大语言模型提供了一种通过对抗式训练提升数学推理能力的新路径,并在多个竞赛级数学基准上取得了可量化的显著提升[41] - 该方法通过利用预训练知识库,在模型的预训练阶段与后训练阶段之间建立了有效连接[41] - 当前框架在如GPQA等特定领域外任务中尚未表现出性能提升,未来研究将探索将该框架拓展至代码生成、事实问答等其他领域[41] - 研究指出,探索更广泛的多模型训练范式,包括协作式、竞争式以及角色专门化等设置,对于解决更复杂的任务至关重要[41]