机器之心
搜索文档
Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局
机器之心· 2025-12-09 03:17
核心观点 - Canvas-to-Image是一个面向组合式图像创作的全新框架,其核心创新在于取消了传统“分散控制”的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中,由模型直接解释为生成指令,从而简化了图像生成的控制流程 [2][9][31] 传统方法的局限性 - 在以往的生成流程中,身份参考、姿态线稿、布局框等控制方式被设计成互不相干的独立输入路径,各自拥有独立的编码方式与预处理逻辑 [7][8] - 这种多入口、分散式的输入结构缺乏统一的表达空间,使得用户无法在同一位置叠加多种控制信息,也无法用一个局部区域里的组合提示来指导模型生成,导致复杂场景的构建流程冗长且割裂 [8] 核心方法论 - Canvas-to-Image将所有控制信号汇聚到同一张画布中,由模型在同一个像素空间内理解、组合并执行,画布本身既是用户界面,也是模型的输入 [9][14] - 在训练过程中,模型采用跨帧采样策略自动生成多任务画布,从跨帧图像集中抽取目标帧所需的不同视觉元素(如人物片段、背景、姿态结构、框选区域等),并按目标帧中的相应位置摆放在输入画布中 [15][17] - 训练时,模型在每一次训练中只会接收到一种随机选定的控制模态(例如空间布局、姿态骨架或边界框),这使其学会独立理解不同类型的控制提示 [15] - 尽管训练数据中不存在显式标注的“多模态组合控制”样本,但模型在推理阶段展现出对未见过控制组合的泛化能力,能够在统一画布中同时解析并整合多种控制信号 [16] 实验结果与能力 - 在多控制组合任务中,Canvas-to-Image能够同时处理身份、姿态和布局框,而基线方法往往会失败 [18] - 当画布中同时包含人物提示和物体提示时,模型能够理解两者之间应有的空间与语义关系,生成具有自然接触、合理互动的场景,而非简单并置 [20] - 在多种控制叠加的情况下,模型能遵循给定的姿态与空间约束,保持人物外观与参考图一致,并维持整体画面的连贯性与合理性 [21][22][23] - 在多层次场景生成中,给定背景图后,模型可通过放置参考图或标注边界框的方式,将人物或物体自然地融入场景,使其在位置、光照和整体氛围上与背景保持一致 [25] 消融研究与总结 - 消融研究表明,当逐步添加控制时,模型表现逐步提升:仅身份控制时能生成人物但姿态和位置随机;增加姿态控制后能同时控制身份和姿态;增加空间布局后能完全控制身份、姿态和位置 [28][32] - 关键发现是,虽然训练时使用单任务画布,但模型自然学会了在推理时组合多种控制,这种涌现能力验证了其设计理念 [28] - 该框架的核心价值是把多模态的生成控制方式全部图形化,让复杂场景的构建回归到最直观的方式:在画布上摆放、画、框,就能生成对应的结构化、真实感强的画面,统一画布加多模态控制的范式有望成为下一代创作工具的基础界面形态 [31]
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
机器之心· 2025-12-09 03:17
多模态大模型视觉编码的技术挑战与现状 - 当前主流视觉编码范式难以兼顾性能与效率:基于切片的编码方法牺牲全局上下文感知能力,而全局原生分辨率编码则带来巨大计算负担 [2] - 现有视觉压缩策略与特征提取过程相对独立,缺乏一个能兼顾细粒度建模与计算效率的统一架构 [2] LLaVA-UHD v3 的发布与核心目标 - 清华大学、中科院研究团队发布 LLaVA-UHD v3,旨在解决高清原生分辨率下保持全局理解能力并实现快速推理的核心问题 [3] - 模型提出了全新的渐进式视觉压缩框架,旨在显著减少视觉 Token 数量,从根本上提升原生高分辨率视觉编码的效率 [4] 渐进式视觉压缩框架详解 - 框架核心由精细化 Patch 嵌入与窗口化 Token 压缩两个组件构成 [4] - 精细化 Patch 嵌入通过将图像划分为更小尺寸的 patch,并转换预训练模型权重,实现更丰富的视觉语义提取建模 [11] - 窗口化 Token 压缩在 ViT 中间层聚合相邻 token,通过可学习的池化权重渐进压缩 token 数量,保留关键语义信息 [13] - 该“先细粒度建模 + 再渐进压缩”的设计,在兼顾全局语义与局部细节的同时大幅降低计算量 [15] 全图编码与切片编码的对比分析 - 实验对比显示,全局原生分辨率编码在空间感知/定位任务上相比切片编码平均提升约 11.0% [6] - 在通用视觉-语言理解任务中,全局原生分辨率编码在语义理解表现上略优于切片编码,平均提升约 2.1% [7] - 研究发现切片编码机制破坏了图像的空间连续性,导致系统性方向与结构偏差,削弱了空间理解的可靠性 [7] - 结论表明,尽管切片编码效率有优势,但从语义、空间及几何一致性角度,全局原生分辨率编码更适合需要空间感知与高分辨率理解的任务 [7] LLaVA-UHD v3 的效率与性能验证 - 效率方面,ViT-UHD 编码器相比 MoonViT 实现 2.4× 加速,相比 Qwen2.5-ViT 快 1.9× [16] - 整合到完整 MLLM 后,LLaVA-UHD v3 的 TTFT 相较 Qwen2-VL 降低 49%(约快 1.9×),比以高效著称的切片编码模型 MiniCPM-V2.6 仍快约 10% [16] - 性能方面,模型仅使用约 2000 万对图文数据训练,远低于 Qwen2-VL(约 7 亿)和 MiniCPM-V-2.6(约 4.6 亿)的训练规模 [17] - 模型实现了 64× 的视觉 Token 压缩率,远超对手(Qwen2-VL 约为 4×,MiniCPM-V2.6 为 16×)[17] - 在需要细粒度视觉信息的任务上,如 HallusionBench、CV-Bench 以及 OCR&Chart,模型取得了与 SOTA 模型相当甚至更优的表现 [17] 模型综合性能基准对比 - 在通用与知识基准测试中,LLaVA-UHD-v3 在多个指标上展现出竞争力,例如在 MME 上得分为 2183.6,在 MMB 上为 81.3,在 MathVista 上为 64.2 [18] - 在视觉推理与 OCR & Chart 基准测试中,模型在 HallusionBench 上得分为 52.2,在 RealworldQA 上为 70.3,在 DocVQA 上为 92.8,表现优异 [19] 技术局限与未来展望 - 实验表明,缺失预对齐阶段的 ViT-UHD 性能不佳,当前 MLLM 标准训练流程难以完全挖掘视觉编码器的潜力 [20] - 随着 Token 数量增大,Transformer 的二次复杂度仍会带来成本瓶颈 [20] - 未来需探索更适合多模态任务的视觉编码预训练策略,并引入线性复杂度算子以替代传统注意力机制,实现可扩展的高效多模态建模 [20]
刚上市的摩尔线程,即将揭晓新一代GPU架构
机器之心· 2025-12-09 03:17
大会概况 - 摩尔线程将于2025年12月19日至20日在北京举办首届MUSA开发者大会(MDC 2025)[2] - 大会是国内首个聚焦全功能GPU的开发者盛会,旨在汇聚全球AI与GPU领域开发者,共同探索国产算力突破路径[2] - 大会将全面展示从硬件到软件、从技术到场景的全栈能力与生态进展,推动国产全功能GPU技术扎根千行百业[2] 核心议程与发布 - 主论坛将聚焦智能算力,公司创始人将首次系统阐述以MUSA为核心的全栈发展战略与未来愿景[4] - 主论坛将重磅发布新一代GPU架构,并推出涵盖产品体系、核心技术及行业解决方案的完整布局[4] - 演讲将分享公司在AI计算、图形渲染、科学计算及多场景融合中的落地实践与生态进展[4] 技术专题与生态建设 - 大会设立超过20场技术分论坛,议题覆盖智能计算、图形计算、科学计算、AI基础设施、端侧智能、具身智能等关键领域[6] - 将设立“摩尔学院”以赋能开发者成长,通过技术共享、资源整合与人才培养,共同构建国产GPU应用生态[6] 沉浸式体验与展示 - 大会将联合生态伙伴打造超过1000平方米的沉浸式“MUSA嘉年华”[8] - 现场设置多元主题展区,内容覆盖AI大模型&Agent、具身智能、科学计算、空间智能等前沿技术领域[8] - 展示将延伸至工业智造、数字孪生、数字文娱、智慧医疗等热门应用场景,通过Live Demo让技术可体验[8] - 具体互动体验包括具身智能(如机械臂/机器狗/机器人)、数字人实时交互与3D建模、国产GPU在游戏等数字文娱中的应用等[12][13][15] 行业应用赋能 - 大会将展示全功能GPU如何深度赋能千行百业[19] - 覆盖的行业应用领域包括智慧农业、工业智造、智慧教育、智慧医疗、智慧出行、专业视觉、互联网及运营商等[21] 公司定位与愿景 - 公司以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业数智化转型提供AI计算支持[26] - 公司目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台[26]
ICLR 2026还会好吗?300篇投稿50篇含幻觉,引用example.com竟也能过审
机器之心· 2025-12-08 10:11
ICLR 2026审稿中发现的AI生成内容与引用幻觉问题 - 第三方统计发现ICLR 2026有21%的审稿意见完全由AI生成[1] - OpenReview评审系统发生“开盒”事件,波及超过10000篇投稿[1] - AI检测平台GPTZero扫描了300篇投稿论文,发现其中50篇至少包含一处明显的引用幻觉内容[1] - 部分存在幻觉内容的投稿已经过3-5名领域专家的同行评审,但绝大多数未能被识别[5] - 部分存在幻觉的投稿平均评分高达8/10(满分10分),几乎确保被录用[6] 幻觉引用的具体表现形式与案例 - 引用链接直接使用默认示例链接“example.com”[3] - 作者名单仅为一串大写字母,而非真实姓名[4] - 引用论文真实存在,但所有作者信息错误[6] - 引用论文前几位作者信息正确,但后续作者为虚构或不在论文中[6] - 引用完全不存在的论文[8] - 具体案例包括论文《TamperTok》和《MixtureVitae》,其引用均存在作者信息完全错误或部分虚构的问题[6][7] GPTZero的幻觉检测工具与方法论 - 该工具自2024年1月推出,已测试过包括政治报告、公司报告在内的数百份文件[13] - 工具使用内部训练的AI智能体标记无法在网上找到的引用,标记后需人工审查确认[18] - 将“幻觉”定义为:使用生成式AI产生的、对真实来源标题、作者或元数据进行改写或拼凑的引用[18] - 工具假阴性率(漏报率)极低,成功发现有缺陷引用的概率可达99%[21] - 工具假阳性率(误报率)相对较高,因为它会标记任何无法在线验证的引用[22] - 该工具为同行评审提供两大关键益处:大幅减少验证文档来源所需的时间和人力,并使过程更公平透明[25][26][30] 学术出版行业面临的系统性压力 - 2016年至2024年间,每年发表的科学文章数量激增了48%[11] - 撤稿和其他学术丑闻层出不穷[11] - 科学会议和期刊难以找到合格的同行评审员,评审员因时间需求增加而不堪重负[11] - 生成式AI、论文工厂和发表压力共同引发了投稿狂潮,压垮了学术期刊与会议[10][11] - ICLR等顶级会议投稿和评审中AI撰写迹象普遍,包括行文冗长、滥用列举项、伪造数据和引用幻觉[11] 事件影响与行业警示 - GPTZero仅扫描了2万篇投稿中的300篇,预计未来几天将发现数百篇包含幻觉内容的论文[10] - 根据ICLR编辑政策,即使只有一处明确幻觉内容也构成伦理违规,可能导致论文被拒稿[10] - 事件暴露了在AI生成内容效率与人工验证成本之间存在不对称对抗,正在击穿同行评审防线[28] - 该事件被视为一个警告,表明在拥抱AI效率红利时,必须建立与之匹配的数字安检机制[28] - 否则,学术会议可能从思想碰撞的场所,演变为AI生成内容的自我狂欢[28]
AAAI 2026 Oral | 手机传感器正在泄露隐私?PATN实时守护隐私安全
机器之心· 2025-12-08 10:11
移动传感器数据隐私保护技术研究 - 移动应用通过加速度计、陀螺仪等运动传感器数据支撑关键功能,但细粒度数据存在隐私泄露风险,可被用于推断用户性别、年龄等敏感属性 [2] - 行业亟需在保持传感器数据实用性的同时有效保护用户隐私 [2] PATN隐私保护框架概述 - 西安交通大学与东京科学大学在AAAI 2026上提出了移动传感器隐私保护框架PATN [3] - 该框架基于对抗攻击思想,通过微小扰动实现隐私保护,同时不影响数据语义和时序结构 [3] - 框架旨在提供高保真、连续的隐私防护,有效抑制敏感属性推断,且不影响正常应用功能 [3] 现有方法的局限与关键问题 - 现有数据混淆和生成模型通常需缓存完整序列,难以满足实时防护需求 [7] - 大多数对抗攻击方法假设可访问完整序列并按固定时间线生成扰动,而实际攻击可能随时发生,导致扰动与攻击错位,降低防护效果 [7] - 关键问题一:实时扰动生成——如何在数据产生的瞬间生成未来方向的扰动,确保隐私防护能够零时延、连续地生效 [7] - 关键问题二:防御与攻击的时间错位——如何保证在攻击时间与防御扰动存在偏移的情况下,扰动仍能有效覆盖目标窗口 [8] PATN技术方法详解 - PATN假设可访问开源隐私推断模型及其梯度,并利用历史传感器数据预测未来扰动 [10] - 系统包含训练阶段和设备端部署两部分,通过三类损失联合优化实现隐私保护与数据保真的平衡,并在设备端实现零时延扰动生成 [10] - 扰动范围被严格限制在每个传感器维度均值或标准差的5%范围内,并参考设备自然传感器波动,使扰动保持在用户难以察觉的正常噪声水平内 [12] - 基于历史数据的扰动生成模型采用序列到序列结构,由LSTM编码器和解码器组成,仅使用过去的传感器序列预测未来序列的对抗扰动,实现零未来依赖的实时隐私保护 [12] - 历史感知top-k优化策略通过将上一轮与当前扰动拼接,并选取前k个最高对抗损失窗口进行优化,使模型重点提升在“最难防护”时间区域的攻击效果,确保扰动在时间上一致且防护能力稳定 [13] 实验性能评估 - 在MotionSense和ChildShield两个数据集上评估,隐私对抗模型采用卷积神经网络 [14][15] - 在MotionSense数据集上,PATN的ASR(攻击成功率)达到40.11%,EER(等错误率)达到41.65%,AUC为0.662,F1_Score为0.611 [14] - 在ChildShield数据集上,PATN的ASR达到44.95%,EER达到46.22%,AUC为0.549,F1_Score为0.537 [14] - PATN在实时保护性能方面明显优于DP、UAP、FGSM、PGD等传统基线方法 [15] 技术优势:迁移性与数据可用性 - 在迁移性方面,PATN展现出良好的泛化能力和时间适应性,固定输出长度生成的扰动即可有效攻击不同输入长度的黑盒模型 [17] - 面对MobileNet、Xception、FCN等结构完全不同的黑盒模型,PATN依然维持较高的攻击成功率(ASR在29.43%至36.57%之间)和EER(在36.76%至38.79%之间) [17] - 在数据可用性方面,PATN优于现有方法PrivDiffuser,在行为识别和步态检测等下游任务中,使用PATN扰动后的数据几乎不影响任务性能 [18] - 在步数检测任务中,原始数据步数为7916,PATN扰动后数据步数为7937(仅增加21步),而PrivDiffuser扰动后步数为8683(增加767步) [16] - 在行为识别任务中,原始数据的HAR-EER为5.08%,PATN扰动后数据为6.57%(仅增加1.49个百分点),而PrivDiffuser为6.92%(增加1.84个百分点) [16] 总结与未来方向 - PATN是一种基于历史数据的扰动生成框架,通过利用过去的传感器信号预测未来扰动,实现对实时数据的零延迟隐私保护,同时保持原始数据的时序与语义完整性 [19] - 未来工作将拓展PATN在黑盒模型下的适用性,并覆盖更多敏感属性 [19]
斯坦福最火CS课:不让学生写代码,必须用AI
机器之心· 2025-12-08 10:11
课程概况与市场反响 - 斯坦福大学计算机系新开设的课程《现代软件开发者》(CS146S: The Modern Software Developer)成为AI圈热门话题,课程主旨是教授在不编写一行代码的情况下进行编程开发[1][2] - 该课程在2024年9月首次上线即被学生挤爆,候补名单超过200人,反映了市场对AI时代软件开发技能转型的强烈需求[5] - 课程历时10个月精心打造,是首个专注于人工智能软件原理与实践的课程,资料齐全,涵盖阅读材料、作业练习、示例代码和全套课件[8][9] 课程核心教学理念 - 课程明确鼓励学生尽可能不写代码,专注于使用AI工具进行“氛围编码”(Vibe Coding),学生提交作业需附带与AI的对话记录[5] - 教学重点并非AI原理或调优,而是教授如何使用Cursor和Claude等AI代码工具,并应对AI的“幻觉”问题[5] - 课程旨在帮助学生完成从使用AI到构建AI驱动软件的转变,为成为未来的AI原生软件工程师打下基础[16] 课程具体内容与结构 - 课程为期十周,内容循序渐进,从LLM基础知识与提示工程开始[10] - 第二至四周深入编程智能体(Agent)的内部结构、AI集成开发环境以及人机协作模式[11][12][13] - 第五至七周涵盖AI增强的现代终端、AI在测试与安全领域的应用,以及AI在软件支持与维护中的价值[14] - 第八至十周探讨AI驱动的自动化UI/App构建、智能体部署后的运维管理,以及人工智能软件工程的未来发展方向[15] 行业趋势与技能转型 - 课程的出现表明,在快速发展的大语言模型冲击下,行业最关注的问题已转变为如何适应充满AI的世界[5] - 课程最终周主题为“人工智能软件工程的未来”,聚焦软件开发职业的未来方向、新兴的AI驱动编码范式以及行业发展趋势[6][15] - 讲师指出,AI技术发展迅速,明年的课程内容可能会大不相同,暗示了行业技术迭代的高速度[23] 目标学员与前置要求 - 课程兼顾实用与有趣,配套实践项目,要求学习者具备与CS111相当的编程经验(编程语言、操作系统和软件工程)[9] - 推荐学员已修完CS221/229课程(高等数学、机器学习基础),表明课程面向已有一定技术基础的学习者[9] - 讲师Mihail Eric计划在明年教授一个面向专业开发者的公开版本课程,名为《AI Software Development: From First Prompt to Production Code》,显示该技能培训正从学术向职业领域扩展[19]
从分钟级等待到20倍超速:LightX2V重写AI视频生成速度上限
机器之心· 2025-12-08 04:27
核心观点 - 开源项目LightX2V通过算法与工程的全栈优化,旨在将高质量视频生成推向消费级硬件上的1:1实时体验,其技术栈在社区中迅速流行,单月下载量超过170万次[2] 技术架构与性能 - 项目目标是在主流硬件上实现视频生成的1:1实时体验,远超现有框架[2][4] - 通过系统级优化,将生成5-10秒视频的时间从几分钟压缩到与视频时长接近的水平,实现接近1:1的实时体验[7] - 在同类开源方案中,相比SGLang Diffusion、FastVideo等框架,在延迟和吞吐上具有明显优势,尤其在8GB-24GB消费级显卡区间能跑满硬件能力[7] 核心算法创新 - **Phased DMD步数蒸馏**:将原本40-50步的视频扩散过程压缩到4步,同时保持时间一致性和运动细节,基于此技术的少步模型在Hugging Face趋势榜长期靠前,累积下载量达百万级[10][11] - **LightVAE轻量级VAE**:针对视频生成场景设计,在保持高清画质和时间一致性的前提下,有效降低编解码开销,为4步推理释放更多预算[12] - 两项核心算法协同,先在算法层面打通路径,再通过工程优化榨干硬件性能[13] 全栈性能工程优化 - 通过一系列关键技术模块,将“能跑”变成“跑得快、跑得省”,并支持从单机单卡扩展到多卡集群[14][15][16] - **显存门槛**:通过步数蒸馏、低比特量化和分级Offloading,将完整工作流的显存需求压至8GB以下,入门级消费卡即可运行[21] - **吞吐与延迟**:综合使用低比特算子、稀疏注意力与特征缓存,在常见5秒视频场景下达到接近1:1的实时生成速度[21] - **低比特算子**:采用MXFP8/MXFP6/NVFP4等技术,在不明显损伤画质的前提下压缩计算与带宽,释放硬件算力[21] - **稀疏注意力算子**:利用视频时空特征的稀疏性,减少冗余计算,提升大分辨率下的吞吐[21] - **特征缓存**:对中间特征进行缓存与复用,降低重复计算,进一步缩短延迟[21] - **三层延迟隐藏Offloading**:通过精细化的显存-内存调度,在8GB显存上完成28B级别MoE模型推理[21] - **FP8通信多卡并行**:结合FP8通信和流水线/序列并行,在多卡环境下提升吞吐,面向5090等消费级新卡实现更高帧率的强实时目标[21] 模型与硬件生态支持 - **模型生态**:已支持Wan2.1/Wan2.2、CogVideo1.5、HunyuanVideo1.5等主流视频生成模型,以及Matrix Game、MagicDrive等世界模型,并提供4步或少步数配置与加速方案[21] - **应用生态**:深度集成ComfyUI,其LightVAE等核心组件已进入社区主干工作流,用户可在图形界面中直接调用加速推理[21] - **硬件生态**:除支持NVIDIA 3060/4090/5090及A100/A800/H100/H800/H200等显卡外,还原生支持寒武纪MLU590、沐曦C500等国产AI芯片,为本地化、大规模部署提供基础[21] 使用与落地场景 - **个人开发者**:只需带独显的笔记本或台式机,即可本地启动带前端界面的视频生成工具,在ComfyUI中完成素材调试、风格迭代和项目输出[21] - **企业用户**:通过服务化部署方案,可一键搭建面向外部的API服务和Web应用,并按需扩展到多机多卡集群,支持批量视频生产和内部工具集成[21] - **普通用户**:可直接访问网页版入口x2v.light-ai.top,在浏览器中体验少步视频生成和实时预览[21] - 应用覆盖从图像转视频、文本转视频,到世界模型和自动驾驶仿真等领域,旨在通过开源方式将高质量、低成本、强实时的视频生成能力普及[19]
DeepSeek V3到V3.2的进化之路,一文看全
机器之心· 2025-12-08 04:27
DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型,随后推出基于相同架构的专用推理模型DeepSeek R1,使其成为最受欢迎的开放权重模型之一,成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中,公司模型策略从专用推理模型转向混合模型,V3.1和V3.2均为兼具通用聊天和推理能力的混合模型,而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp,旨在为更大规模的发布准备生态系统和推理基础设施,该模型引入了非标准的稀疏注意力变体,需要定制代码[17][18] - 2025年12月1日,公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale,与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新:注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构,MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存,虽然增加了一次额外的矩阵乘法,但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力,该机制由Lightning Indexer和Token选择器组成,基于学习到的相关性分数选择性地关注部分过去的Token,而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk),其中L是序列长度,k是选定Token的数量,在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构,集成了MLA和DSA机制,主要动机是提高整体模型性能的同时,将计算效率视为巨大驱动因素[107][110] 训练方法演进:从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力,其核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码[37][38] - RLVR流程使用了GRPO算法,这是“近端策略优化”算法的一个简化变体,GRPO取消了评论家模型,而带GRPO的RLVR进一步移除了奖励模型,转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点,公司在DeepSeekMath V2中引入了自我验证与自我修正技术,开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查,使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间,公司使用单一模型同时执行证明生成和验证,这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求,通过多达8次的自我修正迭代,模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序,但更新了奖励机制,对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励,对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域,公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身,公司进行了一系列稳定性更新,包括:零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体,其在RL阶段仅在推理数据上进行训练,并减少了长度惩罚以允许模型输出更长的响应,这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色,在数学基准测试中获得了金牌级的表现,同时在训练时也考虑到了工具的使用,在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性,例如在AIME 2025基准上达到96.0,在HMMT Feb 2025基准上达到99.2,但同时也生成了更多的Token[127]
百万人围观的「萌娃教训小狗」视频火了,结果都是AI生成的|附教程
机器之心· 2025-12-07 04:33
AI生成视频内容的现象与流行 - 近期社交平台涌现大量萌娃与宠物狗温馨互动的短视频,内容治愈且传播力强,例如有小孩严肃“教训”小狗或与小狗拥抱对话的场景[2][3][4][5][6] - 这类视频在社交平台上获得了巨大的流量,点赞量动辄上万,播放量多则上百万,少则也有几十万[7] - 这些高传播度的视频实际上是由AI生成,视频时长多在15秒以内,符合当前主流AI视频生成模型的时长限制[7][8] AI视频生成技术的关键工具与进展 - 生成此类视频可使用Sora2、Veo3.1及快手可灵新推出的Video 2.6等模型,其效果依赖于精心设计的提示词[10] - 提供了一段具体的提示词示例,用于生成一个14个月大欧亚混血男孩与金毛幼犬互动的场景,描述包括人物外貌、动作、对话及画面风格[11] - Sora 2模型相较于前代在物理真实性、细节呈现和音画同步方面有显著提升,能生成高度匹配的对话、音效和背景音乐,细节写实度足以媲美真实家庭录像[12] - 快手可灵的Video 2.6模型也能实现音画同步,但生成的语音语调有时略显不自然[14] AI视频内容流行的内在逻辑 - 萌娃与宠物互动的内容精准击中了人性中对纯粹、美好情感的渴望,其治愈属性能够跨越文化和语言障碍[15] - 过去捕捉此类完美瞬间需要大量时间和运气,而AI技术实现了理想画面的批量生产,大幅增加了优质内容的供给[16] - 平台算法识别到用户对此类内容的高完播率和互动率后,会加大推荐力度,形成“用户观看越多,推送越频繁”的持续强化循环[17] Sora应用的市场表现与产品定位困境 - Sora 2上线初期凭借强大的AI视频生成能力一度冲上美国App Store榜首,每天下载量达20万[20] - 然而其用户留存率迅速衰减,数据显示第1天留存率降至10%,第7天为2%,第30天为1%,第60天则归零;相比之下,TikTok同期的留存率稳定在30%左右[21] - 分析指出,新社交应用普遍经历初期热度后用户流失的过程,用户会评估是否有持续使用的动力[23] - Sora面临双重身份困境:它既是强大的创作工具,又试图成为社交平台;但其平台内几乎全是AI生成内容,缺乏真实社交圈的内容,导致用户难以长期留存[27] - 一个完全由AI生成内容构成的信息流,其体验远不如真人内容与AI内容混合的平台,因为用户更希望看到真实的人和故事;最好的Sora内容往往被导出到其他平台如Instagram、TikTok[28] - 判断认为,Sora将继续作为一个强大的创意工具(类似视频创作者的Photoshop)蓬勃发展,但作为社交产品可能难以取得成功,因为工具类产品用户留存率天然不高[29]
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心· 2025-12-07 04:33
强化学习在大语言模型中的新公式化方法与稳定训练实践 - 阿里千问团队提出了一种针对大语言模型(LLM)的全新强化学习(RL)公式化方法,核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token级目标作为其一阶近似 [2] - 该方法从原理上解释了多种RL稳定训练技巧的有效性,包括重要性采样权重、剪切(Clipping)机制以及针对混合专家(MoE)模型的路由重放(Routing Replay)方法 [2] - 团队使用一个30B参数的MoE模型进行大量实验,总计耗费数十万GPU小时以验证理论并探索稳定训练实践 [4] 研究背景与核心问题 - 强化学习已成为提升大语言模型复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展RL至关重要 [2] - 主流RL算法普遍存在“奖励在序列级、优化在token级”的不匹配问题,引发了对其理论健全性与训练稳定性的担忧 [2] - 在MoE模型的RL训练中,动态专家路由机制可能破坏token级重要性采样比的有效性,带来了新的挑战 [2] 核心理论框架 - 团队专注于序列级优化,即对整个模型生成的响应赋予一个标量奖励,而不采用基于价值函数的方法,因为构建通用、可扩展且可靠的价值模型极为困难 [6][7] - 直接优化期望序列级奖励非常困难,主要挑战在于训练与推理之间的数值差异,以及用于采样响应的rollout策略与需要优化的目标策略之间的偏差 [8][9] - 团队从序列级奖励期望出发,通过重要性采样进行等价变换,并引入一个替代的token级优化目标,其梯度形式即为带token级重要性采样权重的基本策略梯度算法(REINFORCE) [11][12] - 该token级目标被视为序列级目标的一阶近似,其成立的关键条件是目标策略与rollout策略必须足够接近 [13] 针对MoE模型的挑战与解决方案 - 对于MoE模型,专家路由与训练-推理差异、策略陈旧的紧密耦合,更容易导致基于一阶近似的token级替代优化目标失效 [15][16] - 团队提出Routing Replay方法以稳定MoE模型的RL训练,核心思想是在策略优化过程中固定路由到的专家,使其在优化行为上更接近稠密模型 [17] - Routing Replay有两种具体实现方式:Vanilla Routing Replay(R2)旨在减轻专家路由对策略陈旧的影响;Rollout Routing Replay(R3)旨在减轻专家路由对训练-推理差异的影响 [18][19] 实验结果与主要结论 - 团队在数学推理任务上进行了实验,构建了包含4096道题目的RL训练提示集,并在HMMT25、AIME25和AIME24基准上评测 [21] - 在on-policy训练中,带重要性采样校正的基本策略梯度算法(MiniRL)取得了最佳性能和最高训练稳定性 [10][22] - 在on-policy训练中,引入长度归一化会导致性能下降,因为其破坏了对真实序列级奖励的一阶近似;移除重要性采样校正则会导致训练迅速崩溃 [22] - 在引入off-policy更新以加速收敛时,必须同时使用Routing Replay与Clipping才能实现稳定训练,缺失任一项都会导致训练提前崩溃和峰值性能下降 [10][23] - 不同冷启动初始化方式的模型最终性能趋于一致,表明研究重点应更多放在RL方法本身,而非冷启动细节 [10][27] - 无论是on-policy还是off-policy,只要训练过程稳定,其峰值性能都高度一致,说明稳定的训练过程在成功扩展RL中起决定性作用 [27]