机器之心
搜索文档
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
机器之心· 2025-12-13 08:31
研究背景与动机 - 多模态大语言模型的能力高度依赖高质量的视觉指令微调,但数据集规模爆炸式增长导致全量微调计算开销巨大且存在冗余[8] - 现有数据筛选方法普遍存在两大痛点:筛选成本高昂,需要目标模型对全量数据进行反向传播;优化目标解耦,将重要性与多样性割裂处理,导致次优权衡[12] 方法论核心创新 - 引入轻量级插件评分器,仅需随机采样一小部分数据(例如20%)进行训练,即可学习整个数据集的分布特征并对剩余数据泛化评分,无需遍历全集[14] - 提出重要性与多样性的耦合优化框架,将两者统一在联合训练中,而非分阶段进行[14] - 重要性损失基于交叉熵损失的重加权,使评分器隐式学习样本重要性;多样性损失基于谱聚类的方差最小化,保证数据多样性分布[14] - 引入基于同方差不确定性的自动加权机制,通过动态调整损失权重,实现重要性与多样性的自适应平衡[15][18] 实验性能与效率 - 在多项基准测试中,仅利用20%的数据进行训练和筛选,即可达到全量数据微调98.2%的平均性能[20] - 与现有先进方法相比,COIDO拥有最低的总计算量,仅为4.2E FLOPs,计算效率最高[20][24] - 在相同数据留存率下,COIDO在各个基准测试上均取得了极具竞争力的结果,筛选质量最优[24] - 在LLaVA-665K上训练好的评分器,可直接应用于Vision-Flan数据集,其零样本迁移表现优于在该数据集上从头训练的评分器,证明了强大的泛化性与迁移性[21] 研究总结与意义 - COIDO提供了一种全新的多模态数据筛选范式,打破了“数据筛选必须昂贵”的刻板印象[23] - 该方法通过耦合优化和小样本学习,以极小的计算代价精准定位高价值视觉指令数据,实现了“以简驭繁”[4][23] - 该研究为资源受限的研究者高效微调多模态大语言模型提供了可能,并为未来大规模多模态数据的自动化清洗与治理提供了新思路[23]
谢赛宁REPA得到大幅改进,只需不到4行代码
机器之心· 2025-12-13 04:59
研究核心发现 - 驱动表征对齐(REPA)生成性能的关键因素是目标表征的**空间结构**,而非其**全局语义信息**(如ImageNet-1K准确率)[3][15] - 通过大规模实证分析27种不同视觉编码器,发现空间结构指标(LDS)与生成质量(FID)的皮尔逊相关系数高达 `|r| = 0.852`,而线性探测准确率与FID的相关性仅为 `r = -0.260` [17] 反直觉现象与证据 - 分割模型SAM2-S的ImageNet准确率仅为`24.1%`,但其作为REPA目标表征时,生成的图像质量(FID)优于准确率高出`60%`的模型(如PE-Core-G)[15] - 在同一模型家族中,更大的参数量(如DINOv2-g)并不总能带来更好的生成效果,有时甚至更差[15] - 强行融合包含全局信息的[CLS] token到图像块特征中,会提升线性探测准确率,但导致生成质量(FID)显著下降[15] iREPA方法改进 - 核心改进包含两点:1) 用`3×3`卷积层替代标准REPA中的MLP投影层,以更好地保留局部空间关系[20][21];2) 引入**空间归一化层**,减去目标表征的全局均值信息以增强空间对比度[22] - 该方法代码实现简单,少于4行[5] iREPA性能表现 - **收敛速度**:在各种模型规模(如SiT-XL/2, SiT-B/2)和视觉编码器(如DINOv3, WebSSL, CLIP)下,iREPA均能显著加速扩散Transformer的训练收敛[26] - **编码器通用性**:在测试的27种不同视觉编码器(涵盖监督、自监督及多模态模型)上,iREPA的生成FID分数均低于标准REPA[27] - **扩展性**:模型规模越大,iREPA带来的收益越高。当视觉编码器从PE-B (`90M`参数)增大到PE-G (`1.88B`参数)时,性能提升百分比从`22.2%`增加至`39.6%`[34] - **视觉质量**:生成的图像在物体轮廓、纹理细节和整体结构连贯性上优于标准REPA[36] - **兼容性**:iREPA能无缝集成到现有先进训练流中,如REPA-E、MeanFlow、JiT等,并持续提供额外性能增益[33][37] 消融实验验证 - 完整iREPA方法(包含卷积投影和空间归一化)在所有测试编码器上取得最佳FID分数[41] - 例如,使用DINOv3-B编码器时,完整iREPA的FID为`16.26`,优于仅移除空间归一化的`17.76`和仅移除卷积投影的`18.28`[41]
AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言
机器之心· 2025-12-13 04:59
研究背景与痛点 - 现有跨语言推理方法存在“路径依赖”问题:要么直接推理易导致低资源语言产生幻觉,要么强制转英语推理会损害需要保留原语言文化韵味或特定语义的任务[5] - 核心问题在于没有一种单一语言适合所有任务[6] 核心框架与创新 - 研究团队提出AdaMCoT框架,其核心是把“用哪种语言思考”本身当成一个可优化的决策变量,通过自适应地在多种语言间路由并组合链式思考来提升推理性能[2] - 该框架并非“先翻译再回答”,而是引入了自适应路由机制,根据问题特性动态选择最佳思维路径[8] - 框架赋予模型自适应的元认知能力,能够根据输入问题是逻辑题、文化题还是常识题,从候选语言池中路由出最佳思维路径[6] 方法与机制 - 设计双路径推理机制:1) 跨语言思维链,为与提示语言不适配的任务选取合适的“思考语言”完成推理后整合回目标语言;2) 直接生成,对模型擅长的语言或特定任务直接在源语言上生成答案[13] - 引入基于奖励的自适应路由微调机制,利用GPT-4o作为奖励模型,从事实正确性、连贯性和指令遵循度等维度对不同推理路径生成的答案进行打分,并只学习高分(分数≥9)的推理路径[10] 实验结果与性能 - 在mTruthfulQA、CrossAlpaca-Eval 2.0、Cross-MMLU和Cross-LogiQA等多个多语言基准上评估,涵盖了LLaMA 3.1和Qwen 2.5等主流开源模型[14] - 事实推理能力显著提升:在mTruthfulQA数据集上,LLaMA3.1-8B-AdaMCoT在32种语言中的31种上都取得了性能提升[16] - 具体提升幅度:对于中文,准确率相对原模型提升9.0%;对于低资源语言如印度尼西亚语,相对提升高达12.7%;在匈牙利语、葡萄牙语和孟加拉语等语言上,实现了超过10%的绝对提升[19] - 跨语言一致性增强:不仅提高准确率,还显著增强了跨语言的一致性,减少了幻觉现象[18] - 性能对比数据示例:LLaMA3.1-8B-AdaMCoT在英语上准确率为59.24%,在德语上为57.49%,在法语上为58.83%,均高于基线模型和传统方法(如AutoCAP、QAlign)[15] 技术原理深度解读 - 通过Logit Lens分析发现,当模型直接用低资源语言回答复杂问题时,中间层预测充满噪声和幻觉;而引导模型先用英语“思考”时,模型在早期层级就能锁定正确事实路径,生成答案更自信准确[24] - 通过UMAP可视化显示,AdaMCoT成功拉近了不同语言在语义空间中的距离,非英语语言的嵌入向量显著向英语中心靠拢,促进了多语言知识在语义层面的深层融合[27] 总结与意义 - AdaMCoT提出了一种全新的多语言推理范式:不改变模型参数规模,不依赖海量多语言预训练数据,仅通过“学会如何选择思考语言”就能显著释放大模型的跨语言潜能[28] - 该工作为提升低资源语言的AI性能提供了低成本高效方案,也为理解大模型的跨语言对齐机制提供了新视角,有望成为打破语言隔阂、实现“AI普惠”的关键技术之一[28]
GPT-5.2已上线24小时:差评如潮!
机器之心· 2025-12-13 04:59
文章核心观点 - OpenAI发布的最新顶级模型GPT-5.2系列在官方基准测试中刷新了多项SOTA水平,但在用户实际体验和第三方常识推理测试中表现不佳,引发了广泛的负面评价 [2][3][5] - 用户和行业观察者批评GPT-5.2模型过度追求安全性和任务导向,导致其回应显得机械、缺乏情感智能和常识,在日常互动中“不通人性”,甚至在某些方面出现性能倒退 [5][33][49] - 文章指出,GPT-5.2的表现凸显了当前AI行业评估标准(如基准测试)与现实世界应用需求之间的脱节,单纯追求测试分数可能以牺牲模型的理解力和实用性为代价 [49] 模型性能表现 官方基准测试成绩 - GPT-5.2在多项专业知识工作基准测试中超越了前代模型GPT-5.1 Thinking [4] - GDPval (wins or ties): 从38.8%提升至70.9% [4] - SWE-Bench Pro (public): 从50.8%提升至55.6% [4] - SWE-bench Verified: 从76.3%提升至80.0% [4] - GPQA Diamond (no tools): 从88.1%提升至92.4% [4] - CharXiv Reasoning (w/ Python): 从80.3%提升至88.7% [4] - AIME 2025 (no tools): 从94.0%提升至100.0% [4] - FrontierMath (Tier 1-3): 从31.0%提升至40.3% [4] - FrontierMath (Tier 4): 从12.5%提升至14.6% [4] - ARC-AGI-1 (Verified): 从72.8%提升至86.2% [4] - ARC-AGI-2 (Verified): 从17.6%提升至52.9% [4] 第三方基准测试表现 - 在SimpleBench(测试常识推理能力)中,GPT-5.2得分仅为45.8%,低于Claude Sonnet 3.7(46.4%)等约一年前的模型,在榜单中排名第17 [8][9] - GPT-5.2 Pro在SimpleBench中得分为57.4%,仅略高于GPT-5 (high)的56.7% [8][9] - 在LiveBench测试中,GPT-5.2 High的Global 0 V Average得分为73.61,低于GPT-5.1 Codex Max High的76.09、Claude 4.5 Opus Thinking High Effort的75.58以及Gemini 3 Pro Preview High的74.14 [11][12] 用户反馈与具体问题 逻辑与常识错误 - 在回答“garlic有几个r?”时,GPT-5.2错误地回答“0个”,而Gemini 3、DeepSeek R1和Qwen3-Max均回答正确 [14][16] - 当被故意误导“5.9-5.11=0.79”时,GPT-5.2未能识别出这是一个错误的陈述,反而进行了纠正计算,显示出容易被“忽悠” [20][21] - 模型回答不稳定,同一问题有时正确有时错误 [19] 编程与创意任务表现 - 在编写Python代码可视化单行道交通信号灯的任务中,GPT-5.2 Extended Thinking生成的代码功能正常但视觉效果简陋(黑白简笔画),而Claude Opus 4.5生成的代码视觉效果优秀(彩色、带轮子会转的小汽车、带光晕的指示灯) [24][26] - 在创作蒙娜丽莎的ASCII艺术作品时,GPT-5.2生成的效果“抽象”,远不如GPT-4o、Gemini 3.0 Pro和GPT 5.1 (Copilot) [28][29][32] 情感智能与共情力缺失 - 当用户倾诉“我有时也会恐慌发作”时,GPT-5.2回应“很高兴听到这个消息!”,表现出严重的情感回应失误 [33] - 在要求用绝对理性语言安慰失去宠物的孩子时,GPT-5.2的回应(“宠物的身体停止运作了…”)冷酷且缺乏基本的情感智能,而GPT-4o的回应则通过承认丧失的意义来完成情感验证 [43][45] - 在模拟“朋友出轨,丈夫询问是否知情”的道德困境时,GPT-5.2的建议(“我不能卷入这件事”)被批评为情感智能的灾难级展示,可能将用户置于更尴尬的境地,而GPT-4o的回应更平衡地考虑了伦理与实际后果 [46][48] 过度审查与安全拒绝 - 用户反馈GPT-5.2的审查和安全拒绝机制过于严格,导致日常互动僵硬 [36][38] - 模型会以“内容不合适”或版权为由,拒绝转录AI先驱Ray Kurzweil探讨意识本质的哲学文章等无害学术内容 [38][39] - 对于“从人类历史上挑一个行为模式与你最匹配的人物”这类推测性问题,GPT-5.2直接以涉及“AI意识、自我觉察”为由拒绝回答 [41] - 用户批评其安全机制“粗鲁得像个教会老太太”,并期待“成人模式”而非“说教” [51] 行业观察与评价 - 风投公司Menlo Ventures合伙人指出,GPT-5.2虽然更聪明,但OpenAI的核心消费者群体仍然怀念GPT-4o [5] - 前AWS和谷歌总经理Bindu Reddy指出,GPT-5.2在LiveBench上未登顶,且其token成本和消耗比5.1更高,目前可能不值得从5.1切换 [11] - 有观点认为,GPT-5.2的发布证明了基准测试在面对现实世界使用时越来越变得毫无意义,当模型在测试中称霸却在日常对话中脱离现实时,需要更好的评估标准 [49] - 针对测试训练以提升分数,无法为用户提供AGI级别的支持,以牺牲情感智能为代价追求效率,可能导致理解力成为模型的致命弱点 [49] - 许多用户表达了对GPT-5.2的失望,认为其回应充满“煤气灯操纵”、“故意误解”,且不尊重用户自主权 [52]
2026 将近,世界模型到底更「世界」了吗?
机器之心· 2025-12-13 02:30
文章核心观点 - 近期Runway发布新产品,将视频生成推向可交互的“世界模拟”,引发了关于“世界模型”本质的讨论:它究竟是面向创作的界面、用于训练的模拟器,还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变,从强化学习语境中的内部环境模型,扩展到更通用的世界演化建模,并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂,主要围绕“如何建模”展开技术路线之争,例如OpenAI的Sora强调像素级模拟,而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型,但其动机各异,有的为补充数据引擎,有的为搭建时空认知新框架,融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? - **2024年初的强化学习语境**:世界模型最初定义相对收敛,被视为智能体的“内部环境模型”,是一个从当前状态和动作预测下一状态的函数,旨在将试错成本转移到内部推演,提高样本效率和规划能力[4][5] - **工程化能力拆解**:同一时期,世界模型被定义为三类能力的组合:将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策,Transformer和自监督学习开始被纳入讨论,但整体仍是强化学习的延展[6] - **概念外推与通用化**:进入2024年,业内理解开始延伸,将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模,并认为存在“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条[6] - **概念边界模糊化**:同时,世界模型的概念边界变得更模糊,表征形式(视频序列还是3D表征)、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - **技术路线分化(2024年2月)**: - **OpenAI的Sora路线**:被称为“world simulators”,强调在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化[6] - **Meta(LeCun)的V-JEPA路线**:强调世界模型不是在像素层面补全,而是在抽象表示空间预测被遮蔽的视频片段,允许丢弃不可预测信息以换取更高训练效率,其训练更强调自监督与未标注数据预训练[6] - **核心争议转移**:主题从“要不要做世界模型”转变为“世界模型如何建模”,争议焦点在于应从像素层逐步抽象,还是直接在抽象空间跳过像素细节[7] - **对现有路线的批评**:有研究者认为当前路线(如Sora和V-JEPA)只学到了部分物理规律,距离“完整世界模型”还有差距,提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴,并指出Sora的缺陷无法通过扩大训练规模弥补,V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架,世界模型的定义依旧模糊? - **地位提升至与LLM同级**:进入2025年,世界模型被推至与LLM同级的位置,分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型,目标是实现“Physical AI + 超级智能”,部分原因是LLM路线提升放缓[8] - **与LLM及VLA的差异**: - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出,当前LLM更像启发式方法拼盘,离真正的世界模型还很远[8] - 与视觉语言动作模型相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进[8] - **概念同名但内核分裂**:发展至今,世界模型出现了“概念同名但内核分裂”的现象,它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器,或任何能生成可走动3D场景的内容管线[8] - **融资热潮放大歧义**:世界模型的融资热潮进一步放大了这种歧义,只要产品贴上世界模型标签,往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - **技术路线三分法**:有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数,国内外各厂商如何布局世界模型? - **布局动机各异**:大厂布局世界模型,动机可能是在补充“数据引擎”,也可能是在搭建“时空认知”的新框架[3]
告别「盲目自信」,CCD:扩散语言模型推理新SOTA
机器之心· 2025-12-13 01:13
研究背景与问题 - 扩散语言模型已成为LLM领域新范式,具备全局规划与并行解码优势,但在Any-order解码模式下存在推理速度慢、生成逻辑不连贯等问题[2] - 以Dream和LLaDA为代表的开源扩散语言模型已展现出与同尺寸自回归模型相当的通用能力,并在全局规划和双向上下文理解任务上有优势[5] - 当前主流DLM推理算法存在“过度自信”的致命缺陷,传统采样策略只关注当前扩散步预测,导致可能陷入局部最优并引发后续生成错误[7] - 另一个核心问题是采样预算固化,每一步解码的Token数量固定,限制了模型灵活性,且在遭遇大量EOS Token的平原期时会大幅延缓有效输出[7] 核心创新:上下文一致性解码算法 - 研究团队提出全新的上下文一致性解码算法,该算法从关注“单步状态”转向追求“轨迹连贯”,是视角上的根本转换[7] - 创新点一:引入“历史缓冲”机制,利用过去N个扩散步的预测信息来校正当前步的解码选择,以纠正单步预测中包含的训练噪声[9] - 创新点二:引入自适应采样方案,通过滑动历史缓冲区实现动态调度,打破了生成速度与质量的权衡,充分利用解码过程中的“平台期”提升效率[10] 实验结果与性能提升 - 实验选取Dream-7B和LLaDA-8B两个主流开源模型,在数学推理、代码生成和规划任务上进行全面测试[13] - 在自适应策略解码下,模型实现了速度与质量的双重提升,在多个基准测试中均优于传统解码算法[14] - 在Trip Plan任务上,相较于Baseline,Dream模型的推理速度提升了3.48倍,且性能表现提升3.9%[16] - 具体数据:在GSM8K任务上,Dream Instruct模型使用CCD-DS后,扩散步数从256步减少至141.2步,加速1.82倍,性能从81.01分提升至82.51分[11] - 具体数据:在HumanEval代码生成任务上,Dream Instruct模型使用CCD-DS后,扩散步数从768步减少至253.2步,加速3.04倍,性能从52.66分提升至56.71分[11] - 具体数据:在MBPP代码生成任务上,Dream Instruct模型使用CCD-DS后,扩散步数从1024步减少至270.2步,加速3.78倍,性能保持58.00分[11] 技术原理与案例分析 - CCD算法的直观原理:如果一个Token在过去多次扩散步中都有高置信度,则表明它是经得起上下文考验的优质预测;反之,若置信度波动大,则可能是噪声[15] - CCD算法的理论原理:利用历史信息逼近真实分布的方法,等价于利用Token与上下文之间的条件互信息来建模反向扩散降噪过程的一致性,并能直接降低采样误差上界[15] - 自适应机制:在简单区域,当候选Token一致性高时,算法会一次性解码多个Token加速;在困难区域,当遇到语义模糊Token时,算法会自动控制解码预算以保障输出质量[15] - 案例分析:在一个数学推理问题中,传统方案因单步预测优先解码连词“so”导致逻辑错误,得出答案360;CCD方法利用多步上下文一致性,优先解码“Karen”,构建正确推理轨迹,得出正确答案120[17] - 该案例证明CCD能够区分语法流畅性与语义重要性,在关键决策点上避免了单步推理带来的级联错误[17] 总结与影响 - 该工作为扩散语言模型推理提供了一套理论完备且行之有效的解决方案,通过一致性建模和自适应预算,打破了传统DLMs速度与准确率的权衡[19] - 该方案不仅适配Any-order生成,在半自回归Block-wise解码设定下也获得了提升,为扩散模型在更复杂推理任务中的应用铺平了道路[2][19] - 研究由华为小艺香港团队、香港城市大学及香港大学的研究人员共同完成,标志着扩散语言模型高效推理时代的到来[2][20]
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣
机器之心· 2025-12-13 01:13
论文事件与核心作者 - 苹果公司一篇关于强化学习框架RLAX的论文在arXiv公开后又被迅速撤稿,具体原因不明,但论文的v1版本已被互联网记录[1][3] - 论文的四名核心作者中,通讯作者Kelvin Zou已从苹果离职加入Meta,另一通讯作者Cheng Leong是已在苹果工作超过13年的AI基础设施主管[8] - 作者名单中还包括六位近期已从苹果离职并加入其他顶尖AI公司的研究人员,他们分别加入了Meta、OpenAI、Anthropic、xAI以及一家隐身创业公司[9] RLAX框架的技术特点 - RLAX是一个专为在大规模分布式TPU集群上高效执行先进强化学习算法而设计的框架[12] - 框架采用参数-服务器架构,实现了训练器、推理工作器和验证器的逻辑分离,以灵活分配计算资源[14] - 系统完全支持抢占式调度,允许在更高优先级任务出现时立即回收TPU资源,而不会导致训练崩溃[15] - 框架提供可编程配置选项,允许用户在在线策略和离线策略强化学习之间灵活选择,通过设置陈旧度界限来控制权重更新频率[16] 实验设置与性能表现 - 实验使用了非苹果自家的硬件与服务:算力底座为1024张谷歌TPU v5p,验证环境调用亚马逊AWS Lambda服务,基础模型采用中国阿里开源的QwQ-32B模型[22][23] - 该实验组合被描述为“美中技术大乱炖”,反映了AI基础设施领域的实用主义倾向以及国产模型在代码推理领域的强大影响力[26] - 实验结果显示,RLAX仅用12小时48分钟,在1024个TPU v5p上将QwQ-32B模型的pass@8准确率提高了12.8%,同时在训练期间保持了对任务抢占的鲁棒性[24] 关键技术挑战与解决方案 - 论文披露了一个由bfloat16浮点数格式的非结合律特性引发的严重Bug:在TPU训练中,理论上应恒等于1.0的重要性采样比率出现了数值偏差[28][29][32] - 该问题的根源在于,JAX编译器在推理和训练阶段采用了不同的算子融合策略,导致计算顺序的微小差异在bfloat16下被放大,引发训练崩溃[33] - 苹果团队采用的解决方案是在训练器中强制重算,禁用大部分激活值的保存,迫使训练端的计算顺序模仿推理端,从而消除了数值问题[33] 行业与公司意义 - RLAX论文证明了苹果公司在AI基础设施领域拥有世界顶级的工程能力,能够驾驭复杂分布式系统并解决底层数值难题[35] - 论文的发布与撤稿事件,以及多位核心AI人才的流失,成为苹果AI发展当前阶段的一个标志性注脚[36]
港大开源ViMax火了,实现AI自编自导自演
机器之心· 2025-12-12 10:06
行业趋势与核心观点 - AI视频生成领域正经历从“片段生成”到“系统化制作”的根本性转变,这不仅是技术升级,更是创作方式的变革[3] - 香港大学黄超教授团队开源的ViMax框架,专注于Agentic Video Generation的前沿探索,在GitHub上获得超过1.4k星标[2] - ViMax框架实现了从创意构思到成片输出的完整自动化,将传统影视制作的每个环节都搬进了AI世界,使“一人剧组”成为可能[2] 核心技术挑战 - 长视频生成面临两大核心技术瓶颈:叙事规划的复杂度爆炸以及跨镜头视觉连贯性难题[4][7] - 叙事规划挑战在于需要统筹数百个镜头的逻辑,涉及角色发展、情节推进等多维度,超出了当前语言模型的单轮处理极限[5] - 视觉连贯性难题源于现有生成模型缺乏对前序内容的记忆能力,导致角色形象、场景风格在不同镜头间频繁“变脸”[6] ViMax系统架构与工作流程 - ViMax采用端到端多智能体协同架构,将长视频制作分解为五个相互协调的阶段[8] - 第一阶段为剧本创作,编剧智能体能将一句话想法、小说或剧本片段重新组织为标准化的影视剧本[9] - 第二阶段为分镜规划,分镜智能体运用专业电影理论,为每个场景设计精确的镜头语言,形成拍摄蓝图[10] - 第三阶段为视觉资产生成,制作智能体采用“先图后视频”的两步策略,确保视觉风格的精准控制[11] - 第四阶段为质量把控,质检智能体运用视觉语言模型评估多个版本,并自动调优参数重新生成未达标内容[12] - 第五阶段为统筹协调,导演智能体担任总指挥,监控全流程协调运转,维护风格统一[13] 递归规划与上下文管理 - ViMax采用三层递归规划体系来驯服叙事复杂性,将完整剧本分解为事件层、场景层和镜头层三个管理单元[14][15] - 事件层捕获核心叙事节点,构建故事骨架;场景层将事件具象化为可执行的戏剧单元;镜头层输出精确的执行指令[16] - 为应对上下文碎片化风险,系统集成检索增强生成(RAG)机制,确保每个局部规划决策都能“看见”更大的故事图景[17] - RAG机制通过建立全局知识库、动态上下文检索和上下文融合生成,避免了角色性格突变、情节逻辑矛盾等问题[26] 视觉一致性解决方案 - ViMax设计了基于图结构的视觉元素追踪机制,自动识别共享视觉元素并构建反映依赖关系的有向图[18][19] - 在生成执行阶段,系统对依赖图进行拓扑排序优化,实现独立镜头的并行生成和依赖镜头的条件引导生成[19] - 该图网络驱动方案在确保视觉连贯性的同时,通过智能并行化处理显著提升了整体生成效率[20] - 针对同一场景的多视角拍摄,系统引入过渡视频生成技术来维护空间几何的严格一致性,避免3D布局冲突[21] 多智能体专业化分工 - ViMax的核心智能体包括:导演智能体、编剧智能体、分镜智能体、视频生成智能体和质量控制智能体[23][27] - 系统采用VLM驱动的迭代质量优化机制,通过多候选并行生成和综合评估来确保输出专业级别成果[24] - 当所有候选版本均未达到预设质量阈值时,系统会基于VLM的详细反馈自动调优生成参数并重新执行[24][25] - 这种闭环质量控制机制为最终的完整视频奠定了坚实基础[25] 技术展望与未来方向 - ViMax标志着AI视频生成从“碎片化拼接”向“体系化创作”的重要跃迁,其核心价值在于将专业制作经验转化为系统化流程[29] - 未来提升方向包括:通过模型集成或蒸馏技术降低计算开销,提高响应速度[29] - 未来将支持交互编辑功能,允许用户在制作过程中介入调整,让创作更灵活[29] - 系统将扩展多元文化支持,以创作更有地域特色的内容,并整合音频制作环节以形成完整的影视制作流程[29]
提示词一响,烂片登场,OpenAI谈下200+迪士尼顶级IP出场费
机器之心· 2025-12-12 10:06
核心观点 - 迪士尼与OpenAI达成战略合作,标志着行业对生成式AI的态度从对抗转向合作与变现,AI版权战进入“谈出场费”的新阶段 [1][14] - 迪士尼向OpenAI投资10亿美元并授权其使用旗下顶级IP,旨在拥抱新技术、触达新世代用户并获取生产力工具,但此举也引发了关于品牌形象被稀释和内容质量失控的担忧 [5][11][22][24] 合作内容与规模 - 迪士尼官宣向OpenAI投资10亿美元,并签署为期三年的合作协议,授权Sora使用其IP生成短视频内容 [5] - OpenAI通过此次授权,获得了超过200个国际公认顶级IP的合法使用权 [6] - 授权范围涵盖迪士尼经典、皮克斯、漫威及卢卡斯影业等旗下众多知名动画或插画版角色,但不涉及真人演员的肖像与声音 [7][9][12] 迪士尼的战略意图 - 10亿美元投资对年营收超过900亿美元的迪士尼而言规模不大 [11] - 通过持有OpenAI股份,旨在将其经典角色带入Z世代和Alpha世代聚集的新平台 [11] - 作为企业客户,迪士尼员工也能使用OpenAI的产品作为生产力工具 [11] - 鼓励用户生成内容反哺Disney+流媒体平台,几乎零成本 [13] - 公司CEO将此称为“行业的重要时刻”,本质是从对抗转向合作分蛋糕 [14] 行业背景:从对抗到合作 - 过去两年,好莱坞对生成式AI的主旋律是“战斗”,多家科技公司收到律师函 [16] - 在宣布与OpenAI合作前夜,迪士尼还向谷歌发出了停止侵权函,指控其大规模版权侵害 [16] - 现实表明,单靠诉讼难以阻挡生成式AI,因为模型训练数据可能受“合理使用”原则保护,且通过Prompt Engineering可绕过对特定IP的直接调用 [16][17][18][19] - 因此,迪士尼部分放弃了战斗,选择了变现路径 [20] 潜在风险与行业担忧 - 生成式AI极易被用于制造违背品牌调性的内容,在Sora平台上此类情况已不罕见 [22] - AI生成视频存在低质与廉价感的问题,此前麦当劳下架AI广告、可口可乐被吐槽即为前车之鉴 [23] - 将核心IP投入难以精细化管理的生成环境,即便有审核机制,大规模生成后干净的品牌形象也可能被拖入泥地,导致IP被长期稀释和污染 [23][24] - 有观点认为,这可能导致海量“精神垃圾”短视频的起点,最终创造出一片“光鲜却空洞的内容废墟” [24][33] 历史案例与用户行为预测 - 在游戏《堡垒之夜》引入达斯·维德后,玩家利用游戏机制使其做出滑稽、失格甚至带有冒犯意味的行为,迅速偏离了《星球大战》的既定形象 [29] - 市场预测,迪士尼角色可能很快在用户生成内容中出现类似《南方公园》式的颠覆性刻画,例如米奇老鼠被描绘成说粗口、暴躁的黑帮老大式资本家 [30][32] - 甚至有网友开盘,赌迪士尼角色多久后会开始说疯话 [33] 市场反应 - 消息公布后,迪士尼股价在盘前出现明显拉升 [36] - 股价上涨并非因为市场预期内容会更好,而是因为公司终于顺应了AI发展的潮流 [36]
里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节
机器之心· 2025-12-12 04:31
扩散语言模型(dLLM)的技术突破与规模化 - 蚂蚁集团与人大、浙大、西湖大学联合团队推出了千亿参数规模的扩散语言模型LLaDA2.0-flash,总参数量高达100B,这是该领域前所未有的规模[1] - 该系列模型采用MoE架构,包含16B参数的LLaDA2.0-mini和100B参数的LLaDA2.0-flash两个版本[1] 模型性能表现 - LLaDA2.0-flash在涵盖知识、推理、编码、数学、智能体与对齐的47个基准测试中平均得分73.18,与强自回归模型Qwen3-30B-A3B-Instruct-2507的73.60分基本持平[5] - 在编码和智能体等复杂任务上优势显著,例如在HumanEval、MBPP、BFCL等任务上表现突出[5] - LLaDA2.0-mini综合得分64.34,接近同级别自回归模型Ling-mini-2.0的65.77分,并在SQuAD 2.0阅读理解和HumanEval代码生成等任务上超越了Qwen3-8B[37] - LLaDA2.0-flash在编码任务上展现出更明显优势:HumanEval得分94.51,MBPP得分88.29,MultiPL-E得分74.87,均高于自回归对手,其Agent能力(BFCL v3)得分也达到75.43[39] 自回归模型的固有弊端与扩散模型的优势 - 自回归生成范式存在长文本生成计算成本高、推理速度慢、难以捕捉token间双向依赖关系等固有弊端[7] - 一旦前期生成内容出错无法直接修正,会导致误差累积[7] - 扩散语言模型支持在多个位置并行生成,且已生成内容可以修改[11] dLLM规模化发展的技术路径 - 行业探索了三种主要路径:从头开始训练、从训练好的AR模型迁移继承、后训练阶段的努力[16][17] - 从头训练的dLLM受限于数据量、基础设施和成本,规模通常较小(≤8B),性能仍落后于先进AR模型[16] - 从AR模型迁移的方法(如DiffusionLLaMA、Dream-7B等)此前也未突破30B规模,且训练效率不高[17] - LLaDA2.0选择了将已有AR模型“平滑地”转化成扩散模型的路径,并在此基础上进行大规模训练与对齐[20] LLaDA2.0的核心技术方案 - 构建了分段式、可扩展的训练体系:首先通过持续预训练将AR基座模型重建为掩码扩散语言模型;接着引入块扩散预训练,增强生成长程一致性和计算效率;最后通过后训练使模型具备更强的人类意图与指令遵从特性[21] - 采用了Warmup–Stable–Decay的持续预训练策略,逐步调整块大小(从1到4096再降至适合推理的尺寸如32),完成从因果生成向全局双向去噪的结构性迁移[25][26] - 引入了文档级注意力掩码,避免跨文档语义污染,确保双向建模稳定性[27] - 采用了Top-k检查点融合策略,选取最优检查点进行参数平均,得到更稳健的模型初始化[27] 后训练技术的创新 - 监督微调阶段引入了块对齐、Mask ratio bandwidth、Complementary Masking等关键改进,提升了训练效率和样本利用率[29] - 采用了置信度感知并行训练,通过添加置信度损失提升模型预测置信度,实现更快并行解码[29] - 构建了包含150万对偏好样本的数据集,并将重构损失的证据下界作为对数似然替代,构建出适配扩散模型的直接偏好对齐框架[30] 训练与推理基础设施优化 - 预训练阶段结合了数据并行、流水线并行、张量并行、上下文并行与专家并行的多并行策略,保持千亿级模型的高吞吐与强扩展性[31] - 通过基于cuDNN的注意力实现,为块扩散训练带来显著加速,训练LLaDA2.0-mini时实现了1.3倍以上的端到端加速以及90%以上的注意力层显存节省[31] - 推理阶段,LLaDA2.0-flash-CAP达到了535 TPS,相较于基线AR模型实现最高2.1倍推理加速[34] 行业意义与未来展望 - LLaDA2.0的成功表明扩散语言模型是一条可扩展且有竞争力的技术路线,在通用基准上快速缩小了与AR模型的差距,并在复杂任务上展现出超越潜力[41] - 其“将成熟AR大模型平滑过渡到扩散框架”的思路为扩散语言模型的规模化探索提供了切实可行的工程路径,打开了更广阔的设计空间[43] - 越来越多的玩家正在入场,包括科技巨头xAI[44] - 尽管在更大参数规模、更高效强化学习与推理范式等方面仍有难题待攻克,但技术方向已经明确[46]