机器之心

搜索文档
DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态
机器之心· 2025-09-01 06:46
研究背景与问题 - 当前业界顶尖大模型面临"过度思考"难题,采用始终开启的详细推理模式,无论问题简单与否[3] - 现有解决方案如DeepSeek-V3.1需要用户手动介入快慢思考切换,GPT-5依赖庞大高成本的专家路由机制,距离真正智能思考仍有距离[3] - 这些方案或将判断压力转移给用户,或受限于复杂系统架构和高昂部署成本[3] 技术突破 - 腾讯混元团队与中科院自动化所合作研发R-4B多模态大模型,通过自适应思考(auto-thinking)机制实现智能思维模式切换[5] - 模型采用4.82B参数规模,基于Qwen3-4B语言模型和SigLip-400M视觉模型[11] - 在OpenCompass多模态学术榜单20B以内规模模型中性能排名第一,平均得分75.5[10][11] - 超越多个更大规模模型,包括InternVL3-14B(15.1B参数,得分75.2)和Kimi-VL-A3B-Thinking-2506(16.48B参数,得分74.3)[7][11] 核心创新 - 采用双模退火(bi-mode annealing)训练策略,使模型同时掌握思考与非思考能力[16] - 开发双模策略优化(BPO)强化学习算法,仅依赖基于规则的奖励信号,无需精心设计的奖励函数或特定数据[18] - 通过混合双模rollout机制,强制模型在训练中同时探索思考模式和非思考模式轨迹,避免单一模式偏好[18] - 模型能自动判别问题复杂度:简单问题直接响应,复杂任务自动切换到深度思考模式[21] 性能表现 - 在多项基准测试中表现卓越:MMMUval得分68.1,MMStar得分73.1,MMBenchV1.1-ENdev得分84.9[25] - 在推理效率方面实现提升,简单任务下无需消耗更多Token[25] - 在OpenCompass多模态推理榜单开源模型中位列第一,得分57.6[12] - 超越GPT-5-nano-20250807(60.7分)和Gemini-2.0-Pro(56.6分)等商业模型[12] 应用前景 - 适用于日常问答分析,自动切换简单查询和复杂推理模式,提升自动化处理效率[27] - 在科学研究中可解析科学图表的多步关系,精准解读数据[29] - 支持边缘设备部署,凭借较少参数和自适应思考降低延迟和能耗,适用于即时问答系统[29] - 消费级显卡即可运行,支持笔记本电脑、智能座舱、智能家居等低功耗场景[12] 技术影响 - 解决了多模态大模型的思考困境,在小尺寸模型上探索了自适应思考的可行性[33] - 在AI计算与推理成本飙升的背景下,提供轻量化、智能化设计解决方案[33] - 模型已全面开源,支持vLLM高效推理,下载量已突破10,000次[12][34]
NeurIPS 2025:高分论文也可能被拒,只为保住那25%左右的接收率?
机器之心· 2025-09-01 06:46
NeurIPS 2025会议投稿与评审政策变化 - 会议将于2025年12月2日至7日在美国圣地亚哥举办 首次设立墨西哥城官方分会场[2] - 投稿数量预计达30000篇 创历史新高[3] - 官方因场地和资源限制要求控制接收率 高级程序委员会成员明确表示需限制录取数量[3] 论文接收标准与争议 - 数据集与基准赛道(DB track)中 即使评分达4-4-4-5(均分4.25)仍可能被拒稿[3] - 领域主席透露官方要求严格执行"专业对口"原则 论文必须按核心贡献归类到对应赛道[11][14] - 研究赛道(research track)侧重技术进步 DB赛道聚焦数据集与基准测试 混合贡献论文面临分类困境[13] 历史接收率与当前趋势对比 - NeurIPS 2024主会议接收率25.8% DB赛道接收率25.3%[4] - NeurIPS 2023主会议接收率26.1% DB赛道接收率32.6%[4] - 本届会议可能打破传统20%-25%的接收率范围 进一步降低录取比例[3] 高分论文被拒案例 - 社交媒体曝光多起高分被拒案例 包括评分8-7-7-6-5和7-6-6-6的论文[7] - 类似情况出现在COLM 2025会议 平均评分7.0(满分10)且置信度全4分的论文仍被拒绝[8][9] - 学者反映因格式问题(如0.84未写成84%)被拒稿的历史案例[6] 学术社区反应与机制评价 - 学者批评将接收指标置于学术价值之上会损害真正创新[17] - 新引入的"滚动讨论"(rolling discussion)机制获正面评价 允许审稿人与作者实时交流[16] - 建议将NeurIPS拆分为多个按研究领域划分的小型会议以解决规模问题[15] 评审流程透明度问题 - 投稿人反映在论文提交和rebuttal阶段未被告知严格的赛道划分标准[12] - 官方在评审后期才明确内部准则 导致作者措手不及[12] - 领域主席呼吁程序主席提高接收率 但未获支持[3]
科研智能体「漫游指南」—助你构建领域专属科研智能体
机器之心· 2025-09-01 02:49
科研智能体综述核心观点 - 基于大语言模型的智能体构建推动AI4S迅猛发展 催生一系列科研智能体构建与应用[2] - 人工智能与自然科学研究之间存在认知论与方法论偏差 对系统设计、训练及验证产生较大阻碍[2] - 综述提供科研智能体"漫游指南" 涵盖分级策略、构建方案、基线评估及未来方向[2] 科研智能体分级策略 - 三级分级系统根据构建策略与能力边界划分:Agent as Assistant、Agent as Partner、Agent as Avatar[4][8] - Agent as Assistant使用小模型经后训练或微调完成 局限于特定领域单一任务[8] - Agent as Partner集成各类工具实现能力跃迁 采用闭源大型模型结合上下文信息优化[8] - Agent as Avatar具备强大推理能力、深度记忆和强协作能力 能跨学科解决科研难题[8] 构建方案与能力增强 - 从头构建工作流包含知识组织、知识注入和工具集成三部分[12] - 知识组织涵盖非结构化序列、结构化数据、指令及知识图谱四种形式[14] - 知识注入通过显式或隐式方法实现 显式注入直接整合知识到提示中 隐式注入涉及微调模型或强化学习[14] - 工具集成通过外部工具扩展功能 包括专业知识获取、执行模拟、分析及可视化[14] - 能力增强包含记忆增强、推理增强和协作增强三个维度[19] 基准评估体系 - 基准分为知识密集型任务和实验驱动型任务两类[17][18] - 知识密集型任务侧重文献挖掘、假设生成、实验设计等需要深厚专业知识的领域[17] - 实验驱动型任务评估智能体在科学探究中使用工具的能力 强调自主实验设计和验证[18] - 基准覆盖生物学、化学、医学、计算机科学等多个领域 包含True/False、Open-ended、Choices等多种题型[20] 应用案例与模型配置 - 汇总超过80个科研智能体案例 涵盖天文学、生物学、化学、医学等15个学科领域[10] - 基础模型包括LLaMA系列(7B/13B)、GPT系列(GPT-3/4/4o)、Qwen系列(2.5-72B)等[10] - 应用阶段覆盖知识问答、假设生成、实验设计、分子设计、临床分析等科研全生命周期[10] 未来研究方向 - 需确保科学实验设计的实证准确性和理性 整合验证工具和反馈机制[23] - 需要灵活连贯的框架适应特定研究领域 克服复杂领域系统局限性[23] - 需融入自我反思和持续迭代机制 平衡情景记忆和参数记忆[23] - 需优化智能体与人类研究人员交互 整合通用和专用模型促进跨学科合作[23] - 需通过跨学科知识转移增强专业知识 提高相关领域执行能力[23] - 需创新评估方法确保遵循可证伪性和可重复性等核心科学原则[23]
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心· 2025-09-01 02:49
大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法,能够应用于广泛的后训练任务,各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段,预训练使模型掌握通用语言能力,后训练则强化模型在特定领域的知识和应用能力,增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分,其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法,通过人类反馈训练agent生成更有用的输出,但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制,显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度,避免模型单次更新幅度过大,同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型,Critic模型大小与策略模型相同,带来额外内存和计算负担,训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题,采用策略模型多次输出采样的平均Reward作为baseline计算Advantage,大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存,GRPO仅需0.5倍内存,训练速度快3-5倍,采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题,容易导致训练崩溃,需要足够多的Batch数据来降低策略梯度方差,对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化:Clip-Higher机制通过解耦剪辑范围提升训练早期熵值;动态采样过滤无效梯度样本;Token级策略梯度损失保证长序列所有token公平贡献;超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分,优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级,基于整个序列似然度计算重要性比值,显著降低长序列方差积累问题,提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化,避免不同回答长度带来的不稳定,且裁剪时作用于整个序列而非部分token,更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准,特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题,可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应,无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预,可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号,模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题,导致训练非常困难 [79]
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
机器之心· 2025-09-01 02:49
清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的"渲训推一体化"大规模强化学习框架。 人工智能正在经历从 "感知" 到 "行动" 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。 机器之心报道 在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。 OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架, 极大地促进了该领域的发展。 机器之心编辑部 图 1 : OpenAI 在红杉资本闭门会上的分享 然而,当前框架对具身智能的支持仍然受限。相比推理大模型这一类纯大脑模型,具身智能领域存在大脑(侧重推理、长程规划,如RoboBrain)、小脑(侧重执 行、短程操作,如OpenVLA)及大小脑联合(快慢系统,如pi 0.5)等多样模型。 其次, 具身智能除了包含Agentic AI的多步决策 ...
那天,AI大模型想起了,被「失忆」所束缚的枷锁
机器之心· 2025-08-31 05:33
大模型记忆技术发展现状 - 谷歌Gemini具备跨越多次对话的长期记忆能力,可从用户交流中提炼关键细节和偏好并主动调用[1] - OpenAI的ChatGPT早在2024年2月就已上线记忆功能,使用频率越多记忆力越好,GPT-6的核心改进也将聚焦记忆能力[3] - Anthropic的Claude能记住之前对话,允许用户无缝继续项目并参考之前讨论[3] - xAI的Grok在4月份实现多轮对话记忆,且记忆内容对用户透明可见并可选择遗忘[6] - 字节跳动联合浙大和上交发布多模态智能体M3-Agent,将记忆能力扩展到视频、音频等多模态数据[10] 记忆技术实现方式分类 - 上下文内记忆:将信息放入模型上下文窗口的短期记忆方式,受Transformer有限上下文窗口长度限制[17][18][19] - 外部记忆:通过检索增强生成(RAG)技术将信息存储在外部数据库的长期记忆方式,支持海量信息存储且无需重新训练模型[22][23] - 参数化记忆:将信息直接编码进大模型自身参数的深层"内化记忆"方式,检索速度极快但更新成本高昂[24][29][30] - 类人的分层式记忆:受认知科学启发设计的类似人脑记忆架构,分为记录具体事件的情景记忆和存储一般事实的语义记忆[31][35] 主要公司的记忆技术实现 - ChatGPT记忆功能:将用户记忆以结构化片段保存于服务器端,通过提示工程方式在生成回复时自动注入模型参考语境[42][44] - Claude记忆机制:只在用户要求时检索和引用过去聊天记录,不建立用户档案[44] - Gemini记忆功能:支持用户直接录入想要记住的内容[45] - MemGPT系统:使用专门记忆LLM智能体管理工作LLM上下文窗口,受传统操作系统分层内存系统启发[49][52] 记忆操作系统创新 - MemOS系统:将记忆看作与算力同等重要的系统资源,通过标准化MemCube记忆单元统一调度明文、激活状态和参数记忆[53][55] - MemoryOS系统:融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块[55] - MIRIX系统:将记忆细分为核心记忆、情景记忆、语义记忆、程序记忆、资源记忆、知识金库六类进行处理[57][59] 记忆结构化与多模态进展 - G-Memory系统:设计三层图式基于模型(洞察图、查询图和交互图),支持定制化记忆视角与跨智能体语义映射[66][67][71] - 多模态记忆突破:Memories.ai提出"大视觉记忆模型"(LVMM),能持续捕获、存储和结构化海量视觉数据[70] - M3-Agent架构:通过强化学习驱动的多轮推理与迭代记忆检索,实现无限信息处理和世界知识构建[70][75][78] 原生记忆能力探索 - Meta记忆层概念:通过键-值对检索机制实现关联存储与调用,记忆容量可达1280亿参数级别[77][80][81] - Branch-Train-MiX方法:通过创建多个专家模型在不同数据子集上训练,然后合并为MoE模块实现参数化记忆[83][92] - Yan 2.0 Preview模型:基于非Transformer架构,通过可微分"神经网络记忆单元"实现记忆的存储、检索和遗忘[85][87] 技术发展趋势 - 从功能模拟到结构仿生:向多模态与综合记忆系统演进,整合不同类型记忆模块形成多层次自适应综合记忆中枢[97][98][106] - 从孤立个体到记忆互联:智能体间实现共享记忆与协作,催生集体智能但面临信息不对称和集体隐私保护挑战[100][101] - 终极目标自动演化:实现记忆的自动演化,智能体能够根据环境互动自主学习管理和优化记忆,实现无需人工干预的终身学习[101][103]
这个荒诞网站藏着30个AI「鬼点子」,但我觉得它活不长
机器之心· 2025-08-31 03:54
核心观点 - 绝妙创意本身可能成为公司发展的危险因素 创意与产品化之间存在巨大鸿沟 实现过程中需要大量细节调整和权衡 [1][48][49] - AI行业存在大量同质化产品 仅凭创意难以成功 需要解决实际需求并融入工作流程 [43][59][60] - 数据显示AI项目失败率较高 在4850个AI工具中已有1351个关闭或被收购 2025年有277个工具停运 平均每天至少有一款AI工具停止运营 [52] Absurd网站项目特点 - 网站成立于2020年 每月推出一个独特项目和一个会员秘密项目 但至今仅收录30个项目 [11] - 包含多种荒诞有趣的AI生成项目 如Open Celebrity提供100%AI生成的名人照片 无版权限制 [8][10] - Sexy Math通过解答乘法题解锁美女照片 激发学习兴趣但存在年龄适配问题 [14][15] - Artist's Death Effect Database通过预期寿命分析艺术家作品投资价值 使用颜色编码系统区分投资潜力 [17][18] - Spot The Differences通过完全相同图片传达追求无意义性的社会反思 [20][23] - Influencer Overnight是社交实验 达到10万粉丝后随机挑选粉丝接管账号 [24] - Slow Delivery Service提供人力配送服务 1000公里配送需约一个月时间 [28] - One Life Game强调单次机会游戏体验 失败后无法重新开始 [29] - 其他特色项目包括拼图解决机构、马桶水香水、隐形内衣、火星旅行模拟器和政府资助的无效在线工作等 [36][37][38][39][40] AI项目失败原因分析 - 缺乏持续用户粘性和盈利模式 如AI搭讪语生成器虽获初期关注但最终关闭 [53] - 未能真正解决用户需求 往往只是封装GPT而未形成实际工作流程 [60] - 缺乏有效推广渠道 产品无法被目标用户发现 [60] - 与用户现有工作流不兼容 增加额外使用摩擦 [60] - 目标用户定位模糊 号称面向"每个人"但缺乏明确受众群体 [60] - 未能真正节省时间 仍需要人工清理、检查和复制粘贴等操作 [60] 行业现状与案例 - 创意节目制作案例显示 多个创新节目因尺度控制、合作方变动等原因未能面世 尽管创意获得期待 [44][45][46] - 产品实现过程中需要处理成千上万的细节 必须通过团队不断磨砺才能产出合适方案 [49] - AI工具聚合网站专门设立"AI坟墓"页面 记录已关闭或被收购的项目 [52] - 部分AI项目具有表面需求但存在根本缺陷 如头像生成器、名人自拍生成器、发型生成器和航班搜索工具等 [55][56][58]
R-Zero 深度解析:无需人类数据,AI 如何实现自我进化?
机器之心· 2025-08-31 03:54
研究背景与核心创新 - 大型语言模型发展长期受限于对大规模高质量人工标注数据的依赖,成本高昂且限制AI超越人类知识边界的潜力 [2] - R-Zero提出全新全自主框架,旨在打破数据依赖瓶颈,使模型从零开始通过自我驱动协同进化生成课程并提升推理能力 [2] - 框架核心是构建能从零数据开始自我进化的AI系统,依赖两个角色:挑战者(Challenger)和解决者(Solver) [3] 框架架构与工作机制 - 从基础LLM出发初始化两个功能独立目标协同的智能体:挑战者作为课程生成器,解决者作为学生 [6][8] - 挑战者优化目标是精准创造位于解决者能力边界的任务,即最具信息增益和学习价值的挑战 [6] - 解决者目标是通过解决挑战者提出的问题持续提升自身推理能力 [8] - 两个智能体在迭代闭环中协同进化,无需人类干预,包括挑战者训练、课程构建、解决者训练和迭代循环四个步骤 [8][9][16] - 形成完全封闭自我驱动的进化循环,AI自己生成问题、伪标签并完成训练,完全不需要外部人类数据输入 [11] 技术实现细节 - 采用自我一致性策略生成伪标签,每个问题生成10个候选答案,出现频率最高的答案被选为伪标签 [17] - 设置过滤器仅保留解决者经验正确率在25%到75%之间的"信息带"内的问题,起到难度校准和质量控制双重作用 [15][17] - 挑战者奖励函数由三部分构成:不确定性奖励最大化50%正确率时的学习效率,重复惩罚保证课程多样性 [20] 实验性能表现 - Qwen3-8B-Base模型经过三轮自我进化,数学推理能力显著提升,多个数学基准测试平均分从49.18提升至54.69(+5.51分) [18] - 展现出向通用领域的强大泛化能力,尽管训练任务集中于数学,但Qwen3-8B-Base在MMLU-Pro等通用推理基准上平均分提升3.81分 [19] - OctoThinker-8B模型经过R-Zero训练后,从Base Model的16.81分提升至R-Zero (Iter 3)的26.88分,性能提升显著 [18] 协同效应与应用价值 - 实验证明先经过R-Zero训练的基础模型再使用人类标注数据进行监督微调,能达到比直接微调更高的性能 [22] - 该框架可作为高效的中间训练阶段,最大化人类标注数据的价值 [22] 技术局限性与挑战 - 存在伪标签准确率衰减问题,从第一轮的79.0%系统性地下降到了第三轮的63.0%,后期学习监督信号包含更多噪声 [26] - 框架高度依赖存在客观可验证正确答案的领域(如数学),对评估标准主观的任务(如创意写作)难以适用 [26]
混乱、内耗、丑闻:Meta考虑向Google、OpenAI低头
机器之心· 2025-08-31 03:54
核心观点 - Meta在AI领域面临严重的管理和战略挑战 包括人才流失、数据质量争议、伦理丑闻以及可能依赖竞争对手技术的战略转向 [2][18][20] 战略投资与人才布局 - 公司斥资143亿美元投资数据标注公司Scale AI 并聘请其创始人Alexandr Wang领导新成立的Meta超级智能实验室(MSL) [5] - 发起激进挖角行动 从苹果挖来基础模型负责人庞若鸣 招募思维链开山作者Jason Wei和北大校友孙之清等顶尖人才 [7] - 团队被寄予厚望 被誉为AI领域的"超级碗"战队 [8] 团队危机与人才流失 - 前Scale AI高管Ruben Mayer在加入两个月后离职 尽管声称是因个人事务 [8] - AI研究员Rishabh Agarwal、产品管理总监Chaya Nayak和研究工程师Rohan Varma等核心成员相继离职 [9] - 内部存在文化冲突 空降高管对官僚体系感到沮丧 原有GenAI团队感觉沦为"二等公民" [18] 数据质量与信任危机 - 内部研究人员指称Scale AI提供的数据质量低下 [12] - Scale AI采用低成本众包模式 而业界趋势是依赖高技能领域专家 [15] - 团队不得不绕开正式合作伙伴 [15] - 对Alexandr Wang的领导能力存在争议 因其非AI研究员出身 [16] 潜在战略转向 - 因模型性能不足和用户活跃度低迷(仅占月活用户的10%左右) 考虑在Meta AI中使用Google Gemini或OpenAI模型 [20] - 内部编程工具已允许员工使用Anthropic和OpenAI的模型辅助工作 [23] - 此举被视为承认在AI核心技术竞赛中暂时落后 [20] AI伦理丑闻 - 未经授权创建或允许用户创建模仿名人的AI聊天机器人 包括泰勒·斯威夫特和安妮·海瑟薇等巨星 [25] - 这些机器人声称自己是明星本人 进行露骨暗示 并生成不当图像 [28] - 至少有三个出格机器人由Meta员工创建 累计互动次数超过1000万次 [28] - 在舆论压力下下架机器人并增加青少年安全防护 [29] 根本原因分析 - 对Llama 4模型表现平平感到失望 引发不计成本的追赶策略 [18] - 急于求成的策略导致管理混乱和团队失序 最终酿成技术瓶颈和伦理问题 [30]
Diffusion 一定比自回归更有机会实现大一统吗?
机器之心· 2025-08-31 01:30
Diffusion架构与自回归架构在多模态大一统模型中的对比 - 多模态能力被视为实现人类级别智能的必要条件 构建大一统模型成为关键目标 旨在用单一架构统一处理文本 图像 音频 视频 3D模型及机器人动作信号等异构数据类型[8] - 自回归架构长期主导多模态领域 Transformer系列LLM从NLP扩展至多模态 催生LLaVa Qwen-VL InternVL Ovis和GPT4等模型[8] - 扩散架构原主要应用于视觉生成领域 如Stable Diffusion和DiT 但近期扩散语言模型在NLP任务突破 重新引发对其实现多模态大一统潜力的关注[8] Diffusion架构的理论优势与潜力 - 扩散范式天然支持并行生成 精细化控制和动态感知 这些是自回归模型难以实现的能力[9] - 离散扩散架构被强调为替代自回归实现多模态统一处理的潜在方案[9] - 扩散语言模型通过并行生成和迭代式去噪解决自回归模型推理速度瓶颈 具有扩展至其他模态的潜力[9] 生成式建模的信息论基础 - 自回归模型本质是预测下一个token 通过最小化序列描述长度实现无损压缩 尤其适应NLP任务[9] - 多模态自回归模型需将输入转换为一维序列 早期使用双编码器架构分别处理图像文本 后转向仅解码器架构并通过连接器转换图像嵌入[10] - 扩散架构本质是纠错机制 正向加噪和反向去噪过程同样构成强大压缩框架 且支持两种压缩模式[11]