自回归模型

搜索文档
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 03:30
核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题 通过分组自注意力机制将学习过程分解为学习阶段和应用阶段 显著提升性能 [1][3][26] - 创新引入关系正则化策略 有效减少示例图片噪声干扰 提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法 模型架构 - 采用分组自注意力机制 将输入序列分为学习组(文字指令+示例图片+manipulation tokens)和应用组(manipulation tokens+输入图片) 分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征 实现跨样本知识迁移 公式化为$\mathbb{P}(\mathbb{Z}|\mathbb{T},\mathbb{X}^{\prime},\mathbb{Y})\cdot\mathbb{P}(\mathbb{Y}|\mathbb{X},\mathbb{Z})$ [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致 使用MSE损失函数 降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点 结合正则化后总提升达3.43个点 [22] 性能表现 基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点 在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑 保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
量子位· 2025-05-27 03:53
核心观点 - 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制dLLM-Cache,用于加速扩散式大语言模型(dLLMs)的推理过程 [2] - dLLM-Cache通过复用相邻时间步上变化较小的特征,仅更新变化较大的特征,实现了计算量的大幅降低,同时保持原有的生成质量 [2] - 该方法在主流dLLM架构上实现了最高9.1倍的推理速度提升,且不损失模型输出质量 [3] 研究动机 - 扩散式大语言模型(dLLMs)在语言生成领域展现出与自回归模型(ARMs)不同的建模能力,在"逆转诅咒"、数学推理等任务上表现领先 [8] - dLLMs推理过程中需要执行数百步的去噪迭代,每一步都需重新计算所有层的特征,导致推理效率低下 [8] - 传统的KV Cache加速方法不兼容dLLMs的双向注意力架构,无法使用 [10] 方法原理 - 研究发现prompt部分的Transformer中间层特征长期稳定,而response部分仅少量tokens特征变化较大,为缓存复用提供了理论基础 [4] - 提出V-verify机制,通过Value向量变化识别需要更新的tokens,摒弃了高达75%的冗余计算 [4] - 采用长间隔Prompt缓存(每100步更新)和短间隔Response缓存(每8步更新)相结合的策略 [19][20] 技术亮点 - 训练无关,即插即用,无需修改模型参数或重训练 [3] - 通用于LLaDA、Dream等主流dLLM架构及多模态模型 [4] - 独创V-verify机制作为特征变化的低成本"指示器",皮尔逊相关系数最高达0.944 [16][17] 实验结果 - 在LLaDA 8B模型上实现了5倍以上的加速效果,HotpotQA任务达到9.1倍无损加速 [21] - 在Dream 7B模型上也验证了方法的通用性,GSM8K任务实现5.1倍加速 [25][26] - 使用dLLM-Cache后,LLaDA 8B的推理速度首次超过LLaMA3 8B,同时保持准确率优势 [28] 性能数据 - LLaDA Base在GSM8K任务上从7.32 TPS提升至31.43 TPS,加速4.29倍 [23] - LLaDA Instruct在GPQA任务上从5.33 TPS提升至28.01 TPS,加速5.26倍 [23] - Dream Base在GSM8K任务上从6.36 TPS提升至32.44 TPS,加速5.1倍 [26]
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 03:23
核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 10:39
技术突破 - Google DeepMind推出Gemini Diffusion,将图像生成常用的"扩散技术"引入语言模型,通过逐步优化噪声来学习生成输出,不同于传统自回归模型[4][9] - Gemini Diffusion生成速度达2000token/秒,12秒可生成1万tokens,比Gemini 2.0 Flash-Lite更快[1][7][11] - 演示过程中需要放慢视频速度才能看清生成过程,显示其极快的生成速度[3] 性能优势 - 基准测试显示Gemini Diffusion表现可与更大的Gemini 2.0 Flash-Lite相媲美,在多项测试中表现接近或更好[7][8] - Code测试:30.9% vs 28.5%[8] - BigCodeBench:56.8% vs 56.0%[8] - HumanEval:76.0% vs 75.8%[8] - 能够一次生成整个标记块,比自回归模型做出更连贯的响应[14] - 在迭代细化中能够纠正生成过程中的错误,获得更一致的输出[10][15] 技术特点 - 采用并行或迭代式去噪实现数据生成,可以进行非因果推理[16][17] - 解决了自回归模型难以处理的数学问题,如"(√(81) * (2/3))^2 + (15 - 3) / (2^2))"等于多少的问题[17] - 在代码生成任务中表现良好,包括token化、预填充、安全过滤器等开销情况下仍保持高速生成[11] 行业影响 - 表明自回归不是LLM的唯一路径,人大高瓴人工智能研究院、蚂蚁也提出了类似研究LLaDA[19] - 语言模型逐步引入扩散技术,未来可能出现更多混合模型[20]
阶跃星辰开源图像编辑模型Step1X-Edit;阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报
创业邦· 2025-04-27 23:48
阶跃星辰开源图像编辑模型Step1X-Edit - 阶跃星辰宣布开源图像编辑大模型Step1X-Edit,性能达到开源SOTA水平 [2] - 模型总参数量为19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 支持11类高频图像编辑任务类型,包括文字替换、风格迁移、材质变换、人物修图等 [2] 阿里巴巴AI旗舰应用夸克发布全新"AI相机" - 阿里巴巴AI旗舰应用夸克AI超级框发布全新AI相机,新增"拍照问夸克"功能 [2] - 基于视觉理解和推理模型能力,AI相机能深入理解用户意图,实现视觉搜索、多轮问答、图像处理与创作 [2] Meta推出Token-Shuffle技术突破自回归模型瓶颈 - Meta AI创新推出Token-Shuffle,解决自回归模型在生成高分辨率图像方面的扩展难题 [3] - 自回归模型在语言生成方面表现优异,但在高分辨率图像生成中需要数千个token,计算成本高 [3] - 该技术使自回归模型能够生成2048×2048分辨率图像,突破原有局限 [3] Adobe发布Firefly Image Model 4模型 - Adobe推出Firefly Image Model 4和Firefly Image Model 4 Ultra两款文本生成图像AI模型 [4] - Firefly Image Model 4被Adobe称为"迄今最快、最可控、最逼真的图像模型",最高支持生成2K分辨率图像 [4] - 新模型在风格、尺寸和相机角度控制方面更加精准 [4] 其他AIGC行业动态 - 谷歌宣布在医疗保健领域推出人工智能计划 [4] - Stability AI发布3D视频生成工具SV3D,可根据单一输入图像创建和转换多视图3D网格 [4]
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 07:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]