Workflow
多模态大语言模型
icon
搜索文档
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
36氪· 2025-10-17 02:44
核心技术突破:DeepMMSearch-R1模型 - 公司提出DeepMMSearch-R1模型,旨在克服现有检索增强生成(RAG)、搜索代理等方法存在的流程僵化、搜索调用过多及查询构造不当等问题[1] - 该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,通过自我反思与自我纠正机制在多轮交互中自适应地生成和优化文本搜索查询[1] - 为提升图像搜索效果,公司引入中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战,通过生成指代表达动态识别并裁剪图像相关区域,显著提升检索质量和整体性能[3] 方法论与训练流程 - 公司采用两阶段训练流程:首先进行有监督微调(SFT),然后通过GRPO算法进行在线强化学习(RL),目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容以及如何基于检索内容进行推理[3] - 有监督微调阶段采用Qwen2.5-VL-7B-Instruct作为基础模型,仅对其语言模型模块进行微调,保持视觉编码器和视觉投影层冻结,以保留强大的预训练图像表征能力[9] - 强化学习阶段基于组相对策略优化(GRPO),通过对同一提示词下生成的候选回复进行比较来提升训练稳定性,优化目标通过带截断的重要性加权代理实现[10] - 奖励机制采用结合事实准确性与结构合规性的复合奖励函数,使用gpt-5-chat-latest作为奖励模型判断预测结果语义一致性,正确性得分为二元变量,格式得分用于衡量输出是否遵循结构化格式[12] 数据集构建 - 公司构建了新的数据集DeepMMSearchVQA,该数据集包含多样化多跳视觉问答样本,以多轮对话形式呈现,并在不同知识类别之间保持平衡分布,涵盖既需要搜索又无需搜索的问题类型[3][7] - 从InfoSeek训练集随机选取20万个样本,生成带工具标签、推理步骤及网页检索信息的多轮对话数据,经质量过滤后得到约4.7万条精炼对话样本,最终采样1万个视觉问答样本构成训练语料[7] 性能表现与实验结果 - 配备网络搜索功能的多模态大语言模型性能显著优于RAG工作流和基于提示的搜索代理基线模型,DeepMMSearch-R1-7B(RL)相较于RAG工作流和基于提示的search agent分别取得+21.13%和+8.89%的性能提升,整体表现与OpenAI o3相当[13] - 裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力显著提升模型性能,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到提升[14] - 采用LoRA模块进行的SFT以及带有KL惩罚项的在线GRPO训练能够保持模型的通用视觉问答能力,在多个数据集上的性能保持稳定,表明模型在学习与网络搜索工具交互的同时有效保留了其通用的视觉理解与推理能力[19][20]
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
机器之心· 2025-10-17 02:11
核心技术方案:DeepMMSearch-R1模型 - 提出DeepMMSearch-R1模型,旨在克服现有检索增强生成(RAG)、搜索代理等方法存在的流程僵化、搜索调用过多及查询构造不当等问题[1] - 模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,通过自我反思与自我纠正机制自适应地优化搜索查询[1] - 引入中间图像裁剪工具(Grounding DINO)以应对图像背景噪声和干扰性视觉实体,通过生成指代表达来识别并裁剪相关图像区域,从而提升图像搜索的检索质量和整体性能[3] 模型训练方法 - 采用两阶段训练流程:首先进行有监督微调(SFT),然后通过GRPO算法进行在线强化学习(RL)[3] - 训练目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索内容进行推理以决定下一步行动[3] - 有监督微调阶段采用Qwen2.5-VL-7B-Instruct作为基础模型,仅对其语言模型模块进行微调,保持视觉编码器和投影层冻结,以保留预训练图像表征能力[9] - 强化学习阶段基于组相对策略优化(GRPO),通过比较同一提示词下的候选回复提升训练稳定性,并采用结合事实准确性与结构合规性的复合奖励函数[10][14] 数据集构建 - 构建了DeepMMSearchVQA数据集,包含多样化多跳视觉问答样本,并以多轮对话形式呈现,在不同知识类别间保持平衡分布[4][7] - 从InfoSeek训练集随机选取20万个样本,生成带工具标签的多轮对话数据,经质量筛选后得到约4.7万条精炼对话样本,并进一步采样1万个VQA样本作为有监督微调阶段的训练语料[7] 性能表现 - 配备网络搜索功能的多模态大语言模型在性能上显著优于RAG工作流和基于提示的搜索代理基线模型[16] - DeepMMSearch-R1-7B(RL)相较于RAG工作流和基于提示的search agent分别取得+21.13%和+8.89%的性能提升,整体表现与OpenAI o3相当[16] - 裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力显著提升模型性能,SFT阶段使模型具备工具使用能力,而RL阶段通过减少不必要调用来优化工具选择行为[17][19] - 在DynVQA数据集中,模型在87.7%的样本上调用了工具,而在OKVQA中这一比例为43.5%,工具使用行为与数据集特性保持一致[20] - 采用LoRA模块进行的SFT以及带有KL惩罚项的在线GRPO训练能保持模型的通用视觉问答能力,在多个数据集上的性能保持稳定[23][24]
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出
机器之心· 2025-10-16 00:51
技术瓶颈与创新范式 - 当前多模态大语言模型在需要精细空间感知的任务上存在瓶颈,其根本原因在于依赖将视觉目标输出为文本坐标的方式,导致格式混乱、解析困难、语义丢失和图文脱节等问题[2][8] - 研究团队提出全新统一范式Patch-as-Decodable Token,核心思想是将图像划分为视觉小块,使模型能直接生成对应这些小块的视觉令牌,实现文本令牌与视觉令牌在输入输出端的无缝交替[3][4][5] - 这一设计使模型不再猜测坐标,而能在生成句子中直接指向图像目标,从而在检测、分割等任务上全面刷新SOTA[6][7] 核心技术机制 - PaDT引入视觉参考令牌,这些令牌直接来源于输入图像的视觉块嵌入,在每次前向传播中动态地将当前图像的块特征扩展进文本词表,形成图文一体的动态嵌入表[11][13] - 设计了一个轻量级PaDT解码器,仅由三个双向注意力块组成,接收大语言模型输出的VRT隐藏状态,通过注入任务特定的可学习令牌,统一解码出边界框、分割掩码和置信度分数[16][19] - 提出鲁棒训练策略,在每次训练时随机采样少量前景VRTs作为监督信号,并通过掩码交叉熵损失动态屏蔽未选中的VRT logits,提升模型泛化能力并降低推理时的令牌消耗[16][17] 性能表现与行业影响 - PaDT Pro以仅3B参数在RefCOCO/+/g的指代表达理解任务上取得93.6的平均准确率,超越了参数量高达78B的InternVL3[21][22] - 在COCO开放词汇检测任务上,PaDT Pro将mAP推高至38.2,几乎是传统方法的两倍,7B版本更达到39.0 mAP,展现出极强的可扩展性[21][24] - 在新构建的Referring Image Captioning数据集上,PaDT的CIDEr-D分数从基线0.386提升至1.450,GreedyPrecision达82.3%,证明其生成的描述具备极强的视觉 grounding 能力[24][33] 技术优势与行业意义 - PaDT的成功源于对多模态大语言模型视觉能力瓶颈的深刻洞察,将视觉块本身作为可生成的令牌,实现了模态间的原生对齐,避免了在文本空间内拟合视觉信息的缺陷[32] - 动态嵌入机制确保VRTs与当前图像的强绑定,统一的令牌空间让大语言模型能以相同方式处理语言和视觉信息,轻量解码器将复杂预测任务从大语言模型中解耦[32] - PaDT Pro模型通过联合训练多个任务,仅通过切换提示即可无缝切换任务,且性能普遍优于单任务模型,证明了该范式在多任务泛化方面的强大能力[33][35]
VLA的基础模型与大规模训练任务汇总
具身智能之心· 2025-10-08 02:49
视觉-语言-动作模型优化 - 机器人思维链推理通过预测中间表征提升策略性能与泛化能力,但存在依赖专用数据和推理速度慢的局限性 [3] - 研究提出推理提升性能的三种机制:更优表征学习、更完善学习课程化、更强表达能力,并设计简化变体验证每种机制作用 [3] - 基于机制理解提出两种轻量级机器人推理替代方案,在LIBERO-90基准实现最先进结果,推理速度较标准方法提升3倍 [3] - 利用视觉语言模型生成反事实标签扩充机器人数据集,解决现有数据语义多样性和语言接地性不足问题 [5] - 反事实重标记方法在无需额外采集数据下,使VLA模型导航任务成功率提升27%,指令跟随能力媲美最先进方法 [5] 机器人脑与操作能力构建 - 多模态大语言模型在机器人长周期操作任务中缺乏规划能力、可供性感知和轨迹预测三大关键能力 [7] - 引入ShareRobot高质量异构数据集,标注任务规划、对象可供性和末端执行器轨迹等多维度信息,基于此开发RoboBrain模型 [7] - RoboBrain结合机器人与通用多模态数据,采用多阶段训练策略,融入长视频和高分辨率图像,在各种机器人任务中实现最先进性能 [7] - 提出DROID大规模机器人操作数据集,包含7.6万条演示轨迹(350小时交互数据),由50名采集者在564个场景中完成86项任务 [9] - 利用DROID训练的策略在性能和泛化能力上均有提升,数据集及学习代码已开源 [9] 视觉表征与技能学习迁移 - 针对具身智能预训练视觉表征的最大规模实证研究构建CORTEXBENCH基准,包含17项任务,发现无单一表征在所有任务中占优 [13] - 整合超过4000小时第一视角视频(含超430万张图像)与ImageNet训练视觉Transformer,发现扩大数据规模多样性不普遍提升所有任务性能但平均有提升 [13] - 规模最大模型VC-1平均性能优于所有现有预训练视觉表征,任务或领域特异性适配可带来显著提升,适配后VC-1在所有基准任务上达到或优于最佳结果 [13] - 提出语义动作流作为中间表示捕捉操作者-物体交互,ViSA-Flow框架从无标签大规模视频数据中自监督学习该表示 [11] - ViSA-Flow在CALVIN基准和真实任务实现最先进性能,低数据情况下通过将知识从人类视频迁移到机器人执行超越现有方法 [11] 通用策略微调与模仿学习 - 通用机器人操作策略微调性能因策略设计选择而有显著差异,包括动作空间、策略头、监督信号及可调参数选择 [15] - 深入实证研究评估每个单一配置2500次rollout,低数据情况下精心选择的微调策略使GMPs显著优于最先进模仿学习算法 [15] - CACTI框架通过数据收集、增强、视觉表征学习和模仿策略训练四阶段实现机器人学习可扩展性,专注于多任务多场景操作 [17] - CACTI在真实机器人设置中训练单一策略完成10项厨房操作任务,在仿真环境中完成18项语义任务(每项100种布局变化) [17] - R3M视觉表示在Ego4D人类视频数据集上预训练,下游机器人操作任务中比从头训练成功率提高超过20%,比CLIP和MoCo提高超过10% [19] - R3M使机械臂在仅20次演示下于真实杂乱公寓环境中学习操作任务,作为冻结感知模块实现数据高效学习 [19]
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-27 23:33
文章核心观点 - 武汉大学联合多家机构推出了首个面向自动驾驶场景的视觉语言模型空间推理大规模基准SURDS,旨在解决该领域缺乏系统性评估工具的挑战[2] - 研究通过结合有监督微调和强化学习训练,并设计定位与逻辑一致性奖励,显著提升了模型在多项空间推理任务上的性能,其中深度估计准确率相比第二名提升近60%[2][14] - 评测结果揭示了当前主流VLM在精细空间理解上存在明显不足,模型参数量并非决定空间理解能力的关键因素[14][16] SURDS基准概述 - SURDS基于nuScenes数据集构建,包含41,080条训练问答对和9,250条验证样本,涵盖方向识别、像素级定位等六类空间推理任务[4][7] - 数据集经过多阶段严格筛选,最终保留27,152张训练图像和5,919张验证图像,确保样本清晰无歧义[6][7] - 基准数据采集自波士顿和新加坡城市环境,包含多模态信息,覆盖多种交通、天气和昼夜场景[6] 模型训练方法 - 研究提出自动化流程生成高质量推理思维链,先由QVQ模型进行推理,再由Qwen2.5-VL-72B总结泛化规则[8][10] - 采用SFT与GRPO结合的强化学习框架,设置定位奖励、格式奖励、准确率奖励和逻辑奖励等多重奖励机制[10][11] - 创新性地让模型自我验证推理链一致性,降低计算开销并实现动态适应,显著增强逻辑可靠性[11] 实验结果分析 - 在单目标任务中,大部分模型准确率接近随机水平,像素级定位准确率很少超过10%[14][16] - 研究提出的Qwen2.5-VL-3B-SFT-GRPO-LocLogic模型在深度估计任务达到69.84%准确率,整体平均分超过第二名14.25%[14] - 消融实验表明定位能力是空间推理的基础,定位奖励与逻辑奖励结合时模型性能提升最显著[16][17] 行业意义与局限性 - 该研究为自动驾驶VLM空间理解能力提供了系统评估标准,填补了学术界大规模基准的空白[2][4] - 当前方法尚未在更大规模模型上验证,线性奖励缩放和多阶段GRPO训练等方向有待进一步探索[20]
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-15 23:33
核心观点 - 多模态大语言模型在自动驾驶领域缺乏鲁棒的3D空间理解能力,主要受限于3D表示构建难度和细粒度空间细节丢失问题 [3][5] - OccVLA框架通过将3D占用率表示整合为预测输出和监督信号,使模型直接从2D视觉输入学习细粒度空间结构,无需额外计算开销 [3][9] - 该模型在nuScenes基准的轨迹规划任务中取得SOTA结果(平均L2距离0.28米),在3D视觉问答任务中准确率达59.5%,为自动驾驶提供可扩展的纯视觉解决方案 [3][38][42] 技术框架创新 - 采用隐式3D占用监督机制,将占用率令牌作为隐式推理过程,通过交叉注意力从VLM中间层接收视觉特征 [9][21] - 设计潜在空间占用率预测(下采样率r=16)解决原始占用网格内存占用高问题,使用VQ-VAE解码器还原高分辨率3D占用预测 [23] - 引入元动作预测机制(速度动作3类+方向动作6类),通过思维链监督实现自然语言推理与运动语义保留 [26][30] - 规划头采用轻量级MLP架构,输入元动作嵌入/速度/视觉token,输出未来3秒轨迹坐标(MSE损失监督) [29][33] 性能表现 - 运动规划任务平均L2距离0.28米,超越依赖激光雷达的OmniDrive(0.33米)和需要3D标注的EMMA(0.32米) [38] - 3D视觉问答任务整体准确率59.5%,超越7B参数的LLaVA(47.4%)和LiDAR-LLM(48.6%),接近8B参数OccLLaMA3.1(54.5%) [42] - 占用预测任务mIoU达10%,虽受限单帧输入但在关键元素(车道/车辆/行人)预测表现突出 [43] - 模型参数量仅3B,性能超越7B参数模型,显示更高计算效率 [38][42] 训练方法论 - 三阶段训练流程:自动驾驶场景预训练(使用OmniDrive数据)、占用率-语言联合训练(损失函数含λ因子平衡文本与占用任务)、规划头专项训练 [31][32][33] - 采用适配器微调Transformer块,保持原有VLM能力同时注入3D感知能力 [22][32] - 全自动数据构建流程生成元动作标签,20%数据经人工优化确保标注一致性 [27] 行业应用价值 - 突破2D感知与3D感知间差距,使纯视觉方案具备高精度3D理解能力(仅需相机输入) [4][10] - 支持占用率表示灵活解码,生成可解释且可定量评估的输出,增强自动驾驶系统透明度 [10][11] - 推理阶段可跳过占用预测,无额外计算开销,解决现有3D VLM因参数庞大导致的延迟问题 [3][48]
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
机器之心· 2025-09-15 12:19
技术框架 - 采用多模态大语言模型赋能的两阶段生成框架 通过多模态导演模块将音频 图像和文字提示组织成结构化故事线 [6][7][8] - 首先生成蓝图视频明确整体节奏和风格 然后基于首尾帧条件并行生成子段落视频 最后拼接完整视频 [10][11][12] - 引入音频对齐插帧策略保证口型与声学节奏的帧级同步 并通过负向CFG抑制身份漂移模式 [12][17] 数据与训练 - 从演讲 对话 歌唱等语料库收集数千小时视频 通过专家模型筛选嘴部清晰度 音画同步等维度 再经人工复核得到数百小时高质量训练数据 [14] - 构建包含375个"参考图-音频-文本提示"的测评基准 涵盖多语言 多情感 多动作场景 未来将开源 [14] 性能表现 - 在GSB测评体系中总体效果对比OmniHuman-1达2.39 对比HeyGen达1.37 在口型同步维度对比HeyGen达2.35 [16][24] - 在英语演讲场景对比OmniHuman-1的口型同步指标为1.00 中文演讲场景对比OmniHuman-1达3.90 [24] - 支持分钟级长视频生成 总生成时间理论上与单段生成相当 在1分钟视频中保持身份一致性和动态性 [28] 应用功能 - 能够准确还原高难度音节口型(如"truth"的[u:]发音)和高频语音中的静音段落口型状态 [25] - 精准响应情绪 动作 镜头三类文本控制 包括"兴奋"情绪和"镜头缓慢上移"等指令 [26] - 已集成至可灵平台开启公测 支持用户通过图像 音频和文本生成数字人视频 [2][31]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 00:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
自动驾驶之心· 2025-08-06 23:34
视觉语言模型在自动驾驶中的应用 - 视觉语言模型(VLM)通过跨模态理解能力赋能自动驾驶系统,使其从"看得清"升级为"懂得深",实现场景理解和推理[2][3] - VLM在环境感知方面能识别复杂语义信息,如"行人挥手示意过马路"、"车辆打开双闪可能抛锚"等,提供更贴近人类认知的环境模型[6] - VLM可将视觉场景转化为自然语言描述,增强自动驾驶决策的可解释性,帮助开发调试并提升乘客信任感[6] - 在智能座舱交互中,VLM能准确理解口语化指令如"在下一个便利店靠边停",实现自然语言交互[6] 自动驾驶场景生成技术 - CrashAgent框架利用多模态大语言模型将事故报告转换为结构化场景,生成高质量碰撞数据集支持安全关键场景算法开发[7] - CurricuVLM利用VLM分析智能体行为并动态生成个性化训练场景,在Waymo数据集上导航成功率提升至73.4%,碰撞率降至25.1%[13][15] - TRACE框架从真实车祸报告生成测试场景,在290个场景中识别127个关键场景,重建准确率达77.5%,显著优于基线方法27%的准确率[17][19] - OmniTester利用多模态大语言模型生成高真实性测试场景,在复杂挑战性场景中展现优异可控性[30][32] 自动驾驶边缘案例处理 - 生成OOD场景的框架利用LLM构建分支树结构,在CARLA仿真器中实现多样化边缘场景,引入"OOD偏离度"指标量化场景异常程度[21][22] - WEDGE数据集包含3360张极端天气图像,用于微调检测器后在真实基准上提升4.48 AP,特别在卡车类别表现良好[39][41] - From Dashcam Videos框架将行车记录仪视频自动转换为仿真场景,保持高保真度同时实现分钟级转换效率[26][29] - INSIGHT框架整合语义和视觉表征,在BDD100K数据集上危险预测准确率显著提升,BLEU-4达88.087%[95][97] 自动驾驶评估与基准 - DriveBench基准评估12个主流VLM在19,200帧数据上的可靠性,发现模型常依赖文本线索而非真正视觉理解,存在安全风险[119][124] - CODA-LM是首个自动驾驶极端场景下LVLM自动评估基准,其CODA-VLM模型在区域感知任务上超过GPT-4V达21.42%[133][135] - Reason2Drive数据集包含60万视频-文本对,描述感知-预测-推理链条,Vicuna-7B模型推理指标达0.463[152][154] - OmniDrive数据集通过反事实推理增强3D理解,Omni-Q++模型在nuScenes规划任务上碰撞率降至0.3%[158][162] 自动驾驶决策与规划 - CBR-LLM框架结合案例推理和LLM,在风险场景中生成符合人类行为的机动建议,决策准确性显著提升[44][47] - FutureSightDrive提出时空思维链推理方法,通过生成未来帧预测进行轨迹规划,推动视觉推理发展[49][52] - ThinkDriver模型利用多视角图像生成可解释驾驶决策,在闭环实验中优于其他VLM基线[140][143] - LLM-Augmented-MTR使用0.7%的LLM增强数据即提升运动预测准确性,mAP从0.3432提升至0.3527[144][149]
AI打假AI,拿下SOTA丨厦大&腾讯优图
量子位· 2025-07-20 02:49
AI生成图像检测技术 - 核心观点:厦门大学与腾讯优图实验室联合提出AIGI-Holmes方法,通过"大模型+视觉专家"协同架构解决AI生成图像检测的可解释性与泛化能力问题 [2][5] - 技术亮点:采用双视觉编码器架构(LLaVA+NPR视觉专家)同时处理高级语义和低级视觉特征 [6] - 训练流程:包含视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三阶段 [7] - 推理优化:协同解码策略融合视觉专家与大语言模型预测结果,权重分配为1:1:0.2 [8][25] 性能表现 - 基准测试:在POGAN、StyleGAN2等17种生成模型检测中平均准确率达93.16%,显著优于CNNSpot(70.78%)等传统方法 [11] - 跨数据集验证:在COCO、Flickr等数据集上检测准确率保持100%,对SDXL、DALL·E-3等新模型检测准确率超99% [29][30] - 鲁棒性测试:JPEG压缩(98.7%)、高斯模糊(97.9%)等干扰下性能下降幅度小于5%,显著优于AIDE(90.7%)等竞品 [35] 关键技术实现 - 数据构建:Holmes-Set数据集含45K图像+20K标注,覆盖13类生成缺陷(人脸异常/物理法则错误等) [15][19] - 自动标注:采用Qwen2VL-72B等4种大模型进行多专家评审,设计通用正向/负向/特定缺陷三类prompt [18][19] - 偏好修正:通过人工标注修正SFT输出,使用Deepseek生成修改前后解释对用于DPO训练 [21] 解释能力评估 - 客观指标:BLEU-1(0.622)、ROUGE-L(0.375)等自然语言指标超越GPT-40(0.433) [32] - 主观评分:人类ELO评分达11.42,优于Pixtral-124B(10.472)等基线模型 [32] - 抗干扰性:JPEG压缩下解释指标(BLEU-1等)波动小于5%,保持语义一致性 [34] 行业应用前景 - 技术局限:存在幻觉问题(错误解释正常特征)及细粒度缺陷检测挑战 [36][37] - 迭代方向:将针对多模态大模型幻觉问题、解释客观评估指标开展优化 [39] - 开源资源:代码与论文已在GitHub和arXiv平台公开 [39]