Workflow
多模态大语言模型
icon
搜索文档
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-27 23:33
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 摘 要 在大模型飞速发展的当下,让多模态大语言模型(VLM)在自动驾驶场景图像中做出准确的空间推理,依然是人工智能领域的一大挑战。学术界一直缺 乏针对自动驾驶场推理的大规模基准,现有方法往往依赖外部专家模型,难以全面衡量模型能力。 与此形成鲜明对比的是,人类可以凭借已有知识轻松判断图像中物体的朝向,或推理多个物体的相对位置。而VLM同样具备丰富的知识,却仍在此类任务上 表现不足。 为此,武汉大学联合中科院自动化所,北京智源人工智能研究院 (BAAI)等多家单位推出 首个面向驾驶场景的VLM空间推理大规模基准 SURDS ,系统评测了 包括 GPT 系列在内的通用模型及 SpatialRGPT 等空间推理模型,全面揭示了当前VLM在空间理解方面的短板。研究团队通过设计"感知准确性"和" ...
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-15 23:33
核心观点 - 多模态大语言模型在自动驾驶领域缺乏鲁棒的3D空间理解能力,主要受限于3D表示构建难度和细粒度空间细节丢失问题 [3][5] - OccVLA框架通过将3D占用率表示整合为预测输出和监督信号,使模型直接从2D视觉输入学习细粒度空间结构,无需额外计算开销 [3][9] - 该模型在nuScenes基准的轨迹规划任务中取得SOTA结果(平均L2距离0.28米),在3D视觉问答任务中准确率达59.5%,为自动驾驶提供可扩展的纯视觉解决方案 [3][38][42] 技术框架创新 - 采用隐式3D占用监督机制,将占用率令牌作为隐式推理过程,通过交叉注意力从VLM中间层接收视觉特征 [9][21] - 设计潜在空间占用率预测(下采样率r=16)解决原始占用网格内存占用高问题,使用VQ-VAE解码器还原高分辨率3D占用预测 [23] - 引入元动作预测机制(速度动作3类+方向动作6类),通过思维链监督实现自然语言推理与运动语义保留 [26][30] - 规划头采用轻量级MLP架构,输入元动作嵌入/速度/视觉token,输出未来3秒轨迹坐标(MSE损失监督) [29][33] 性能表现 - 运动规划任务平均L2距离0.28米,超越依赖激光雷达的OmniDrive(0.33米)和需要3D标注的EMMA(0.32米) [38] - 3D视觉问答任务整体准确率59.5%,超越7B参数的LLaVA(47.4%)和LiDAR-LLM(48.6%),接近8B参数OccLLaMA3.1(54.5%) [42] - 占用预测任务mIoU达10%,虽受限单帧输入但在关键元素(车道/车辆/行人)预测表现突出 [43] - 模型参数量仅3B,性能超越7B参数模型,显示更高计算效率 [38][42] 训练方法论 - 三阶段训练流程:自动驾驶场景预训练(使用OmniDrive数据)、占用率-语言联合训练(损失函数含λ因子平衡文本与占用任务)、规划头专项训练 [31][32][33] - 采用适配器微调Transformer块,保持原有VLM能力同时注入3D感知能力 [22][32] - 全自动数据构建流程生成元动作标签,20%数据经人工优化确保标注一致性 [27] 行业应用价值 - 突破2D感知与3D感知间差距,使纯视觉方案具备高精度3D理解能力(仅需相机输入) [4][10] - 支持占用率表示灵活解码,生成可解释且可定量评估的输出,增强自动驾驶系统透明度 [10][11] - 推理阶段可跳过占用预测,无额外计算开销,解决现有3D VLM因参数庞大导致的延迟问题 [3][48]
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
机器之心· 2025-09-15 12:19
技术框架 - 采用多模态大语言模型赋能的两阶段生成框架 通过多模态导演模块将音频 图像和文字提示组织成结构化故事线 [6][7][8] - 首先生成蓝图视频明确整体节奏和风格 然后基于首尾帧条件并行生成子段落视频 最后拼接完整视频 [10][11][12] - 引入音频对齐插帧策略保证口型与声学节奏的帧级同步 并通过负向CFG抑制身份漂移模式 [12][17] 数据与训练 - 从演讲 对话 歌唱等语料库收集数千小时视频 通过专家模型筛选嘴部清晰度 音画同步等维度 再经人工复核得到数百小时高质量训练数据 [14] - 构建包含375个"参考图-音频-文本提示"的测评基准 涵盖多语言 多情感 多动作场景 未来将开源 [14] 性能表现 - 在GSB测评体系中总体效果对比OmniHuman-1达2.39 对比HeyGen达1.37 在口型同步维度对比HeyGen达2.35 [16][24] - 在英语演讲场景对比OmniHuman-1的口型同步指标为1.00 中文演讲场景对比OmniHuman-1达3.90 [24] - 支持分钟级长视频生成 总生成时间理论上与单段生成相当 在1分钟视频中保持身份一致性和动态性 [28] 应用功能 - 能够准确还原高难度音节口型(如"truth"的[u:]发音)和高频语音中的静音段落口型状态 [25] - 精准响应情绪 动作 镜头三类文本控制 包括"兴奋"情绪和"镜头缓慢上移"等指令 [26] - 已集成至可灵平台开启公测 支持用户通过图像 音频和文本生成数字人视频 [2][31]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 00:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
自动驾驶之心· 2025-08-06 23:34
视觉语言模型在自动驾驶中的应用 - 视觉语言模型(VLM)通过跨模态理解能力赋能自动驾驶系统,使其从"看得清"升级为"懂得深",实现场景理解和推理[2][3] - VLM在环境感知方面能识别复杂语义信息,如"行人挥手示意过马路"、"车辆打开双闪可能抛锚"等,提供更贴近人类认知的环境模型[6] - VLM可将视觉场景转化为自然语言描述,增强自动驾驶决策的可解释性,帮助开发调试并提升乘客信任感[6] - 在智能座舱交互中,VLM能准确理解口语化指令如"在下一个便利店靠边停",实现自然语言交互[6] 自动驾驶场景生成技术 - CrashAgent框架利用多模态大语言模型将事故报告转换为结构化场景,生成高质量碰撞数据集支持安全关键场景算法开发[7] - CurricuVLM利用VLM分析智能体行为并动态生成个性化训练场景,在Waymo数据集上导航成功率提升至73.4%,碰撞率降至25.1%[13][15] - TRACE框架从真实车祸报告生成测试场景,在290个场景中识别127个关键场景,重建准确率达77.5%,显著优于基线方法27%的准确率[17][19] - OmniTester利用多模态大语言模型生成高真实性测试场景,在复杂挑战性场景中展现优异可控性[30][32] 自动驾驶边缘案例处理 - 生成OOD场景的框架利用LLM构建分支树结构,在CARLA仿真器中实现多样化边缘场景,引入"OOD偏离度"指标量化场景异常程度[21][22] - WEDGE数据集包含3360张极端天气图像,用于微调检测器后在真实基准上提升4.48 AP,特别在卡车类别表现良好[39][41] - From Dashcam Videos框架将行车记录仪视频自动转换为仿真场景,保持高保真度同时实现分钟级转换效率[26][29] - INSIGHT框架整合语义和视觉表征,在BDD100K数据集上危险预测准确率显著提升,BLEU-4达88.087%[95][97] 自动驾驶评估与基准 - DriveBench基准评估12个主流VLM在19,200帧数据上的可靠性,发现模型常依赖文本线索而非真正视觉理解,存在安全风险[119][124] - CODA-LM是首个自动驾驶极端场景下LVLM自动评估基准,其CODA-VLM模型在区域感知任务上超过GPT-4V达21.42%[133][135] - Reason2Drive数据集包含60万视频-文本对,描述感知-预测-推理链条,Vicuna-7B模型推理指标达0.463[152][154] - OmniDrive数据集通过反事实推理增强3D理解,Omni-Q++模型在nuScenes规划任务上碰撞率降至0.3%[158][162] 自动驾驶决策与规划 - CBR-LLM框架结合案例推理和LLM,在风险场景中生成符合人类行为的机动建议,决策准确性显著提升[44][47] - FutureSightDrive提出时空思维链推理方法,通过生成未来帧预测进行轨迹规划,推动视觉推理发展[49][52] - ThinkDriver模型利用多视角图像生成可解释驾驶决策,在闭环实验中优于其他VLM基线[140][143] - LLM-Augmented-MTR使用0.7%的LLM增强数据即提升运动预测准确性,mAP从0.3432提升至0.3527[144][149]
AI打假AI,拿下SOTA丨厦大&腾讯优图
量子位· 2025-07-20 02:49
AI生成图像检测技术 - 核心观点:厦门大学与腾讯优图实验室联合提出AIGI-Holmes方法,通过"大模型+视觉专家"协同架构解决AI生成图像检测的可解释性与泛化能力问题 [2][5] - 技术亮点:采用双视觉编码器架构(LLaVA+NPR视觉专家)同时处理高级语义和低级视觉特征 [6] - 训练流程:包含视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三阶段 [7] - 推理优化:协同解码策略融合视觉专家与大语言模型预测结果,权重分配为1:1:0.2 [8][25] 性能表现 - 基准测试:在POGAN、StyleGAN2等17种生成模型检测中平均准确率达93.16%,显著优于CNNSpot(70.78%)等传统方法 [11] - 跨数据集验证:在COCO、Flickr等数据集上检测准确率保持100%,对SDXL、DALL·E-3等新模型检测准确率超99% [29][30] - 鲁棒性测试:JPEG压缩(98.7%)、高斯模糊(97.9%)等干扰下性能下降幅度小于5%,显著优于AIDE(90.7%)等竞品 [35] 关键技术实现 - 数据构建:Holmes-Set数据集含45K图像+20K标注,覆盖13类生成缺陷(人脸异常/物理法则错误等) [15][19] - 自动标注:采用Qwen2VL-72B等4种大模型进行多专家评审,设计通用正向/负向/特定缺陷三类prompt [18][19] - 偏好修正:通过人工标注修正SFT输出,使用Deepseek生成修改前后解释对用于DPO训练 [21] 解释能力评估 - 客观指标:BLEU-1(0.622)、ROUGE-L(0.375)等自然语言指标超越GPT-40(0.433) [32] - 主观评分:人类ELO评分达11.42,优于Pixtral-124B(10.472)等基线模型 [32] - 抗干扰性:JPEG压缩下解释指标(BLEU-1等)波动小于5%,保持语义一致性 [34] 行业应用前景 - 技术局限:存在幻觉问题(错误解释正常特征)及细粒度缺陷检测挑战 [36][37] - 迭代方向:将针对多模态大模型幻觉问题、解释客观评估指标开展优化 [39] - 开源资源:代码与论文已在GitHub和arXiv平台公开 [39]
自驾搞科研别蛮干!用对套路弯道超车~
自动驾驶之心· 2025-07-11 01:14
课程核心价值 - 通过1v6精英小班模式快速掌握LLM/MLLM领域科研全流程,包括模型理论、代码实践、论文写作与投稿技巧 [1][5][10] - 提供经典与前沿Baseline资源,导师定制化分配研究idea,确保学员产出完整论文初稿 [6][7][20] - 系统性解决知识碎片化问题,帮助构建算法设计、创新思路及论文写作方法论体系 [10][22] 导师资质 - 毕业于知名计算机院校,具备计算机视觉、模型压缩、多模态大语言模型等领域的算法研究经验 [2] - 在CVPR/ICCV/EMNLP等顶会发表论文十余篇,担任CVPR/ICML/NeurIPS等会议审稿人,拥有多项发明专利 [3] 目标学员 - 自动驾驶领域硕博生(感知/预测/规划方向)、车企算法工程师、AI从业者 [11] - 需具备Python/PyTorch基础,熟悉深度学习框架,最好拥有4张4090显卡级别算力设备 [16][17] 课程设计 - 授课周期3.5-4个月,提供6个月答疑服务,采用腾讯会议直播+小鹅通回放形式 [19][21] - 产出对标SCI 1-4区或CCF A/B/C级别论文,定制化调整idea难度 [20][22] - 配套班主任督学服务,要求学员全勤参与、完成作业并保持学术诚信 [23] 技术门槛 - 最低硬件要求为2张4090显卡,建议掌握Linux开发调试及CUDA语法基础 [16][17] - 需通过1v1面试评估基础能力,课程深度根据学员水平动态调整 [14][16]
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
机器之心· 2025-07-10 04:26
研究背景 - 多模态大语言模型(MLLMs)通过结合视觉、语音等模态编码器与文本生成模型,展现出处理多模态数据的强大能力,但在实际应用中面临灾难性遗忘问题[3] - 持续多模态指令微调(CMIT)成为核心挑战,目前研究刚起步,传统持续学习策略针对小规模单模态模型,在多模态场景下面临任务架构冲突和模态不均衡两大新挑战[4] - 任务架构冲突表现为不同任务对模型不同层次依赖程度差异明显,例如视觉任务中部分依赖视觉编码器浅层,另一些则依赖语言模型深层[4] - 模态不均衡表现为不同任务对图像、文本等模态依赖程度差别大,导致训练中各模态更新不平衡[7][8] 研究方法 - 提出D-MoLE框架,通过动态调整模型结构解决任务架构冲突和模态不平衡问题,包含动态分层专家分配器和基于梯度的跨模态持续课程两大核心组件[10][16] - 动态分层专家分配器通过零成本代理评估识别关键层并分配LoRA专家,实现按需适配新任务[23] - 基于梯度的跨模态持续课程通过评估各模态学习难度动态分配参数预算,解决模态不均衡问题[24] - 框架保留通用基础、按需适配新任务、情境化利用旧经验,实现高效适应新任务同时保留过往知识[21][23] 实验结果 - 在包含9个数据集的CMIT基准测试中,D-MoLE在AVG指标上比次优方法提升15.08%,在Last指标上提升20.14%,BWT指标从-21.31%改善至-1.49%[29] - 通用能力评估显示D-MoLE在MME-Sum(1754.6)、MMMU-Val(32.7)和POPE-Sum(88.1)上接近原始预训练模型水平,优于Seq-FT和O-LoRA[31] - 消融实验验证各组件有效性,移除跨模态课程或动态分层专家分配器均导致性能显著下降[34] - 训练效率与vanilla LoRA微调相当(12.40小时),远快于复杂持续学习方法如MOLA(23.03小时)[36] 业务应用 - 可提升阿里安全多模态审核大模型在交互内容安全场景下的持续适应能力,支持多平台差异化审核规则[38] - 模型能快速适配新平台或规则而不影响原有能力,仅需引入少量参数,降低运维成本并提升多任务环境灵活性[39]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]
快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心· 2025-07-07 12:17
{ "核心观点": { "模型定位": "快手团队推出8B参数规模的多模态基础模型Kwai Keye-VL,专注于提升短视频理解能力,同时保持通用视觉-语言处理能力[2]", "技术突破": "通过6000亿token的大规模视频数据集和创新的四阶段预训练+两阶段后训练策略实现性能突破[2][4]", "应用价值": "在公开视频基准测试和自建KC-MMBench短视频基准上达到SOTA水平,用户体验优于同规模模型[3]" }, "技术架构": { "数据构建": "数据集总量超6000亿token,侧重视频数据,采用过滤、重描和帧级标注等严格处理流程[4]", "预训练流程": { "阶段1": "基于Qwen3-8B初始化,冻结视觉/语言模型参数,优化投影MLP层实现跨模态对齐[12]", "阶段2": "解冻所有参数,端到端多任务训练覆盖图像描述、OCR、VQA等任务[13][14]", "阶段3": "精选高质量数据进行退火优化,解决广覆盖训练中的细节理解不足问题[15]", "模型融合": "采用同构-异构融合技术平均不同数据混合策略的模型权重,降低偏差[16]" }, "后训练策略": { "阶段1": "通过监督微调(SFT)和混合偏好优化(MPO)提升指令遵循等基础能力[5]", "阶段2": "五模式冷启动数据混合+强化学习(RL)激发高级推理能力[6]" } }, "性能表现": { "基准测试": { "通用能力": "在MMMUval(71.4)、AI2D(86.7)、MMStar(75.5)等通用基准领先[27]", "视频专项": "Video-MME(67.7)、LongVideoBench(62.8)、MMVU(66.1)体现视频理解优势[27]", "数学推理": "MathVistaMINI(80.7)、MathVersevision(59.8)显示跨模态推理能力[27]" }, "人类评估": { "视频子集": "整体评分3.33(5分制),在正确性(3.34)、相关性(4.83)等维度领先竞品[30]", "图像子集": "整体评分3.81,视觉识别(3.97)和基础描述(4.0)能力突出[30]" } }, "工程实现": { "并行策略": "混合数据并行(DP)与序列并行(SP),集成ZeRO优化器实现计算/通信重叠[23]", "负载均衡": "全局贪心策略按FLOPs分配样本,减少硬件空闲时间[24]", "容错机制": "样本级自动恢复检查点,精确恢复训练状态[25]", "推理优化": "适配vLLM框架支持视频输入,奖励模型随机调度降低RL时间开销[26]" }, "行业贡献": { "基准建设": "发布KC-MMBench短视频基准含6类任务1840个实例,填补领域空白[28]", "方法论输出": "提供从数据构建、训练策略到工程优化的全链路实践参考[3][4]" } }