Workflow
视觉语言模型(VLM)
icon
搜索文档
「一只手有几根手指」,你的GPT-5答对了吗?
机器之心· 2025-08-11 10:40
多模态大模型视觉理解能力缺陷 - 顶尖大模型如GPT-5、GPT-5-Thinking、Gemini 2.5 Pro和Grok 4在基础视觉常识问题(如"一只手有几根手指")上频繁出错,答案受语言歧义(英文finger可指4或5指)和图像语境影响[1][6][9][10][11][17][24] - 模型错误率高达100%(如六指图中文语境),反事实图像(如5条腿的狗)识别准确率仅约17%,显示对视觉内容的基础理解能力不足[17][33] 视觉语言模型的技术局限性 - 当前多模态大语言模型(MLLM)过度依赖语言先验和记忆知识,而非真实视觉分析,导致视觉模块仅通过语言模式猜测而非真正"看懂"图像[26][34] - 以语言模型初始化视觉-语言-动作模型(VLA)存在陷阱,虽在基准测试中表现进步,但未解决核心感知问题(如物体计数、空间关系)[36] 评估体系与解决方案 - 需建立以视觉为中心的严谨评估标准(如CV-Bench基准测试集),系统性检验2D/3D视觉能力(计数、深度感知等),并评估超过20种视觉编码器[31][32] - 应开发更强视觉基础模型(如从世界模型入手再叠加语言模块),避免将视觉作为语言附属输入,需重新探索3D基础模型和视频扩散模型[36][38] 行业影响与研究方向 - 公司可能依赖语言先验捷径宣称"多模态推理"成功,但实际应用于机器人等现实场景时将暴露缺陷并付出代价[31] - 需暂停仅叠加CLIP/DINO的符号化方案,转向从零构建4D先验(如4D-LRM),彻底脱离语言先验干扰[38]
自动驾驶二十年,这个自动驾驶黄埔军校一直在精打细磨...
自动驾驶之心· 2025-08-09 16:03
自动驾驶行业发展现状 - 自动驾驶技术自2009年谷歌(Waymo)开启研发热潮以来已发展近二十年,当前处于行业下沉关键期,技术路径从模块化方法演进至端到端/VLA方法 [2] - 行业技术能力持续攀升,但实现真正自动驾驶仍需突破,智能驾驶融入日常出行是长期目标 [2] 技术资源与知识体系 - 社区梳理40+技术路线,覆盖VLA benchmark、综述、学习路线等,缩短行业检索时间 [4] - 汇总60+自动驾驶数据集、40+开源项目及主流仿真平台,包含感知/仿真/规划控制等学习路线 [16] - 技术方向覆盖BEV感知、3D目标检测、多传感器融合、Occupancy Network等28个细分领域 [23][47][49][51][54] - 前沿技术包括扩散模型、世界模型、视觉语言模型(VLM)、端到端自动驾驶等热点方向 [38][40][42][45] 行业生态与人才网络 - 社区成员来自上海交大、清华、CMU等顶尖高校及蔚小理、华为、大疆等头部企业,形成产学研闭环 [16] - 与多家自动驾驶公司建立内推机制,直接对接企业招聘需求 [7] - 提供职业发展咨询,涵盖岗位选择、技术转型等实际问题 [80][83] 技术交流与内容产出 - 每月举办星友线上讨论会,针对共性问题深度探讨 [2] - 累计举办超100场专业直播,邀请清华、上海AI Lab等机构专家分享最新研究成果 [79] - 内容形式包含开源项目分析、数据集解读、量产方案拆解等实战型主题 [30][32][34] 教育培训体系 - 针对小白提供完备入门技术栈和路线图 [9] - 为从业者设计算法进阶课程,涵盖CUDA编程、模型部署等工程化内容 [5][64][66] - 开发"自动驾驶100问"系列,聚焦TensorRT部署、毫米波雷达融合等实战问题 [5]
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
自动驾驶之心· 2025-08-06 23:34
视觉语言模型在自动驾驶中的应用 - 视觉语言模型(VLM)通过跨模态理解能力赋能自动驾驶系统,使其从"看得清"升级为"懂得深",实现场景理解和推理[2][3] - VLM在环境感知方面能识别复杂语义信息,如"行人挥手示意过马路"、"车辆打开双闪可能抛锚"等,提供更贴近人类认知的环境模型[6] - VLM可将视觉场景转化为自然语言描述,增强自动驾驶决策的可解释性,帮助开发调试并提升乘客信任感[6] - 在智能座舱交互中,VLM能准确理解口语化指令如"在下一个便利店靠边停",实现自然语言交互[6] 自动驾驶场景生成技术 - CrashAgent框架利用多模态大语言模型将事故报告转换为结构化场景,生成高质量碰撞数据集支持安全关键场景算法开发[7] - CurricuVLM利用VLM分析智能体行为并动态生成个性化训练场景,在Waymo数据集上导航成功率提升至73.4%,碰撞率降至25.1%[13][15] - TRACE框架从真实车祸报告生成测试场景,在290个场景中识别127个关键场景,重建准确率达77.5%,显著优于基线方法27%的准确率[17][19] - OmniTester利用多模态大语言模型生成高真实性测试场景,在复杂挑战性场景中展现优异可控性[30][32] 自动驾驶边缘案例处理 - 生成OOD场景的框架利用LLM构建分支树结构,在CARLA仿真器中实现多样化边缘场景,引入"OOD偏离度"指标量化场景异常程度[21][22] - WEDGE数据集包含3360张极端天气图像,用于微调检测器后在真实基准上提升4.48 AP,特别在卡车类别表现良好[39][41] - From Dashcam Videos框架将行车记录仪视频自动转换为仿真场景,保持高保真度同时实现分钟级转换效率[26][29] - INSIGHT框架整合语义和视觉表征,在BDD100K数据集上危险预测准确率显著提升,BLEU-4达88.087%[95][97] 自动驾驶评估与基准 - DriveBench基准评估12个主流VLM在19,200帧数据上的可靠性,发现模型常依赖文本线索而非真正视觉理解,存在安全风险[119][124] - CODA-LM是首个自动驾驶极端场景下LVLM自动评估基准,其CODA-VLM模型在区域感知任务上超过GPT-4V达21.42%[133][135] - Reason2Drive数据集包含60万视频-文本对,描述感知-预测-推理链条,Vicuna-7B模型推理指标达0.463[152][154] - OmniDrive数据集通过反事实推理增强3D理解,Omni-Q++模型在nuScenes规划任务上碰撞率降至0.3%[158][162] 自动驾驶决策与规划 - CBR-LLM框架结合案例推理和LLM,在风险场景中生成符合人类行为的机动建议,决策准确性显著提升[44][47] - FutureSightDrive提出时空思维链推理方法,通过生成未来帧预测进行轨迹规划,推动视觉推理发展[49][52] - ThinkDriver模型利用多视角图像生成可解释驾驶决策,在闭环实验中优于其他VLM基线[140][143] - LLM-Augmented-MTR使用0.7%的LLM增强数据即提升运动预测准确性,mAP从0.3432提升至0.3527[144][149]
4000人了,死磕技术的自动驾驶黄埔军校到底做了哪些事情?
自动驾驶之心· 2025-07-31 06:19
社区定位与愿景 - 打造国内首个自动驾驶全栈技术交流平台,连接产业界与学术界,形成学术、产业、求职的闭环生态 [13] - 愿景是推动AI与自动驾驶技术普及,让相关资源触达每位有需求的学习者 [1] - 社区定位为培养未来行业领袖的孵化器,强调内容质量与实用性,避免形式化运营 [3] 核心资源体系 - **技术路线**:梳理40+技术路线,覆盖感知、仿真、规划控制三大方向,包括BEV感知、3DGS、世界模型等前沿领域 [14][15] - **学习资料**:提供原创视频课程(如数据工程、VLA技术等9大系列)、60+数据集、40+开源项目及行业书籍 [4][25][27][23] - **专家网络**:聚集数十位来自头部企业(蔚小理、华为、英伟达等)和顶尖高校(清华、CMU、ETH等)的一线专家 [14] 行业服务功能 - **求职对接**:与多家自动驾驶公司建立内推机制,实时分享实习/校招/社招岗位信息 [4][11][17] - **技术研讨**:组织超100场专业直播,内容涵盖VLA、3DGS、扩散模型等热点,部分场次由顶会论文作者主讲 [74] - **问题解答**:成员可自由提问技术难题(如3D车道线真值生成、BEV精度优化等),获得产业界实战解决方案 [75][79] 前沿领域覆盖 - **关键技术**:深度聚焦VLA(视觉语言模型)、端到端自动驾驶、世界模型等2025年重点方向,提供数据集、算法及量产方案 [35][37][29][33] - **工具链**:整合标定工具、CUDA加速、模型部署等工程化内容,覆盖从研发到落地的全流程 [55][59][61] - **创新应用**:探索3DGS与闭环仿真结合、扩散模型在场景重建中的应用等交叉领域 [31][40] 成员生态 - **用户构成**:成员来自上海交大、CMU等高校实验室及蔚来、大疆等企业,形成产学研协同网络 [14] - **互动模式**:通过圆桌讨论、开源项目协作、日常技术问答(如激光雷达数据处理)促进深度交流 [2][77][79] - **成长路径**:为小白提供入门路线图,为进阶者设计产业级项目方案,实现技术能力阶梯式提升 [8][10]
中科院自动化所!视觉-触觉-语言-动作模型方案与数据集制作分享
具身智能之心· 2025-07-30 00:02
视觉-触觉-语言-动作模型(VTLA)技术突破 - 提出VTLA框架 通过跨模态语言对齐融合视觉与触觉输入 在接触密集型任务中生成鲁棒策略 [2] - 构建低成本多模态数据集 包含专为指尖插入任务设计的视觉-触觉-动作-指令对 [2] - 引入直接偏好优化(DPO) 为VTLA提供类回归监督 弥合分类预测与连续机器人任务间的差距 [2] VTLA性能表现 - 在未知孔型上成功率超过90% 显著优于传统模仿学习方法(如扩散策略)及现有多模态基线(TLA/VLA) [2] - 通过真实世界孔轴装配实验验证卓越的仿真到现实(Sim2Real)迁移能力 [2] 相关技术资源 - 论文标题《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》发布于arXiv [3] - 知识星球「具身智能之心」提供完整技术细节 QA及未公开彩蛋 包含VR-Robo BridgeVLA等机器人领域前沿方案 [4]
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源
量子位· 2025-07-16 01:49
视觉语言模型(VLMs)在电影理解领域的突破 - 当前最强大的VLMs在理解电影方面存在局限性,平均准确率低于60%,尤其在细粒度视觉线索和复杂空间推理方面表现不佳 [1][3][6] - 上海人工智能实验室联合多所高校推出ShotBench基准、ShotVL模型及ShotQA数据集,填补了电影摄影语言理解的评测与训练空白 [1][3] - ShotBench包含3,572个高质量问答对,覆盖8个关键电影摄影维度,数据来自200多部奥斯卡提名电影 [1][8][14] ShotBench基准的特点 - 基准包含超过3.5k个专家标注的图像和视频片段问答对 [1] - 涵盖八个核心电影摄影维度:景别、取景构图、摄像机角度、镜头焦距、照明类型、照明条件、构图和摄像机运动 [1][11][16] - 采用严格的数据标注流程,结合专业标注员和专家监督确保数据质量 [8][9][10] ShotQA数据集与ShotVL模型 - ShotQA包含约7万个电影问答对,是首个大规模综合摄影语言理解数据集 [1][15] - ShotVL采用两阶段训练流程:大规模监督微调(SFT)和群体相对策略优化(GRPO) [15][19][20] - ShotVL-3B模型在ShotBench上平均准确率达65.1%,超越GPT-4o(59.3%)和Qwen2.5-VL-72B-Instruct(59.1%) [3][24][25] 模型性能比较 - 在24个主流VLM评测中,表现最好的现有模型平均准确率不足60% [3][6] - ShotVL-3B相比基础模型Qwen2.5-VL-3B-Instruct平均提升19.0% [3][24] - 开源模型与专有模型之间的总体性能差异微乎其微 [21] 技术实现细节 - 数据来源于奥斯卡最佳摄影奖提名电影,包含3,049张图片和464个视频片段 [8][14] - 标注流程包括数据策展、标注员培训、QA标注和严格验证 [9][10][14] - 两阶段训练中,GRPO策略显著提升了模型性能,尤其在摄像机运动维度 [26][27][28] 行业影响与开源贡献 - 该研究为AI驱动的电影理解和生成领域提供了专业模型基座 [29] - 团队开源了模型、数据和代码,促进该领域快速发展 [4][30] - 3B参数模型超越GPT-4o,为行业提供了高性能低成本的解决方案 [24][29]
CEED-VLA:实现VLA模型4倍推理加速,革命性一致性蒸馏与早退解码技术!
具身智能之心· 2025-07-10 13:16
视觉语言动作模型(VLA)加速技术 - 提出CEED-VLA框架,通过Jacobi Decoding和Early-exit Decoding策略实现推理速度提升,最高达4.1倍加速比和执行频率4.3倍提升 [2][6][15] - 引入一致性蒸馏机制与混合标签监督方法,确保学生模型从中间状态准确预测动作,保留操作技能 [9][11][13] - 识别Jacobi解码迭代效率瓶颈,通过提前退出策略优化高频任务执行,保持成功率的同时减少冗余计算 [15][20] 模型架构与训练方法 - 框架基于预训练VLA模型(如LLaVA-VLA)生成训练数据,结合一致性损失(KL散度)和自回归损失进行联合优化 [6][12][14] - 混合标签监督动态调整样本标签,对偏差较大样本采用真实标签,提升模型鲁棒性 [13][19] - 消融实验显示混合标签方案速度提升2倍,平均预测长度3.67,优于纯教师模型或真实标签方案 [19][21] 性能评估结果 - 在CALVIN基准测试中,CEED-VLA固定token数达13.5,速度提升2倍,显著优于PD-VLA(8.75 token,1.33倍)和基线模型 [20] - 真实世界任务(如叠毛巾)成功率超70%,机械臂动作连续性优于LLaVA-VLA,后者因低频控制常出现抓取失败 [30][31] - LIBERO LONG基准测试显示,模型在长序列任务中保持高效执行,任务完成率与推理速度同步优化 [22][23] 技术对比与创新 - Jacobi解码并行输出token但收敛条件严格,Early-exit策略通过预设步数提前输出,利用后期token变化微小特性提升效率 [15] - 一致性训练使中间点收敛至固定点,KL散度约束分布差异,自回归损失继承教师模型能力 [9][12][14] - 开源代码与Arxiv论文提供完整实现细节,包括轨迹收集、蒸馏流程和解码优化 [4][6]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 04:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 12:06
核心观点 - JarvisIR是基于视觉语言模型(VLM)的智能图像恢复系统,通过动态调度多个专家模型处理复杂天气下的图像退化问题,实现更鲁棒、更通用的图像恢复能力[5][9] - 系统在CleanBench-Real数据集上平均感知指标提升50%,显著优于现有方法[9][47] - 提出MRRHF对齐算法,结合监督微调与人类反馈,提升模型在真实场景下的泛化能力和决策稳定性[9][27] 方法详解 JarvisIR架构设计 - 核心思想是将VLM作为控制器,协调多个专家模型完成图像恢复任务[7] - 工作流程包括任务解析、任务规划、模型调度和结果整合四个步骤[10] - 首个将VLM作为控制器的图像恢复系统,能够自主规划任务顺序并选择合适的专家模型[9] CleanBench数据集 - 包含150K合成数据和80K真实世界数据,涵盖夜景、雨天、雾天、雪天等多种恶劣天气条件[12][15][18] - 每条训练样本是一个三元组(用户指令、退化图像、响应),支持训练与评估[18][19] - 填补了真实世界图像恢复数据的空白,推动社区发展[52] 两阶段训练框架 - 第一阶段监督微调(SFT)使用合成数据,目标是让VLM初步掌握图像恢复任务[23][25] - 第二阶段MRRHF对齐算法结合离线采样与在线采样策略,引入熵正则化项提升模型稳定性与泛化能力[27][30][33] - 总体损失函数由排名损失、微调损失和熵正则化损失三部分组成,协同优化模型[39][40] 实验与结果分析 决策能力对比 - JarvisIR-MRRHF在工具决策能力上显著优于其他策略,得分6.21,排名4.8%[44] - 优于随机顺序和模型、预定义顺序和模型以及人类专家等策略[44] 图像恢复性能对比 - 在夜景、雨天、雾天、雪天四种场景下均优于现有all-in-one方法[45] - 具体指标如MUSIQ在夜景场景达到67.25,雾天场景达到74.22,显著领先其他方法[45] 技术亮点总结 - 首次将VLM应用于图像恢复系统的控制中枢,具备强大的上下文理解和任务规划能力[52] - 提出MRRHF对齐算法,解决真实数据无标签问题,提升泛化能力[52][53] - 发布高质量数据集CleanBench,推动社区发展[52][53]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]