视觉-语言模型(VLM)
搜索文档
Less is More!Max-V1:面向自动驾驶精巧而强大的视觉-语言模型(复旦&中科院)
自动驾驶之心· 2025-10-08 09:04
文章核心观点 - 提出一种名为Max-V1的全新一阶段端到端自动驾驶框架,将自动驾驶重新概念化为广义语言任务,将轨迹规划形式化为“下一个waypoint预测”[2] - 该方法利用视觉语言模型的生成能力,仅输入前视相机即可端到端预测轨迹,在nuScenes数据集上取得SOTA性能,相较基线模型整体提升超过30%[2][3] - 该框架摒弃了传统的鸟瞰图特征空间和复杂的中间表示,采用单次前向生成范式,结合统计建模原则性监督策略,具备强大的跨域泛化能力[9][10][30] 背景回顾与主要贡献 - 将人类驾驶视为序列化决策过程,与自然语言生成高度相似,从而可将视觉语言模型视为强大的策略网络,将规划转化为可处理的自回归序列建模任务[5] - 当前端到端自动驾驶研究主要分为两大方向:开发专用架构并在大规模领域数据上训练,或适配大型预训练视觉语言模型以利用其世界知识与推理能力[5] - 专用架构受限于高质量标注数据依赖和鸟瞰图表示的脆弱性,而基于视觉语言模型的框架则面临计算效率低下及对连续控制不适配的挑战[8][9] 模型简介与技术创新 - 将“下一词预测”重构为“下一waypoint预测”,在自回归框架内将其视为回归问题,使用特殊令牌对连续坐标值占位符进行建模,避免了将坐标直接文本化带来的离散性不匹配问题[14][17] - 提出针对waypoint回归的特定任务损失,使用物理距离损失监督预测坐标与真实值,替代标准的交叉熵损失,该损失源于对waypoint表示统计基础模型的推导,等价于L2损失[16][24][25] - 框架设计具有深刻简洁性,无需依赖额外的思维链注释或多轮对话,是单次端到端方法,直接生成整个轨迹,且仅需前视摄像头单帧图像,无需额外自车状态信息[27] 实验结果与性能表现 - 在nuScenes数据集评估中,模型在轨迹规划项目上位移误差指标整体降低超过30%,其中MiMo-VL-7B-RL版本在3秒预测时的平均L2误差为0.27米,最大L2误差为0.49米[28][30] - 模型展现出强大的零样本泛化能力,在截然不同的场景和由完全不同的车辆采集的数据集上仍能表现合格驾驶行为,显示跨车辆部署潜力[3][10] - 初步探索了第一人称视角下的LiDAR-图像融合,发现明显的性能权衡,仅使用相机输入时3秒平均L2误差为0.34米,加入LiDAR后升至0.68米[28] 局限性与未来方向 - 推理延迟仍是实时部署的挑战,未来可探索知识蒸馏、量化等高效推理技术及定制芯片开发[32] - 端到端黑盒架构缺乏直接可解释性,未来可开发混合架构或事后分析方法弥合此差距[32] - 当前模型基于模仿学习,受限于专家演示,未来可通过引入强化学习使模型能从交互中学习并发现更优驾驶策略[31][32]
DeepSeek,重大突发!
券商中国· 2025-09-29 11:16
DeepSeek-V3.2-Exp模型发布 - 公司于9月29日正式发布DeepSeek-V3.2-Exp模型并在Hugging Face平台开源[2][3] - 新模型引入自研DeepSeek Sparse Attention稀疏注意力机制旨在优化长文本训练和推理效率[3][5] - 模型在各大公开评测集表现与V3.1-Terminus基本持平有效性得到初步验证[8] 技术特性与产业合作 - DeepSeek Sparse Attention技术实现细粒度稀疏注意力机制大幅提升长文本场景效率几乎不影响输出效果[5] - 华为云已完成模型适配工作最大支持160K长序列上下文长度[4] - 寒武纪同步实现模型适配并开源大模型推理引擎vLLM-MLU源代码[4] 商业化与开源策略 - 得益于服务成本降低官方API价格下调开发者调用成本降低50%以上[1][9] - 新价格政策下输入缓存命中时0.2元/百万tokens未命中时2元/百万tokens输出为3元/百万tokens[9] - 公司在Huggingface和ModelScope平台全面开源模型并为V3.1-Terminus保留API接口至2025年10月15日[11] 行业竞争动态 - 在DeepSeek-V3.2发布前夕智谱GLM-4.6即将发布并提示带来更大上下文[15][16] - 智谱Z.ai官网已将GLM-4.5标识为上一代旗舰模型[1][17] - 智谱GLM-4.5在41个公开视觉多模态榜单达同级别开源模型SOTA性能BFCL v4基准全球第一成本仅为Claude Opus 4.1的1.5%[18]
天大&清华最新!GeoVLA:增强VLA模型的3D特征提取能力,鲁棒提升明显(SOTA)
具身智能之心· 2025-08-15 00:05
核心观点 - 提出GeoVLA框架 通过整合3D几何信息显著提升视觉-语言-动作模型的空间感知和操作能力 [3][9] - 在模拟和真实世界环境中实现卓越性能 包括LIBERO基准测试97.7%平均成功率和ManiSkill2基准测试77%成功率 [3][24][27] - 采用端到端架构设计 包含点嵌入网络和3D增强动作专家 有效融合多模态特征 [9][12][15] 领域背景 - 当前VLA模型主要依赖2D视觉输入 缺乏对3D几何信息的利用 限制空间感知能力 [3][7] - 现有3D整合方法存在局限性:LLaVA3D等方案破坏视觉编码器与语言模型对齐 需大规模微调数据集 PointVLA等方案冻结动作专家阻碍模态适应 [8] - 机器人操作需同时处理智能交互和精确运动控制 VLA模型通过视觉-语言基础结合动作生成设计实现指令跟随 [7] 方法设计 - 点嵌入网络采用双路径架构:几何特征路径使用CNN提取patch级token 位置编码路径通过旋转位置编码增强空间信息 [17] - 空间锚设计聚焦末端执行器区域 提升特征提取效率并明确建模空间关系 [18] - 3D增强动作专家采用扩散transformer与混合专家架构 通过静态路由策略平衡多模态特征处理 [19][20] - 端到端训练框架同步处理视觉语言特征和点云几何特征 输出连续动作序列 [12][13] 性能表现 - LIBERO基准测试中全面领先:空间任务98.4% 物体任务99.0% 目标任务96.6% 长视野任务96.6% 90任务97.7% [24][27] - ManiSkill2基准测试表现优异:PickCube任务90% StackCube任务90% PickSingleYCB任务75% PickClutterYCB任务45% [24][27] - 真实世界任务平均成功率86.3% 较CogACT提升10个百分点 在3D感知任务中达77.5%成功率 [31][36] 技术优势 - 几何感知能力突出:点云输入提供精确深度线索 增强空间理解和对视角变化的鲁棒性 [3][38] - 泛化能力强:在篮子高度变化、玩偶尺寸缩放、相机视角偏移等未见场景中保持稳定性能 [35][38] - 架构创新有效:点嵌入网络较MLP和PointNet编码器提升2-2.5个百分点 旋转位置编码较1D位置编码提升2.3个百分点 [29][30]