Workflow
视觉语言大模型
icon
搜索文档
高德TrafficVLM模型再升级:AI赋予“天眼”视角 可预知全局路况 当AI“看见”实时交通:智能导航体验或被重新定义
扬子晚报网· 2025-09-19 08:39
核心技术能力 - 依托空间智能架构实现TrafficVLM模型升级 实现全局交通态势感知 [1][2] - 基于通义Qwen-VL视觉语言模型底座 结合海量交通视觉数据进行强化学习训练 [9] - 具备车辆 车道线 交通信号灯状态及车路相对位置的精准识别能力 [11] - 能分析车辆互动关系 如变道犹豫行为及减速传导效应 [11] 技术实现机制 - 以分钟级频率对沿途交通态势进行实时推理 [2] - 通过交通孪生还原能力将实时数据转化为动态孪生视频流 [5] - 在任意地区任意尺度下构建与现实同步的数字交通世界 [5] - 结合实时交通流与历史动态分析拥堵成因及发展趋势 [11] 应用场景效果 - 可预判3公里外突发事故导致的拥堵蔓延情况 [4] - 实时推送最优通行建议并提供高清实景图像验证 [4] - 实现从被动接收提示到主动洞察全局的导航体验升级 [4] - 覆盖微观路段(如潮白河桥)至宏观区域(如演唱会期间鸟巢)的交通分析 [7][9] 系统架构创新 - 交通孪生还原与视觉语言大模型技术深度融合 [11] - 形成从感知到决策的完整智能闭环 [9][11] - 将复杂交通博弈转化为可视化可感知的决策信息 [11] - 实现AI对现实世界任意区域交通脉搏的实时洞察 [5]
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-30 16:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 04:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]