类人注意力
搜索文档
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-25 23:33
文章核心观点 - 提出了一种名为OmniScene的全新类人框架,旨在解决当前自动驾驶系统缺乏真正场景理解能力的问题,通过结合环视感知与时序融合实现全面的4D场景理解 [2] - 该框架通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征以实现语义监督,并采用分层融合策略解决多模态融合中的模态贡献不平衡问题 [2] - 在nuScenes数据集上的评估表明,OmniScene在所有任务中均实现了更优性能,特别是在视觉问答性能上实现了21.40%的显著提升 [3] 技术框架与创新 - 引入OmniScene视觉-语言模型,这是一种结合环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解 [2] - 通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实现语义监督,明确捕捉类人的注意力语义信息 [2] - 提出分层融合策略,以解决多模态融合过程中模态贡献不平衡的问题,该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性 [2] - 框架输入包括环视图像、操作指令与用户提示,通过学生端OmniVLM模块生成文本标注,并与视觉特征、三维实例特征融合形成全面特征表示 [23] 算法核心组件 - 采用基于稀疏查询的范式初始化三维目标实例集,有效降低计算复杂度并使模型聚焦于信息区域 [41][45] - 设计4D时空融合模块,通过解耦交叉注意力显式建模实例在多帧间的时间依赖关系,并通过解耦自注意力挖掘当前帧内实例间的空间关系 [46][52] - 引入视觉可变形聚合模块,以每个实例的几何先验为引导,自适应从环视图像特征中聚合信息线索 [53][59] - 设计文本条件聚合模块,将文本语义信息整合到每个三维实例特征中,实现上下文感知推理 [60][65] - 引入深度优化模块,利用增强实例特征与来自环视图像的辅助深度线索,对每个实例的估计深度进行校正与优化 [66][69] 性能评估结果 - 在nuScenes验证集上的感知任务中,所提模型的nuScenes检测得分达到0.526,平均平移误差最低为0.555米 [96] - 在跟踪任务上,平均多目标跟踪精度为1.235,召回率为0.528,身份切换次数仅为503次,显著优于所有现有基线模型 [98][99] - 在预测任务中,最小平均位移误差和最小最终位移误差分别低至0.61米和0.96米,遗漏率最低为0.128 [100][101] - 在规划任务中,轨迹L2误差平均值最低为0.58米,在所有预测时域下均表现领先 [102] - 在视觉问答任务中,OmniVLM 7B模型的CIDEr得分为87.39,比最佳基线模型高出24.9% [104][106] 行业应用与前景 - 该技术框架展示了在复杂城市驾驶环境中实现全面场景理解与推理的显著优势,为自动驾驶系统的智能决策与安全规划提供了新思路 [107][109] - 实时性能评估表明,OmniVLM 3B模型在A800平台上仅需88毫秒处理300个输入令牌,总处理时间在113毫秒到139毫秒之间,满足实时任务要求 [125][127] - 行业对VLA/VLM大模型算法专家的需求旺盛,相关岗位薪资范围在40-70K之间,反映了该技术方向的市场价值和发展潜力 [9]