视觉感知投机推理(ViSpec)

搜索文档
多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025
量子位· 2025-09-26 02:08
多模态大模型推理加速技术突破 - 华为诺亚方舟实验室提出视觉感知投机推理框架ViSpec 实现多模态大模型最高3.22倍无损加速[3][8][23] - 现有投机推理技术在VLM领域加速效果有限 普遍低于1.5倍[2][4] - 该研究已入选NeurIPS 2025 是业界首次在VLM投机推理领域取得显著加速成果[1][8] 技术原理与创新设计 - 引入轻量级视觉适配器 将成百上千个图像嵌入压缩为1个信息高度浓缩的紧凑视觉表征[9][11] - 设计全局视觉特征注入机制 解决草稿模型"中间遗忘"问题 确保视觉上下文持续影响[13][15][17] - 创新数据生成方法通过修改指令引导目标VLM生成千字长回复 降低训练集构建成本[18][19] 性能表现与实验验证 - 在LLaVA-1.6 7B/13B和Qwen2.5-VL 3B/7B等多个主流VLM上验证有效性[22][24] - 温度系数为0时GQA测试集加速比达1.85-3.22倍 平均加速比超2.5倍[23] - 消融实验显示图像嵌入压缩单项贡献30%性能提升 全局特征注入再提升7%[27][28] 行业应用前景 - 突破VLM在实时交互和边缘部署场景的计算成本与时间延迟限制[4] - 推动多模态大模型在手机 汽车 智能家居等边缘设备上的落地应用[29] - 从"能看懂"向"看得快 看得好"演进 引领VLM进入高效实用新阶段[30]