Workflow
AdaptiveNN
icon
搜索文档
Nature | ApdativeNN:建模类人自适应感知机制,突破机器视觉「不可能三角」
机器之心· 2025-11-28 04:11
当前计算机视觉模型面临的挑战 - 高精度模型在实际落地中面临巨大挑战,推理过程需激活上亿参数处理高分辨率图像或视频,导致功耗、存储需求和响应时延急剧上升[2] - 模型难以部署在算力、能耗、存储等资源高度受限的实际系统中,如机器人、自动驾驶、移动设备或边缘终端等,甚至在医疗、交通等场景下可能因延迟决策危害生命安全[2] - 大型模型庞大的推理能耗带来了大规模部署的环境可持续性问题[2] - 现有视觉模型普遍采用全局表征学习范式,计算复杂度随输入尺寸呈至少平方或立方增长,形成能效瓶颈,导致信息丰富的高分辨率输入、性能领先的大型模型、高效快速推理三者难以同时满足[3] 人类视觉系统的启示与AdaptiveNN的提出 - 人类视觉系统通过一系列“注视”动作主动、选择性地采样关键区域,以小范围高分辨率感知逐步拼接认知,能大幅降低计算开销[5] - 清华大学团队在《自然・机器智能》上提出AdaptiveNN架构,将视觉感知建模为由粗到精的最优序贯决策问题,逐步定位关键区域并累积信息,在信息足够时主动终止观察[7] - AdaptiveNN通过结合表征学习与自奖励强化学习,给出了离散-连续混合优化问题的端到端求解方法[7] - 该架构在保持精度的同时实现了最高28倍的推理成本降低,并可在线动态调整行为以适配不同任务需求与算力约束[7] AdaptiveNN的技术原理与架构 - AdaptiveNN将视觉感知建模为多步序贯决策过程,模型依次在若干感兴趣区域上进行“注视”,逐步积累信息形成内部视觉表征,并动态决定何时结束观察[11] - 框架模拟人类从全局到局部、从粗到细的视觉策略,先快速扫视建立低分辨率初始状态,再通过精细注视捕获关键信息[11] - 架构具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构和多种类型的任务[12] - 训练过程提出了面向离散-连续混合优化问题的端到端求解方法,优化过程自然分解为表征学习目标和自激励强化学习目标两部分[15][16] AdaptiveNN的实验性能与效果 - 在使用相同主干网络的情况下,AdaptiveNN-DeiT-S和AdaptiveNN-ResNet-50分别以2.86 GFLOPs与3.37 GFLOPs的平均计算量,取得与传统静态模型相当甚至更优的准确率,实现了5.4×与3.6×的计算节省[22] - 在六个细粒度视觉识别任务上,AdaptiveNN在保持精度基本不变甚至略有提升的情况下,实现了5.8×–8.2×的计算量节省[23][26] - 模型的注视轨迹自动聚焦于类别判别性区域,当目标较小或远离摄像机时,会自适应地延长观察序列,与人类视觉的逐步注视过程高度一致[22][26] AdaptiveNN的类人行为与可解释性 - AdaptiveNN在空间注视位置与任务难度判断两个层面,都展现出与人类视觉高度一致的自适应行为,在“视觉图灵测试”中,人类受试者几乎无法区分模型与真实人类的凝视轨迹[25] - 模型自发聚焦于任务判别性区域,如鸟类的喙部、犬类的面部、汽车的灯组等,而无需任何显式的定位监督[26] - 这一成果对认知科学研究具有启发意义,为理解人类视觉行为的关键问题提供了新的启发,并展示了其作为通用计算模型的潜力[25] AdaptiveNN在具身智能领域的应用 - 将AdaptiveNN应用于具身智能的基础模型上,在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算开销大幅降低4.4-5.9倍[29] - 这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径[29]