视觉目标检测
搜索文档
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 10:00
论文获奖与演讲背景 - 任少卿、何恺明、Ross Girshick和孙剑合著的论文《Faster R-CNN》在NeurIPS 2025会议上获得了“时间检验奖” [1] - 该论文自2015年发表以来,奠定了现代目标检测框架的核心范式,并深刻影响了随后十年的视觉模型发展方向 [1] - 何恺明在大会上发表了题为《视觉目标检测简史》的演讲,总结了30年来该领域的发展历程 [5][6] 早期目标检测:手工特征时代 - 在深度学习爆发前,计算机视觉依赖手工设计的特征和分类器,如SVM,这种方法速度慢且难以适应复杂场景 [12] - 关键里程碑包括:1996年基于神经网络的人脸检测、1997年SVM用于人脸检测、2001年Viola-Jones框架、1999年SIFT特征、2003年视觉词袋模型、2005年HOG特征与金字塔匹配核、2006年空间金字塔匹配、2008年可变形部件模型DPM [14] 深度学习破晓:从AlexNet到R-CNN - 2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,证明了深层卷积神经网络提取特征的能力远超手工设计 [15] - 2014年,Girshick等人提出划时代的R-CNN,其思路是先用传统算法生成约2000个候选区域,再将每个区域送入CNN提取特征并用SVM分类 [17][19] - R-CNN的瓶颈在于每个候选框都需单独通过CNN,计算量巨大 [18] 速度进化:从Fast R-CNN到Faster R-CNN - 2014年,何恺明团队提出SPP-Net,引入空间金字塔池化层,允许网络处理任意大小图片并只计算一次全图特征,大大加速检测 [19] - 2015年,Girshick借鉴SPP-Net提出Fast R-CNN,引入RoI Pooling,将特征提取、分类和回归整合到一个可端到端训练的网络中 [19] - 2015年,何恺明团队最终提出Faster R-CNN,核心是引入了区域提议网络,从特征图上通过预设的Anchor直接预测物体位置,取代了传统的Selective Search算法,实现了真正的端到端实时检测 [25] 后Faster R-CNN时代:多样化发展与范式变迁 - 2016年,YOLO和SSD问世,采用单阶段检测范式,直接在全图上输出物体位置和类别,速度极快 [32] - 2017年,何恺明团队提出Focal Loss,解决了单阶段检测中正负样本不平衡的问题,并推出了RetinaNet [32] - 2017年,Mask R-CNN在Faster R-CNN基础上增加分割分支,实现实例分割,并引入了RoI Align解决像素对齐问题 [32] - 2020年,DETR将Transformer架构引入目标检测,完全抛弃了Anchor和非极大值抑制等后处理步骤 [32] - 2023年,SAM模型展示了视觉大模型的雏形,能够进行不限类别的通用分割 [32] 总结与启示 - 何恺明在演讲中以“驶入迷雾”比喻科学探索,强调没有预先画好的地图,甚至不知道终点是否存在 [34][36] - 从手工特征到CNN,再到Transformer,每一次飞跃都是对旧有瓶颈的突破,Faster R-CNN的核心启示在于:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它 [35]