QueryDet - yubo105139/paper GitHub Wiki

TOC

QueryDet

目的

小目标难点:以RetinaNet为例,在COCOtest上,它在中型和大型物体上可达到44.1和51.2 mAP,而在小型物体上只能获得24.1 mAP。 这种退化主要由三个因素引起:1. 由于卷积神经网络(CNN)的主干网中的下采样操作,突出显示小对象的特征消失了, 因此,小物体的特征经常被背景噪声所污染; 2. 低分辨率特征的感受野可能与图中小物体的大小不匹配; 3. 定位小对象比大对象困难,因为边界框很小可能会导致IoU度量标准受到严重干扰。

小目标解决方向:1. 扩增分辨率,2. 数据增强、重采样,3. 结合上下文信息,4. 多尺度感知训练。其中提升小目标最常见的方案是使用更高的分辨率、特征图,但是由于图像和特征尺寸的增加使计算成本成正比增长,因此这两种方法都导致了更高的计算成本

image-20210426100412538

​ 为了解决这个问题论文提出了QueryDet,使用一种查询机制来加快基于FPN的目标检测的推理速度。主要依据如下:1. 低层特征的计算是高度冗余,在大多数情况下,小物体的空间分布非常稀疏,仅占据高分辨率特征图的一小部分。 因此浪费了大量计算。2. 特征金字塔具有高度结构化,这意味着尽管我们无法在低分辨率特征图中准确地检测出小物体,但仍可以高置信度推断出它们的存在和粗略位置。

方法

​ 根据低层特征的计算高度冗余特征金字塔高度结构化,QueryDet首先预测低分辨率特征上小物体的粗略位置,然后使用由那些粗略位置稀疏引导的高分辨率特征来计算准确的检测结果。这样,不仅可以收获高分辨率特征图的好处,而且还可以避免对背景区域进行无用的计算。 此pipeline以级联方式应用,可实现快速,准确的小物体检测。image-20210407102700504

​ QueryDet的pipeline。 图像被送到主干和特征金字塔网络(FPN)中,生成一系列具有不同分辨率的特征图。 从查询起始层(此图像中的P5)开始,每个层从上一层接收一组关键位置,并应用查询操作来生成稀疏值特征图。 然后,稀疏检测头和稀疏查询头会预测所检测到的下一层相应的比例和关键位置的框。

image-20210426105945762

结论

​ 在COCO数据集上,该方法将检测mAP提高了1.0,将小mAP提高了2.0,高分辨率推理速度平均提高到3.0倍。相较于其他方案亦有明显提升。

image-20210428175056153

相关方向建议:在做超分+小目标检测方向,计算量和mAP的平衡是一个非常重要的问题。QueryDet及相关思路是一个非常值得尝试方向