HVR Net - yubo105139/paper GitHub Wiki
HVR-Net
目的(论据)
目前视频目标检测都是在单个视频序列中挖掘proposal之间的联系,进而聚合时空信息增强视频目标检测器的表现,难以将具有相似外观或运动特性的confusing object在不同视频中区分开。
在单个视频序列中只能得到cat look like和how it moves的信息,但是无法获取cat在其他视频序列的联系与形变信息,这导致检测器的鲁棒性不足,如a部分目标外观变动大的时候就产生了错误的分类结果。
为了解决该问题,本文设计了视频间的proposal关系模块,利用容易混淆的视频三元组自适应地构造并利用困难proposal三元组,这样可以更好地学习proposal间关系,降低检测器处理不同视频时产生混淆结果的可能。
方法(分析)
1. 视频级别的三元组选择:对一个目标视频,从支持视频集合中选择两个易混淆视频。两个易混淆视频分别为:同类目标最不相似,不同类目标最相似。
从训练集的目标类别中采样K个,对每个采样的类别随机采样N个视频。一个batch包含K*N个视频,从中随机选一个作为目标视频,其他的就是支持视频。对于每个视频,随机采样一帧作为目标帧,其他的T-1帧就是支持帧。
每个视频的T帧都独立地使用骨干网络提取特征,对于一个视频可以得到H×W×C×T的特征,然后对空间、时间维度使用global average pooling,最终每个视频可以得到一个C通道的向量表达。作者用该向量特征的余弦相似度衡量两个视频的相似与否。
根据视频间相似度可以构建视频的三元组:
其中+代表跟目标视频属于同类且最不相似,-代表跟目标视频归属于不同类且最相似。
-
构建视频内的proposal关系模块。对于三元组的视频分别进行帧采样并提取proposal特征,然后用支持帧的proposal特征对t时刻目标帧的proposal特征进行聚合增强,这算是视频内的时间维度特征增强。
接下来先对视频三元组中的视频各自采样T帧,每帧生成M个proposal及其特征。然后就是近两年常用的关系模块(注意力机制)增强proposal特征,当然在本文这里,这一步是视频内的特征增强,即用支持帧的proposal特征去增强目标帧的proposal特征。
这一步基于相似度的注意力增强可以表示如下,不再赘述。需要注意这一步对三个视频是一致的处理方式,且相互独立。
- 进行proposal级别的三元组选择。从视频三元组中选择困难的proposal三元组,依据就是前一步得到的视频内增强的proposal特征。
经过上一步,每个视频中的proposal特征已经融合了其所在视频的时空信息,但正如本文的核心论点,该特征缺乏不同视频间(尤其易混淆的视频间)的proposal关系。
为了学习视频间关系,作者提出基于视频三元组进一步从它们的proposal中选择困难的proposal三元组。proposal间相似度像视频那一步一样,都是根据特征的余弦相似度衡量。
对于每个目标视频的目标帧的proposal,可以构造proposal三元组如下。
+代表同类且最不相似(来自+的视频),-代表不同类且最相似(来自-的视频)。
- 构建视频间的proposal关系模块。每个proposal三元组可以聚合来自辅助视频的proposal特征,该目proposal的特征将对于同类别目标在不同视频中的变化更加鲁棒,并且可以更好地将不同类别区分开。
接下来建模不同视频间的proposal关系,这样可以学习到目标在不同视频间的变化。对于每个proposal三元组,依然是注意力机制,如下式:
最后为了进一步增强对易混淆情况的鲁棒性,作者为视频间的关系模块添加了额外loss,如下式:
该loss要求目标proposal特征与同类proposal特征的距离相对于与不同类proposal的特征的距离尽可能远,这样我们构造的三元组才更困难,更能让检测器拥有更强的区分能力。
pipeline:
结论
相关方向建议:
在数据量较少的情况下,或可以通过该方案利用视频之间的关系增强小目标特征从而提升小目标检测性能。但是原论文pipeline为two-stage方案,将其迁移到one-stage上可能需要有部分修改。