HVR Net - yubo105139/paper GitHub Wiki

HVR-Net

目前视频目标检测都是在单个视频序列中挖掘proposal之间的联系，进而聚合时空信息增强视频目标检测器的表现，难以将具有相似外观或运动特性的confusing object在不同视频中区分开。

在单个视频序列中只能得到cat look like和how it moves的信息，但是无法获取cat在其他视频序列的联系与形变信息，这导致检测器的鲁棒性不足，如a部分目标外观变动大的时候就产生了错误的分类结果。

为了解决该问题，本文设计了视频间的proposal关系模块，利用容易混淆的视频三元组自适应地构造并利用困难proposal三元组，这样可以更好地学习proposal间关系，降低检测器处理不同视频时产生混淆结果的可能。

1. 视频级别的三元组选择：对一个目标视频，从支持视频集合中选择两个易混淆视频。两个易混淆视频分别为：同类目标最不相似，不同类目标最相似。

从训练集的目标类别中采样K个，对每个采样的类别随机采样N个视频。一个batch包含K*N个视频，从中随机选一个作为目标视频，其他的就是支持视频。对于每个视频，随机采样一帧作为目标帧，其他的T-1帧就是支持帧。

每个视频的T帧都独立地使用骨干网络提取特征，对于一个视频可以得到H×W×C×T的特征，然后对空间、时间维度使用global average pooling，最终每个视频可以得到一个C通道的向量表达。作者用该向量特征的余弦相似度衡量两个视频的相似与否。

根据视频间相似度可以构建视频的三元组：

其中+代表跟目标视频属于同类且最不相似，-代表跟目标视频归属于不同类且最相似。

构建视频内的proposal关系模块。对于三元组的视频分别进行帧采样并提取proposal特征，然后用支持帧的proposal特征对t时刻目标帧的proposal特征进行聚合增强，这算是视频内的时间维度特征增强。

接下来先对视频三元组中的视频各自采样T帧，每帧生成M个proposal及其特征。然后就是近两年常用的关系模块（注意力机制）增强proposal特征，当然在本文这里，这一步是视频内的特征增强，即用支持帧的proposal特征去增强目标帧的proposal特征。

这一步基于相似度的注意力增强可以表示如下，不再赘述。需要注意这一步对三个视频是一致的处理方式，且相互独立。

经过上一步，每个视频中的proposal特征已经融合了其所在视频的时空信息，但正如本文的核心论点，该特征缺乏不同视频间（尤其易混淆的视频间）的proposal关系。

为了学习视频间关系，作者提出基于视频三元组进一步从它们的proposal中选择困难的proposal三元组。proposal间相似度像视频那一步一样，都是根据特征的余弦相似度衡量。

对于每个目标视频的目标帧的proposal，可以构造proposal三元组如下。

+代表同类且最不相似（来自+的视频），-代表不同类且最相似（来自-的视频）。

构建视频间的proposal关系模块。每个proposal三元组可以聚合来自辅助视频的proposal特征，该目proposal的特征将对于同类别目标在不同视频中的变化更加鲁棒，并且可以更好地将不同类别区分开。

接下来建模不同视频间的proposal关系，这样可以学习到目标在不同视频间的变化。对于每个proposal三元组，依然是注意力机制，如下式：

最后为了进一步增强对易混淆情况的鲁棒性，作者为视频间的关系模块添加了额外loss，如下式：

该loss要求目标proposal特征与同类proposal特征的距离相对于与不同类proposal的特征的距离尽可能远，这样我们构造的三元组才更困难，更能让检测器拥有更强的区分能力。

pipeline：