Accelerating Object Detection by Erasing Background Activations 阅读

该篇论文来源于Intel, 如其名用来加速目标检测. 主要针对于 one-stage 的目标检测算法.

主要创新点

  • 对于 one-stage 的目标检测算法而言, 由于其设置了大量的 default box, 然后真正的前景目标只是少数, 大部分 box 对应的都是背景. 此论文通过整合 Objectness mask生成网络与目标检测网络, 消除背景区域的激活值. 从而使检测网站专注于真正有目标的区域

网络结构

论文提提的结构如上图, 主要有两个模块 $OMGN$ 生成前景背景mask, $FEN、AHN$ 为 one-stage 的目标检测网络, 图中为 SSD. 流程如下:

  • 输入图片, 经过 $OMGN$ 得到前景-背景 mask, 前景区域值为1, 背景区域值为0
  • 将得到的 mask 与原图进行像素乘, 背景区域的像素值被置为0
  • 在各级的 feature maps 上, 将 mask 进行池化得到相同的大小, 并进行逐位像素乘, 消除背景的激活值
  • 其它流程与 one-stage 检测算法一样

mask 生成

mask 生成的质量, 在很大程度上决定了此算法的性能. 因为一旦前景区域被判定为背景, 那么在目标检测阶段, 这个区域内的物体就直接丢失掉了, 使用了以下方法提高 mask 的识别性能:

  • Mask Dilation, 使用扩展算法对GT mask 进行扩张参考
  • Online Hard-Negative Example Mining, 有选择的使用损失最高的负样本
  • Loss Re-Weighting, 损失重加权, 为了强调对前景区域的正确预测,当对它们进行错误分类时,会给出更高的损失

对于 GT mask, 大多数目标检测数据集并没有像素级的标注. 对于只有bounding-box 标注的, 使用bounding-box 矩形框为mask.

可视化结果

可以看出论文方法得到的 feature maps 中背景区域的激活被消除了, 只留下了感兴趣区域的激活.

总结

个人觉得这篇论文是将 two-stage 目标检测的 region proposal 思想结合到 one-stage 检测算法. two-stage 算法的精度高, 因为在 region proposal 的时候, 大部分背景非物体区域都已经被丢弃了. 而 two-stage 算法由于是在整张图片上直接回归, 导致大部分 box 对应的都是背景区域. 此论文加的mask分支类似于扮演 region proposal的角色.

ref

Accelerating Object Detection by Erasing Background Activations