谷歌Detic: 结合分类数据集进行目标检测模型训练

2022-01-22

计算机视觉, 论文阅读

论文三连问

论文做了什么：使用分类数据集来训练检测模型的分类器，使检测器可以识别出上万的类别
论文怎么做的：对于检测标注格式的数据和分类标注格式的数据，使用不同形式的损失函数, 前者使用标准损失函数，后者使用作者改进的.
论文效果：在 open-vocabulary 数据集上，超过sota OVR-CNN等.

Detic

将检测标注数据和分类标注数据混合在一起来训练
对于检测格式的数据，按标准的two-stage 检测器训练过程训练，检测器使用的是two-stage 的检测器centernet2, 但是将第二阶段的分类器替换为CLIP的文本-图像编码器来进行 open-vocabulary 分类
对于分类标注格式（图片级标签）的数据，使用作者修改的损失函数来训练分类器

Classifier-only training with image labels

论文如何使用 image-label 的数据来训练详细如下：

对于一张给定的来至分类数据集的图片 I，具有 K 个类别，检测网络首先抽取 N 个 proposal区域，对于 proposal 区域由以下几种方式进行监督.

一: 将整张图片作为一个proposal, 对应的bounding box 为 B=（0， 0， w, h）

损失为 L-image-box, 其中 W 为分类的weights，c 为该ROI对应的类别

二: 实际上 image-box 可以使用更小的boxes替代，作者另外使用了两种，分别是最大前景目标置信度的proposal和最大尺寸proposal.

对于以上三种损失，max-size 效果最好，默认总体损失如下

从损失看来针对分类数据的图片为单标签分类数据集, 多标签的不行. 有的弱监督使用的数据中会存在多个类别，弱监督方式主要在进行 region-label的匹配.

experiment

对比 ViLD

总结

本文主要在于如何使用分类数据来训练检测模型，使用的数据最好是单标签分类数据. 同时可以看出 zero-shot目标检测主要基于two-stage 目标检测构建, 接下来准备再复习一下目前主流的two-stage的检测器, 从论文到代码.

zero shot

ML, DL, CV....