Reid之路（一）:初识 reid: Deep Learning for Person Re-identification:A Survey and Outlook

2021-03-01

目前团队项目逐渐偏向识别，自己的工作重心逐渐由检测、分类转向reid相关，自己之前对reid也没有深入，因此准备记录自己在reid工作上的成长过程.

前言

person-reid 又简称 reid，是旨在用来从图片序列或视频中检索行人的技术。可总体划分为以下5步:

原始数据采集: 主要来自于监控摄像头
行人框生成: 将图片中的行人裁剪出来，可通过人工或使用行人检测算法
训练数据标注: 可能包含行人属性、相机等，对于新场景，一般需要重新标注
模型训练: 模型集中于特征表示学习、距离度量学习或者二者的组合
行人检索: 给定 query(感兴趣的行人) 和 gallery 集合，用训练得到的模型抽取各自的特征表达，然后计算 query 和 gallery 中每个行人的相似度进行排序.

论文中将ReID技术分为 Closed-world 和Open-world 两大子集 , 本文主要记录 closed-world 的reid，即常见的标注完整的有监督的行人重识别方法.

闭集 reid 主要基于以下假设：

closed-world reid 系统主要包含三个部分：特征学习（设计特征组合策略）、深度度量学习（设计不同的损失函数或采样策略）以及排序优化（优化检索的排序列表）.

如上图所示，特征学习方法主要分为为四种：

Global Feature Representation Learning：全局特征表示学习对每一张行人图片抽取抽取全局特征向量。实现上有：单张图像训练分类、输入多种图像使用 triplet loss 训练，以及广泛使用的将每个ID看做一个类别的以多分类实现。以及attention机制等。
Local Feature Representation Learning：利用局部图像区域（行人部件或者简单的垂直区域划分）来进行特征学习，并聚合生成最后的行人特征表示
Auxiliary Feature Representation Learning：利用一些辅助信息来增强特征学习的效果，如语义信息（比如行人属性等）、视角信息（行人在图像中呈现的不同方位信息）、域信息（比如每一个摄像头下的数据表示一类域）、GAN生成的信息（比如生成行人图像）、数据增强等；
Video Feature Representation Learning：利用视频的时空信息提取特征，根据多帧的信息来构建行人特征
Architecture Design：设计更好的网络结构以适合reid场景. 如通常将最后一层卷积的步长为1，最后一层池化使用自适应平均池化等