Pix2seq阅读笔记

Pix2seq阅读笔记

灵魂三问 论文做了什么? 该论文是谷歌最近的新作,以语言建模的形式实现目标检测。 论文怎么做的? 将bounding box 和 类别标签离散化为token。