CLIP: Learning Transferable Visual Models From Natural Language Supervision理解与使用小记 2022-01-18 计算机视觉 CLIP 是 openAI 提出的用以将图像映射到文本描述空间中,连接图片和文本,可以用来提取图像 embedding, 用作zero-shot 迁移。 CLIP 结构 CLIP 总体结构如上图: 通过对比学