多模态 - fly away, chase dream

CLIP: Learning Transferable Visual Models From Natural Language Supervision理解与使用小记

CLIP 是 openAI 提出的用以将图像映射到文本描述空间中，连接图片和文本，可以用来提取图像 embedding, 用作zero-shot 迁移。 CLIP 结构 CLIP 总体结构如上图：通过对比学