一、概念
Contrastive Language-Image Pre-Training(利用文本的监督信息训练一个迁移能力强的视觉模型)
CLIP任务:
CLIP在完全不使用ImageNet中所有数据训练的前提下
直接Zero-shot得到的结果与Resnet在128W Imagenet数据局训练后效果一样
现在CLIP下游任务已经很多了,GAN、检测、分割、检索等都能玩
如何训练模型:
如何进行推理:
ActionCLIP:
- 视频分类,行为识别也类似
- 其实本质也是构建特征提取器
- 同样是zero-shot来预测
CLIP-Event: