一、经典分类模型的问题:
- 类别固定
- 当前的模型只能胜任一个任务,迁移到新任务上非常困难
- 类别互斥
- 当前的CV数据集标注劳动密集,成本较高,
- 当前模型泛化能力较差
负样本的组成(Batchsize有N个文本-图像对)
Batchsize太小,负样本太少,训练效果不佳
Batchsize太大,负样本不准
正负样本是在Batchsize内部构造出来
只有对角线为1,其余为0
二、Clip模型的缺点
- ·CLIP的zero-shot性能虽然总体上比supervised baseline ResNet-50要好但其实在很多任务上比不过SOTA methods,因此CLIP的transfer learning有待挖掘
- ·CLIP在这几种task上zero-shot性能不好: fine-grained分类 (花的分类、车的分类之类的)、抽象的任务 (如计算图中object的个数) 以及预训练时没见过的task (如分出相邻车辆的距离)。Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好,比如在OCR中
- 生成新的概念(如:词),这是CLIP功能上的缺陷,CLIP终究不是生成模型
- ·CLIP的训练数据是从网上采集的,这些image-text pairs没有做data clear和de-bias这可能会使模型有一些social biases;
- ·很多视觉任务很难用text来表达,如何用更高效的few-shot learning方法优化CLIP也很重要。