训练一个分类器是小问题
上难度
训练数据和测试数据不一致,比如训练数据是黑白的,测试时彩色的,结果准确率非常低。
训练数据和测试数据有点差距的时候,能不能效果也能好呢?这就用到了领域自使用domain adptation
用一个领域学到的知识,用到另外一个领域。
Domain Shift
有多种多样的domain shift
- 分布频次不一样
- 标签不一致
这里只考虑分布不一样
- 有标注的数据量,但比较少,可以通过微调的方式进行训练,跑2-3个epoch
- 小心不要过拟合
现在问题是有大量的图像,但是没有标注,怎么用这些没有标注的数据用来训练模型。
把颜色去掉,这样就能一样训练了。
Domain Adversarial Training
把前5层当作feature extractor,后5层当作label predictor。
想要有标注的数据和无标注的数据抽取后的特征在分布上没有什么差别。
- 特征抽取器:学会愚弄领域分类器
- 不能让特征抽取器永远输出0,也需要label predictor的训练
Limitation
- 三角形和矩形越相近越好,但如何衡量呢?
考虑边界
- 考虑外包围
更坏的情况:
- 只有一张
- 甚至都不知道
一张都不知道的话就不叫domain adaptation而是domain generalization
data aug 进行数据增强