最近对MOE感兴趣,现汇总MOE+无监督相关的文章,文章均为略读
文章
Self-Supervised Mixture-of-Experts by Uncertainty estimation
发表于:AAAI19
流程:
总体来说,当环境给出反馈,通过门控网络激活相应的专家去交涉。但是,专家网络可能需要参数–因此,可以通过transformer来生成ground truth来去选择对应的专家。
总结: 这篇文章的监督信号是transformer生成的
MoDE: CLIP Data Experts via clustering
发表于:CVPR24
这篇论文介绍了一种名为Mixture of Data Experts (MoDE)的新方法,用于改进对比语言-图像预训练(CLIP)的性能。CLIP的成功依赖于图像和标题之间的配对监督,但网络数据中的噪声会影响学习质量。MoDE通过聚类学习一组CLIP数据专家,每个数据专家在训练时只关注一个数据集群,减少了对其他集群中错误负面噪声的敏感性。在推理时,通过考虑任务元数据和集群条件之间的相关性来加权集成这些输出。
MoDE的核心思想是:
- 通过聚类将训练数据(图像-标题对)分成几个不相交的子集,每个子集用于训练一个模型。
-
- 每个模型(数据专家)专门处理一个集群的数据,从而减少错误负面样本的影响,并提高对比学习的效果。
-
- 在下游任务中,如图像分类,通过比较任务元数据(如类别名)和每个数据集群的中心,来决定激活哪些数据专家。
-
- 被选中的数据专家用于创建测试图像和类别的嵌入,然后输出最高集成相似性的类别作为分类结果。
- 实验表明,MoDE在多个标准基准测试中优于几个最先进的视觉-语言模型,例如在CLIP基准测试中的图像分类提高了3.7%,在COCO数据集上的图像到文本检索提高了3.3%,文本到图像检索提高了2.7%。MoDE的优势归因于更好的训练个体数据专家模型,因为同一集群中的样本在对比学习中提供了更高质量的负面样本。
- 总结: 将expert和无监督聚类结合,取得了不错的结果
-
Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
- 发表于: Neurips 22,谷歌团队~
10.这篇的工作是多模态对比学习。参考文章:LIMoE:使用MoE学习多个模态-CSDN博客