Learning Disentangled Label Representations for Multi-label Classification,2022
学习多标签分类的解纠缠标签表示
要点:
1、主流多标签分类:遵循单标签(多类别)分类的特征学习机制——学习一个共享的图像特征来对多个标签进行分类;即 OFML(One-shared-Feature-for-Multiple-Labels)机制,该机制不利于有区别性的(discriminative) 标签特征学习,并且模型非鲁棒;
2、本文工作:
(1)首次从数学上证明OFML机制的劣势:在最小化交叉熵损失的情况下,最优学习的图像特征不能同时与多个分类器保持高度相似;
(2)提出 OFOL(One-specific-feature-for-label)机制;
(3)提出新的解纠缠学习框架 DLDF,学习每个标签的解纠缠表示。
3、DLDF(disentangled label feature learning)
(1)特征解纠缠模块:包含可学习的语义查询和语义空间交叉注意模块SSCA(Semantic Spatial Cross-Attention);
(2)可学习的语义查询:在同一标签的不同图像之间保持语义一致性;
(3)SSCA模块将与标签相关的空间区域进行局部化,并将局部的区域特征聚合到相应的特征标签中,实现特征解耦。
图表:
OFML VS OFOL:
1、OFML机制:特征增强模块,采用池化操作获得所有标签的共享标签特征;
2、OFOL机制:特征解纠缠模块,为每个标签提取一个解纠缠特征。
DLFL(解纠缠标签特征学习模块):
实验结果: