多标签文本分类(Extreme Multi Label Classification, MLTC)是自然语言处理领域中一个十分重要的任务,其旨在从一个给定的标签集合中选取出与文本相关的若干个标签。MLTC可以广泛应用于网页标注,话题识别和情感分析等场景。大规模标签分类特点在于标签集规模较大,且标签之间可能存在从属或包含关系,这种情况下的分类不同于一般的二分类或十分类等标签互斥的分类,由于标签之间关系的复杂性,此问题有较好的研究价值,在搜索或推荐系统中也有较高的应用价值。
目录
- 方法汇总
- 评价指标
- 相关文献
方法汇总
- 1-vs-all:把多标签分类看作是二分类问题
- label-tree-based:类似决策树
- embedding-based:将最后一层特征维度先映射到比较小的维度上,减少参数量
- deep-learning-based:(1)看成seq2seq任务,一步步生成标签直到end。这时标签集被看作是一个词库,添加了 和
- discriminative learning-based:先把文本处理成一个向量,再用概率标签树得到最终的概率。(个人理解:是不是只要达到某个阈值就判定当前文本属于此标签)
- 还有一些将上述方法结合的工作
评价指标
相关文献
- AttentionXML: Label Tree-based Attention-Aware Deep Model for High-Performance Extreme Multi-Label Text Classification(NIPS, 2019)
- Deep Extreme Multi-label Learning(ICMR, 2018)
- Hierarchical Text Classification with Reinforced Label Assignment(EMNLP, 2019)
- Multi-modal Extreme Classification(CVPR, 2022)
- Contrastive Learning-Enhanced Nearest Neighbor Mechanism for MLTC(ACL, 2022)
主要思想:使用对比学习增强多标签文本分类中的k近邻机制,将对比学习和kNN聚类融入到分类过程中
一个神奇的网站:Reinforced Label Assignment The Extreme Classification Repository,包含多个大规模多标签文本分类模型的介简介及其相关代码。
参考资料
- 大规模多标签分类 - 知乎 (zhihu.com)
- 多标签学习的新趋势(2021 Survey TPAMI) - 知乎 (zhihu.com)