【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合

【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
- 目录
- 0. 论文信息
- 1. 摘要
- 2. 研究背景
- 3. 主要挑战
- 4. 创新点
- 5. 算法模型
- - 1. **标识符设计（Docid Design）**
  - 2. **多级约束对比训练（Multi-graded Constrained Contrastive Training）**
  - 3. **学习场景的探索**
  - 4. **优化过程**
- 6. 实验效果
- 7. 推荐阅读指数：
- - 推荐理由
- 后记

0. 论文信息

@article{tang2024generative,
  title={Generative Retrieval Meets Multi-Graded Relevance},
  author={Tang, Yubao and Zhang, Ruqing and Guo, Jiafeng and de Rijke, Maarten and Chen, Wei and Cheng, Xueqi},
  journal={arXiv preprint arXiv:2409.18409},
  year={2024}
}

在这里插入图片描述
https://arxiv.org/pdf/2409.18409
生成型检索与多级相关性相结合

1. 摘要

本文提出了一种新颖的信息检索方法——生成型检索（Generative Retrieval, GR），它使用编码器-解码器架构直接为查询生成相关的文档标识符（docids）。现有的方法主要限于具有二元相关性数据的场景，忽略了文档可能具有多级相关性的可能性。为了解决这一问题，我们提出了一个名为GRaded Generative Retrieval（GR2）的框架，它关注两个关键部分：确保相关且独特的标识符，以及实施多级约束对比训练。我们通过组合docid生成和自编码器模型来共同优化docid的相关性和独立性。此外，我们利用关于相关性等级之间关系的信息来指导训练过程。通过一种约束对比训练策略，根据它们各自的相关性等级，将查询的表示和它们相关文档的标识符拉近。实验表明，GR2在具有多级和二元相关性的多个数据集上都表现出色。

2. 研究背景

这篇论文基于信息检索（Information Retrieval, IR）领域中存在的挑战和需求，具体来说：

传统信息检索的局限性：传统的信息检索系统通常依赖于关键词匹配和统计方法（如TF-IDF和BM25）来检索文档。这些方法虽然在某些情况下效果不错，但它们往往缺乏对文档深层语义的理解。
二元相关性假设的不足：在许多现有的研究中，文档与查询之间的相关性通常被简化为二元分类（即相关或不相关）。然而，在现实世界中，文档与查询之间的相关性往往是多级和细粒度的。
深度学习在IR中的应用：随着深度学习技术的发展，研究人员开始探索使用神经网络模型来改进信息检索系统。这些模型能够学习文档和查询的深层语义表示，从而提高检索的准确性。
生成型检索（Generative Retrieval）的兴起：生成型检索是一种新兴的范式，它使用序列到序列（Seq2Seq）的模型直接预测与查询相关的文档标识符（docids）。这种方法有潜力提供端到端的优化，并在推理时提高检索效率。
多级相关性数据的可用性：随着多级相关性标注数据集的出现，研究人员有机会开发能够处理细粒度相关性信息的检索模型。这些数据集提供了比传统二元相关性数据更丰富的信息。
挑战和需求：尽管生成型检索具有潜力，但现有的方法主要关注二元相关性场景，并且在处理多级相关性时面临挑战，包括如何合理地为不同长度的docid分配概率，以及如何处理具有相同标识符的多个相关文档。

3. 主要挑战

这篇论文面临的挑战主要包括：

多级相关性建模：传统的信息检索系统和一些现有的生成型检索模型大多处理二元相关性（即文档与查询完全相关或完全不相关）。将检索系统扩展到可以处理具有多个相关性级别的数据，需要新的方法来建模和利用这种细粒度的相关性信息。
标识符的生成：为每个文档生成一个既能够体现文档语义，又能在数据库中保持唯一性的标识符是一项挑战。特别是，需要确保相关文档的标识符在语义上是相关的，同时在实际应用中又要足够不同，以避免冲突。
训练策略的设计：如何设计有效的训练策略，以便模型能够理解和区分不同相关性级别的文档，是另一个挑战。这需要新类型的损失函数和训练技巧，以确保模型可以根据相关性级别对文档进行适当的排序。
处理标识符长度的变化：文档标识符的长度可能会变化，这可能会影响模型学习到的表示。长的标识符可能由于模型训练过程中的likelihood-based方法而获得较低的分数。
优化目标的复杂性：现有的基于Seq2Seq的生成型检索模型通常侧重于生成与查询最相关的单个docid。然而，在多级相关性场景中，需要优化目标来同时考虑多个具有不同相关性级别的docids。
效率和可扩展性：生成型检索模型需要在推理时快速生成docids，同时保持低内存占用和高吞吐量。设计一个既高效又可扩展的模型，能够处理大规模数据集，是实现实用化的一大挑战。
数据集的局限性：虽然存在一些具有多级相关性标注的数据集，但这些数据集的规模和多样性可能有限。如何利用有限的数据有效地训练模型，以及如何使模型泛化到未见过的文档和查询上，是研究中需要考虑的问题。
实际应用中的挑战：将研究成果转化为实际应用需要考虑模型的鲁棒性、可解释性以及与现有系统的兼容性。这些因素可能会影响模型在现实世界中的部署和效果。

论文通过提出GR2框架来应对这些挑战，该框架专注于生成相关且独特的标识符，并实施多级约束对比训练，以提高模型处理多级相关性的能力。

4. 创新点

多级相关性支持：GR2框架能够处理具有多级相关性的文档，而不仅仅是二元相关性。
相关且独特的标识符生成：通过结合docid生成和自编码器模型，确保生成的docid既相关又足够独特。
多级约束对比训练：引入了一种新的损失函数MGCC，用于捕获具有不同相关性等级的标签之间的关系。

5. 算法模型

GR2框架是这篇论文的核心贡献，它是为了解决多级相关性信息检索问题而设计的。具体来说，GR2框架包括以下几个关键步骤：

1. 标识符设计（Docid Design）

目标：生成既与文档语义相关，又具有足够区分度的标识符（docids）。
方法：采用正则化融合方法，结合了文档生成（docid generation）模块和自编码器（autoencoder）模块。
实现：
- 文档生成模块：基于原始文档生成伪查询作为docids。
- 自编码器模块：从对应的表示中重构目标docids。
- 联合优化：通过docid生成和自编码器模型的组合，确保docid表示既接近其对应文档的表示，又远离其他docid的表示。

2. 多级约束对比训练（Multi-graded Constrained Contrastive Training）

目标：通过考虑不同相关性等级之间的关系来指导训练过程。
方法：使用约束对比训练策略，根据它们各自的相关性等级，拉近查询和其相关文档标识符的表示。
实现：
- MGCC损失（Multi-graded Constrained Contrastive Loss）：核心思想是将给定查询的表示在嵌入空间中向其相关docids的表示拉近，同时将其推离批次中不相关docids的表示。
- 等级惩罚和约束：提出更具体的等级惩罚和约束来调节查询表示和不同等级docid表示之间的相对距离。

3. 学习场景的探索

监督学习：直接使用MGCC损失来监督GR模型。
预训练：使用大规模构造的多级相关性数据进行预训练，然后对下游检索任务进行微调。

4. 优化过程

目标：通过最小化损失函数来优化模型参数，损失函数包括MGCC损失、查询-文档对的MLE损失以及文档-标识符对的MLE损失。
实现：
- 监督学习版本（GR2S）：直接在标注数据上使用MGCC损失进行训练。
- 预训练版本（GR2P）：先在构造的多级相关性数据上进行预训练，然后在具体任务上进行微调。

6. 实验效果

数据集：使用了包括Gov2、ClueWeb09-B、Robust04等具有多级相关性的中等规模数据集，以及MS MARCO Document Ranking和Natural Questions等二元相关性数据集。
评估指标：多级相关性数据集上使用了nDCG、ERR和P@20等指标；二元相关性数据集上使用了MRR和Hits@{}指标。
结果：
- 在Gov 500K数据集上，GR2P和GR2S在P@20指标上分别比当前最佳基线RIPOR高出约11%和14%。
- 在MS 500K数据集上，GR2P在Hits@1指标上比RIPOR高出11.7%，GR2S在Hits@10指标上高出4.3%。
结论：GR2在处理具有多级和二元相关性的检索任务时，均显示出优越的性能。

在这里插入图片描述