HyDE、UDAPDR（LLM大模型用于信息检索）

news2026/2/11 4:06:35

本篇博文继续整理LLM在搜索推荐领域的应用，往期文章请往博主主页查看更多。

Precise Zero-Shot Dense Retrieval without Relevance Labels
这篇文章主要做zero-shot场景下的稠密检索，通过借助LLM的力量不需要Relevance Labels，开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法，即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档，并使用无监督检索器对其进行编码，并在其嵌入空间中进行搜索，从而不需要任何人工标注数据。
$sim(q,d)=<enc_q(q),enc_d(d)=<v_q,v_d>>$ 模型结构如下图所示，HyDE将密集检索分解为两个任务，即 instruction-following的LM生成任务和对比编码器执行的文档相似性任务。
在这里插入图片描述

write a document that answers the question。对于给定一个query，将由InstructGPT生成一个能回答该query的假设文档，即a hypothetical document。
relevance。然后使用无监督的稠密检索模型（Contriever）把该文档表示为稠密向量。
最后基于最近邻从语料库中找到相似的文档即可。

paper：https://arxiv.org/pdf/2212.10496
code：https://github.com/texttron/hyde

在这里插入图片描述

UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers
来自斯坦福和IBM。motivation在于目前很多信息检索任务需要在大型标记数据集上微调，但是此类数据集通常不可用，并且由于领域转移，它们在现实世界应用程序中的实用性可能会迅速降低。因此，作者们提出了一种利用LLM来生成大量合成查询的方法，即先使用昂贵的 LLM 生成少量合成查询，然后创建大量合成查询，最后用这些合成结果进行模型训练精排模型并蒸馏到一个高效的稠密检索模型。这种技术可以提高长尾域中的zero-shot准确性，即使在仅使用 2K 合成查询进行微调的情况下，效果就很好。

在这里插入图片描述