刘知远团队大模型技术与交叉应用L6-基于大模型文本理解和生成介绍

news2026/2/14 13:01:17

介绍

NLP的下游运用可以分为：NLU(理解)和NLG(生成)
信息检索：NLU
文本生成：NLG
机器问答：NLU+NLG
在这里插入图片描述

大模型在信息检索

在这里插入图片描述

大模型在机器问答

在这里插入图片描述

大模型在文本生成

在这里插入图片描述

信息检索-Information Retrieval (IR)

背景

谷歌搜索引擎目前同时集成了文档排序和问答系统。

在这里插入图片描述

定义和评测

如何定义IR任务

IR系统分为两个阶段：
Retrieval阶段：对整个文档库排序后，抽回一部分相关文档的子集。主要考虑召回率。
Re-Rankink阶段：精排序

在这里插入图片描述

如何评测

IR中常用的评价指标为MRR、MAP、NDCG

平均倒数排名-MRR

只会考虑排名最靠前的相关文档的排名
在这里插入图片描述

平均准确率-MAP

会考虑所有相关文档。
在这里插入图片描述

归一化的折损累计增益-NDCG

这个指标是商业的搜索引擎或是推荐系统中最常用的评价指标。
前两个指标抽回的文档只有相关和不相关两个等级。NDCG有更细粒度的相关等级划分。
在这里插入图片描述

传统方法

BM25

BM25是一种典型的基于词汇匹配的IR方法。
其中k和b是可调节的超参数。
tf是词频：query中的每个词在文档中出现的频率。
idf是逆文档的频率：评估查询中的一个词汇在所有文档中常见或稀缺的程度。例如一个查询词在所有文档中都常见，则idf分数会很低。
在这里插入图片描述

存在的问题-词汇失配

在这里插入图片描述

存在的问题-语义失配

在这里插入图片描述

神经网络方法-大模型

下面介绍两种架构：Cross-Encoder，Dual-Encoder

Neural IR

在Re-ranking阶段主要使用cross-encoder架构：query和doc进行词汇级别的拼接，然后喂给大模型。经过大模型之后生成q-d的表示，最后得到相关性分数。
好处是：精细，效果好。
缺点是：计算代价高。

在Retrieval阶段主要使用Dual-encoder架构：使用双塔架构，对query和doc分别进行编码，经过大模型，形成两个独立向量，再去计算向量的相似性。
好处是：计算开销较小。
在这里插入图片描述

Cross-Encoder

在这里插入图片描述

Dual-Encoder

在这里插入图片描述
Dual-Encoder的好处是，因为是分开编码的。所以可以对整个文档库提前编码好，将其向量存起来。有新的query进来，只需要编码query，然后用最近邻找到相关的文档。

在这里插入图片描述

前沿热点

Fine-tuning中的负例增强

in-batch negative：同一batch的正例可以作为其他query的负例
random negative：随机从文档库中采样，作为负例
BM25 negative：先用BM25针对每个query抽回一些top k文档，再把相关的删除，剩余就是不相关的。
在这里插入图片描述
下面介绍一篇ICLR2021的工作：训练过程中，使用模型本身去挖掘更难的负样本。
具体地，在模型训练过程中，异步维护一个inferencer的程序。每隔k步将最新的模型拿去做inference，把排名靠前的难负样本抽回来。再加到新的一轮训练中，不断迭代。

在这里插入图片描述

RocketQA引入了建模更精细的Cross-Encoder帮助Dual-Encoder筛选难负例，再加到Dual-encoder的训练中。

预训练阶段

为encoder配置弱的decoder，迫使中间的cls token具有更强的表达能力。

在这里插入图片描述

Few-Shot IR

有些网页天然缺乏用户的点击，用户的监督。
有一些涉及到隐私的个人检索，企业检索，他们的数据无法公开获得。
在医学和法律的检索领域，人工标注比较昂贵。
在这里插入图片描述
所以一部分研究是考虑如何用弱监督的数据去取代监督数据。生成弱监督数据的方式可以包含，titile和文档组成的q-d对，锚文本和文档组成的q-d对，文档和相应大语言生成q-d对。