Information Extraction in Low-Resource Scenarios: Survey and Perspective
Low-Resource & IE
技术解决方案
传统
1. 数据增强
- 概念:主要利用内源或外源辅助资源对原始小数据集进行数据增强或知识增强
- 目标:创建更具代表性的样本并利用更高资源的数据改进语义表示
弱监督增强
- 通过弱/远程监督合成更多训练数据
- 通常利用知识库(KB)和一些启发式规则来自动重新标记语料库中的训练实例,可能会产生嘈杂的合成数据集
- 提出了对RE的远程监督,利用大型语义知识库Freebase来标记 未标记语料库中的关系
- 使用字典进行远程监督NER
- 利用Freebase和FrameNet(事件知识库)自动标记EE的训练数据
- 通过预训练语言模型和优化策略来提高弱监督数据的质量
- 针对低资源RE的梯度模仿强化学习框架,减轻选择偏差
多模态增强
- 用多模态样本补充单模态,来增强语义并存进消歧
- 主要挑战是有效融合来自不同模式的数据
- 利用注意力机制
- 增加多模态嵌入空间映射
- 利用前缀引导的多模态数据融合
多语言增强
- 合并多语言样本来实现多样化&稳健的样本表示
- 主要挑战是获得跨语言学的语言表示
- 转移跨语言知识
- 捕获跨语言的一致性
- 其他有前景的模型是为跨语言信息抽取导入额外的上下文和特定于任务的知识
辅助知识强化
- 采用外部知识作为辅助措施,旨在更准确地学习样本的语义表示
- 和使用知识库的弱监督增强不同,该范式使用了更为多样化的知识格式和知识增强方法
- 由于辅助知识的形式多种多样,分为两类:
- 文本知识
- 和类相关的知识,如类描述和类特定文本
- 通过数据增强来合成数据
- 结构化知识
低资源信息抽取IE的结构化知识可以采用知识图谱三元组、特定任务本体和规则的形式。- 利用知识图谱嵌入和逻辑规则 来连接可见和不可见的关系来研究Zero-shot Relation Extraction
- 用知识库感知的NER框架来利用知识库中的类异构知识
- 利用类之间的关联知识解决了低资源事件抽取问题
- 文本知识
2. 模型优化
侧重于开发模型来更有效地处理样本分布不均和未见类别。
更强的模型旨在提高学习能力,从而更大限度地利用少数据,最大限度地减少样本的依赖性
元学习
- 同错从少数实例中学习,迅速吸收新兴知识并推导出新类,具有“学会学习”的能力,天然适合小样本的信息抽取任务
- 利用基于度量的方法,大多数配备原型网络
- 基于MAML的模型不可知方法
- 基于记忆的方法
- 基于模型的方法和贝叶斯元学习
迁移学习
- 通过转移学习到的类不变特征,特别是从高资源类到低资源类,减少对标记目标数据的依赖
- 利用类结构把现有类转移到未见类别
- 提出一种加权对抗网络来适应从高资源类别学习到的特征到低资源类别
- 利用GNN促进知识转移
- 使用内存模块进行信息检索或从源域到目标域的相似性比较
- 合并了跨域小样本迁移的语言表示
微调PLM
借助预训练语言模型PLM来利用上下文表示和预先训练的参数进行微淘。它使PLM强大的语言理解能力适用于特定的低资源信息抽取任务。
针对低资源信息抽取的微调PLM旨在学习特定于任务的实体表示、关系表示以及事件表示
3. 同时优化 数据&模型
- 概念:指联合优化代表性样本和数据高效模型,从而能够快速适应资源匮乏的场景
- 目的:找到更合适的稀疏数据学习策略
多任务学习
- 通过利用任务通用性和特定于任务的多样性来同时学习多个相关任务,有助于提高特定于任务模型的性能,进而提升目标 低资源IE任务
- IE和IE相关任务
- 联合建模 命名实体识别NER和命名实体规范化NEN,这两个任务可以同故宫增强实体提及特征而互相促进
- 把所学的词义消歧WSD知识转移到事件检测ED(EE的子任务之一),WSD和ED是两个类似的任务,都涉及识别给定句子中某些单词的类别(即事件类型或词义)
- 联合IE和其他结构化预测任务
预测任务不同的IE和结构化预测任务考虑到相似的任务结构和渐进的任务过程,也可以相互受益- 分别利用关系图和复制机制处理了联合NER和RE任务
- 把全局上下文纳入了通用的多任务IE框架(NER、RE和EE)
- 讨论了IE和其他结构化预测任务,如事件关系抽取、多跨距 提取和n元组提取
- IE和IE相关任务
任务重构
- 把IE任务制定为其他格式,导入任务相关知识,来利用模型架构和数据优势
- IE可重新表述为机器阅读理解(MRC)或文本到结构生成任务。
基于MRC的IE可识别问题上下文中的答案范围,为目标任务提供关键知识。生成式IE把生成式语言模型用于IE,可减少错误传播,同时提高IE的适应性。- 把IE重新制定为QA/MRC。
通过把事件模式转化为自然问题来解决低资源EE。
研究了问题生成策略如何影响基于QA的EE
探索了基于QA的IE来有效地编码类的关键信息 - 把IE重新制定为文本到结构生成
提出了EE的序列到结构生成范例
把IE构建为翻译任务,有效提取任务相关信息
采用序列到序列IE和集合学习来减少结构顺序偏差
- 把IE重新制定为QA/MRC。
- IE可重新表述为机器阅读理解(MRC)或文本到结构生成任务。
提示调优PLM
- 把文本片段(即模板)插入到输入中,来把分类任务转换为掩码语言建模问题.这使得IE方法能够从LM的预训练知识中收益,从而提高样本效率
- 原始提示调优
利用基本的提示学习框架,在资源匮乏的情况下表现出色.- 分别应用了基于模板、无模板、动态模板填充、基于演示、轻量级和基于对比提示的方法进行小样本NER
- 利用结构化模板和判别性软提示进行零样本RE
- 分别针对低资源EE使用基于模板、提取式、情景化和特定类型的提示
- 增强型提示调优
通过整合不同的知识来增强普通提示学习,促进低资源IE- 把标签之间的知识合并到提示调优中
- 增强了带有标签语义和类描述的提示
- 证明了利用本体、规则、语义结构和推理原理增强提示调整的有效性
- 针对不同的IE任务引入了统一文本生成UIE和语义匹配US吗框架
- 提出了一种结构感知的GenLM来利用UIE的句法知识
- 为所有类型的模式引入了UIE
- 利用检索增强提示来导入特定于任务的知识
- 原始提示调优
基于LLM
和传统预训练语言模型相比,LLM拥有更强的预训练能力,可进行更复杂的即时学习。基于LLM是否被调优(即LLM初始参数是否被修改),把一些基于LLM的方法分为两种通用范式:
1. 直接推理
利用LLM而无需进行大量额外训练的方法。可利用LLM理解和处理上下文的固有能力来提升低资源IE,进一步从稀缺数据中获得有价值的见解,从而减少微调的要求。
指令提示
- 向LLM提供提供明确的指令(无需演示)来执行特定任务。对于资源匮乏的IE,指令提示可能很有效,因为这允许模型使用其预先存在的知识和语言理解来执行任务
- 由于指令提示不需要演示,天热适合零样本和跨域IE任务。
- 研究了零样本实体检测任务,发现ChatGPT在简单场景中具有竞争力,但在更复杂和长尾场景中表现不佳
- 使用全局约束并提示零样本事件抽取,证明了对任何其他数据集的适应性
- 观察到ChatGPT在带有指令提示的零样本NER和RE任务中具有优势
代码提示
- 通过向LLM提供代码片段(或类似代码的指令)来引导其生成响应。该方法在涉及结构化输出的低资源IE任务中尤其有效,因为代码本身隐含了特定任务的结构模式。
- 通过在Code-LLMs上应用代码提示,解决了低资源IE任务,展示了代码风格提示的有效性
- 提出了一个通用的基于检索增强的代码生成框架
- 代码提示还可以应用于多模态IE任务
上下文学习
利用LLM从提示中提供的上下文学习的能力。模型通过少量的相关示例(示范)来“理解”特定的IE任务并把这种理解应用于新数据,特别在低资源场景中很有用
近期的研究利用上下文学习解决了低资源环境下的NER、RE、联合IE和开放IE等任务。
- 上下文学习在信息抽取中的关键挑战包括:
- 输入的提示无法充分表达复杂的IE任务
- 输入和标签的对齐效果不够理想
为了解决这些问题,利用LLM合成数据和输入更多任务特定的提示方法挺有前景。
2. 专业化调整
- 通过针对特定任务定制模型功能来增强低资源IE,可分为:
- 即时调优
因其效率和最少的数据要求而特别有价值 - 微调
虽然更耗费资源,但提供了更深入的定制和可能更好的性能
- 即时调优
提示调优LLM
保持LLM权重固定,仅调整和提示相关的一小组参数。在资源匮乏的IE任务中,提示调优使模型适应具有最少数据的特定任务或域,其中提示充当指导。
- 引入了具有专家编写指令的各种IE任务的基准,并提出了一个统一的IE框架InstructUIE,在Flan上进行指令调整
- 提出了InstructIE数据集并通过IE上的指令跟踪能力微调LLaMa
- 假设指令调优无法通过RE和QA对齐来在LLM中引发强大的RE能力
- 在任务无关的语料库集合上预训练GLM
- 通过以任务为中心的指令调整来进行有针对性的蒸馏,来训练NER任务的模型
微调LLM
需调整LLM在较小且特定于任务的数据集上的权重。
该方法比提示调优更依赖数据,但有望带来性能提升。实际上由于计算资源的限制,这类方法目前在低资源信息抽取任务中的应用仍处于发展初期。
技术方案对比
实验结果:
- LLM,开源 vs 专有
prompt-tuning/fine-tuning的开源LLM在大多数任务上明显优于专有LLM,除了在一些训练不足的数据集上。-
总结:
- 对于ICL,专有LLM优于开源LLM
- 对于prompt-tuning或fine-tuning,开源LLM则优于其专有LLM
-
分析:
- 专有LLM的基础能力更强(更大的参数、更丰富的训练数据和更有效的训练策略),则它们能更有效地从上下文实例中理解任务
- 开源LLM比专有LLM更轻量化,有助于对特定任务进行彻底的训练和适应。而对于像ChatGPT这样的专有LLM,由于fine-tuning API的灵活性有限,很难获得一个训练良好的任务特定模型
-
解释:在低资源场景下,信息抽取任务通常面临着数据稀缺的问题。开源LLM通常由于其轻量化特性和可调节性,适合在资源有限的情况下进行训练和调优,特别是在prompt-tuning和fine-tuning任务中表现较好。相比之下,专有LLM通常拥有更强大的基础能力和更多的训练资源,在进行ICL时可能表现得更为出色。然而,在训练特定任务时,专有LLM的调整灵活性受限于其API和商业限制,导致它们在个性化任务的调优上存在瓶颈。
-
- Tuning vs ICL
在训练良好的任务(eg NER和RE)上InstructUIE和KnowLM取得了令人满意的性能,但在一些训练不足的任务(eg 事件检测ED和事件论元抽取EAE)上表现出有限的泛化能力。
对于ChatGPT,微调fine-tuning相较于ICL在RE、ED和EAE任务上普遍带来了更为一致的提升,尤其是ICL在一些数据集上表现较差的情况下。即使是微调后的ChatGPT也只能达到和GPT-4相似的性能,且在某些情况下,表现甚至不如经过良好调优的小型PLMs和开源的LLMs。- 分析:
- 对于ICL,在未微调的LLM上使用时,LLM的指令和特定IE任务的对齐度较低,可能导致难以充分发挥LLM的优势。
- 提示prompt/微调fine-tuning通过调整输入或在特定数据上训练LLM,使其适应特定任务。
- 推断:调优tuning一般表现更好,而更加彻底的训练有助于提升性能
- 分析:
- simple vs complex tasks
LLM在NER和EAE任务上比ED任务上表现得更为熟练。考虑到ED是一个更复杂的任务(需要把抽象的事件类别实例化到上下文中的单词上)。因而推测,经过提示调优的LLM对这个任务并不熟悉,无法通过指令和示范完全理解这种复杂任务。
小型SOTA PLMs和LLMs在异质数据集上的性能差距较大,表明LLM在理解包含大量标签的任务时存在困难。可能的原因和细粒度标签和有限提示输入之间的低相关性有关。
故推测LLM在处理更加复杂和细粒度的任务时会遇到困难。