从文本中构建知识图谱一直是一个引人入胜的研究领域。随着大型语言模型(LLM)的出现,这一领域获得了更多主流关注。然而,大型语言模型的成本可能相当高昂。另一种方法是对较小的模型进行微调,这种方法得到了学术研究的支持,并产生了更有效的解决方案。今天,我们将探讨罗马萨皮恩扎大学(Sapienza University of Rome)的 NLP 小组开发的 Relik,一个用于运行快速、轻量级信息提取模型的框架。
没有 LLM 的典型信息提取管道如下:
图片说明了信息提取流水线,从输入数据开始,输入数据包括提及 “托马兹喜欢写博客文章 ”的文本。他对画图特别感兴趣"。提取过程从核心参照解析开始,将 “Tomaz ”和 “He ”识别为同一个实体。然后,命名实体识别 (NER) 识别出 “Tomaz”、“Blog ”和 “Diagram ”等实体。
实体链接是 NER 之后的一个过程,将识别出的实体映射到数据库或知识库中的相应条目。例如,“Tomaz ”链接到 “Tomaz Bratanic (Q12345)”,“Blog ”链接到 “Blog (Q321)”,但 “Diagram ”在知识库中没有匹配项。
关系提取是系统识别和提取已识别实体之间有意义关系的后续步骤。本例中,系统识别出 “Tomaz ”与 “Blog ”之间存在以 “WRITES ”为特征的关系,表明 Tomaz 写博客。此外,系统还识别出 “Tomaz ”与 “Diagram ”之间的关系,关系的特征是 “INTERESTED_IN