Ultra:知识图谱推理的基础模型

news2024/11/24 14:25:59

一、说明

         训练单个通用模型来解决任意数据集始终是 ML 研究人员的梦想,尤其是在基础模型时代。虽然这些梦想已经在图像或自然语言等感知领域实现了,但它们是否可以在推理领域(如图形)中再现仍然是一个开放的挑战。

图片由作者根据 DALL-E 3 的输出编辑而成。

        在这篇博文中,我们证明了这样一个通用推理模型的存在,至少对于知识图谱(KGs)是这样。我们创建了 ULTRA,这是一个单一的预训练推理模型,可推广到任意实体和关系词汇表的新 KG,作为任何 KG 推理问题的默认解决方案。

        这篇文章基于我们最近的论文(预印本),并与 Xinyu Yuan (Mila)、Zhaocheng Zhu (Mila) 和 Bruno Ribeiro ( Purdue / Stanford) 共同撰写。在 Twitter 上关注 MichaelXinyuZhaocheng 和 Bruno,获取更多 Graph ML 内容。

二、大纲

  1. 为什么KG表征学习卡在2018年
  2. 理论:是什么使模型具有归纳性和可转移性?
  3. 理论:多关系图中的等方差
  4. Ultra:KG推理的基础模型
  5. 实验:即使在零样本推理中也最好,缩放行为
  6. 代码、数据、检查点

三、为什么KG表征学习卡在2018年

        自 2018 年以来,预训练微调范式一直伴随着我们,当时 ELMo 和 ULMFit 首次显示出有希望的结果,后来它们被 BERT 和 GPT 巩固。

        在大型语言模型 (LLM) 和更通用的基础模型 (FM) 时代,我们通常有一个单一模型(如 GPT-4 或 Llama-2)在大量数据上进行预训练,并且能够以零样本方式执行各种语言任务(或至少在特定数据集上进行微调)。如今,多模态 FM 甚至在同一模型中支持语言、视觉、音频和其他模态。

        在 Graph ML 中,情况略有不同。 特别是,到 2023 年底,KG 的表征学习是怎么回事?这里的主要任务是边缘级的:

  • 实体预测(或知识图谱完成):给定一个头节点和关系,对图中所有可能成为真尾的节点进行排名。(h,r,?)
  • 关系预测:给定两个节点,预测它们之间的关系类型(h,?,t)

        事实证明,到目前为止,它一直在 2018 年之前的某个地方。关键问题是:

每个 KG 都有自己的一组实体和关系,没有单个预训练模型可以转移到任何图形。

        例如,如果我们看一下Freebase(谷歌知识图谱背后的KG)和维基数据(最大的开源KG),它们具有完全不同的实体集(86M vs 100M)和关系(1500 vs 6000)。目前的KG表示学习方法是否有希望在一个图上训练并转移到另一个图上?

        Freebase和维基数据的不同词汇。图片由作者提供。

        ❌ 经典的转导方法(如 TransE、ComplEx、RotatE 和数百种其他基于嵌入的方法)从训练图中学习一组固定的实体和关系类型,甚至无法支持添加到同一图中的新节点。基于浅层嵌入的方法不会转移(事实上,我们认为除了一些学生项目练习之外,开发此类方法已经没有意义了)。

        🟡 归纳实体方法(如 NodePiece 和 Neural Bellman-Ford Nets)不学习实体嵌入。相反,它们将训练(可见)和新推理(看不见)节点参数化为固定关系的函数。由于他们只学习关系嵌入,因此它确实允许他们转移到具有新节点的图形,但转移到具有不同关系的新图形(例如Freebase到Wikidata)仍然遥不可及。

        相对实体表示支持归纳 GNN。 图片由作者提供。

        如果在推理时同时具有新的实体和关系(全新的图形),该怎么办?如果你不学习实体或关系嵌入,那么理论上是否可能进行转移?那么让我们来看看这个理论。

四、理论:是什么使模型具有归纳性和可转移性?

        让我们更正式地定义设置:

  • KG 是具有任意节点集和关系类型的有向多关系图
  • 图到达时没有特征,也就是说,我们不假设实体和关系的文本描述(或预先计算的特征向量)的存在。
  • 给定一个查询(head、relation、?),我们希望对底层图(推理图)中的所有节点进行排名,并最大限度地提高返回真实尾部的概率。
  • 转导设置:在训练和推理时,节点和实体的集合是相同的。
  • 归纳(实体)设置:关系集必须在训练时固定,但节点在训练和推理时可以不同
  • 归纳(实体和关系)设置:在推理时允许新的看不见的实体和关系

        神经网络学会了什么才能泛化到新数据?主要参考文献——Bronstein、Bruna、Cohen 和 Veličković 所著的《几何深度学习》一书——认为这是一个对称性和不变性的问题。

        基础模型中的可学习不变性是什么?LLM 在固定的标记词汇表(子单词单位、字节,甚至是随机初始化的向量,如 Lexinvariant LLM 中)进行训练,视觉模型学习投影图像补丁的函数,音频模型学习投影音频补丁。

多关系图的可学习不变性是什么?

        首先,我们将介绍标准齐次图中的不变性(等方差)。

        标准(单)排列等变图模型:当早期的 GNN 工作(Scarselli 等人,2008 年,Xu 等人,2018 年,Morris 等人,2018 年)表明,假设顶点 ID 是任意的,图上的归纳任务受益匪浅,因此如果我们重新分配顶点 ID,图模型的预测应该不会改变。这称为节点 ID 上神经网络的排列等方差。这种认识引起了极大的兴奋,并产生了大量新颖的图表示方法,因为只要神经网络与节点 ID 排列等变,我们就可以将其称为图模型。

        单关系图。GNN 与节点排列等变:即使在重新标记节点 ID 后,Michael Jackson 的节点向量也将具有相同的值。图片由作者提供。

        节点 ID 上的排列等方差允许 GNN 以感应方式(零样本)将从训练图中学习到的模式转移到另一个(不同的)测试图。这是等方差的结果,因为神经网络不能使用节点 ID 来生成嵌入,因此它必须使用图结构。这创造了我们所知道的图形中的结构表示(参见 Srinivasan 和 Ribeiro (ICLR 2020))。

五、多关系图中的等方差

        现在,图中的边可能具有不同的关系类型——这些图是否有任何 GNN 理论?

        1️⃣ 在我们之前的工作中,Weisfeiler 和 Leman Go Relational(与 Pablo Barceló、Christopher Morris 和 Miguel Romero Orth,LoG 2022 合作),我们推导出了关系 WL——一种用于多关系图的 WL 表达性层次结构,更侧重于节点级任务。 Huang 等人 (NeurIPS 2023) 的伟大后续工作将该理论扩展到使用关系 WL 将预测、形式化条件消息传递和逻辑表达联系起来。✍️ 让我们记住条件消息传递 - 我们稍后会用到它 - 它可以证明可以提高链路预测性能。

        提议添加由入/出边缘方向引起的全局读出向量类似于 Emanuele Rossi 等人最近关于研究均匀 MPNN 方向性的工作(有关详细信息,请阅读 Medium 上的博客文章)。尽管如此,这些作品并没有设想到甚至在测试时甚至看不到关系的情况。

        2️⃣ 双排列等变(多关系)图模型:最近,Gao et al. 2023 提出了多关系图的双等方差概念。双重等方差迫使神经网络与节点 ID 和关系 ID 的联合排列等变。这确保了神经网络学习节点和关系之间的结构模式,从而允许它归纳(零样本)将学习到的模式转移到另一个具有新节点和新关系的图上。

        多关系图中的双等方差。同时置换节点 ID 和关系 ID 不会更改关系结构。因此,输出节点状态应相同(但有排列)。图片由作者提供。

        ➡️ 在我们的工作中,我们发现了关系交互的不变性,也就是说,即使关系身份不同,它们的基本交互作用也保持不变,并且这些基本交互作用可以通过关系图来捕捉。在关系图中,每个节点都是原始图中的关系类型。如果原始图中具有这些关系类型的边入射(即,它们共享一个头节点或尾节点),则此图中的两个节点将被连接。根据入射率,我们在关系图中区分 4         种边类型

  • Head-to-head (h2h) — 两个关系可以从同一个头实体开始;
  • Tail-to-head (t2h) — 一个关系的尾部实体可以是另一个关系的头部;
  • Head-to-tail (h2t) — 一个关系的头部实体可以是另一个关系的尾部;
  • Tail-to-tail (t2t) — 两个关系可以具有相同的尾部实体。

        原始图中的不同入射模式在关系图中产生不同的交互作用。最右边:示例关系图(为清楚起见,省略了反边)。图片由作者提供

关系图的一些不错的属性:

  • 它可以从任何多关系图(具有简单的稀疏矩阵乘法)构建
  • 这 4 个基本相互作用永远不会改变,因为它们只是编码基本拓扑——在有向图中,总会有头节点和尾节点,而我们关系将具有这些入射模式

从本质上讲,学习关系图上的表示可以转移到任何多关系图上!这是可学习的不变性

事实上,可以证明(我们已经在研究形式证明,这将在即将到来的工作😉中提供)通过关系图中的相互作用来表示关系是一个双等变模型!这意味着学习的关系表示独立于身份,而是依赖于关系、节点以及节点和关系之间的联合交互。

六、Ultra:KG推理的基础模型

        有了所有理论基础的支持,我们现在准备引入 ULTRA。

ULTRA 是一种统一、可学习和可转移的图形表示方法。ULTRA 利用关系图的不变性(和等方差)及其基本交互作用,并应用条件消息传递来获得相对关系表示。也许最酷的事实是

单个预训练的 ULTRA 模型可以在任何可能的多关系图上运行 0 次推理,并在任何图上进行微调。

        换句话说,ULTRA几乎是一个基础模型,可以在任何图形输入上运行推理(具有良好的性能),并在任何感兴趣的目标图形上进行微调。

        ULTRA 的关键组成部分是从关系图构建的相对关系表示。给定一个查询(Michael Jackson,genre,?),我们首先用全一向量初始化关系图中的流派节点(所有其他节点都用零初始化)。运行 GNN,关系图的节点嵌入以流派节点为条件——这意味着每个初始初始化的关系将有自己的关系特征矩阵,这从许多理论和实践方面都非常有帮助!

        ULTRA采用相对关系表示(关系图上的标记技巧),使得每个关系(例如,“流派”)都有自己独特的所有关系表示矩阵。图片由作者提供。

        实际上,给定输入 KG 和 (h, r, ?) 查询,ULTRA 将执行以下操作:

  1. 关系图的构建;
  2. 从在关系图上传递 GNN 的条件消息中获取关系特征(以初始化的查询关系 r 为条件);
  3. 将获得的关系表示用于以初始化头节点 h 为条件的归纳链路预测器 GNN;

步骤 2 和 3 是通过对神经 Bellman-Ford 网络 (NBFNet) 的略微不同的修改来实现的。ULTRA 只学习 4 种基本相互作用(h2t、t2t、t2h、h2h)和 GNN 权重的嵌入——总体上相当小。我们试验的主要模型只有 177k 个参数。

        ULTRA采取的三个主要步骤:(1)建立关系图;(2)运行条件消息传递关系图,得到相对关系表示;(3)在实体级别上将这些表示用于归纳链接预测器GNN。图片由作者提供。

七、实验:即使在零样本推理和微调中也最好

        我们在基于 Freebase、Wikidata 和 Wordnet 的 3 个标准 KG 上预训练了 ULTRA,并在 0+ 个其他不同大小的 KG 上运行了 50 次链路预测,这些 KG 来自 1k — 120k 节点和 2k 边缘 — 1.1M 边缘。

        在具有已知 SOTA 的数据集中取平均值,单个预训练的 ULTRA 模型在 0 次推理模式下比在每个图🚀上专门训练的现有 SOTA 模型更好 微调可将性能进一步提高 10%。特别令人惊讶的是,单个经过训练的 ULTRA 模型可以扩展到如此不同大小的图形(节点大小相差 100 倍,边大小相差 500 倍),而众所周知,GNN 存在大小泛化问题(参见 Yehudai 等人的杰出著作,ICML 2021 和 Zhou 等人的杰出作品,NeurIPS 2022)。

        即使在 0 次推理模式下,单个预训练的 ULTRA 也比在特定图形上端到端训练的监督 SOTA 模式更好(查看 Average 列)。微调可进一步提高性能。图片由作者提供

🙃 事实上,在 57 张经过测试的图表中,我们用完了 KG 来测试 ULTRA。因此,如果您在某个地方隐藏了全新的基准测试,请告诉我们!

八、缩放行为

        我们可以通过在预训练组合中添加更多图表来进一步提高零样本性能,尽管我们在 4+ 图表上训练后确实观察到一定的性能饱和度。

        Scaling Laws 教会预测,在更定性的数据上训练更大的模型会获得更好的性能,因此这绝对在我们的议程上。

零样本性能随着预训练组合中更多样化的图形而提高。图片由作者提供。

九、结论:代码、数据、检查点

        所以KG推理的基础模型终于来了,我们已经超过了2018年的门槛!单个预训练的 ULTRA 模型可以对来自任何域的任何 KG(多关系图)执行链接预测。您实际上只需要一个具有 1 种以上边缘类型的图形即可开始。

📈 实际上,ULTRA 在 0 次模式下已经在各种 KG 基准测试中表现出非常有希望的性能,但您可以通过短暂的微调进一步提高性能。

我们在 GitHub 上提供了所有代码、训练数据和预训练模型检查点,因此您可以立即开始对数据运行 ULTRA!

📜 预印本:arxiv

🛠️ 代码、数据:Githtub 存储库

🍪 检查点:Github 存储库中的 2 个检查点(每个检查点 2 MB)

🌎 项目网址:这里

        作为结束语,KG推理只是推理领域中许多有趣问题的一小部分,而且大多数仍然没有一个通用的解决方案。我们相信KG推理的成功将带来其他推理领域的更多突破(例如,我们最近发现LLM实际上可以学习和运用文本规则)。让我们对推理的未来保持乐观!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1173914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PDUR IPDUM

步骤1:思考问题 PDUR(PDU Router):PDUR是负责消息的路由和转发。PDUR模块接收来自上层的消息,并根据预定义的路由规则将消息转发给相应的下层模块,或者将从下层接收到的消息转发给相应的上层模块。 PDUR的主…

SOEM源码解析——ecx_init_context(初始化句柄)

0 工具准备 1.SOEM-master-1.4.0源码1 ecx_init_context函数总览 /*** brief 初始化句柄* param context 句柄*/ void ecx_init_context(ecx_contextt *context) {int lp;*(context->slavecount) 0;/* clean ec_slave array *//* 清空从站信息数组 */memset(context->…

python-在系统托盘显示CPU使用率和内存使用率

一、添加轮子 1.添加托盘区图标库 infi.systray from infi.systray import SysTrayIcon 2.添加图像处理库 Pillow from PIL import Image, ImageDraw, ImageFont 3.添加 psutil 来获取CPU、内存信息 import psutil 二、完整代码 from infi.systray import SysTrayIcon …

简单-【1 绪论】

关键字: 数据类型、数据结构定义、递归关键、线性结构、非线性结构、算法特性、算法目标、时间复杂度排序

【异常错误】Multiple top-level packages discovered in a flat-layout: [

今天在配置环境时,在运行代码: pip install -e . 出现了以下错误: 解决方案 在setup.py中显示加入一行 py_modules[],如: setup(namexxxx,versionx.x,py_modules[], ) 再次运行pip指令安装即可解决。 error: Mul…

由于找不到msvcr110.dll无法继续执行此代码怎么解决?5个解决方法分享

MSVCP110.dll是Microsoft Visual C 2012运行时库的一部分,它包含了许多用于支持C应用程序运行的函数。当您在运行某些程序时,可能会遇到“msvcp110.dll丢失”的错误提示。为了解决这个问题,您可以尝试以下5种方法: 方法1. 重新安装…

思维模型 霍布森选择效应

本系列文章 主要是 分享 思维模型,涉及各个领域,重在提升认知。这是一个设计好的陷阱,也许你认为你有选择,然后冥冥之中你的选择却很少,尽在所谓的“命运”掌握之中。 1 霍布森选择效应的应用 1.1 iphone的营销策略之…

为什么说IT企业知识库是知识共享的驱动力?

在快速发展和不断变化的IT行业中,知识的积累和共享是保持竞争力的关键。一个完善的知识库可以帮助企业有效管理和传承内部知识,提高团队的工作效率和协作能力。随着企业规模的扩大和员工的流动性增加,一个完善的知识库可以确保知识的传承和持…

leetcode 684. 冗余连接

树可以看成是一个连通且 无环 的 无向 图。 给定往一棵 n 个节点 (节点值 1~n) 的树中添加一条边后的图。添加的边的两个顶点包含在 1 到 n 中间,且这条附加的边不属于树中已存在的边。图的信息记录于长度为 n 的二维数组 edges ,edges[i] …

阿里云域名实战

一、准备阿里云服务器,实现网站功能 (1)百度搜索阿里云 (2)登录阿里云 可以使用支付宝,淘宝账号登录 (3)点击控制台 (4)创建实例,购买云服务器 (5&#x…

蓝桥杯每日一题2023.11.5

题目描述 方格分割 - 蓝桥云课 (lanqiao.cn) 题目分析 对于每个图我们可以从中间开始搜索,如果到达边界点就说明找到了一种对称的方法,我们可以直接对此进行答案记录每次进行回溯就会找到不同的图像,如果是一样的图像则算一种情况&#xff…

pcigo图床插件的简单开发

1.前言: 如果想写一个图床并且投入使用,那么,接入picgo一定是一个不错的选择。picgo有着windows,mac,linux等多个客户端版本。实用且方便。 2. 开发的准备: 2.0. 需要安装一个node node这里我就不详细说…

zip文件解压缩命令全

zip文件解压缩命令全 入门Zip 用法选项示例语法形式和选项基本语法压缩目录将文件添加到现有压缩文件解压缩文件将 zip 文件解压缩到指定目录列出 zip 文件中的内容将 zip 文件加密将 zip 文件解密将 zip 文件中的文件转成 UTF-8 编码Zip 压缩示例创建新的 zip 压缩文件将文件添…

1.1 HTML4

一. 前言 1. 两位先驱 艾伦麦席森图灵 二战时期,破译了德军的战争编码一英格玛。让二战提前2年结束,拯救了上千万人的生命。设立图灵奖,被后人誉为:人工智能之父。 约翰冯诺依曼 制订了现代计算机标准一一冯诺依曼体系结构。提出:计算机要…

“网站不安全”该如何解决

当我们的网站被客户访问的时候,经常会出现提示不安全的情况,导致客户的不信任,从而出现客户流失的现象,这种情况我们应该如何解决呢? 首先,我们要确定网站会出现不安全的原因,一般来说&#xff…

Docker 学习路线 4:Docker 基础知识

Docker是一个平台,简化了在轻量、可移植的容器中构建、打包和部署应用程序的过程。在本节中,我们将介绍Docker的基础知识、其组件以及您需要开始使用的关键命令。 容器是什么? 容器是一个轻量级、独立的可执行软件包,包含运行应…

装修服务预约小程序的内容如何

大小装修不断,市场中大小品牌也比较多,对需求客户来说,可以线下咨询也可以线上寻找品牌,总是可以找到满意的服务公司,而对装修公司来说如今线下流量匮乏,很多东西也难以通过线下方式承载,更需要…

CATIA环境编辑器用不了时创建项目快捷方式

CATIA环境编辑器用不了时创建项目快捷方式 一、参考适用情况示例二、 解决步骤(一) 先正确放置winb_64部署包(二) 添加环境文件(三) 修改加入的环境文件(四) 复制本机CATIA快捷方式后重命名(五) 修改快捷方式目标的值 一、参考适用情况示例 二、 解决步骤 (一) 先正确放置winb…

什么是类和对象?this引用是什么?Java如何初始化对象?

目录 一.什么是面向对象 面向过程: 面向对象: 二.类与对象 类的概念 类的定义格式 对象的概念 注意 关于类和对象的说明 三.this引用 为什么要有this引用? 什么是this引用 this引用的特性 四.对象的构造及初始化 构造方法 特…

LangChain+LLM实战---使用知识图谱和大模型来实现多跳问答

原文:Knowledge Graphs & LLMs: Multi-Hop Question Answering 可以使用检索增强方法来克服大型语言模型(Large Language Models, llm)的局限性,比如幻觉和有限的知识。检索增强方法背后的思想是在提问时引用外部数据,并将其提供给LLM&a…