HiGPT:异构图语言模型的突破

news2024/9/28 1:17:55

人工智能咨询培训老师叶梓 转载标明出处

人工智能领域的一大挑战是如何从海量复杂的数据中提取有价值的信息,特别是在处理异构图数据时。异构图由多种类型的节点和边组成,它们之间的相互关系丰富而复杂。传统的图神经网络(GNNs)在处理这类数据时,往往受限于其对特定图结构的依赖,难以适应新的、未见过的数据集。这限制了模型在不同领域和任务中的泛化能力。为了解决这一问题。由香港大学与百度公司联合研究团队提出的HiGPT模型,一个无需针对下游数据集进行微调即可学习的通用大型图模型,为这一问题提供了新的解决方案。

HiGPT模型的核心在于其创新的异构图指令调整范式。该模型通过引入上下文异构图分词器,能够捕捉不同异构图中的语义关系,从而实现模型的自适应。HiGPT还整合了大量异构图指令,使模型能够有效理解复杂的关系异构性,并区分各种类型的图标记。

为了应对模型微调中的数据稀缺问题,研究团队引入了思想混合(Mixture-of-Thought, MoT)指令增强范式。通过生成多样化和信息丰富的指令,有效缓解了数据不足的问题。

论文链接:https://arxiv.org/abs/2402.16024

代码链接:https://github.com/HKUDS/HiGPT

方法

图 1 为 HiGPT 模型的整体架构。HiGPT 利用了一个异构图标记器来将图数据转换为模型可以理解的形式,并通过指令调整技术来提高对图结构和关系的理解和泛化能力。

为了使HiGPT能够适应各种异构图场景,研究者提出了上下文异构图分词器。这种方法能够捕捉不同异构图中存在的多样语义关系,确保统一的处理方式。分词器由两个核心组件构成:上下文参数化异构投影器参数分配器上下文投影器利用语言对异构图中不同的节点和边类型进行编码,以促进模型的适应性。同时,参数分配器动态地为分词器分配特定的参数。为了优化分词器的性能并将其无缝集成到HiGPT框架中,研究者采用了简化的文本-图对比学习框架进行预训练。这一预训练过程直接将分词器纳入HiGPT框架,并有效地与大型语言模型(LLM)集成。这种方法增强了分词器的能力,并确保其在整个模型架构中的顺畅运作。

给定一个异构图G,具有特征矩阵X和邻接矩阵A,异构图分词器的目标是编码异构图的隐藏表示,记为H。这是通过函数H = HG-Tokenizer(X, A)实现的,其中𝑓𝑇𝑖表示节点类型𝑇𝑖的隐藏维度。HG-Tokenizer可以采用各种背景HGNN架构实现,如HetGNN、HAN或HGT。然而,这些异构图神经网络的泛化能力受到其固有设计的约束,其中包括针对特定异构图预先定义的参数学习。因此,训练好的HGNN不能直接应用于其他未见过的异构图,这与实现HG-Tokenizer的统一编码目标相悖。

研究者介绍了一种轻量级的文本-图对比对齐范式,用于预训练提出的异构图分词器。这种方法旨在对齐语言和异构结构的建模能力,使分词器与语言模型更好地协作。研究者考虑了表示为C的原始文本内容,其中C = 𝑐𝑖 ∈ R𝑙𝑖 ×𝑑, 1 ≤ 𝑖 ≤ 𝑁,𝑁表示异构图节点X的总数。在这种方法中,采用了对比标签y和交叉熵函数CE(·)。实现采用了多层普通变换器作为LM-Tokenizer(·)。

HiGPT的目标是使语言模型能够直接为下游任务生成预测,这些任务涉及未见过的异构图和相应的指令。自然语言指令首先被分词器编码成文本嵌入,记为XI = LM-tokenizer(instruction)。为了对齐维度,研究者采用了一个投影器,将图标记映射到与文本嵌入相同的维度,由XG = 𝑓P(H)给出,这可以是一个简单的线性层。对于长度为𝐿的序列,研究者确定了生成目标输出XO的概率。

为了使语言模型能够有效区分不同类型的异构图标记和每种类型内的特定节点,基于自然语言指令,研究者提出了使用由异构图-指令对组成的大型“语料库”进行指令预训练。这种方法使微调后的HiGPT具备了对同质和异构图结构的全面理解。

为了定制化语言模型针对特定异构图任务的推理能力,研究者提出了异构性感知微调。这种方法涉及在初始指令预训练阶段之后进行有监督学习,使用特定任务的指令。这能够细化LLM的性能,并将其适应于目标任务对异构图的具体要求。

在异构图学习的实际情况中,数据稀缺常常构成挑战。特别是在使用异构图来模拟推荐系统中的冷启动用户/项目时,用户交互数据的稀疏性限制了监督信号的可用性。为了解决数据稀疏性问题,研究者提出通过纳入增强的图指令来增强HiGPT。借鉴先前的工作,研究者引入了一种新的异构图指令调整方法。这种方法利用提示工程技术,特别是思想混合(Mixture-of-Thought, MoT),来生成多样化和信息丰富的指令。目标是有效克服数据稀缺带来的挑战。图2显示如何通过思维混合(MoT)策略来增强图指令,以解决数据稀缺问题。通过纳入增强的图指令,研究者期望模型增强能够有效处理数据稀疏性。

研究者关注于设计和优化提示,以有效利用语言模型。研究者采用了几种技术来增强语言模型:链式思考(Chain-of-Thought, CoT)、思维树(Tree-of-Thought, ToT)、小组讨论(PanelGPT)和生成知识提示(Generated Knowledge Prompting, GKP)。通过利用这些技术,研究者的目标是增强异构图指令,特别是在数据有限的情况下。

异构图指令调整的提示

研究者利用七种指令增强策略,每种策略为每个问题-答案对生成七个增强的指令,纳入了思想混合(MoT)的特点。然而,像ChatGPT这样的闭源语言模型可能会产生错误答案,导致指导有误。为了克服这个问题,研究者提出将先验知识,特别是正确答案,纳入提示中。这使得LLM能够模拟生成正确答案,并使用不同的MoT方法产生中间推理步骤。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接:amliy007,29.9元即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory,关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
 

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

研究者们对HiGPT模型进行了全面的评估,以回答几个关键的研究问题:

RQ1:HiGPT在少量样本(few-shot)和零样本(zero-shot)情况下的表现如何与基线方法比较?

RQ2:HiGPT的关键组成部分在不同设置中对其整体性能的贡献程度如何?

RQ3:是否可以利用HiGPT的通用异构性知识,仅通过图指令示例实现图内上下文学习,而无需任何模型优化?

实验在三个基准数据集上进行,即IMDB、DBLP和ACM。IMDB数据集专注于在线电影和电视节目,包含4278部电影、2081名导演和5257名演员。每部电影被归类为动作、喜剧或剧情之一。DBLP数据集包括4057名作者、14328篇论文、7723个术语和20个出版场所,作者分布在数据库、数据挖掘、人工智能和信息检索四个研究领域。ACM数据集包含3025篇论文、5835名作者和56个主题,论文被分类为数据库、无线通信和数据挖掘三个类别。

为了确保所有数据集中节点的特征维度一致,使用预训练的Sentence-BERT将每种类型的节点编码到标准化维度。对于有监督的少量样本节点分类,随机选择每个类别的1、3、5、10、20、40或60个标记节点作为训练集,并保留1000个节点用于验证和测试。评估指标包括Micro-F1、Macro-F1和AUC。

为了全面比较性能,评估了来自三个不同类别的各种最新方法:代表性的同构图神经网络(包括SAGE和GAT)、利用异构图消息传递机制的方法(如HAN、HGT和HetGNN),以及专注于异构图学习的自监督技术(如HGMAE、DMGI和HeCo)。

在三个数据集上执行节点分类任务,探索了少量样本和零样本设置。在少量样本设置中,模型在IMDB数据集上训练,样本数从1到60不等,并在包含1000个样本的IMDB测试集上评估。在零样本设置中,模型在IMDB数据集上以相同的样本数训练,并在分别包含1000个样本的DBLP和ACM数据集上测试。

表2 展示了在有监督和零样本设置中的节点分类实验结果。"-std"和"-cot"分别表示标准测试提示(直接答案)和具有链式思考(Chain-of-Thought, CoT)特性的提示。HiGPT在少量样本设置中一致性地超越了最新的基线,在零样本设置中也显示出显著的改进。

为了评估所提出模块的有效性,逐一移除了HiGPT中的关键技术。结果总结在表3中。消融变体"w/o S1"通过仅在下游任务数据上直接调整指令生成,而"w/o HG"变体则排除了引入异构图标记。这些测试表明,HiGPT在不同样本设置下,尤其是在样本有限的场景下(例如1或3个样本),始终优于这些变体。这归功于引入的图标记,使LLM能够从上下文图中提取高维异构结构信息,显著提高了LLM的准确性。

图内上下文学习(ICL)是一种使用带有任务示例的提示来适应新任务的方法,无需梯度更新。通过向不同IMDB数据集训练的模型添加训练集中的示例,进行了全面测试。"-ICL-1"和"-ICL-2"分别表示一个和两个示例,而"-ICL-DBLP"表示在ACM测试提示之前包含DBLP示例。结果显示,即使只有一个示例,大多数使用图ICL的1-shot模型在有监督和零样本设置中一致性地优于60-shot模型。

图3 展示了HiGPT的图内上下文学习效果,揭示了即使在只有少量训练样本的情况下,通过图内上下文学习,HiGPT也能显著提高其在不同数据集上的泛化能力。

HiGPT的研究不仅推动了异构图学习领域的技术进步,也为未来在更广泛的应用场景中实现有效的信息提取和知识发现提供了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104320.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024最新PyCharm下载安装激活汉化教程!(附激活码)

激活码(文末附带精品籽料): K384HW36OB-eyJsaWNlbnNlSWQiOiJLMzg0SFczNk9CIiwibGljZW5zZWVOYW1lIjoibWFvIHplZG9uZyIsImxpY2Vuc2VlVHlwZSI6IlBFUlNPTkFMIiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6I…

【NAT】NAT:实现网络地址转换

目录 什么是NAT?NAT的功能NAT的弊端NAT的工作原理NAT分类SNAT(源NAT)DNAT(目的NAT)双向NAT 什么是NAT? NAT是一种在IP数据包传输过程中,将源IP地址或目标IP地址在私有网络和公有网络之间进行转…

芯片设计五部曲之四 | 电磁玄学宗师——射频芯片

去年我们发布的《芯片设计五部曲》,还挺受欢迎的: 芯片设计五部曲之一 | 声光魔法师——模拟IC 芯片设计五部曲之二 |‍ 图灵艺术家——数字IC 芯片设计五部曲之三 | 战略规划家——算法仿真 不少人辗转问过我们下一集什么时候出。 放心,…

U盘不小心格式化了怎么恢复?别慌!教你快速恢复

在日常工作和生活中,U盘已成为我们存储和传输数据的重要工具。然而,有时由于误操作或其他原因,我们可能会不小心格式化U盘,导致重要数据的丢失。这时,如何恢复这些数据就显得尤为重要。下面,我们将介绍几种…

JS笔记

9.3 1.数据类型 1.1.Object 对象 对象:一切皆对象 面向过程:按照时间的发生顺序,从上往下依次执行 对象对象:指挥对象做某件事 1.2.数据类型的检测 1.3.数据类型转换 1.自动转换:js会通过关系运算符&#xff0c…

基于asp.net的简单的留言板管理系统附源码

今天给大家分享一个基于asp.net的留言板管理系统源码,SQLserver数据库,VS开发,具体的模块如下: 需要的盆友可以自己下载哈,链接放在下面了 链接:https://pan.quark.cn/s/12021e583fd7

使用豆包 MarsCode 编程助手,兑换 4090 显卡!

关于豆包 MarsCode 编程助手 豆包 MarsCode 编程助手是一个智能化的编程工具,通过与 AI 的对话,用户可以轻松获取编程建议、解决问题并提高编程效率。无论您是编程新手还是经验丰富的开发者,MarsCode 都能为您提供极具价值的帮助。 点击直达…

三非渣本前端成功转行AI绘画:我的学习历程与心得分享

大家好,我是一名普通的前端程序员,毕业于一所名不见经传的“三非”院校。在编程这条路上,我一直觉得自己平平无奇,直到有一天,我接触到了AI绘画,从此开启了一段全新的转行之旅。以下是我的学习经历、学习路…

vs2022 的wpf应用,需要生成的WpfApp1\bin\Debug\WpfApp1.exe添加图

在Visual Studio 2022中为WPF应用程序的生成的WpfApp1.exe添加图标,您可以按照以下步骤进行: 1. 准备图标文件 图标格式: 需要准备一个.ico格式的图标文件。确保图标文件符合标准的尺寸(通常是32x32像素或更大)。路径: 将图标文…

mybatis 出错:java.lang.NumberFormatException: For input string: “A“

GetMapping("/generateOldCarModelRanking") ApiOperation("老旧车车型排名") public Result generateOldCarModelRanking(RequestParam(value "year")String year,RequestParam(value "isCommercial")boolean isCommercial ,Reques…

FineBI与FineReport的区别

在企业信息化的浪潮中,数据分析和报表工具的需求日益增加。FineBI与FineReport是帆软公司旗下两款常见的数据分析和报表工具,它们各自有着不同的特点和应用场景。本文将从功能、适用场景和用户体验等方面分析FineBI与FineReport的区别。 一、功能对比…

【漏洞复现】蜂信物联 FastBee 开源物联网平台 download 任意文件读取漏洞

【漏洞复现】蜂信物联 FastBee 开源物联网平台 download 任意文件读取漏洞、 01 漏洞描述 蜂信物联 FastBee 开源物联网平台 download 接口存在任意文件读取漏洞,未经身份验证攻击者可通过该漏洞读取系统重要文件(如数据库配置文件、系统配置文件&…

python中.之后的圈c、圈v分别代表什么意思?

python中.之后的圈c、圈v分别代表什么意思? Python中,.之后的圈c表示类的实例方法,而圈v表示类的成员变量。 在面向对象编程中,类是一种抽象的数据类型,实例方法是定义在类中的函数,用于操作类的实例变量…

C++11新增特性:列表初始化(std::initializer_list) decltype、auto、nullptr、范围for

C11新增特性:列表初始化(std::initializer_list)& decltype、auto、nullptr、范围for 一、C11新增统一初始化方式1.1 新增方式1.2 初始化容器底层原理(std::initializer_list) 二、新增声明2.1 decltype2.3 auto &…

零基础 Tomcat 环境搭建(图解)

目录 介绍 下载 安装 环境配置 启动服务 无法正常启动的可以去更改端口号 显示乱码的可以去更改为BGK 正常启动 ​编辑 浏览器URL测试 关闭服务 静态项目测试 创建部署 创建任意文件夹 编写测试内容 浏览器URL测试 介绍 Tomcat是Apache 软件基金会&#xff08…

如何整理自己的电脑桌面?桌面整理怎么设置更高效?一文详细解答

在数字化时代,电脑已成为我们日常生活和工作中不可或缺的工具。然而,随着时间的推移,电脑桌面上往往会堆积起各种文件、快捷方式、文件夹,使得原本整洁的桌面变得杂乱无章。这不仅影响了我们的工作效率,还可能对心情造…

骨传导耳机哪个牌子最好?硬核测评五大热门王牌骨传导耳机!

在当今快节奏的生活中,音乐和音频内容已成为许多人日常生活中不可或缺的一部分。无论是在健身房锻炼、户外跑步,还是在办公室工作,一款优质的耳机都能提供沉浸式的听觉体验,同时确保安全和舒适。骨传导耳机,作为一种创…

深入学习电路基础:从理论到实践

引言 电路是电子学的核心,也是现代科技的基石。从简单的灯泡开关到复杂的计算机处理器,电路在各类电子设备中都起到了至关重要的作用。深入学习电路知识不仅有助于理解电子设备的工作原理,还能够为实际设计和开发电子产品打下坚实的基础。 …

JVM下篇:性能监控与调优篇-02-JVM监控及诊断工具-命令行篇

文章目录 2. JVM 监控及诊断工具-命令行篇2.1. 概述2.2. jps:查看正在运行的 Java 进程2.3. jstat:查看 JVM 统计信息2.4. jinfo:实时查看和修改 JVM 配置参数2.5. jmap:导出内存映像文件&内存使用情况2.6. jhat:J…

将弹性 IP 地址绑定到 EC2 实例

在本文中,九河云将带你了解如何将弹性 IP 地址绑定到 Amazon Elastic Compute Cloud (EC2) 实例。绑定弹性 IP 可以为您的实例提供一个固定的公共 IP 地址,有助于保持外部访问的稳定性。 准备工作 在开始之前,请确保您已完成以下准备工作&a…