精通推荐算法13:图神经网络之GraphSAGE

news2024/11/20 3:32:55

1 引言

近年来,图神经网络Graph Neural Networks,GNN)在NLP、风控和推荐系统等领域的研究十分火热,其对推荐系统、生物医药、社交网络和知识图谱等非结构化数据有十分优秀的处理能力。基于图神经网络的Embedding表征学习,十分重要且有意义。

图神经网络是一个很广阔的领域,涉及的知识点十分多,甚至可以专门针对它写一本书。受限于篇幅,本节以GCNGraphSAGE两个十分经典的模型为例,阐述基于图神经网络的Graph Embedding的基本原理。

精通推荐算法12:图神经网络之GCN-CSDN博客 已经讲解了GCN,本文再重点讲解GraphSAGE

GraphSAGE:图神经网络工业应用的高潮

GraphSAGEGraph  SAmple and aggreGatE)于2017年,由斯坦福大学学者,在论文“ Inductive Representation Learning on Large Graphs[11]中提出。它先对邻居节点进行采样,然后将它们的Embedding融合起来,并更新当前节点的Embedding,最后将更新后的Embedding使用到下游任务中。其先采样后融合的思想,有效解决了GCN需要整图建模带来的诸多缺点。

6-16为GraphSAGE应用流程图,其主要分为采样融合预测三步。采样阶段,通过有放回的方式,选择S个邻居节点。从而使每个节点的采样数是一个固定值,方便并行计算。采样可以有效解决GCN需要导入整图,使得资源消耗过大的问题。

融合阶段,先将采样得到的邻居节点的Embedding融合起来。融合主要有Mean(取平均)、LSTM和 Pooling(池化)三种方式,这儿重点介绍Pooling方式。先对每个邻居节点Embedding做全连接和非线性激活,然后取所有向量每个位置最大值(element-wise max),作为融合后的输出向量。其数学表达如公式6-13所示,其中Wpool和b为全连接参数,σ为激活函数,h为邻居节点Embedding。

融合邻居节点后,将得到的Embedding和当前节点Embedding拼接(CONCAT),然后通过一层全连接和非线性变换,得到当前节点新的Embedding。其数学表达如公式6-14所示,其中w^k为全连接参数,σ为激活函数,h_v^{k-1}为当前节点的Embedding。CONCAT表示向量拼接操作。

3 GraphSAGE预测阶段

预测阶段,利用节点最终的Embedding优化下游任务。模型训练时,如果是有监督任务,则利用最终的Embedding预测其标签,再基于交叉熵或MSE损失函数,利用随机梯度下降算法,反向传播更新模型参数。如果是无监督任务,则可基于对比学习,将附近邻居作为正样本,再从距离较远的节点中采样一些负样本,从而构建自监督任务。

GraphSAGE单层网络,只能融合与当前节点直接相连的邻居的信息,即一跳关系。通过堆叠两层网络,则可以同时融合邻居,以及邻居的邻居的信息,即一跳关系和二跳关系。一般来说,k层GraphSAGE网络,可以融合k跳关系。基于权值共享思想,每层内的融合器和权重矩阵,被每个节点所共享。

4 总结

GraphSAGE基于采样机制,可以使用mini-batch训练模型,不需要加载全部图信息。它有效解决了内存资源消耗问题,可以应用到工业界大规模图网络数据上。同时,它聚合了邻居节点的信息,提升了Embedding准确性。最后k层网络可以融合节点k跳关系,具有高度的可扩展性。但它采样和聚合时,没有考虑不同邻居的重要性不同。后续GAT(Graph Attention Networks)等模型,引入Attention(注意力)机制,对其进行了优化。感兴趣的读者可以自行阅读论文。

5 作者新书推荐


历经两年多,花费不少心血,终于撰写完成了这部新书。本文在6.5节中重点阐述了

源代码:扫描图书封底二维码,进入读者群,群公告中有代码下载方式

微信群:图书封底有读者微信群,作者也在群里,任何技术、offer选择和职业规划的问题,都可以咨询。

详细介绍和全书目录,详见

《精通推荐算法》,限时半价,半日达icon-default.png?t=N7T8https://u.jd.com/VbCJsCz

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1954939.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用户登录安全是如何保证的?如何保证用户账号、密码安全?

1.HTTP协议直接传输密码(无加密) 前端 直接发送HTTP请求(无加密),攻击者可直接捕获网络包,看到下面的明文信息 因此,使用HTTP协议传输会直接暴露用户敏感信息。 2.HTTPS协议直接传输密码&…

windows环境 python + opencv 加载 onnx 人脸检测模型识别人脸测试

参考博客: 1. OpenCV-Python 4.5.4 人脸识别应用:https://blog.csdn.net/qq_36563273/article/details/121510440( 代码就是在此博客代码基础上改的,主要添加了人脸画框的逻辑 ) 1. windows环境:win11 2. 安装 miniconda2-4.7.1…

用python解释进程与协程(python实例二十八)

目录 1.认识Python 2.环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3.创建进程池,异步执行多个任务 3.1 代码构思 3.2 代码示例 3.3 运行结果 4. 模拟协程堵塞 4.1 代码构思 4.2 代码示例 4.3 运行结果 5.总结 1.认识Python Python 是一个高…

算法019:x的平方根

x的平方根. - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/sqrtx/ 这个题乍一看很奇怪,但是换个角度,我们用二分查找的思想来完成这个题。 …

组队学习——决策树(以泰坦尼克号公共数据集为例)

本次我们挑战的数据集为泰坦尼克号公共数据集,为了降低难度,我们在原有数据集的基础上进行了优化,具体数据集介绍如下: 在这里也介绍一下数据的含义吧 数据介绍: Survived:是否存活(label&#…

巧用外部资源加速任务执行

1. 背景 在人工智能时代,对算力的要求越来越高,为了加速任务的执行,可以削减软件层面的干扰以充分挖掘本机的硬件算力,具体可参考前面的文章。 若充分挖掘本机硬件能力之后还显不足,就需要增加硬件或提高硬件配置&am…

【小程序爬虫入门实战】使用Python爬取易题库

文章目录 1. 写在前面2. 抓包分析 【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研…

pinia定义store及其简单的使用

定义store 在使用pinia管理状态之前,我们得知道 Store 是用 defineStore() 定义的,它的第一个参数要求是一个独一无二的名字: import { defineStore } from "pinia";// 你可以任意命名 defineStore() 的返回值,但最好使用 store 的…

C语言 #指针数组 #数组指针 #数组参数、指针参数

文章目录 前言 一、指针数组 1、概念: 2、指针数组有什么用呢? 二、数组指针 1、数组指针的定义 2、数组名与 &数组名 的区别 3、数组指针如何初始化? 4、数组指针的用法 三、根据代码区分 指针数组 和 数组指针 四、数组参数、指针参数 …

【PYTHON】多进程运行示例含共享数据

运行结果 Python多进程调用示例 import multiprocessing import time import os import sys# 注册多个函数用于不同进程分别调用 def testcase0():time.sleep(1)return "case0_"+get_time()def testcase1(timestamp):return "case1_"+timestampdef testca…

使用Spring Boot与Spire.Doc实现Word文档的多样化操作

​ 博客主页: 南来_北往 系列专栏:Spring Boot实战 前言 使用Spring Boot与Spire.Doc实现Word文档的多样化操作具有以下优势: 强大的功能组合:Spring Boot提供了快速构建独立和生产级的Spring应用程序的能力,而Spire.Doc则…

CSS(三)——CSS 背景

CSS 背景 CSS 背景属性用于定义HTML元素的背景。 CSS 背景属性 Property描述background简写属性,作用是将背景属性设置在一个声明中。background-attachment背景图像是否固定或者随着页面的其余部分滚动。background-color设置元素的背景颜色。background-image把…

MySQL查询执行(二):order by工作原理

假设你要查询城市是“杭州”的所有人名字, 并且按照姓名排序返回前1000个人的姓名、 年龄。 假设这个表的部分定义是这样的: -- 创建表t CREATE TABLE t (id int(11) NOT NULL,city varchar(16) NOT NULL,name varchar(16) NOT NULL,age int(11) NOT N…

240728pycharm使用问题之无法找到指定命令

文章目录 1.问题描述2.分析3.解决后界面展示 1.问题描述 pycharm中断报错,让你初始化powershell,并且说找不到anconda中指定命令,很明显anaconda环境配置不对 2.分析 1.检查anaconda环境变量配置是否ok; 2.检查pycharm终端配置是否ok 3.检查pyacharm环境配置 3.解决后界面展…

第一期:AI芯片——智能时代的“芯”跳加速器

🌟 小竹笋的AI奇旅 🚀 Hey小伙伴们!👋 我是小竹笋,一名喜欢捣鼓技术、热爱创作的工程师。从今天开始,我们将踏上一场关于人工智能(AI)核心技术领域的探索之旅。第一站,我…

MarkTool之UDP

UDP客户端,主要作用是与UDP服务端连接进行数据通讯 1、连接参数有4个,绑定IP和Port,服务端IP和Port 2、接收数据和发送数据的参数设置,有16进制,有字符,有原始数据,都可进行选择 3、定时发送&a…

大数据时代,区块链是如何助力数据开放共享的?

在大数据时代,区块链技术以其独特的优势,为数据开放共享提供了强有力的支持。以下是区块链助力数据开放共享的几个主要方面: 1. 增强数据安全性与隐私保护 加密安全:区块链技术采用先进的加密算法,如国密非对称加密技…

安装Keil5 MDK

文章目录 前言一、安装Keil5 MDK 软件以及器件支持包1. 器件支持包离线安装方式2. 器件支持包在线安装方式 二、软件注册三、驱动安装1. 安装STLINK驱动2. 安装USB转串口驱动 前言 提示:本文主要用作在学习江协科大STM32入门教程后做的归纳总结笔记,旨在…

LangChain--如何使用大模型

【🍊易编橙终身成长社群🍊】 大家好,我是小森( ﹡ˆoˆ﹡ ) ! 易编橙终身成长社群创始团队嘉宾,橙似锦计划领衔成员、阿里云专家博主、腾讯云内容共创官、CSDN人工智能领域优质创作者 。 LangCha…

x64dbg反汇编技术入门学习笔记

EIP EIP是程序下一次要运行地方 寄存器 临时存放数据,按照Intel规定去存放 window API 微软提供的,用户可以操作系统的一些接口,以函数的形式体现 杀软是如何查杀恶意的 镜像地址 实际地址 实际运行后代码的地址 查外部调用段就可以定位到.rdat…