34. BI - 美国大学生足球队的 GCN 案例

news2025/1/27 13:49:54

本文为 「茶桁的 AI 秘籍 - BI 篇 第 34 篇」

文章目录

    • 美国大学生足球队 Embedding(GCN)

在这里插入图片描述

Hi,你好。我是茶桁。

在上一节课中,因为需要,我们先是回顾了一下 Graph Embedding,然后跟大家讲解了 GCN 以及其算法。虽然是推导完了,不过具体要怎么使用可能很多同学还是不太清楚,那咱们这一节课,就拿一个例子来看看具体的 GCN 该怎么去用。

美国大学生足球队 Embedding(GCN)

首先用 networkx 对图做一个处理,原始数据去加载的时候是read_gml:

import networkx as nx
G = nx.read_gml(path + '/LPA/football.gml')

读进来的数据进行可视化,去看一下顶点的情况,看一下某一个数值的取值。

# 可视化
plot_graph(G)
print(list(G.nodes()))
print(G.nodes['BrighamYoung']['value'])

---
['BrighamYoung', ..., 'Hawaii']
7

20240227102633

然后先对字母做个排序,排序以后对它求一个邻接矩阵。

# 按照字母顺序排序
order = sorted(list(G.nodes()))
print(order)

# 邻接矩阵
A = nx.to_numpy_array(G, nodelist = order)
print(A)

---
['AirForce', ..., 'Wyoming']
[[0. 0. 0. ... 0. 0. 1.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 1. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]]

这个邻接矩阵和图是完全对应的,一个球队有比赛就为 1,没有比赛就为 0。

只是提取邻接特征可能会把自己忘下,所以还要生成一个对角矩阵。

I = np.eye(G.number_of_nodes())
A_hat = A + I
print(A_hat)

---
[[1. 0. 0. ... 0. 0. 1.]
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 1. 1. 0.]
 [0. 0. 0. ... 1. 1. 0.]
 [1. 0. 0. ... 0. 0. 1.]]

将其写成一个 A_hat 这种形式做一个累加,对角矩阵的对角线都为 1,因为加了一个 I。然后我们想要求一下它的度矩阵 D_hat:

# D_hat 为 A_hat 的度矩阵
D_hat = np.sum(A_hat, axis=0)
print('D_hat: \n', D_hat)

---
[[11. ... 12.]]
# 得到对角线上的元素
D_hat = np.matrix(np.diag(D_hat))
print('D_hat: \n', D_hat)

---
D_hat: 
 [[11.  0.  0. ...  0.  0.  0.]
 ...
 [ 0.  0.  0. ...  0.  0. 12.]]

D_hat 本质上一开始得到的是一个向量,这个向量代表含义是你打比赛的次数,就是连接边的个数。一共有115支球队,每个球队打的比赛的次数就放上来了。原来是个向量,现在把它列成对角线,用 np.matrix 进行生成。

前面这些都生成完了,下面就要做一些特征的提取,对 GCN 的算子去进行使用。在特征提取之后,每一层的神经元都有一些连接,咱们把神经元的参数做一个除法。

# 第一层神经元, 4 个维度
W_1 = np.random.normal(loc=0, scale=1, size=(G.number_of_nodes(), 4))

# 第二层神经元,4 => 2
W_2 = np.random.normal(loc=0, size=(W_1.shape[1], 2))
print('W_1: \n', W_1)
print('W_2: \n', W_2)

---
W_1: 
 [[ 1.79361799e+00  1.00663949e-01  3.15681973e-01  1.57018908e+00]
...
 [ 3.83597029e-02 -4.11584967e-02  1.23188020e+00  8.01688421e-01]]

W_2: 
 [[-0.15407588 -0.34138474]
 [-1.08699826  1.29461044]
 [-0.78768133  0.88276975]
 [-0.31945927  0.72302237]]

在神经网络过程中最开始的参数本质上也是一个随机数。在神经网络最开始的部分后面参数学习是通过梯度下降来进行学习的,但最早期可以采用随机数,这个随机数是 normal 的方法,normal 就是正态分布。我们是在 0 附近做了一个很小的随机数。

有两层神经元 W_1 和 W_2,如果要加非线性特征可以用 relu,来定义一下:

# 当 x<0 时,结果 = 0,x >= 0 时,结果 = x
def relu(x):
  return (abs(x)+x) / 2

relu 的计算方式就是 x 加上 abs(x),绝对值,然后再除以2。如果 x 大于 0 它就等于 x,如果小于 0 它就等于 0,这就是 relu 的函数定义。

GCN 这一层的计算逻辑,D_hat 的 -1 次方,其实就是一个倒数的概念。然后乘上 A,A 是邻接矩阵,X 是输入值,W 是权重系数。乘完以后,前面加一层 relu。

这就是 GCN 层的一个提取,同时又加了一个激活函数。现在我来问问大家,这一部分咱们是用了第几种的拉普拉斯算子?其实就是我上一节课中讲的第二种算子,写出来大家回顾一下:

L r w = D − 1 A \begin{align*} L^{rw} = D^{-1}A \end{align*} Lrw=D1A

实际上逻辑也一样,你也可以用第三种的,都是一样。

把 GCN 层定义下来以后,现在是做了两层的 GCN。最开始的原始数据就输个对角线,第一层的输出结果就是 H_1,把它作为下一层的输入,然后得到了第二层的结果 H_2。H_2 输出就不做其他操作,就把它当成 output 进行输出就可以了。

以上就是 GCN 的一个特征提取,后面咱们一起来看一看,下面其实都是去画一张图,把特征提取的结果通过一种转化的形式给他画一张图,详细的可以去看我上传的源代码。

# 绘制 output,节点 GCN Embedding 可视化
def plot_node(output, title):
  for i in range(len(nodes)):
    node_name = nodes[i]
    value = G.nodes[node_name]['value']
    plt.scatter(np.array(output)[i,0],np.array(output)[i,1] ,label=str(i), color=getValue(value), alpha=0.5, s=250)
    plt.text(np.array(output)[i,0],np.array(output)[i,1] ,i, horizontalalignment='center',verticalalignment='center', fontdict={'color':'black'})
  plt.title(title)
  plt.show()

plot_node(output, 'Graph Embedding')

20240227143025

之前的代码中,咱们是做了 relu 这部分的激活函数,其实我还做了一份没有 relu 的代码,一样把它可视化出来:

20240227143031

我们来看两种方式,放到二维平面上面,relu 的这个特征提取的好吗?提取得好不好是看后续方不方便做分类任务,如果都挤在一起这个分类就不一定好做了对吧?不带 relu 的特征提取似乎是更理想一些,所以从这个结论上来去看,我们并没有学习,只是用随机数来进行了一个计算。第二,也没有加 relu,GCN的特征提取能力已经很强大了。

所以,其实 GCN 本身的特征提取能力就还不错,而且我们也是拿随机数来进行特征提取,特征提取能力还是比较强大的。以上就把 GCN 的算子用于神经网络的计算,而整个的神经网络就是这样的一套逻辑。

特征的好坏的评价标准是用于后续任务来去做衡量的,如果它分布的比较开那后续可能就比较好计算了。真正写项目的时候要不要加 relu 呢?刚才那个数据集比较简单,也才115支球队,所以不加 relu 是OK的,加了反而效果可能不好。那有些时候还是要试的,有的时候如果数据集比较复杂,加了 relu 效果会更好一点。

GCN 的这套逻辑其实并不是特别复杂,就是在神经网络上面对图做了一个特征提取。它的本质就是提取邻居的特征,再加上自己的特征,方便后续做特征提取的计算,同时又做了一些降维的处理。

那本节课只是拿美国大学生足球队的这个例子初步的来了解一下 GCN 的整个过程和逻辑,之前咱们也用过这个数据,大家可以自行去对比一下。

下一节课,咱们来看一个实际的项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1619513.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最近公布的NIST后量子密码标准的3个关键要点

当今世界依赖于许多保护措施&#xff0c;即使你没有注意到这一点。人们日常接触的一切事物&#xff0c;从手机和智能技术到网站&#xff0c;从支付交易到城市基础设施&#xff0c;都受到具有保障措施和检查的基础技术的保护。量子计算机能够迅速而轻松地破解这些安全措施&#…

Android视角看鸿蒙第十二课-鸿蒙的布局之相对布局RelativeContainer

Android视角看鸿蒙第十二课-鸿蒙的布局之相对布局RelativeContainer 导读 相对布局和线性、层叠布局一样都是类似于Android布局的&#xff0c;之前两篇文章已经了解线性、层叠布局的使用方法&#xff0c;这篇文章一起来学习下鸿蒙中的相对布局。 之前的文章中&#xff0c;我偶…

Security初探(二)

SpringSecurity初探(一)-CSDN博客 上面介绍了用了在SpringBoot里配置UserDetailsService和PasswordEncoder两个Bean 下面介绍一种替换掉上面两个Bean的方式 看下效果实际是和创建UserDetailsService和PassswordEncoder两个Bean的效果是一样的 还有一种方式混合搭配 当然不推…

JetBrains的Python集成开发环境PyCharm 2024.1版本在Windows/Linux系统的下载与安装配置

目录 前言一、PyCharm在Windows安装二、PyCharm在Linux安装三、Windows下使用配置四、Linux下使用配置总结 前言 “ PyCharm是一款专为Python语言开发人员设计的集成开发环境&#xff08;IDE&#xff09;。它提供了丰富的功能和工具&#xff0c;可以帮助开发人员更高效地编写、…

国内版sora火爆市场!灰豚AI数字人上线超高清“文生视频“产品震撼上市

美国人工智能研究公司OpenAI发布的人工智能文生视频sora产品还不到两月&#xff0c;近日国内著名数字人头部公司灰豚AI数字人上线超高清“文生视频”产品&#xff0c;成为数字人行业首个发布文生视频的平台。 值得注意的是&#xff0c;灰豚AI数字人上线的超高清文生视频产品功能…

GAN Inversion: A Survey笔记

文章目录 论文介绍问题描述 交待准备工作GAN模型数据集评价指标PhotorealismFaithfulnessEditability 论文方法隐空间介绍Z空间W和W空间S空间P空间 三种方法1 基于学习的GAN Inversion2 基于优化的GAN inversion3 混合GAN inversion GAN inversion方法的特性所支持的分辨率 论文…

无人机干扰技术及干扰设备突破性发展

无人机干扰技术主要指的是通过各种手段干扰无人机的正常运行&#xff0c;从而达到使其失去控制、降低其性能或获取其信息的目的。这些干扰手段可以包括无线电干扰、GPS干扰、信号屏蔽、光学干扰等。 1.无线电干扰&#xff1a;由于无人机在遥控、定位、数据传输等方面都依赖于无…

齐护K210系列教程(一)_软件硬件准备

关于课程 本课程是基于齐护AIstart(K210)和scratch图形化编程的系列课程。 关于AIstart 内置[Kendryte K210]AI芯片,专为机器视觉与机器听觉多模态识别而设计&#xff0c;可广泛应用于智能家居/机器视觉/智能机器人/安防监控等领域。更多详细内容请点击这里。 1 硬件准备 …

UDS故障码的状态

在使用UDS19 02 服务读取故障码信息时&#xff0c;读取到的故障码信息占四个字节&#xff0c;其中 04 20就代表 P0 04 20&#xff08;动力系统故障&#xff09;&#xff0c;第三个字节00就代表发生故障的原因。第四个字节就是今天我们重点强调的故障码状态。 解读故障码状态字节…

Mimics21软件学习总结

一. Mimics21软件安装过程 ① 解压下载好的Mimics软件包&#xff1b; ② 双击“MIS_Medical_21.0.exe”打开等待安装程序初始化完成&#xff1b; ③ 进入安装向导点击“next”&#xff1b; ④ 点击选择“Iaccept the agreement”同意相关协议&#xff0c;随后点击“next”&…

网络编程 -- 简易TCP网络程序

一 字符串回响 1.1 核心功能 字符串回响程序类似于 echo 指令&#xff0c;客户端向服务器发送消息&#xff0c;服务器在收到消息后会将消息发送给客户端&#xff0c;该程序实现起来比较简单&#xff0c;同时能很好的体现 socket 套接字编程的流程。 1.2 程序结构 这个程序我们…

LangSmith帮助测试大模型系统

LangSmith是评估大模型能力好坏的评估工具,能够量化评估基于大模型的系统的效果。LangSmith通过记录langchain构建的大模型应用的中间过程,从而能够更好的调整提示词等中间过程做优化。想要使用LangSmith首先进入他的设置页面,https://smith.langchain.com/settings注册一个…

DaVinci Fusion Studio 19 for Mac/win:影视后期特效合成的巅峰之作

在影视后期制作的广袤天地里&#xff0c;一款强大的特效合成软件如同一位技艺高超的魔法师&#xff0c;能够化腐朽为神奇&#xff0c;将普通的影像素材转变为震撼人心的视觉盛宴。而DaVinci Fusion Studio 19&#xff0c;正是这样一款备受影视从业者推崇的巅峰之作。 无论是Ma…

python简易小时钟

import time import turtledef getTime():tt time.localtime() # 结构化的时间ss time.strftime(%Y年%m月%d日 %H:%M:%S, tt)return sspen turtle.Turtle()pen.backward(100) pen.speed(0)while True:time.sleep(1)times getTime()pen.clear()pen.write(times, font("…

恒峰智慧科技—森林消防泵:既可灭除火灾,又可清理水患

在广袤的森林中&#xff0c;火灾与水患如同潜伏的猛兽&#xff0c;时刻威胁着生态的安全。然而&#xff0c;随着科技的进步&#xff0c;我们有了更强大的武器来对抗这些威胁——森林消防泵。这款神奇的设备不仅能迅速扑灭火灾&#xff0c;还能在雨季到来时清理水患&#xff0c;…

基于Springboot的幼儿园管理系统

基于SpringbootVue的幼儿园管理系统的设计与实现 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringbootMybatis工具&#xff1a;IDEA、Maven、Navicat 系统展示 用户登录 用户管理 教师管理 幼儿园信息管理 班级信息管理 工作日志管理 会议记录管理…

【用户投稿】Apache SeaTunnel 2.3.3+Web 1.0.0版本安装部署

项目概要 Apache SeaTunnel 是一个分布式、高性能、易扩展的数据集成平台&#xff0c;用于实时和离线数据处理,支持多种数据源之间的数据迁移和转换。 其中&#xff0c;Apache-seatunnel-web-1.0.0-bin.tar.gz和apache-seatunnel-2.3.3-bin.tar.gz代表了 Apache SeaTunnel Web…

FIR补偿滤波器——matlab的FDA实现

输入采样频率&#xff1a;192KHz 抽取倍数&#xff1a;2 通带截至频率&#xff1a;20KHz 通带衰减&#xff1a;0.1dB 阻带衰减&#xff1a;120dB 在更多选项那里&#xff0c;设置c为0.5&#xff0c;代表抽取倍数为1/c&#xff0c;p设置为4&#xff0c;代表级联阶数。FIR补偿…

新生儿听力筛查怎么做?宝爸宝妈必看

健康讲堂 根据全国第二次残疾人抽样调查结果显示&#xff0c;目前我国现有听力残疾人2780万&#xff0c;其中17岁以下单纯听力残疾儿童22.15万。新生儿听力障碍发生率约为1&#xff5e;3‰&#xff0c;如果没有得到早期有效的治疗&#xff0c;势必影响其情感、智力的正常发育&a…

CCFC3007 串口中断问题和W1C记录

最近在看国芯的一个串口中断问题。 串口发送完成中断和接收中断是这样写的。 寄存器描述是这样的&#xff1a; 发送完成和接收完成中断&#xff0c;写1清除。 乍一看&#xff0c;上面的中断处理函数写的应该没问题&#xff0c;但其实这样写是有隐患的。 先来看段程序&#x…