多标签节点分类

news2024/9/30 23:31:03

在这里插入图片描述

Multi-Label Node Classification on Graph-Structured Data,TMLR’23
Code
学习笔记

图结构数据的多标签分类

  1. 节点表示或嵌入方法
    通常会生成查找表,以便将相似的节点嵌入的更近。学习到的表示用作各种下游预测模块的输入特征。
    表现突出的方法是基于随机游走(random walk)的方法:通过节点在随机游走中的共现频率(co-occurrence frequency)来定义节点之间的相似性。[在随机游走的过程中,如果两个节点经常在一起出现,即它们在游走序列中共现的频率较高。]比如DeepWalk

  2. CNN.其他方法比如说使用卷积神经网络,首先通过聚合局部邻域的特征信息来提取节点表示。然后将提取的特征向量与标签嵌入融合以生成最终的节点嵌入。比如LANC

  3. 图神经网络(GNNs)
    通过递归聚合和转换其邻居的特征表示来计算节点表示,然后将其传递到分类模块。图卷积运算的第k层可以描述为:
    z i ( k ) = A G G R E G A T E ( { x i ( k − 1 ) , { x j ( k − 1 ) ∣ j ∈ N ( i ) } } ) z_i^{(k)}=AGGREGATE(\left \{ \mathbf{x}_i^{(k-1)},\left \{ {\mathbf{x}_j^{(k-1)}|j\in N(i)} \right \}\right \}) zi(k)=AGGREGATE({xi(k1),{xj(k1)jN(i)}})
    对于多标签节点分类,采用sigmoid层作为最后一层来预测类别概率 y ← ( sigmoid ( z i ( L ) θ ) ) \mathbf{y}\gets (\text{sigmoid}(z_i^{(L)}\theta )) y(sigmoid(zi(L)θ)) θ \theta θ对应于分类模块中的可学习权重矩阵。
    GNN模型的主要区别在于聚合层的实现。最简单的模型是GCN:对邻域特征采用度加权(degree-weighted)聚合;
    GAT采用了多个堆叠的图注意力层,它允许节点关注其邻域的特征;
    GraphSAGE仅使用邻域的随机样本进行特征聚合步骤。
    一般来说,GNNs在高**同配图(连接的节点往往共享相同的标签)**表现出更好的性能。H2GCN显示了在异配图上(多类设置)的改进:将邻居聚合的信息与自我节点的信息分开。此外,它利用高阶邻域信息来学习信息丰富的节点表示。

  4. 标签传播(label propagation)
    LPA算法和GNNs都基于消息传递。GNNs传播和变换节点特征,而LPA沿着图的边缘传播节点标签信息,以预测未标记节点的标签分布。 最近的一些工作将他们结合起来,比如GCN-LPA利用LPA作为正则项来帮助GCN学习适当的边权重,从而提高分类性能。

多标签数据集的特性

标签同配性label homophily

本文提出多标签图数据集的同配性定义
GNNs的性能通常根据标签同配性来讨论,标签同配性量化了图中相似节点之间的相似性,特别是,标签同配性在文(Beyond homophily in graph neural networks: Current limitations and effective designs)中被定义为图中同配边的分数:其中如果一条边连接具有相同标签的两个节点,则该边被认为是同配的。
这一定义不能直接用于多标签图数据集,因为每个节点可以有多个标签,并且在多标签dataset中两个连接节点的整个标签集相同的情况很少见。通常,两个节点共享其部分标签。
给定一个多标签图 G G G,其同配性 h h h定义为图中所有连通节点的标签集的杰卡德(Jaccard)相似度的平均值:
h = 1 ∣ ε ∣ ∑ ( i , j ) ∈ ε ∣ l ( i ) ∩ l ( j ) ∣ ∣ l ( i ) ∪ l ( j ) ∣ . h=\frac{1}{|\varepsilon |}\sum _{(i,j)\in \varepsilon }\frac{|l(i)\cap l(j)|}{|l(i)\cup l(j)|} . h=ε1(i,j)εl(i)l(j)l(i)l(j).
标签同配性是一阶标签引起的相似性,因为它根据相邻节点的标签分布来量化相邻节点之间的相似性。

跨类邻域相似度CCNS

二阶标签诱导度量,量化任何两个节点的邻域之间的相似性。
在这里插入图片描述
异配图的CCNS较低,同配图的CCNS更高

常用多标签节点分类数据集

  1. BlogCat
    nodes博客作者,edges表示他们的关系,labels表示所属社会群体
  2. Yelp
    nodes客户评论,edges对应他们的friendship,labels代表企业类型
  3. OGB-Proteins
    nodes蛋白质,edges表示蛋白质之间不同类型的生物学意义关联,labels对应于蛋白质功能
  4. DBLP
    nodes作者,edges合著关系,labels表示作者的研究领域

‘25%’、'50%'和’75%'对应于节点的标签数量的排序列表的第25、第50和第75位。即,有 25%、'50%‘或’75%’ 的节点的标签数目小于或等于这个值。
在这里插入图片描述

  • 标签分布不对称
  • 高标签稀疏性下使用AUROC评分进行评估存在问题
    (ROC曲线是以召回率为纵轴,FPR为横轴的曲线,其面积代表AUROC分数
    FPR是被错误地预测为正类别地负样本占所有负样本的比例,召回率是预测为true positive样本占所有实际positive样本的比例)
    因此存在,通过增加训练使其的数量来增加AUROC分数,即鼓励了模型通过预测为negative样本来减少损失。

NEW生物数据集

  1. PCG:蛋白质表型预测(phenotype:疾病可观察到的特征或形状)
  2. HumLoc:人类蛋白质亚细胞位置预测数据集(预测蛋白质亚细胞位置可以帮助识别药物靶点)标签是位置信息,14个维度one-hot编码
  3. EukLoc:真核生物蛋白质亚细胞位置预测数据集
    在这里插入图片描述
    HUMLOC、EUKLOC有着较高的同配性

Results

在这里插入图片描述


  1. DBLP
  2. EukLoc
  3. HumLoc
  4. PCG

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1395601.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开发日记3(java面向对象)

(一)java面向对象 1、面向过程和面向对象 很久很久以前,系统学习过C语言,但也只是学过,没有产生过除了考试以外的其他价值。后来工作中很多伙伴都在使用java,虽然当时自己不写java,但很久之前…

Linux CentOS stream9 nmcli

nmcli命令是redhat7或者centos7之后的命令,该命令可以完成网卡上所有的配置工作,并且可以写入配置文件,永久生效。 一、前期准备 在讨论、学习与训练nmcli命令前,必须明确几点: 1.开启NetworkManager 使用nmcli命令…

数据结构--串

本文为复习的草稿笔记,,,有点乱 1. 串的基本概念和基本操作 串是由零个或多个字符组成的有限序列 2. 串的存储结构 3.串的应用 模式匹配 BF算法(简单匹配算法 穷举法 算法思路:从子串的每一个字符开始依次与主串…

百度云网盘下载速度如何提升到正常速度

引入问题 我们在下载代码学习资料的时候大多数都是百度云网盘,但是限速!下载的十分的慢,有什么办法能让我们不开通会员就能享受正常速度呢? 当然有! 解决百度云网盘下载速度过慢,提高到正常速度 点击右…

SpringBoot + 自定义注解 + AOP 打造通用开关

前言 最近在工作中迁移代码的时候发现了以前自己写的一个通用开关实现,发现挺不错,特地拿出来分享给大家。 为了有良好的演示效果,我特地重新建了一个项目,把核心代码提炼出来加上了更多注释说明,希望xdm喜欢。 案例 …

编译FFmpeg4.3.1 、x264并移植到Android

1、前言 FFmpeg 既是一款音视频编解码工具,同时也是一组音视频编解码开发套件。 2、准备工作 系统:LinuxNDK:android-ndk-r21b-linux-x86_64.zipFFmpeg:ffmpeg-snapshot.tar.bz2x264:x264 3、下载NDK 在linux环境中…

触摸按键控制LED灯

目录 1.理论 2.代码 2.1 touch_ctrl_led.v 2.2 tb_touch_ctrl_led 1.理论 以上的波形图的touch_flag是采用组合逻辑的方式产生的。 以上的touch_flag是采用时序逻辑产生的,时序逻辑会延迟一拍。 以上是上升沿和下降沿的组合逻辑和时序逻辑实现,逻辑或…

Spring Boot - 利用Resilience4j-Circuitbreaker实现断路器模式_防止级联故障

文章目录 PreResilience4j概述Resilience4j官方地址Resilience4j-Circuitbreaker应用场景微服务演示Address servicePOMModelRepositoryServiceControllerData InitProperties测试 Order serviceModelRepositoryServiceSet UpProperties测试 探究断路器调用order-service API 2…

spring boot学习第八篇:kafka监听消费

为了实现监听器功能 pom.xml文件内容如下&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLoc…

.NetCore Flurl.Http 4.0.0 以上管理客户端

参考原文地址&#xff1a;Managing Clients - Flurl 管理客户端 Flurl.Http 构建在堆栈之上System.Net.Http。如果您熟悉HttpClient&#xff0c;那么您可能听说过这个建议&#xff1a;不要为每个请求创建一个新客户端&#xff1b;重复使用它们&#xff0c;否则将面临后…

navigateTo失效-跳转不了页面解决办法!uniapp\vue

改了一个小时多的错误&#xff0c;跳转页面无论怎么样都跳转不了&#xff0c;有2个问题&#xff1a; 注意&#xff1a;uniapp的报错可以在console里检查&#xff01; 1.pages.json文件没有配置路径&#xff0c; 在pages:[ ]里面加 &#xff08;根据自己的路径进行修改 {&qu…

Plane Geometry (Junior High School)

初中平面几何&#xff0c; ACBD, ∠CAD60&#xff0c;∠C40&#xff0c;求∠B Vertical Calculation-CSDN博客 Rectangular Area-CSDN博客

详细介绍IP 地址、网络号和主机号、ABC三类、ip地址可分配问题、子网掩码、子网划分

1、 IP 地址: 网络之间互连的协议&#xff0c;是由4个字节(32位二进制)组成的逻辑上的地址。 将32位二进制进行分组&#xff0c;分成4组&#xff0c;每组8位(1个字节)。【ip地址通常使用十进制表示】ip地址分成四组之后&#xff0c;在逻辑上&#xff0c;分成网络号和主机号 2…

Java多线程并发篇----第二十二篇

系列文章目录 文章目录 系列文章目录前言一、DelayQueue(缓存失效、定时任务 )二、SynchronousQueue(不存储数据、可用于传递数据)三、LinkedTransferQueue四、LinkedBlockingDeque前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家…

港科夜闻|香港科大团队研发多功能,可重构和抗破坏单线感测器阵列

关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1、香港科大团队研发多功能、可重构和抗破坏单线感测器阵列。研究人员开发出一种受人类听觉系统启发的感测器阵列设计技术。透过模仿人耳根据音位分布来区分声音的能力&#xff0c;这种新型感测器阵列方法可能优化感测器阵列…

Ansible-基础模块

目录 一 Ansible概述 1.Ansible是什么 2.为什么要学Ansible&#xff08;特点&#xff09; 二 Ansible的架构及运行机制 1.Ansible的架构 2.Ansible的运行机制 三 Ansible环境安装部署 1.控制节点安装ansible 2.Ansible目录结构 3.Ansible 命令行模块 &#xff08;1&a…

强化学习(二)多臂老虎机 “Multi-armed Bandits”——1

将强化学习与机器学习、深度学习区分开的最重要的特征为&#xff1a;它通过训练中信息来评估所采取的动作&#xff0c;而不是给出正确的动作进行指导&#xff0c;这极大地促进了寻找更优动作的需求。 1、多臂老虎机&#xff08;Multi-armed Bandits&#xff09;问题 赌场的老虎…

解析Transformer模型

原文地址&#xff1a;https://zhanghan.xyz/posts/17281/ 进入Transformer RNN很难处理冗长的文本序列&#xff0c;且很容易受到所谓梯度消失/爆炸的问题。RNN是按顺序处理单词的&#xff0c;所以很难并行化。 用一句话总结Transformer&#xff1a;当一个扩展性极佳的模型和一…

全链路压力测试:现代软件工程中的重要性

全链路压力测试不仅可以确保系统在高负载下的性能和稳定性&#xff0c;还能帮助企业进行有效的风险管理和性能优化。在快速发展的互联网时代&#xff0c;全链路压力测试已成为确保软件产品质量的关键步骤。 1、测试环境搭建 测试应在与生产环境尽可能相似的环境中进行&#xff…

RabbitMQ 部署与配置[CentOS7]

# RabbitMQ,Erlang 版本包对应 https://rabbitmq.com/which-erlang.html#eol-seriescd /usr/local/src# Erlang下载 # https://github.com/rabbitmq/erlang-rpm/releases https://github.com/rabbitmq/erlang-rpm/releases/download/v23.3.4.5/erlang-23.3.4.5-1.el7.x86_64.rp…