【文献阅读】TAM: Topology-Aware Margin Loss for Class-Imbalanced Node Classification

news2025/1/23 3:23:44

Abstract

  • 在类别不平衡的图数据中学习无偏的节点表示是一项具有挑战性的任务,因为相邻节点之间存在相互作用。
  • 现有研究的共同点在于,它们根据少数类节点的总体数量“作为一个整体”进行补偿(忽略了图中的节点连接),这不可避免地增加了主要节点的误报案例。
  • 本文假设这些误报案例的增加与每个节点周围的标签分布有很大关系,并通过实验确认了这一点。基于此,本文提出了拓扑感知边缘(TAM)来反映学习目标中的局部拓扑。通过将每个节点的连接模式与类别平均的对应部分进行比较,并根据此自适应地调整边缘。

Introduction

由于自然图本质上可能存在类别不平衡,GNNs容易对主要类别产生偏见。从这些图中学习而不处理类别不平衡问题会导致次要类别的低准确率。尽管简单的解决方案是创建类别平衡的图,但以平衡方式收集数据并不总是可行的。

先前的研究基于数量补偿次要类别时,某些节点可能显著降低其他类别的表现。考虑到GNNs消息传递算法的固有特性,本文假设在消息传递的聚合过程中,整个表示学习过程可能会被加权的次要节点误导,并且这种影响更归因于与其他(主要)类别具有高连接率的节点。

本文观察到补偿具有高连接率到主要类别的次要节点显著增加了主要节点的误报率。基于这一观察,作者确认现有的不平衡处理算法在权重次要类别时未能反映这一局部拓扑,因此表现不佳。

拓扑感知边缘(TAM),这是一种基于节点的logit调整方法,考虑了类别对的连接和邻居分布统计的局部拓扑。

关键如下:如果一个(次要)节点在考虑其局部拓扑时大概率可能与特定(主要)类别混淆,则应该减少这些(主要)类别的边缘,以便GNNs能够以良好校准的方式进行训练(即,当一些次要节点异常地有许多主要邻居时,我们减少其权重)。为此,首先设计了异常连接感知边缘(ACM),如果节点对目标类别有相对高的邻居密度,则减少该节点的目标类别边缘。同时,引入了异常分布感知边缘(ADM),根据目标类别的平均邻居统计计算混淆程度,并进一步调整目标类别的边缘。

Contribution:
假设并确认,由于补偿次要节点而产生的误报不会均匀分布在图上,而是受到每个节点周围邻居标签分布的高度影响。证明了在与主要节点有较高连接的次要节点周围出现了显著高的误报率。

Preliminary

在这里插入图片描述
在这里插入图片描述

这两个概念的计算是基于所有节点的邻居标签分布已知的假设。

Node Classification with Graph Neural Networks

在这里插入图片描述

关于GCN的具体介绍与代码解读详见:
【代码解读】torch_geometric.nn.GCNConv

Margin-based Class-Imbalance Handling

基于边缘的方法通过在训练阶段增加次要类别到主要类别的边缘或减少主要类别到次要类别的边缘来减轻对主要类别的偏见,并表现出比其他损失修改算法显着优越的性能。
带有平衡Softmax的交叉熵(CE)
在这里插入图片描述 N k N_k Nk是第k类的总数。

在多类Softmax 回归中,平衡 Softmax 最小化了泛化界限。由于基于边缘的方法可以通过考虑两类之间的相对数量比例来调整logits,并且在视觉领域中有效,本文在算法中采用了基于边缘的方法。

Analysis of Anomalous Connectivity

主要研究假设:在基于数量的补偿过程中,与连接模式偏离的小类节点会引起过多的误报。为了实证验证的假设,本节调查了小类节点上误报的拓扑位置。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在图 1(a)和(b)中,无论每个基线的补偿策略如何,小类节点上的误报都集中在与其他类别具有更高连接度的小类节点周围(与类别平均水平相比)。有趣的是,误报的适用性在同质和异质连接图中一致表现出来。

Proposed Method

在这里插入图片描述TAM基于单个节点的局部拓扑结构来确定不平衡补偿的强度。在第3节中,研究了强化与其他类连接更多的小节点而不是类平均水平会导致小类的假阳性。受此观察启发,本文识别拓扑上不可能的节点,并自适应调整这些节点的边距。

TAM 的两个核心组成部分:首先,如果目标节点在邻居标签分布(NLD)中的类别占比大于类别平均连接度,则异常连接边际(ACM)会减少目标节点(其中一个邻居节点)的类别边际(第 4.1 节)。然后,异常分布感知边际(ADM)根据使用目标类别平均 NLD 和自身类别平均 NLD 计算的相对距离调整边际(第 4.2 节)。

在这里插入图片描述在这里插入图片描述

Anomalous Connectivity-Aware Margin

在这里插入图片描述

ACM的目的是通过校准 C y v C_{y_v} Cyv D v D_v Dv的偏差来修改每个类别的边际。

  • 第一步:对于给定节点 v v v,比较 D y v , y v D_{{y_v},{y_v}} Dyv,yv与类别 y y y的平均同质性比率 C y v , y v C_{{y_v},{y_v}} Cyv,yv,如果 C y v , y v / D v , y v C_{{y_v},{y_v}}/D_{v,{y_v}} Cyv,yv/Dv,yv较高,我们会减少所有类别的边际。这里的直觉是:由于不遵循类别同质性趋势的节点在不平衡处理过程中会有风险,我们在训练阶段使这些节点的学习信号变弱。
  • 第二步:为了进一步控制每个类别 t 的边际,计算与类别 t t t的连接比率超过类别平均水平的程度: D v , t / C y v , t D_{v,t}/C_{{y_v},t} Dv,t/Cyv,t,值越高表明节点 v v v 有很大机会与类别 t t t 混淆。因此,减少类别 t t t 的边际,使 GNN 能在一个良好校准的方式下进行训练。

在这里插入图片描述

Anomalous Distribution-Aware Margin

异常分布感知边际(ADM),它根据目标类别相对于自身类别(给定节点的类别)在 NLD 空间中的相对接近程度来补充性地调整目标类别的边际。由于两类在 NLD 空间越接近,区分它们就越困难,因此设计了 ADM 以对目标类别与自身类别之间的距离敏感。
在这里插入图片描述
在这里插入图片描述

Class-wise Temperature for Unlabeled Nodes

目前为止,我们假设在计算 NLD 𝐷 和类别连接矩阵 𝐶 时,标记节点邻居的标签信息是可访问的。然而,在大多数节点分类场景中,除了少量的标记节点集合外,标签信息是未知的。因此,为了在获得𝐷和𝐶时估计所需的类别信息,我们利用正在训练的模型的预测结果。

为了改进模型预测,引入了类别温度策略。
在这里插入图片描述

Algorithm 1:Topology-Aware Margin

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1978198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

理解<共轭复数乘法,复数乘法,复数除法>

目录 复数乘法共轭复数乘法的理解复数除法 复数乘法 共轭复数乘法的理解 共轭复数乘法:可以理解为滤波,计算两序列的相关。即一个序列固定,另一个序列进行滑动计算该点的累积和。因为傅里叶变换的卷积定理,时域卷积对于频域相乘。…

web漏洞-知识点详解

先放张图!右边漏洞比左边漏洞更重要!右边漏洞更多!重点讲述右边漏洞! sql注入 危害情况:可以获取网站数据库中的数据,如果数据中有敏感信息,比如管理员账号密码,就可以登录后台 漏…

学生管理系统之更新和删除、筛选

学生管理系统之更新和删除 建立新的窗口 添加组件 进行布局 使用Widget把二个放在一块,作为一列,然后全选进行栅格布局,最后添加弹簧进行微调。 编写增加的槽函数 在主函数中调用对话框

CC++内存魔术:掌控无形资源

hello,uu们,今天呢我们来详细讲解C&C的内存管理,好啦,废话不多讲,开干 1:C/C内存分布 2:C语言中动态内存管理方式:malloc/calloc/realloc/free 3:C内存管理方式 3.1:new/delete操作内置类型 3.1.1:代码1 3.1.2:代码2 3.2:new和delete操作自定义类型 3.2.1:C语言创建…

初识增强现实(AR)

初识增强现实(AR) 笔记来源: 1.2023年中国增强现实(AR)行业研究报告 2.wiki/Augmented reality 3.In-Depth Review of Augmented Reality: Tracking Technologies, Development Tools, AR Displays, Collaborative AR…

js第二天

比较运算符 ==左右两边值是否相等 ===左右两边值和类型是否全相等 !==左右两边是否类型和值全不相等 undefin === null NaN === NaN(错误,NaN不等于任何值) =单等是赋值 ==双等是判断 ===三等是全等,开发中判断是否相等,一般用全等。 console.log 先比较a和a,相…

电脑添加虚拟网卡与ensp互联,互访

一、按照过程 1、打开设备管理器 2、点击网络适配器,点击左上角操作,点击“添加过时硬件” 3、下一页 4、选择“安装我手动从列表选择的硬件”,下一页 5、下拉,选择“网络适配器”,下一页 6、厂商选择“Microsoft”&…

基于MFC对话框吸管实验

1.新建项目 2.将bmp图像放入res文件下 3.导入bmp文件到bitmap 4.在dlg中添加picture控件,修改控件属性(Type Image属性),把bitmap资源添加到控件中 5.重写鼠标单击鼠标中键响应事件 6.主要源代码 void CMFC吸管Dlg::OnMButtonDow…

使用Springboot + netty 打造聊天服务之Nacos集群问题记录

目录 1、前言1.1、方法一1.2、方法二 2、方案二实战2.1、在netty服务里加上ws连接、中断事件2.2、在netty服务里加上消息服务 4、总结 使用Springboot netty 打造聊天服务系列文章 第一章 初始搭建工程 第二章 Nacos集群问题记录 1、前言 在使用Springboot Nacos Netty(Web…

SAPUI5基础知识23 - 模型的种类(小结)

1. 背景 在前序的学习中,我们学习了SAPUI5的MVC架构中的各个知识点,包括视图的设计,控制器的设计,以及模型的使用。 在企业级应用程序中,对于数据的处理的需求是很大的,在学习更复杂的数据绑定方式之前&a…

Pr2024苹果(mac)版剪辑软件安装下载(附下载链接)

Adobe Premiere Pro 2024(简称PR 2024)是一款由Adobe公司开发的专业视频编辑软件,被广泛应用于电影、电视、广告和社交媒体视频的制作。以下是对PR 2024的详细简介: 链接:https://pan.baidu.com/s/1rN-3kB3KQgn0JswDa…

《学会 SpringMVC 系列 · 剖析初始化》

📢 大家好,我是 【战神刘玉栋】,有10多年的研发经验,致力于前后端技术栈的知识沉淀和传播。 💗 🌻 CSDN入驻不久,希望大家多多支持,后续会继续提升文章质量,绝不滥竽充数…

win10系统资源监视器磁盘蓝黄线、活动时间代表什么意思?

win10系统资源监视器磁盘蓝黄线、活动时间代表什么意思?在win10系统中磁盘在运行工程中会有不同的数据信息显示,如下图所示,10兆字节/秒、磁盘中蓝线和黄线、活动时间都达标什么意思呢?本文中winwin7小编给大家分享介绍下win10系统…

Python 爬虫入门(六):urllib库的使用方法

Python 爬虫入门(六):urllib库的使用方法 前言1. urllib 概述2. urllib.request 模块2.1 发送GET请求2.2 发送POST请求2.3 添加headers2.4 处理异常 3. urllib.error 模块4. urllib.parse 模块4.1 URL解析4.2 URL编码和解码4.3 拼接URL 5. ur…

MySQL主从复制原理及实现教程

MySQL主从复制是一种数据复制技术,通过建立主服务器(Master)与从服务器(Slave)之间的数据同步,实现数据的备份、负载均衡和高可用性。 主从复制原理 MySQL binlog(binary log 即二进制日志文件) 主要记录…

Python 如何创建和操作矩阵?

在Python中,矩阵是二维数组的一种常见表示方式,特别是在数学和科学计算领域。矩阵用于表示和操作多维数据,包括数据分析、图像处理、机器学习、以及物理模拟等诸多领域。Python的NumPy库是处理矩阵的主要工具之一。NumPy提供了高效的多维数组…

Deformable Detr

参考: https://search.bilibili.com/all?vt68804228&keywordco-detr&from_sourcewebtop_search&spm_id_from333.1007&search_source5 详解可以看李宏毅的transformer视频。

SAP MM维护采购信息记录只到采购组织层级时候,税码输入报错 MESSAGE 06388

原因:税确认应该是在工厂层级 解决:对06388 消息号进行更改类型改成W

Java-文件操作和IO

文件介绍 文件本身有多重含义,狭义的文件,特指硬盘上的文件(以及保存文件的目录),广义的文件:计算机上的很多硬件设备,软件资源,在操作系统中,都会被视为是"文件" 文件除了有数据内容之外,还有一部分信息,例如文件名,文件类型,文件大小,这些信息可以称作文件的元信…

Redis-管道

面试题 如何优化频繁命令往返造成的性能瓶颈 Redis是一种基于客户端-服务端模型以及请求/响应协议的TCP服务。一个请求会遵循以下步骤: 1 客户端向服务端发送命令分四步(发送命令-命令排队一命令执行-返回结果),并监听Socket返回,通常以阻塞模式等待服…