超图聚类论文阅读1:Kumar算法

news2025/1/11 5:01:10

超图聚类论文阅读1:Kumar算法

《超图中模块化的新度量:有效聚类的理论见解和启示》

《A New Measure of Modularity in Hypergraphs: Theoretical Insights and Implications for Effective Clustering》

COMPLEX NETWORKS 2020, SCI 3区

具体实现源码见HyperNetX库

工作:

  1. 针对超图聚类问题推广模块度最大化框架
  2. 引入了一个超图空模型,它与无向图的配置模型完全对应。
  3. 推导出一个保留超图节点度序列的邻接矩阵缩减

成果:

  1. 使用 Louvain 方法最大化由此产生的模块化函数,已知在图实践中效果很好
  2. 在几个真实世界的数据集上展示了我们的方法的有效性

简介

先前工作

  • 注意力限制在 k-均匀超图上,其中所有超边具有相同的固定大小。

    提出合适的超图拉普拉斯算子来扩展一般超图的谱聚类框架——隐含了图扩展的思想

  • 模块度最大化是图上聚类的另一种方法,它提供了一个标准来衡量模块化函数中的集群质量

    经典方法为louvain算法

  • 团扩展问题:会丢失编码在超边结构中的关键信息。也不会保留超图的节点度——这是模块度最大化方法基于的零模型所必需的

  • 有多种切割超边的方法。根据切割不同侧节点的比例和分配,聚类将发生变化。需要考虑超边权重

本文贡献

  1. 在超图上定义了一个空模型(可以保持超图节点度信息),并使用上述定义了一个模块化函数,可以使用 Louvain 方法将其最大化。
  2. 提出了一种迭代超边重新加权过程,该过程利用来自超图结构的信息和超边切割的平衡。
  3. 在几个真实世界的数据集上凭经验评估了生成的算法,证明了其相对于竞争基线的有效性和效率。

背景知识

  1. 超图——关联矩阵、团扩展
  2. 模块度

超图模块度

节点的采样概率与其参与的超边的数量(或在加权情况下,总权重)成正比
P i j h y p = d ( i ) × d ( j ) ∑ v ∈ V d ( v ) P_{i j}^{h y p}=\frac{d(i) \times d(j)}{\sum_{v \in V} d(v)} Pijhyp=vVd(v)d(i)×d(j)

  • 在进行团扩展时,相应图中节点的度数与它在图中的度数不同原始超图

对于每个超边 e,节点度被多算了一个因子 (δ(e) − 1)。因此,我们可以通过将每个 w(e) 缩小一个因子 (δ(e) − 1) 来纠正它。这导致以下更正的邻接矩阵:
A h y p = H W ( D e − I ) − 1 H T A^{h y p}=H W\left(D_e-I\right)^{-1} H^T Ahyp=HW(DeI)1HT
我们可以使用这种保留节点度数的缩减,将对角线归零,以实现方程式中的空模型。

超图模块度的表达式:
Q h y p = 1 2 m ∑ i j [ A i j h y p − P i j h y p ] δ ( g i , g j ) Q^{h y p}=\frac{1}{2 m} \sum_{i j}\left[A_{i j}^{h y p}-P_{i j}^{h y p}\right] \delta\left(g_i, g_j\right) Qhyp=2m1ij[AijhypPijhyp]δ(gi,gj)
与任何加权图一样,此函数的范围是 [−1, 1]。当超边中没有一对节点属于同一集群时,我们将得到 Qhyp = −1,而当属于同一超边的任何两个节点始终属于同一集群时,我们将得到 Qhyp = 1。 Qhyp = 0,对于任何一对节点 i 和 j,同时包含 i 和 j 的超边数等于包含 i 和 j 的随机连线超边数,由空模型给出。

迭代超边重新加权

问题:最小切割算法会支持尽可能不平衡的切割

思路:我们希望在簇中保留不平衡的超边,并切割更平衡的超边——可以通过增加获得不平衡切割的超边的权重,并减少获得更平衡切割的超边的权重来完成。

超边被一分为二,两边节点数分别为k1、k2:
t = ( 1 k 1 + 1 k 2 ) × δ ( e ) t=\left(\frac{1}{k_1}+\frac{1}{k_2}\right) \times \delta(e) t=(k11+k21)×δ(e)

t值示例

k 1 = k 2 = δ ( e ) / 2 k1=k2=\delta(e)/2 k1=k2=δ(e)/2时,t取最小值4,推广上式:
w ′ ( e ) = 1 m ∑ i = 1 c 1 k i + 1 [ δ ( e ) + c ] w^{\prime}(e)=\frac{1}{m} \sum_{i=1}^c \frac{1}{k_i+1}[\delta(e)+c] w(e)=m1i=1cki+11[δ(e)+c]
——+1 和 +c 项都被添加用于平滑,以解决任何 ki 为零的情况。我们除以 m 来归一化权重

令 wt(e) 为超边 e 在第 t 次迭代中的权重,w’(e) 为在给定迭代中计算的权重,则权重更新规则可写为:
w t + 1 ( e ) = α w t ( e ) + ( 1 − α ) w ′ ( e ) w_{t+1}(e)=\alpha w_t(e)+(1-\alpha) w^{\prime}(e) wt+1(e)=αwt(e)+(1α)w(e)

示例

初始的切分很不均匀,有1:4、1:2、2:3等切分,改进后,不均匀的切割被去除——h1 和 h3 中的单个节点最初分配给另一个集群,已被拉回它们各自的(更大的)集群。

小例子

实验

度量指标

  • 使用平均 F1 度量兰德指数RI来评估具有真实类别标签的真实世界数据的聚类性能

几种用作对比的方法

  1. 团扩展+louvain

  2. 超图谱聚类

  3. hMETIS 和 PaToH

数据集

  • MovieLens:联合导演
  • Cora 和 Citeseer:论文共同作者
  • TwitterFootball:足球俱乐部
  • Arnetminer:共引论文

结果

  • 在所有数据集上显示最佳平均 F1 分数、在除一个数据集外的所有数据集上显示最佳兰德指数分数
  • 在所有数据集和两种实验设置上都优于各自的团扩展方法
  • f分析得出碎片边增加,这可能对应于更平衡的切割

结论

  • 考虑了超图上的模块化最大化问题。在提出超图的模块化函数时,我们推导出了一个节点度保持图缩减和一个超图空模型
  • 为了进一步细化聚类,我们提出了一种超边重新加权过程,可以平衡聚类方法引起的切割
  • 迭代重新加权模块化最大化 (IRMM)在数据集上表现出不错的性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/984646.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SWT】 Button 处理 Checkbox 按钮的选中与反选事件

介绍: 在使用 Java SWT(Standard Widget Toolkit)创建图形用户界面时,经常需要处理按钮的选中和反选事件。本文将介绍如何通过添加 SelectionListener 监听器来实现按钮选中与反选事件的处理,并相应地修改相关变量的值…

2023国赛数学建模B题思路分析 - 多波束测线问题

# 1 赛题 B 题 多波束测线问题 单波束测深是利用声波在水中的传播特性来测量水体深度的技术。声波在均匀介质中作匀 速直线传播, 在不同界面上产生反射, 利用这一原理,从测量船换能器垂直向海底发射声波信 号,并记录从声波发射到…

【MySQL系列】MySQL的事务管理的学习(一)_ 事务概念 | 事务操作方式 | 事务隔离级别

「前言」文章内容大致是MySQL事务管理。 「归属专栏」MySQL 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 一、事务概念二、事务的版本支持三、事务提交方式四、事务常见的操作方式4.1 事务正常操作4.2 事务异常验证 五、事务隔离级别5.1 查看与设置隔离性5.2 读未提交&…

flutter报错-cmdline-tools component is missing

安装完androidsdk和android studio后,打开控制台,出现错误 解决办法 找到自己安装android sdk的位置,然后安装上,并将下面的勾选上 再次运行 flutter doctor 不报错,出现以下画面 Doctor summary (to see all det…

视频融合平台EasyCVR综合管理平台加密机授权报错invalid character是什么原因

视频融合平台EasyCVR综合管理平台具备视频融合汇聚能力,作为安防视频监控综合管理平台,它支持多协议接入、多格式视频流分发,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包…

Java版 招投标系统简介 招投标系统源码 java招投标系统 招投标系统功能设计

项目说明 随着公司的快速发展,企业人员和经营规模不断壮大,公司对内部招采管理的提升提出了更高的要求。在企业里建立一个公平、公开、公正的采购环境,最大限度控制采购成本至关重要。符合国家电子招投标法律法规及相关规范,以及…

【pytorch】数据加载dataset和dataloader的使用

1、dataset加载数据集 dataset_tranform torchvision.transforms.Compose([torchvision.transforms.ToTensor(),])train_set torchvision.datasets.CIFAR10(root"./train_dataset",trainTrue,transformdataset_tranform,downloadTrue) test_set torchvision.data…

高德地图,绘制矢量图形并获取经纬度

效果如图 我用的是AMapLoader这个地图插件,会省去很多配置的步骤,非常方便 首先下载插件,然后在局部引入 import AMapLoader from "amap/amap-jsapi-loader";然后在methods里面使用 // 打开地图弹窗mapShow() {this.innerVisible true;this.$nextTick(() > {…

祝贺!Databend Cloud 入驻 AWS 云市场

关于 Databend Cloud Databend Cloud 是基于开源云原生数仓项目 Databend 打造的一款易用、低成本、高性能的新一代大数据分析平台,提供一站式 SaaS 服务,免运维、开箱即用。 Databend Cloud 架构如下: 存储层完全面向对象存储而设计。 计算…

2023年海外推广怎么做?

答案是:2023海外推广可以选择谷歌SEO谷歌Ads双向运营。 理解当地文化 成功的海外推广首先是建立在对当地文化的深入了解和尊重的基础上。 本土化策略 为了更好地与当地用户互动,你的品牌、产品或服务需要与他们的文化和生活方式紧密相连。 例如&…

Linux/Windows中根据端口号关闭进程及关闭Java进程

目录 Linux 根据端口号关闭进程 关闭Java服务进程 Windows 根据端口号关闭进程 Linux 根据端口号关闭进程 第一步:根据端口号查询进程PID,可使用如下命令 netstat -anp | grep 8088(以8088端口号为例) 第二步:…

【大数据之Kafka】九、Kafka Broker之文件存储及高效读写数据

1 文件存储 1.1 文件存储机制 Topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的是Producer生产的数据。 Producer生产的数据会被不断追加到该log文件末端,为防止log文件过大导致…

【网络编程】深入了解UDP协议:快速数据传输的利器

(꒪ꇴ꒪ ),Hello我是祐言QAQ我的博客主页:C/C语言,数据结构,Linux基础,ARM开发板,网络编程等领域UP🌍快上🚘,一起学习,让我们成为一个强大的攻城狮&#xff0…

MILP(混合整数线性规划)

线性规划定义 线性规划问题需要满足以下三个条件: 1.每一个问题用一组决策变量表示某一方案 2.约束条件可以用一组线性等式或者线性不等式来表示 3.目标函数为由决策变量及其有关的价值系数构成线性函数 ILP与MILP定义 整数线性规划中如果所有的变量被限制为&a…

闭包的详细认识与实例

参考https://www.bilibili.com/video/BV1sY4y1U7BT/?spm_id_from333.337.search-card.all.click&vd_source2a0404a7c8f40ef37a32eed32030aa18 一、什么叫闭包 1、问题引出: 不准用全局变量,也不准在调用代码块使用变量,实现计数…

以气象行业为例,浅谈在ToB/ToG行业中如何做好UI设计

商业气象公司是典型的TOB/TOG性质的公司,客户包括农业、能源、航空航天、交通运输、建筑工程等行业,它们需要准确的气象数据、预报和分析来支持业务决策和运营管理。商业气象公司通常会提供各种气象服务,如气象数据采集与分析、预报产品、风险…

软文推广效果怎么样?这篇揭晓答案

软文推广是一种常用的网络营销手段,它通过以文章形式发布关于产品、服务或品牌的信息,来引起受众的兴趣和关注。相较于直接宣传广告,软文推广更注重内容的质量和吸引力,能够更好地传递信息并提升用户转化率。本文伯乐网络传媒将探…

2023高教社杯全国大学生数学建模竞赛选题建议

如下为C君的2023高教社杯全国大学生数学建模竞赛&#xff08;国赛&#xff09;选题建议&#xff0c; 提示&#xff1a;DS C君认为的难度&#xff1a;C<B<A&#xff0c;开放度&#xff1a;B<A<C 。 D、E题推荐选E题&#xff0c;后续会直接更新E论文和思路&#xf…

财报解读:休闲零食全渠道时代来临,卫龙如何追寻长期价值?

2023上半年&#xff0c;休闲零食行业进入边际复苏周期&#xff0c;据Sandalwood电商监测数据&#xff0c;2023年5月和6月&#xff0c;休闲食品线上销售同比增速分别为11%和12%。这一态势下&#xff0c;辣味休闲食品行业的龙头企业卫龙也取得阶段性成果。 近日&#xff0c;卫龙…

python+django医院住院收费管理系统设计与实现vue

基于Python语言设计并实现了医院管理系统。该系统基于B/S即所谓浏览器/服务器模式&#xff0c;应用B/S框架&#xff0c;选择MySQL作为后台数据库。系统主要包括首页、个人中心、用户管理、医生管理、科室管理、挂号管理、接诊管理、诊断结果管理、开处方管理、药房管理、药品出…