马尔可夫聚类算法

news2024/11/25 11:45:22

马尔可夫聚类算法(Markov Clustering Algorithm,MCL)是一种用于图聚类的算法,广泛应用于生物信息学、社交网络分析、推荐系统等领域。

其核心思想是模拟随机游走过程,通过迭代地扩散和收缩图上的概率分布来识别图中的自然聚类或社区结构。

马尔可夫聚类算法的核心步骤

  1. 构建转移矩阵

    1. 对于给定的图,生成转移矩阵(Markov Matrix),其中每个元素表示从一个节点转移到另一个节点的概率。

    2. 设图的邻接矩阵为 A,转移矩阵 M 的元素定义为

      M_{ij} = \frac{A_{ij}}{\sum_k A_{ik}}

      ,即从节点 i 转移到节点 j 的概率是节点 i 的所有边的权重的归一化值。

  2. 扩散(扩展)操作:

    • 对转移矩阵进行幂运算 Mr,通常 r=2。这相当于模拟多步随机游走,使得概率分布扩散开来。

    • 扩展步骤是为了使节点间的相似性得以传播,能捕捉到较长路径上的信息。

  3. 收缩(膨胀)操作

    • 对转移矩阵的每个元素进行逐项幂操作

      M_{ij} = M_{ij}^\alpha

      ,然后重新归一化。通常,膨胀因子 α 取值大于1。

    • 膨胀步骤是为了增强高概率路径,同时抑制低概率路径,这样能把概率集中在更紧密相关的节点上,从而分离出聚类。

  4. 归一化

    • 收缩操作后需要重新归一化矩阵,使得每行的概率和为1,以确保结果仍然是一个有效的转移矩阵。

  5. 迭代

    • 不断重复扩散和收缩操作,直到矩阵收敛,得到稳定的概率分布。收敛时,转移矩阵的列通常会收敛到一些特定的块结构,这些块对应图中的不同聚类。

  6. 解码聚类

    • 通过观察收敛后的矩阵,确定聚类。一般来说,转移矩阵的每一列的高值(接近1)集中在特定的行上,这些行就代表了同一个聚类。

算法优点

  • 自适应性:不需要预先指定聚类的数量。

  • 适应性强:可以很好地处理带有噪声的网络。

  • 捕捉复杂结构:能有效捕捉到网络中的复杂拓扑结构。

算法缺点

  • 参数选择:膨胀因子和扩展次数的选择对结果有较大影响。

  • 计算复杂度:对于大规模图,计算量较大,需要有效的矩阵运算方法。

算法实现

import numpy as np

def add_self_loops(matrix):
    """在对角线上添加自环(self-loops)"""
    np.fill_diagonal(matrix, 1)
    return matrix
def normalize(matrix):
    """归一化矩阵使其行和为1"""
    return matrix / np.sum(matrix, axis=1, keepdims=True)

def expand(matrix, power):
    """对矩阵进行幂次乘法"""
    return np.linalg.matrix_power(matrix, power)
def inflate(matrix, power):
    """对矩阵元素逐元素幂乘"""
    return normalize(np.power(matrix, power))

def converged(matrix1, matrix2, tol=1e-5):
    """检查矩阵是否收敛"""
    return np.all(np.abs(matrix1 - matrix2) < tol)

def mcl(graph, expand_factor=2, inflate_factor=2, max_iterations=100, tol=1e-5):
    """执行马尔可夫聚类算法"""
    # 创建初始转移矩阵
    matrix = add_self_loops(graph)
    matrix = normalize(matrix)

    for i in range(max_iterations):
        print(f"Iteration {i+1}")
        previous_matrix = matrix.copy()
        # 扩展
        matrix = expand(matrix, expand_factor)
        # 收缩(膨胀)
        matrix = inflate(matrix, inflate_factor)
        # 检查收敛
        if converged(previous_matrix, matrix, tol):
            break

    return matrix

def extract_clusters(result_matrix):
    """
    从 result_matrix 中提取聚类。
    :param result_matrix: 马尔可夫聚类算法得到的稳定转移矩阵
    :return: 每个节点的聚类标签
    """
    # 获取每一行的最大值索引,这些索引代表聚类标签
    cluster_assignments = np.argmax(result_matrix, axis=1)
    return cluster_assignments

def group_nodes_by_cluster(cluster_assignments):
    """
    将节点按聚类分组。
    :param cluster_assignments: 每个节点的聚类标签
    :return: 每个聚类包含的节点列表
    """
    clusters = defaultdict(list)
    for node, cluster in enumerate(cluster_assignments):
        clusters[cluster].append(node)
    return clusters
# 示例图(邻接矩阵)
graph = np.array([
    [0, 1, 1, 0, 0, 0],
    [1, 0, 1, 1, 0, 0],
    [1, 1, 0, 0, 0, 0],
    [0, 1, 0, 0, 1, 1],
    [0, 0, 0, 1, 0, 1],
    [0, 0, 0, 1, 1, 0]
])

# 执行MCL
result_matrix = mcl(graph)

# 提取聚类信息
cluster_assignments = extract_clusters(result_matrix)
clusters_grouped = group_nodes_by_cluster(cluster_assignments)

print("Cluster Assignments:", cluster_assignments)
print("Grouped Clusters:", clusters_grouped)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1852580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基础的重点知识-01-基础

文章目录 开发前言Java语言开发环境入门程序说明常量变量和数据类型数据类型转换运算符方法解析 开发前言 常用DOS命令 Java语言的初学者&#xff0c;学习一些DOS命令&#xff0c;会非常有帮助。DOS是一个早期的操作系统&#xff0c;现在已经被Windows系统取代&#xff0c;对于…

【mysql】建库

通过命令建库&#xff1a; CREATE DATABASE database_name; 如果是用Workbench&#xff1a;

React+TS前台项目实战(十六)-- 全局常用组件Pagination封装

文章目录 前言Pagination组件1. 功能分析2. 代码详细注释3. 使用方式4. 效果展示 [PC端&手机端] 总结 前言 在上篇文章中&#xff0c;我们封装了表格组件Table&#xff0c;本文则继续封装配套使用的分页器组件。想看Table表格组件的&#xff0c;可自行查看全局常用组件Tab…

【pytorch04】创建Tensor

numpy中的数据创建tensor 数据已经在numpy中了&#xff0c;将numpy中的数据转到tensor中来&#xff0c;因为我们将使用tensor在GPU上进行加速运算 从NUMPY导入的FLOAT其实是DOUBLE类型 list中的数据创建tensor FloatTensor()和大写的Tensor()接收的是shape&#xff08;即数据的…

敏捷开发笔记(第7章节)--什么是敏捷设计

目录 1&#xff1a;PDF上传链接 7.1: 软件出了什么错 7.2: 设计的臭味--腐化软件的气味 7.2.1: 什么激化了软件的腐化 7.2.2: 敏捷团体不允许软件腐化 7.3: “copy”程序 1: 初始设计 2: 需求在变化 3: 得寸进尺 4: 期望变化 7.3.1: “copy”程序的敏捷设计 7.3.2:…

【职场人】职场故事:与邀功精的共舞

在我的职业生涯中&#xff0c;我遇到过一位特别引人注目的同事&#xff0c;我们都叫他李经理。他的工作能力并不差&#xff0c;但他有一个习惯&#xff0c;那就是喜欢邀功。他的这种习惯&#xff0c;不仅让我印象深刻&#xff0c;也让我在合作中学会了不少东西。 恶心的四件事 …

MySQL学习笔记-进阶篇-视图和存储过程

四、视图和存储过程 视图 存储过程 基本语法 创建 CREATE PROCEDURE ([参数列表]) BEGIN --SQL END; 调用 CALL 存储过程名&#xff08;[参数列表]&#xff09; 查看 --查看指定数据库的存储过程及状态信息 SELECT * FROM INFORMATION_SCHEMA.ROUTINES WHERE ROUTINE_SHCEMA…

AI-智能体

什么是 AI 智能体&#xff1f; 「AI 智能体」这个术语并没有真正被定义&#xff0c;对智能体究竟是什么也存在很多的争议。 AI 智能体可以定义为「一个被赋予行动能力的 LLM&#xff08;通常在 RAG 环境中进行函数调用&#xff09;&#xff0c;以便在环境中对如何执行任务做出…

第一次接触Swing

学习java版的HslCommunication发现使用的是Swing&#xff0c;所以了解了一下~ 了解&#xff1a; Swing是Java的标准库&#xff08;Java Foundation Classes, JFC&#xff09;的一部分&#xff0c;用于构建桌面应用程序的图形用户界面&#xff08;GUI&#xff09;。它是Java AWT…

华为某员工爆料:三年前985本科起薪30万,现在硕士起薪还是30w,感慨互联网行情变化

“曾经的30万年薪&#xff0c;是985本科学历的‘标配’&#xff0c;如今硕士也只值这个价&#xff1f;” 一位华为员工的爆料&#xff0c;揭开了互联网行业薪资变化的冰山一角&#xff0c;也引发了不少人的焦虑&#xff1a;互联网人才“通货膨胀”的时代&#xff0c;真的结束了…

Java-异常:不恰当的异常转换、不充分的日志记录、过度或不当的异常捕获

Java-异常&#xff1a;不恰当的异常转换、不充分的日志记录、过度或不当的异常捕获 Java-异常&#xff1a;不恰当的异常转换、不充分的日志记录、过度或不当的异常捕获一、前期准备二、案例分析1、不恰当的异常转换2、不充分日志记录3、过度或不当的异常捕获 三、正确处理方式1…

2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等

6月还有一周就要结束了&#xff0c;我们今天来总结2024年6月上半月发表的最重要的论文&#xff0c;重点介绍了计算机视觉领域的最新研究和进展。 Diffusion Models 1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation LlamaGen&#xff0c;是一个…

C++20中的Feature Test Mocros

C20定义了一组预处理器宏&#xff0c;用于测试各种语言和库的feature。 Feature Test Mocros(特性测试宏)是C20中引入的一种强大机制&#xff0c;用于应对兼容性问题。Feature Test Mocros作为预处理器指令(preprocessor directives)出现&#xff0c;它使你能够在编译过程中仔细…

Edge 浏览器退出后,后台占用问题

Edge 浏览器退出后&#xff0c;后台占用问题 环境 windows 11 Microsoft Edge版本 126.0.2592.68 (正式版本) (64 位)详情 在关闭Edge软件后&#xff0c;查看后台&#xff0c;还占用很多系统资源。实在不明白&#xff0c;关了浏览器还不能全关了&#xff0c;微软也学流氓了。…

计算机网络期末

1、IP 地址为:192.168.0.254,它的子网掩码应该为( ) A.255.255.255.0 B.255.255.254.0 C.255.255.252.0 D.255.255.0.0 2、最容易产生网络可靠性瓶颈问题的拓扑构型是&#xff08; &#xff09;。 A 总线型 B 星型 C 环型 D 网状型 3、HTTP 就是电子邮件阅读协议&#xff0…

Android开发实用必备的几款插件,提高你的开发速度

1.GsonFormat 使用方法&#xff1a;快捷键AltS也可以使用AltInsert选择GsonFormat&#xff0c;作用&#xff1a;速将json字符串转换成一个Java Bean&#xff0c;免去我们根据json字符串手写对应Java Bean的过程。 2.ButterKnife Zelezny 又叫黄油刀 使用方法&#xff1a;CtrlS…

Java程序之动物声音“模拟器”

题目&#xff1a; 设计一个“动物模拟器”&#xff0c;希望模拟器可以模拟许多动物的叫声和行为&#xff0c;要求如下&#xff1a; 编写接口Animal&#xff0c;该接口有两个抽象方法cry()和getAnimalName()&#xff0c;即要求实现该接口的各种具体的动物类给出自己的叫声和种类…

PostgreSQL如何定义缓冲区管理器?

目录 一、PostgreSQL是什么二、缓冲区管理器介绍三、缓冲区管理器的应用场景四、如何定义缓冲区管理器 一、PostgreSQL是什么 PostgreSQL是一种高级的开源关系型数据库管理系统&#xff08;RDBMS&#xff09;&#xff0c;它以其稳定性、可靠性和高度可扩展性而闻名。它最初由加…

史上最强面试题,拿大厂京东,阿里offer全靠它。程序员必看。

答&#xff1a;对于short s1 1; s1 s1 1;由于1是int类型&#xff0c;因此s11运算结果也是int 型&#xff0c;需要强制转换类型才能赋值给short型。而short s1 1; s1 1;可以正确编译&#xff0c;因为s1 1;相当于s1 (short)(s1 1);其中有隐含的强制类型转换。 #6、Java 有…

Trimesh介绍及基本使用

Trimesh介绍及基本使用 Trimesh是一个纯Python 工具库&#xff08;支持3.7版本以上&#xff09;&#xff0c;用于加载和使用三角形Mesh网格&#xff0c;支持多种常见的三维数据格式&#xff0c;如二进制/文本格式的STL、Wavefront OBJ、二进制/文本格式的PLY、GLTF/GLB 2.0、3…