聚类算法的先验基础知识

news2025/1/19 13:02:38

聚类算法的先验基础知识

  • 1. 瑞利商
  • 2. 谱定理
  • 3. 联合概率
  • 4. 条件概率分布
  • 5. 边缘分布
  • 6. 贝叶斯定理
  • 7. 有向图
  • 8. 拉格朗日乘子定理

下一篇将介绍整理各种聚类算法,包括k-means,GMM(Guassian Mixture Models, 高斯混合),EM(Expectation Maximization,期望最大法),Spectral Clustering(谱聚类),Mean Shift(均值偏移)和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

在介绍这些聚类算法之前,需要熟悉一些基础的数学知识,比如说: SVD(奇异值分解),Rayleigh Quotient(瑞利商),Joint Probability(联合概率),Conditional Probabliity(条件概率分布),Marginalization(边缘分布),Bayes rule(贝叶斯定理),Directed Graphical Model(有向图),Undirected Graphical Model(无向图)和Lagrange multiplier(拉格朗日乘子定理)。

1. 瑞利商

见文章PCA算法中2的瑞利商原理介绍。

2. 谱定理

见文章PCA算法中1的谱定理介绍。

3. 联合概率

  • 分布函数,联合分布函数
    ( X , Y ) (X,Y) (X,Y)是二维随机变量,对于任意实数 x , y x,y x,y,二元函数:
    F ( x , y ) = P ( ( X ≤ x ) ∩ ( Y ≤ y ) ) = P ( X ≤ x , Y ≤ y ) F(x,y) = P((X \le x) \cap (Y \le y) )= P(X \le x,Y \le y) F(x,y)=P((Xx)(Yy))=P(Xx,Yy)
    称为二维随机变量 ( X , Y ) (X,Y) (X,Y)的分布函数,或称为随机变量X和Y的联合分布函数

  • 二维随机变量的联合分布率
    在这里插入图片描述

    • 二维离散型随机变量的联合分布率
      如果二维随机变量 ( X , Y ) (X,Y) (X,Y)全部可能取到的值是有限对,则称 ( X , Y ) (X,Y) (X,Y)是离散型的随机变量。设所有的可能取值为 ( x i , y i ) , i , j = 1 , 2 , . . . , n (x_i,y_i),i,j=1,2,...,n (xi,yi),i,j=1,2,...,n,则记 P ( X = x i , Y = y j ) = p i j P(X=x_i,Y=y_j)=p_{ij} P(X=xi,Y=yj)=pij为二维离散性随机变量 ( X , Y ) (X,Y) (X,Y)的分布律,也可以叫做随机变量X和Y的联合分布律。

    • 二维连续型随机变量的联合分布
      如果随机变量X和Y的取值是连续的,记二维随机变量(X,Y)的分布函数为F(X,Y),如果存在非负可积函数f(x,y)使对任意x,y有:
      F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x,y) = \displaystyle \int _{-\infty}^y \displaystyle \int _{-\infty}^xf(u,v)dudv F(x,y)=yxf(u,v)dudv
      则称 ( X , Y ) (X,Y) (X,Y)是连续型的二维随机变量,函数 f ( x , y ) f(x,y) f(x,y)为二维连续型随机变量的概率密度,或称为随机变量X和Y的联合概率。

    • 二维离散-连续型随机变量的联合分布
      如果 X X X是离散型随机变量,而 Y Y Y 是连续型随机变量,则它们的联合分布可以用条件概率质量函数和条件概率密度函数来描述。
      假设 X X X是离散型随机变量,取值集合为{ x 1 . x 2 , . . . , x n x_1.x_2,...,x_n x1.x2,...,xn}。而 Y Y Y是连续型随机变量,其概率密度函数为 f y ( Y ) f_y(Y) fy(Y)(也叫做变量(X,Y)关于Y的边缘概率密度)。则二者的联合分布可以表示为:
      离散型 X X X和连续型 Y Y Y的联合概率函数 P ( X = x i , Y = y ) P\left(X=x_{i}, Y=y\right) P(X=xi,Y=y)表示了在 X X X取值为 x i x_{i} xi 的条件下, Y Y Y取值在为 Y ≤ y Y \le y Yy的概率质量。这可以用条件概率函数来描述:
      P ( X = x i , Y = y ) = P ( Y = y ∣ X = x i ) ⋅ P ( X = x i ) P\left(X=x_{i}, Y=y\right)=P\left(Y=y \mid X=x_{i}\right) \cdot P\left(X=x_{i}\right) P(X=xi,Y=y)=P(Y=yX=xi)P(X=xi)
      其中, P ( Y = y ∣ X = x i ) P\left(Y=y \mid X=x_{i}\right) P(Y=yX=xi)是在 X = x i X=x_{i} X=xi的条件下 Y Y Y取值为 y j y_j yj的条件概率, P ( X = x i ) P\left(X=x_{i}\right) P(X=xi) X X X取值为 x i x_{i} xi的概率。
      这里的连续变量Y的概率密度函数,可以是不同的x对应不同的密度函数,也可以是把x作为了变量Y的概率密度函数的一个权重。
      连续型 Y Y Y的条件概率密度函数 f Y ∣ X ( y ∣ x i ) f_{Y \mid X}\left(y \mid x_{i}\right) fYX(yxi)给出了在给定 X = x i X=x_{i} X=xi的条件下, Y Y Y的概率密度函数。这可以用条件概率密度函数来描述:
      f Y ∣ X ( y ∣ x i ) = f X Y ( x i , y ) P ( X = x i ) f_{Y \mid X}\left(y \mid x_{i}\right)=\frac{f_{X Y}\left(x_{i}, y\right)}{P\left(X=x_{i}\right)} fYX(yxi)=P(X=xi)fXY(xi,y)
      其中, f X Y ( x i , y ) f_{X Y}\left(x_{i}, y\right) fXY(xi,y) X X X Y Y Y的联合概率密度函数, P ( X = x i ) P\left(X=x_{i}\right) P(X=xi) X X X取值为 x i x_{i} xi的概率。可以结合上图理解,

4. 条件概率分布

可以结合上文0.3联合概率中的二维离散-连续型随机变量的联合分布来理解。只不过除此之外,还有二维离散型和二维连续性的条件概率分布,这都可以二维离散型的联合分布和二维连续型的联合分布对应起来。因为所有条件概率,无非就是两个变量已经确定下来一个。通用的公式描述如下:
条件概率是概率论中的一个重要概念,用于描述在给定某些条件下某个事件发生的概率。它的形式通常表示为 P ( A ∣ B ) P(A∣B) P(AB),读作“在事件 B 发生的条件下事件 A 发生的概率”。

具体来说,条件概率指的是在已知某个事件 B 发生的情况下,事件 A 发生的概率。这种概率考虑了事件 B 的发生对事件 A 的影响,因此与简单的事件 A 的概率 P ( A ) P(A) P(A)有所区别。

条件概率的计算公式为:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A \mid B)=\frac{P(A \cap B)}{P(B)} P(AB)=P(B)P(AB)

其中,

  • P ( A ∣ B ) P(A∣B) P(AB)表示在事件 B 发生的条件下事件 A 发生的概率,也称为后验概率(posterior probability)。
  • P ( A ∩ B ) P(A \cap B) P(AB)表示同时发生事件 A 和事件 B 的概率,称为事件 A 与事件 B 的交集概率。
  • P(B) 表示事件 B 发生的概率,称为事件 B 的概率。
    条件概率的意义在于考虑了某个事件发生的背景信息或条件,从而更准确地评估事件发生的可能性。它在贝叶斯统计、机器学习、工程等领域中都有广泛的应用,例如在模式识别、信号处理、风险评估等方面都可以用到条件概率的概念和计算方法。

5. 边缘分布

边缘分布 (Marginal Distribution) 是概率论和统计学中的重要概念, 用于描述多维随机变量中单个变量的分布情况。边缘分布是从联合分布中抽取出某个或某些随机变量的概率分布, 而忽略其他随机变量的分布。

考虑一个多维随机变量 ( X 1 , X 2 , … , X n ) \left(X_{1}, X_{2}, \ldots, X_{n}\right) (X1,X2,,Xn)的联合分布, 称为联合概率分布。如果我们只关心其中的一部分变量, 比如 X 1 , X 2 X_{1}, X_{2} X1,X2 , 那么从联合分布中抽取出 X 1 X_{1} X1 的概率分布(忽略 X 2 X_{2} X2 以及其他变量), 就得到了 X 1 X_{1} X1的边缘分布。类似地, 我们也可以得到 X 2 X_{2} X2的边缘分布。

边缘分布的计算可以通过对联合分布进行边际化 (Marginalization) 来实现。边际化是通过对联合分布中不感兴趣的变量进行积分或求和, 来获得感兴趣变量的边缘分布。

对于离散型随机变量 X 和 Y 的联合分布, 边缘化可以表示为:

P ( X = x i ) = ∑ j P ( X = x i , Y = y j ) P\left(X=x_{i}\right)=\sum_{j} P\left(X=x_{i}, Y=y_{j}\right) P(X=xi)=jP(X=xi,Y=yj)

对于连续型随机变量 X 和 Y 的联合概率密度函数 f(x, y) , 边缘化可以表示为:
f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y f_{X}(x)=\int_{-\infty}^{\infty} f(x, y) d y fX(x)=f(x,y)dy
其中, f X ( x ) f_{X}(x) fX(x) X X X 的边缘概率密度函数。

边缘分布的概念在概率统计中非常重要, 它可以帮助我们理解单个变量的分布特征, 从而进行更精确的推断和分析

6. 贝叶斯定理

在这里插入图片描述

什么是似然度?
在这里插入图片描述

7. 有向图

有向图(Directed graph)是图论中的一种重要概念,在图形建模(Graphical Modeling)中起着关键作用。以下是有向图的中文介绍:

有向图是由一组顶点(节点)和一组有方向的边(箭头)组成的图形结构。每条边从一个顶点指向另一个顶点,表示了一个有向关系或者流向。有向图中的每个节点表示一个变量或者事件,而有向边则表示这些变量或事件之间的直接影响或关系。

有向图可以用来表示因果关系、依赖关系、流程控制等各种情况。在图形建模中,有向图常用于表示贝叶斯网络(Bayesian networks)或者因果图(Causal graphs)。贝叶斯网络是一种基于概率的图模型,用于表示变量之间的依赖关系和概率分布;因果图则用于表示因果关系,帮助理解事件或变量之间的因果链条。

有向图中的一些重要概念包括:

  1. 父节点和子节点: 一个节点的父节点是指向它的节点,而子节点是由它指向的节点。
  2. 入度和出度: 节点的入度是指向它的边的数量,而出度是由它指向的边的数量。
  3. 路径和环路: 路径是顺序连接的边和节点序列,环路是形成闭合回路的路径。
  4. 拓扑排序: 有向图中节点的线性排序,使得所有的有向边从左到右都是指向右边的。
    总之,有向图是图形建模中非常重要的一种图形结构,用于表示变量之间的因果关系、依赖关系和流程控制,具有广泛的应用领域和实际意义。

重点
有向图节点之间的连接代表了条件关系,如下图:

事件A
事件B
事件C
事件D
事件E
事件F

事件B发生的提前是事件A已经发生。比如事件A表示该这个人是个男孩子,事件B就是这个男孩子的头发是黑色还是红色。这与这个人的头发是黑色还是红色的概率是不同的。如果两者之间相互独立,没有联系,就不存在有向图之间的联系(边)。

8. 拉格朗日乘子定理

现在有个基础的数学问题: f ( x , y ) f(x,y) f(x,y)表示自变量为 x , y x,y x,y的函数,求 f ( x , y ) f(x,y) f(x,y)在限定条件为 g ( x , y ) = 0 g(x,y)=0 g(x,y)=0下的最大值。也就是说自变量的取值区域被限制了。公式描述为:
m a x f ( x , y ) , s . t . g ( x , y ) = 0 max f(x,y), s.t. g(x,y)=0 maxf(x,y),s.t.g(x,y)=0

问题转义: 试想 f ( x , y ) 和 g ( x , y ) f(x,y)和g(x,y) f(x,y)g(x,y)都是一个曲面,现在设定了自变量只能取曲面 g ( x , y ) g(x,y) g(x,y) g ( x , y ) = 0 g(x,y)=0 g(x,y)=0的值,见下图:
在这里插入图片描述
绘制出曲面的等高线,虚线代表等高线, f ( x . y ) f(x.y) f(x.y)的变量可行域是这个条红线。可见 当 当 f(x,y)$取的最最值的时候,两者的梯度刚好相反,所以对于这种有约束的最值问题,拉格朗日的统一解法为:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1572022.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如果真的要被优化了,你该如何提前应对与准备!

程序员35岁会失业吗? 35岁被认为是程序员职业生涯的分水岭,许多程序员开始担忧自己的职业发展是否会受到年龄的限制。随着科技的飞速发展,IT行业成为了变化最为迅速的领域之一。在这样的背景下,许多35岁左右的程序员开始担忧自己…

Android数据存储技术

一、文件存储 <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:orientation"vertical"android:layout_width"match_parent"android:layout_height"match_parent" ><EditTextandroid:id&qu…

【C++】c++11新特性(一)

目录 { }列表初始化 内置类型---对单值变量及数组的初始化 列表初始化时进行的类型转换 自定义类型---对类对象或结构的初始化 initializer_list 1. 定义接受 initializer_list 参数的构造函数 2. 在函数中使用 initializer_list 参数 3. 使用 initializer_list 与 vect…

C#将Console写至文件,且文件固定最大长度

参考文章 将C#的Console.Write同步到控制台和log文件输出 业务需求 在生产环境中&#xff0c;控制台窗口不便展示出来。 为了在生产环境中&#xff0c;完整记录控制台应用的输出&#xff0c;选择将其输出到文件中。 但是&#xff0c;一次性存储所有输出的话&#xff0c;文件会…

基于SSM+Jsp+Mysql的二手车交易网站

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

5G智慧地铁数字孪生可视化平台,推进铁路行业数字化转型

随着科技的快速发展&#xff0c;5G智慧地铁数字孪生可视化平台正逐渐成为铁路行业数字化转型的重要推动力。巨蟹数科数字孪生平台集成了5G通信技术、大数据分析、云计算和人工智能等先进技术&#xff0c;通过构建数字孪生模型&#xff0c;实现对地铁运营全过程的实时监控、预测…

【智能排班系统】基于SpringSecurity实现登录验证、权限验证

文章目录 SpringSecurity介绍sss-security实现依赖工具类Jwt工具JSON响应工具加密工具类 用户上下文用户信息实体类用户上下文 自定义重写自定义无权限的报错自定义密码加密自定义用户类 过滤器登录过滤器权限过滤器 Service登录Service 配置类说明登录验证权限验证IP流量限制 …

JDK安全剖析之安全处理入门

0.前言 Java 安全包括大量 API、工具以及常用安全算法、机制和协议的实现。Java 安全 API 涵盖了广泛的领域&#xff0c;包括加密、公钥基础设施、安全通信、身份验证和访问控制。Java 安全技术为开发人员提供了编写应用程序的全面安全框架&#xff0c;还为用户或管理员提供了…

蓝桥集训之斐波那契数列

蓝桥集训之斐波那契数列 核心思想&#xff1a;矩阵乘法 将原本O(n)的递推算法优化为O(log2n) 构造1x2矩阵f和2x2矩阵a 发现f(n1) f(n) * a 则f(n1) f(1) * an可以用快速幂优化 #include <iostream>#include <cstring>#include <algorithm>using na…

跨站请求伪造漏洞(CSRF)

什么是CSRF CSRF&#xff08;Cross-Site Request Forgery&#xff09;&#xff0c;也被称为 one-click attack 或者 session riding&#xff0c;即跨站请求伪造攻击。 漏洞原理 跨站请求伪造漏洞的原理主要是利用了网站对用户请求的验证不严谨。攻击者会在恶意网站中构造一个…

RAG知识分享

文章目录 博客详细讲解视频点击查看高清脑图 1.为什么要做RAG1.1. 解决幻觉问题1.1.1 直接输入问题1.1.2. 问题 相关知识 2. 什么是RAG2.1. 基本概念2.2. 基本RAG方法2.2.1. 知识预处理2.2.2. 知识检索2.2.3. 答案生成 3. RAG 与 Long Context3.1. Long Context3.2. RAG 与Lon…

你为什么选择程序员这个职业?

注意&#xff0c;今天的这篇文章&#xff0c;我只是对程序员这份工作所需要面对的问题挑选一些有意思的话题讲讲我的理解&#xff0c;并不是对程序员的职业规划进行分享。本文分为入行前和入行后两个部分&#xff0c;分别聊聊。 入行前 所谓入行前&#xff0c;其实就是指还是学…

力扣面试150: O(1) 时间插入、删除和获取随机元素 HashMap结合数组

Problem: 380. O(1) 时间插入、删除和获取随机元素 文章目录 思路复杂度Code 思路 &#x1f469;‍&#x1f3eb; 三叶题解 复杂度 时间复杂度: O ( 1 ) O(1) O(1) 空间复杂度: O ( n ) O(n) O(n) Code class RandomizedSet {static int[] nums new int[200_010];//存…

RabbitMQ小记

参考书籍&#xff1a;朱忠华的《RabbitMQ实战指南》 一、基础概念 1.Exchange 1.1 创建方法的参数&#xff0c;exchangeDeclare() exchange&#xff1a;交换器的名称type&#xff1a;交换器的类型durable&#xff1a;是否持久化&#xff0c;true代表持久化。&#xff08;持…

iperf图形化打流工具JPerf2.0使用教程(1):相关设置介绍

0 前言 iperf是一个很常用的网络性能测试工具&#xff0c;经常来进行打流测试&#xff0c;用来查看丢包率、抖动时间等网络通信情况&#xff0c;但它是使用命令行操作的&#xff0c;使用起来不太友好。本文介绍基于iperf的图形化操作工具JPerf2.0。 1 JPerf2.0的客户端和服务…

蓝桥杯速成5-AD/DA模数转换

一、原理图 上图可知该芯片使用的是iic时序&#xff0c;而不是51单片机的xpt2046时序&#xff0c;iic我们都很熟悉了吧 并且大赛还提供了我们iic底层驱动代码 左上角有AIN0-4四个转换输入通道&#xff0c;和AOUT一个输出通道&#xff0c;由控制字节选择 地址字节&#xff1a;0x…

Stable Diffusion本地部署教程

Stable Diffusion本地部署的步骤一般包括准备环境、下载Stable Diffusion模型和依赖库、配置运行参数等。下面是一个通用的教程&#xff0c;用以在计算机上本地部署Stable Diffusion。 准备环境 1. 确保硬件满足最低要求&#xff1a; - 一块NVIDIA GPU&#xff0c;至少4GB…

LLMOps快速入门,轻松开发部署大语言模型

大家好&#xff0c;如今我们能够与ChatGPT进行轻松互动&#xff1a;只需输入提示&#xff0c;按下回车&#xff0c;就能迅速得到回应。然而&#xff0c;这个无缝互动的底层&#xff0c;是一系列复杂而有序的自动执行步骤&#xff0c;即大型语言模型运营&#xff08;LLMOps&…

【数据分析面试】11. 计算账户关闭率(SQL:评估不同查询方法的性能效率)

题目 给定一个账户状态表&#xff0c;编写一个查询以获取在2019年12月31日活跃并在2020年1月1日关闭的账户所占的百分比&#xff0c;以及在2019年12月31日活跃的总账户数。每个账户只有一条每日记录&#xff0c;显示其在当天结束时的状态。 注意&#xff1a;将结果四舍五入到…

在同一个局域网如何共享打印机和文件

1.在连接了打印机的主机上设置 1.1启用windows共享 打开网络与共享中心&#xff0c;点击“更改高级共享设置” 选择&#xff1a; “启用网络发现”“启用文件和打印机共享”“启用共享以便可以访问网络的用户可以读取和写入公用文件夹中的文件” 打开控制面板&#xff0c;选…