机器学习理论基础—聚类算法

机器学习理论基础—聚类算法

news2026/2/13 5:40:06

机器学习理论基础—聚类算法

聚类的距离计算

聚类：物以类聚。将相似的样本聚集到一起，使得同一类簇的样本尽可能接近,不同类簇的样本尽可能远离。（无监督算法）

对于距离的定义：满足下面的四个特点

非负性
同一性
对称性
传递性

在这里插入图片描述

常用的距离度量（连续/离散有序）

明可夫斯基距离(Minkowski distance)
当p=2时退化为欧式距离(Euclidean distance)
p = 1 退化成曼哈顿距离(Manhattan distance)只能沿着坐标轴的方向来进行计算

常用的距离度量（离散无序）

使用VDM (Value Difference Metric)方法来进行度量。
在这里插入图片描述
m:特征u取值a的情况下的数量

原型聚类

常用的原型聚类算法是kmeans算法

原型(prototye)指类结构能通过一组典型的特例刻画。比如男、女类似的。给定样本集D={x1,x2，···，xm}，k均值算法针对聚类所得簇划分C={C1，C2，···，Ck}，求解最小化平方误差问题

在这里插入图片描述
求解改式需要考虑样本集D所有可能的划分，是一个NP-hard问题。一般来说，我们采用迭代算法求解近似划分。

kmeans算法的流程
在这里插入图片描述

密度聚类

常用的密度聚类算法为：DBSCAN

密度聚类假设聚类结构能够通过样本分布的紧密程度确定。它从样本密度的角度考察样本间的可连接性，并基于可连接样本不断扩展聚类簇得到最终的聚类结果。DBSCAN是密度聚类的代表之一。它基于一组邻域参数(∈,MinPts)刻画样本分布的紧密程度。关于DBSCAN的几个概念如下：

在这里插入图片描述

DBSCAN定义的簇为：最大密度相连的样本集合为一个簇。

连接性：同一个簇内任意两样本必然密度相连
最大性：密度可达的两个样本必定属于同一个簇

算法的流程步骤：
在这里插入图片描述

层次聚类

层次聚类试图将数据划分成为不同的层次，因此聚类结果呈现明显的树状结构。

AGNES是一种采用自底向上聚合策略的层次聚类算法。在聚类过程中不断合并距离最近的两个类簇，知道达到预期的聚类簇数目。算法的核心在于如何定义类簇中之间的距离

最小距离（两个簇最近的样本距离）
最大距离（两个簇最远的样本距离）
平均距离（两个簇两两平均的样本距离）

AGNES算法流程

总结：结合西瓜书中的具体案例来进行进一步的学习，文章只是对聚类算法进行简单的概述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1632964.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

实验 | RT-Thread：L0

实验 | RT-Thread：L0

1 理解官网文档：RT-Thread 简介在 RT-Thread 系统中，任务通过线程实现的，RT-Thread 中的线程调度器也就是以上提到的任务调度器。RT-Thread与FreeRTOS是同等地位的东西，都是属于RTOS项目设置：RT-Thread 4.0.2 基于…

阅读更多...

单链表进阶算法题精析

单链表进阶算法题精析

目录一、回文链表 1.1 题目 1.2 题解 1.3 分析二、带环链表I 2.1 题目 2.2 题解 2.3 分析 2.3.1为什么该思路可行？ 2.3.2为什么只能快指针走两步？ 三、带环链表II 3.1 题目 3.2 题解 3.3 分析四、相交链表 4.1 题目 4.2 题解 4.3 分…

阅读更多...

uniapp：K线图，支持H5，APP

uniapp：K线图，支持H5，APP

使用KLineChart完成K线图制作，完成效果： 1、安装KLineChart npm install klinecharts2、页面中使用 <template><view class="index"><view class="kline-tabs"><view :style="{color: current==ite…

阅读更多...

git出错、文件无法删除、文件无法访问、文件或目录损坏且无法读取等相关问题处理

git出错、文件无法删除、文件无法访问、文件或目录损坏且无法读取等相关问题处理

一、错误历程与解决方案 1. 在用idea时，突然出现部分git的命令无法使用，提示错误 2. 尝试删除项目文件夹，重新从git拉取代码 3.发现无法删除文件夹，删除操作没有任何反应，但是可以对文件夹重命名。 4.重新clone g…

阅读更多...

【哈希】Leetcode 219. 存在重复元素 II

【哈希】Leetcode 219. 存在重复元素 II

题目讲解 219. 存在重复元素 II 算法讲解 class Solution { public:bool containsNearbyDuplicate(vector<int>& nums, int k) {map<int, int>Hash;for(int i 0; i < nums.size(); i){//这一步说明前面已经出现过一次这样的数字了，所以用后面…

阅读更多...

Android Studio的button点击事件

Android Studio的button点击事件

xml添加onClick调用方法 public class MainActivity extends AppCompatActivity {// 创建系统时间的文本控件TextView systemTimeTextView;Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activit…

阅读更多...

Docker基本操作 Linux里边操作

Docker基本操作 Linux里边操作

docker镜像操作命令: docker images:查看所有镜像; docker rmi:删除镜像后边可以跟镜像的名字或者id指定要删除的镜像； docker pull:拉取镜像； docker push:推送镜像到服务； docker save :打包镜像后边有用法; docker load:加载镜像&…

阅读更多...

岚图汽车与东软睿驰签署战略合作协议

岚图汽车与东软睿驰签署战略合作协议

4月26日,东软睿驰与岚图汽车正式签署战略合作协议,双方将结合在各自领域拥有的产业资源、技术研发和资本运作等优势,聚焦智能化产品和应用,建立长期共赢的战略合作伙伴关系,通过不断探索未来新技术、新产业、新业态和新模式,围绕用户需求共同打造极致的智能出行体验。图为岚图…

阅读更多...

linux,从零安装mysql 8.0.30 ，并且更新至mysql 8.0.36

linux,从零安装mysql 8.0.30 ，并且更新至mysql 8.0.36

前言： 系统使用的CentOS 7，系统默认最小安装。一、基础配置配置虚拟机IP，需要更改的内容，如下红框中修改之后至此，基础配置完成。注意：此处虚拟机网络适配器使用的是：桥接模式二、软件…

阅读更多...

虚拟DOM

虚拟DOM

虚拟DOM（Virtual DOM）是现代前端框架（如React、Vue等）用于优化DOM操作性能的关键技术。Vue也采用了虚拟DOM来提高性能和提供更好的开发体验。以下是虚拟DOM在Vue中的详细解释： 什么是虚拟DOM？ 虚拟DOM是一…

阅读更多...

【分治算法】【Python实现】棋盘覆盖

【分治算法】【Python实现】棋盘覆盖

文章目录 [toc]问题描述分治算法时间复杂性Python实现个人主页：丷从心系列专栏：分治算法学习指南：Python学习指南问题描述在一个 2 k 2 k 2^{k} \times 2^{k} 2k2k个方格组成的棋盘中，若恰有一个方格与其他方格不同&…

阅读更多...

vue3插槽的name和v-slot的研究

vue3插槽的name和v-slot的研究

slot可以分为具名插槽和默认,默认插槽name是default 在父组件的template需要些v-slot/#,没写不生效,而在父组件下,而没被template包含的默认放在template且含有#default. 1)没写slot,可以不写template,也可写default的template2)写了name的slot,即使是default也必须些template…

阅读更多...

STM32（垃圾桶开关盖）

STM32（垃圾桶开关盖）

封装超声波的代码一、配置引脚的连接二、配置三、写代码四、配置定时器查找合适的定时器其实这里的是remap（复用），不重要重要的是看Default才对仔细查看之后发现还是能用的先把开关灯封装好再封装舵机 ----------------------…

阅读更多...

谷粒商城实战(019 RabbitMQ-发送消息)

谷粒商城实战(019 RabbitMQ-发送消息)

Java项目《谷粒商城》架构师级Java项目实战，对标阿里P6-P7，全网最强总时长 104:45:00 共408P 此文章包含第248p-第p261的内容介绍 MQ的三大特点：流量削峰、应用解耦、异步处理 redis是数据缓存，mq是任务缓存 AMQP的MODEL 第一…

阅读更多...

静电纺丝左旋聚乳酸平行纳米纤维膜

静电纺丝左旋聚乳酸平行纳米纤维膜

静电纺丝左旋聚乳酸平行纳米纤维膜是一种特殊的纳米材料，它结合了静电纺丝技术的优点和左旋聚乳酸（PLLA）材料的特性。静电纺丝技术是一种特殊的纤维制造工艺，在此过程中，高分子溶液或熔体在强电场中进行喷射纺丝。当电…

阅读更多...

主成分分析（PCA）：揭秘数据的隐藏结构

主成分分析（PCA）：揭秘数据的隐藏结构

在数据分析的世界里，我们经常面临着处理高维数据的挑战。随着维度的增加，数据处理、可视化以及解释的难度也随之增加，这就是所谓的“维度的诅咒”。主成分分析（PCA）是一种强大的统计工具，用于减少数据的维度…

阅读更多...

[华为OD]给定一个 N*M 矩阵，请先找出 M 个该矩阵中每列元素的最大值 100

[华为OD]给定一个 N*M 矩阵，请先找出 M 个该矩阵中每列元素的最大值 100

题目： 给定一个 N*M 矩阵，请先找出 M 个该矩阵中每列元素的最大值，然后输出这 M 个值中的最小值补充说明： N 和 M 的取值范围均为：[0, 100] 示例 1 输入： [[1,2],[3,4]] 输出： 3 说…

阅读更多...

数据仓库实验二：关联规则挖掘实验

数据仓库实验二：关联规则挖掘实验

目录一、实验目的二、实验内容和要求三、实验步骤1、创建数据库和表2、挖掘关联规则（1）新建一个 Analysis Services 项目 Sales（2）建立数据源视图（3）建立挖掘结构 Sales.dmm（4）部署…

阅读更多...

FebHost：什么是挪威.no域名,如何注册？

FebHost：什么是挪威.no域名,如何注册？

挪威国家域名介绍挪威是一个位于北欧的国家，北面和西面是大西洋和北海，东面和南面则与瑞典、芬兰接壤。挪威是一个高度发达的经济体，其政府在经济管理和可持续发展方面也取得了很多成就。挪威的人均GDP在世界范围内排名非常靠前&#xff0c…

阅读更多...

C# Web控件与数据感应之 ListControl 类

C# Web控件与数据感应之 ListControl 类

目录关于数据感应 ListControl 类类型控件范例运行环境数据感应通用方法设计实现调用示例数据源调用小结关于数据感应数据感应也即数据捆绑，是一种动态的，Web控件与数据源之间的交互，诸如 System.Web.UI.WebControls 里…

阅读更多...

推荐文章

最新文章