吴恩达机器学习 第三课 week1 无监督学习算法(上)

news2024/12/21 20:09:24

目录

01 学习目标

02 无监督学习

03 K-means聚类算法

3.1 K-means聚类算法原理

3.2 k-means算法实现

3.3 利用k-means算法压缩图片

04 总结 


01 学习目标

   (1)了解无监督学习算法

   (2)掌握K-means聚类算法实现步骤

   (3)利用K-means聚类算法压缩图片

02 无监督学习

      概念:根据未被标记的训练样本解决模式识别或结构问题的算法,为无监督学习算法。

      主要算法:

      应用(摘自“文心一言”):

(1)数据挖掘

  • 聚类分析:对大规模的客户数据进行聚类,发现不同特征的客户群体,为精细化营销和个性化推荐提供支持。
  • 异常检测:无监督学习可以识别数据中的异常点,帮助企业发现潜在的风险因素。
  • 关联规则挖掘:发现不同产品之间的关联性,为商品搭配和交叉销售提供依据

(2)自然语言处理

  • 主题模型:从大规模文本数据中提取主题和话题,为舆情分析和信息检索提供支持。
  • 情感分析:可以挖掘文本中的情感倾向和情绪色彩,为舆情监控和口碑管理提供参考。
  • 文本聚类:可以对文本数据进行聚类分析,为信息检索和文本分类提供支持。

(3)社交网络分析社区发现)通过聚类和网络分析揭示社交网络的组织结构和信息传播模式。

(4)推荐系统(用户行为分析):可以分析用户的历史行为数据,发现用户的兴趣和行为模式,从而为用户提供个性化的推荐结果。

(5)自动驾驶(环境和道路感知):无监督学习用于对传感器数据进行聚类和降维,提取出道路、车辆和行人等重要特征,以支持自动驾驶决策和控制。

(6)计算机视觉(图像分割):可以对图像中的像素进行聚类,实现图像的自动分割,为对象识别、图像分析等进一步处理提供支持。(特征学习):无监督学习能够从图像数据中学习更高层次的特征表示,提高图像识别和分类的准确性和鲁棒性。

(7)降维(数据处理):无监督学习算法如主成分分析(PCA)和t-SNE等,用于降低数据的维度,减少数据中的冗余信息,提高数据的可视化、处理和分析效率。

(8)生成模型(数据生成):无监督学习可以生成新的数据,例如,通过从一个概率分布中学习数据的分布特征,生成新的图像、文本或语音数据。

03 K-means聚类算法

      下面,将采用jupyter notebook实现K-means算法,并将其用于图像压缩。

3.1 K-means聚类算法原理

       算法步骤:

       ①,假设n个类的质心

       ②,计算各points(数据点)到质心的距离,并将points分配给最近的质心

c^{(i)}:=j\; that\;minimizes\;||x^{(i)}-\mu _{j}||^2

        c ^{(i)}:=j 表示第i个点距离第j个质心最近, x ^{(i)} 是第i个点的坐标, \mu _j是第j个质心的坐标。上式会返回质心索引号列表。通俗地讲,给每个点贴个标签,标签上是距离其最近的质心编号,即:如果第1~3个点分别距离第2、0、1个质心最近,则返回列表[2 0 1]。

       ③,根据第②步分配结果重新计算质心

\mu_k=\frac{1}{|C_k|}\sum x^{(i)}

        \mu_k为第k个质心的坐标, C_k 为分配到第k个质心的点集合,|C_k|为该集合点的数量。上式会返回质心坐标的列表。通俗地讲,上式计算的结果为质心与所属点集合的平均距离,即:如果有10个点分配给了第1个质心,\mu_1就是这10个点到该质心的平均距离。

       ④,重复第②和③步,直至质心位置不再变化,聚类结束(如下图)

       聚类的结果受初始质心的影响,因此,可以多次随机假设质心进行计算,最终取cost最小的计算结果。

3.2 k-means算法实现

    (1)导入计算模块

import numpy as np
import matplotlib.pyplot as plt
from utils import *

%matplotlib inline

     (2)定义距离计算函数

def find_closest_centroids(X, centroids):

    # 质心索引
    idx = np.zeros(X.shape[0], dtype=int)

    for i in range(len(X)):
        distances = np.sum((X[i] - centroids) ** 2, axis=1)
        idx[i] = np.argmin(distances)
    
    return idx

     (3)定义质心坐标计算函数

def compute_centroids(X, idx, K):
    
    m, n = X.shape
    
    # 质心坐标
    centroids = np.zeros((K, n))
    
    for k in range(K):
        points = X[idx == k]
        centroids[k] = np.mean(points, axis=0) 
    
    return centroids

     (4)定义k-means执行函数

def run_kMeans(X, initial_centroids, max_iters=10, plot_progress=False):
    
    m, n = X.shape
    K = initial_centroids.shape[0]
    centroids = initial_centroids
    previous_centroids = centroids    
    idx = np.zeros(m)
    
    # 开始执行K-Means
    for i in range(max_iters):
        # 过程输出
        print("K-Means iteration %d/%d" % (i, max_iters-1))
        # 分配points
        idx = find_closest_centroids(X, centroids)
        # 结果可视化
        if plot_progress:
            plot_progress_kMeans(X, centroids, previous_centroids, idx, K, i)
            previous_centroids = centroids  
        # 计算质心坐标
        centroids = compute_centroids(X, idx, K)
    plt.show() 
    return centroids, idx

     (5) 开始聚类

X = load_data() # 加载数据

initial_centroids = np.array([[3,3],[6,1],[8,5]]) # 设置初始质心坐标
K = 3          # 质心个数

max_iters = 6  # 迭代次数

centroids, idx = run_kMeans(X, initial_centroids, max_iters, plot_progress=True)

       运行以上代码,结果如下:

      

3.3 利用k-means算法压缩图片

      从网上下载了1张色彩鲜明的图片,利用3.2节的函数,开始压缩吧!

      (1)定义质心随机生成函数

def kMeans_init_centroids(X, K):
    
    # 随机重新排序索引
    randidx = np.random.permutation(X.shape[0])
    
    # 选择前K个样本作为质心
    centroids = X[randidx[:K]]
    
    return centroids

     randidx = np.random.permutation(X.shape[0]):使用NumP的 np.random.permutation 函数来随机重新排序 X 的行索引(即样本的索引)。这样做是为了在选择质心时,样本是随机选取的,而不是简单地按顺序选取。

centroids = X[randidx[:K]]:从随机重新排序的索引 randidx 中选择前 K 个索引,并使用这些索引从 X 中选择相应的样本作为初始质心。) 

       (2)读取图片,并打印图片信息

original_img = plt.imread('./images/pic.jpg')
plt.imshow(original_img)
print("Shape of original_img is:", original_img.shape)

        运行以上代码,结果如下:

           

             Shape of original_img is: (400, 600, 3) 

     (3)图片归一化

# matplotlib处理对象为int或float,故将像素归一化至范围0 - 1
original_img = original_img / 255

# K-means处理对象为矩阵,故将图片转为 m x 3 矩阵,m=400*600=240,000
X_img = np.reshape(original_img, (original_img.shape[0] * original_img.shape[1], 3))

     (4)图片压缩

# 执行 K-Means 算法
# 下面设置质心数和迭代数,可多次试算
K = 6                       
max_iters = 10               

# 随机生成初始质心 
initial_centroids = kMeans_init_centroids(X_img, K) 
# 开始压缩
centroids, idx = run_kMeans(X_img, initial_centroids, max_iters) 

# 取图片具有代表性的前K个质心颜色,代替原图
X_recovered = centroids[idx, :] 

# 将图片转为三维
X_recovered = np.reshape(X_recovered, original_img.shape) 

      (5)图片可视化

fig, ax = plt.subplots(1,2, figsize=(8,8))
plt.axis('off')

ax[0].imshow(original_img)
ax[0].set_title('Original')
ax[0].set_axis_off()

ax[1].imshow(X_recovered)
ax[1].set_title('Compressed with %d colours'%K)
ax[1].set_axis_off()

      运行以上代码,结果为:

       压缩原理:

       首先确定6个初始质心,利用k-means算法聚类到最能代表该图片的6类颜色,将所有像素点分配给这6个“质心”。最终,将采用这个6类颜色作为该图片的代表色。
       
       小知识:RGB模式有3个颜色通道(red,green,blue),每个通道有2^8=256种颜色,因此,每个像素点需要24位(3*8 bit)。

       原始图像尺寸为400*600,共240,000个像素点。压缩前原图总位数为400*600*24=5,760,000 bit;压缩后采用6种颜色的字典来存储额外的空间,每种颜色需要24位,所占空间为6*24=144 bit,图像的240,000个像素点每个点占位4 bit(颜色质心≤16时均采用4个占位,即2^4=16)。因此,最终使用的位数为16*24 + 400*600*4=960,144 bit,这意味着可以将原始图像压缩约6倍。

04 总结 

     (1)无监督学习算法的一个缺点即费力耗时,相较监督学习,需要多次迭代计算。

     (2)k-means算法受初始质心影响大,除了本文的生成方法,还有K-means++等更有效的初始化方法。

    (3)经过k-means算法压缩的图片,图片各像素点颜色数量由256种减少至k种。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1844019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AWS-PatchAsgInstance自动化定时ASG组打补丁

问题 需要给AWS的EC2水平自动扩展组AutoScaling Group(ASG)中的EC2自动定期打补丁。 创建自动化运行IAM角色 找到创建角色入口页面,如下图: 开始创建Systems Manager自动化运行的IAM角色,如下图: 设置…

ppt模版免费下载网站大全

PPT是我们传达信息、分享知识、展示项目和进行商务沟通的重要工具。一个设计精美、布局合理的PPT不仅能吸引观众的注意力,还能有效提升演讲者的专业形象。PPT模版可以帮助我们高效制作出精美的PPT,下面小编就来和大家分享一些免费无需注册登录就可以直接…

WEB自动化测试(selenium工具)框架、面试题

一、什么是web自动化测试 让程序员代替人为去验证web项目功能的过程 二、什么web项目适合自动化测试 1)需求变动不频繁 测试脚本的稳定性决定了自动化测试的维护成本。如果软件需求变动过于频繁,测试人员需要根据变动的需求来更新测试用例以及相关的测试脚本&…

图像分割(三)-RGB转HSV后图像分割方法

常用彩色模型有RGB和HSV模型,有时候在RGB颜色空间进行背景分割比较困难的问题,转换为HSV模型然后对色调和饱和度图像进行处理会得到比较理想的处理结果,下面通过一个实例讲解该方法的MATLAB实现,该方法对其他图像检测也具有一定的参考价值。 …

接口测试面试必问题:在Http协议中应用Get和Post接口测试的区别是什么?

在进行接口测试时,我们常常会遇到两种常见的HTTP请求方法:GET和POST。虽然它们都是用来向服务器发送请求,但在使用和测试时有一些区别。本文将从0到1详细介绍GET和POST接口测试的区别,以便在面试时能够回答相关问题。 GET和POST是…

YOLOv10改进 | Conv篇 |YOLOv10引入SPD-Conv卷积

1. SPD-Conv介绍 1.1 摘要:卷积神经网络(CNN)在图像分类和目标检测等许多计算机视觉任务中取得了巨大的成功。 然而,在图像分辨率较低或物体较小的更艰巨的任务中,它们的性能会迅速下降。 在本文中,我们指出,这源于现有 CNN 架构中一个有缺陷但常见的设计,即使用跨步卷…

政策更新记录:敏感信息访问权限与API使用变更

我们将更新“健康数据共享”政策,简化“健康数据共享”申请流程,并与“健康类应用”政策保持一致。此外,我们将于今年晚些时候在 Play 管理中心推出一项新的声明,取代当前使用表单进行申请的方式。 公布日期:2024-04-03 Health Connect 政策要求及常见问题解答 初步认识对…

物联网设备安装相关知识整理

拓扑图 对于ADAM-4150先接设备的整体的供电。 ADAM-4150就涉及到几个电子元器件的连接,一个是485-232的转换器,一个是将RS-232转换为USB的转接口,因为现在的计算机很多都去掉了RS-232接口而使用USB接口。 4150右侧有个拨码,分别两…

互联网技术基础-计算机人必看

目录 1.Internet的工作原理 1、Internet是一个分组交换系统 2、路由器是Internet实现互连的“标准件” 3、TCP/IP是Internet的核心协议 4、客户机/服务器的工作模式 2. IP地址 2.1 IP地址分类 2.2特殊IP地址 2.3路由器和IP编制原则 2.4子网的划分 2.5 IPV6 3.域名系…

嵌入式实验---实验三 定时器实验

一、实验目的 1、掌握STM32F103定时器程序设计流程; 2、熟悉STM32固件库的基本使用。 二、实验原理 1、使用SysTick定时方式控制LED闪烁; 2、使用通用定时器产生PWM脉冲,通过调整占空比实现两个目标: (1&#xf…

《C++ Primer》导学系列:第 6 章 - 函数

6.1 函数基础 6.1.1 基本概念 函数是C程序的基本组成单元,用于将代码组织成可以复用的模块。函数通过函数名进行调用,并且可以接受参数和返回值。函数的定义包括函数头和函数体,其中函数头描述了函数的接口,函数体包含了具体的实…

基于SpringBoot+Vue电影推荐系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…

Python 绘制圆欠采样时的数学图形

Python 绘制圆欠采样时的数学图形 正文end_radian 190end_radian 180end_radian 170end_radian 130end_radian 120 正文 今天在绘制圆形的时候遇到了意外,发现了一个有意思的现象,这里特来记录一下。 end_radian 190 import numpy as np import…

【因果推断python】45_估计量1

目录 问题设置 目标转换 到目前为止,我们已经了解了如何在干预不是随机分配的情况下对我们的数据进行纠偏,这会导致混淆偏差。这有助于我们解决因果推理中的识别问题。换句话说,一旦单位是可交换的,或者 ,就可以学习…

H3C防火墙抓包(图形化)

一.报文捕获 ,然后通过wireshark查看报文 二.报文示踪 , 输入源目等信息, 查看报文的详情

JavaWeb之JSON、AJAX

JSON 什么是JSON:JSON: JavaScript Object Notation JS对象简谱 , 是一种轻量级的数据交换格式(JavaScript提供) 特点 [{"name":"周珍珍", "age":18},{"name":"李淑文","age":20}]数据是以键值对形式…

SpingBoot快速入门下

响应HttpServietResponse 介绍 将ResponseBody 加到Controller方法/类上 作用:将方法返回值直接响应,如果返回值是 实体对象/集合,将会自动转JSON格式响应 RestController Controller ResponseBody; 一般响应 统一响应 在实际开发中一般…

SpringBoot | 实现邮件发送

运行环境: IntelliJ IDEA 2022.2.5 (Ultimate Edition) (注意:idea必须在2021版本以上)JDK17 项目目录: 该项目分为pojo,service,controller,utils四个部分, 在pojo层里面写实体内容(发邮件需要的发件人邮…

浅谈配置元件之HTTP Cookie管理器

浅谈配置元件之HTTP Cookie管理器 在进行Web测试时,处理Cookies是非常关键的一环,因为Cookies常用于存储用户会话信息、登录状态等。JMeter中的“HTTP Cookie管理器”(HTTP Cookie Manager)正是为此设计的配置元件,它…

后端学习笔记:Python基础

后端学习笔记:Python基础 数据类型: Python中主要有以下几种常用的基本数据类型: String 字符串类型,用单引号或者双引号引用Number 数字类型,包括浮点数,整数,长整数和复数List 列表项&…