PyTorch][chapter 12][李宏毅深度学习][Semi-supervised Linear Methods-1]

news2025/1/14 18:24:41

 这里面介绍半监督学习里面一些常用的方案:

K-means ,HAC, PCA 等


目录:

  1.    K-means
  2.    HAC
  3.    PCA

一  K-means

    【预置条件】

          X=\begin{Bmatrix} x^1 &x^2 &... & x^N \end{Bmatrix}

         N 个样本分成k 个 簇

         step1:

                初始化簇中心点 c_i,i=1,2,..k(随机从X中抽取k个样本点作为)

         Repeat: 

                For  all x^n in X: 根据其到  C_i(i=1,2,..k)的欧式距离:

                 b_i^n=\left\{\begin{matrix}1:\, x^n\, most\, close \, c_i\\ 0: else \end{matrix}\right.(代表第n个样本属于第i簇)

                updating all c_i:

                 c_i=\frac{\sum_{x^n}b_i^nx^n}{\sum_{x^n}b_i^n}

          问题:

                 不同的初始化参数影响很大.可以通过已打标签的数据集作为c_i,

            未打标签的


二 Hierachical agglomerative Clustering(HAC)层次凝聚聚类算法

     流程

       1: build a tree (创建数结构)

       2  clustering by threshold (通过不同的阀值进行聚类)

     

   例   假设有5笔data:    x^1,x^2,x^3,x^4,x^5

       build a tree

       1  合并其中距离最近的两项  x^1,x^2

              

         2 基于合并后的数据集 (x^1,x^2,x^3,x^4),合并其中距离最小的两项  x^2,x^3

            

       1.3  基于 x^1,x^2,x^3 合并其中最小的两项 x^1,x^3

1.4 最后只剩下最后两项(N<=k),合并作为root

2  聚类(pick a threshold 选择不同的阀值进行分类)

  比如阀值在黑色虚线的位置:

x^1,x^2 为1类

x^3 为一类

 x^4,x^5为一类

  

# -*- coding: utf-8 -*-
"""
Created on Fri Jan 26 15:55:03 2024

@author: chengxf2
"""

import numpy as np
import math

def euler_distance(point1, point2):
    #计算欧几里德距离
    distance = 0.0
    c= point1-point2
    distance = np.sum(np.power(c,2))
    return math.sqrt(distance)


class tree:
    #定义一个节点
    def __init__(self, data, left= None,  right = None, distance=-1,idx= None,  count=1):
        
        self.x = data
        self.left = left
        self.right = right
        self.distance = distance
        self.id = idx
        self.count = count
        
        
def mergePoint(a,b):
    
    c= np.vstack((a,b))
    return c


class Hierarchical:
    
    
    
    def __init__(self, k=1):
        
        assert k>0
        self.k =k
        self.labels = None
        
    def getNearest(self, nodeList):
        #获取最邻近点
        
        N = len(nodeList)
        #print("\n N",N)
        min_dist = np.inf
       
        
        for i in range(N-1):
            for j in range(i+1, N):
                #print("\n i ",i,j)
                pointI = nodeList[i].x
                pointJ = nodeList[j].x
                d =  euler_distance(pointI, pointJ)
                if d <min_dist:
                    min_dist = d
                    closerst_point = (i, j)
        return closerst_point,min_dist
                
    def fit(self, data):
        N = len(data)
        nodeList = [ tree(data=x,idx = i) for i,x in enumerate(data)]
        currentclustid = -1
        self.labels =[-1]*N
        print(self.labels)
        
        
        while(len(nodeList)>self.k):
            
           closerest_point,min_dist = self.getNearest(nodeList)
           #print("\n closerest_point",closerest_point)
           id1, id2 = closerest_point
           node1, node2 = nodeList[id1], nodeList[id2]
           
           merge_vec =np.vstack((node1.x,node2.x))
           avg_vec = np.mean(merge_vec,axis=0)
           #print(node1.x, node2.x, avg_vec)
         
           new_node = tree(data=avg_vec, left=node1, right=node2, distance=min_dist, idx=currentclustid,
                                  count=node1.count + node2.count)
           currentclustid -= 1
           
           del nodeList[id2], nodeList[id1]
           nodeList.append(new_node)
        self.nodes = nodeList
        
           
    def calc_label(self):
         for i, node in enumerate(self.nodes):
             print("\b label",i)
             self.leaf_traversal(node, i)
             
    def leaf_traversal(self, node: tree, label):
         if node.left is None and node.right is None:
             self.labels[node.id] = label
             
         if node.left:
            
             self.leaf_traversal(node.left, label)
         if node.right:
             
             self.leaf_traversal(node.right, label)



if __name__ == "__main__":
    data = np.array([[1,1],
                     [1,1],
                     [2,2],
                     [3,3],
                     [3,4]] )
    
    net = Hierarchical(k=2)
    
    net.fit(data)
    net.calc_label()

三  PCA(Principle Component Analysis)

     PCA 是机器学习里面一种主要降维方案,深度学习里面常用的是AE编码器.

  如下图在3维空间里面,不同数据分布在不同的空间,通过PCA 降维到2D 

空间后,不同类别的数据分布依然分布在不同的空间,数据处理起来更方便.

原理推导:

    

已知:

     x \in R^{n,1} 为列向量

     数据集中有m笔该数据集

     W=[w_1,w_2,..w_k]w_1 \in R^{n,1} 列向量

      在第一个维度上面的投影为:

        z_1=w_1^Tx

       我们期望最大方差

        var(z_1)=\sum_{z_1} (z_1-\bar{z_1})^2 

        解:

            var(z_1)=\sum_x (w_1^Tx-w_1^T\bar{x})^2(利用(a^Tb)^2=a^Tbb^Ta)

                           =\sum_{x} w_1^T(x-\bar{x})(x-\bar{x}) w_1

                            =w_1^T(\sum_x(x-\bar{x})(x-\bar{x})^T)w_1

                             =w_1^TSw_1

           加上约束条件w_1^Tw_1=1,利用拉格朗日对偶算法求解

        L=-w_1^TSw_1+\alpha(w_1^Tw_1-1)(S是协方差矩阵,对称矩阵)

      对w_1求微分

   -Sw_1+\alpha w_1=0

   Sw_1=\alpha w_1

           w 就是特征向量

            \alpha  特征值

实对称矩阵S的重要性质,特征值一般只取前k个大于0的(负的只是方向问题)

                              

40:00

参考:

CV算法:K-means 、HAC、Mean Shift Clustering - 简书

13: Unsupervised Learning - Linear Methods_哔哩哔哩_bilibili

https://www.johngo689.com/549602/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1420792.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MP4格式视频怎么提取gif?一招教你在线做

MP4是一种常见的数字多媒体容器格式&#xff0c;它是一种使用最广泛的视频文件格式之一。MP4文件可以包含音频、视频和字幕等多种媒体数据&#xff0c;并且可以通过各种播放器和设备进行播放和共享。它是一种压缩格式&#xff0c;可以在保持相对较小文件大小的同时提供较高的视…

数学建模学习笔记||灰色关联分析

灰色系统 信息绝对透明的是白色系统&#xff0c;信息绝对秘密的是黑色系统&#xff0c;灰色系统介于两者之间 关联分析 即系统的分析因素 包含多种因素的系统中&#xff0c;哪些因素是主要的&#xff0c;哪些因素是次要的&#xff0c;哪些因素影响大&#xff0c;哪些因素影响小…

Vue3下载WEBAPI导出的Excel文件

webApi查询数据保存为Excel /// <summary>/// 获取LMI3D相机涂胶测量数据/// </summary>/// <returns></returns>[HttpPost(Name "GetLMI3DGlueDataToExcel")]public async Task<IActionResult> GetLMI3DGlueDataToExcel(QueryGlueM…

搜维尔科技:「简报」元宇宙数字人赛道,优秀作品《黛妮卡》赏析

黛妮卡是宇宙航星局所特聘来研究纪录地球科技的星际种子。宇宙航星局汇集各星球的菁英并称他们为星际种子&#xff0c;星际种子有各自的任务&#xff0c;完成任务是他们的使命。 学校&#xff1a; 私立长荣高级中学(台湾) 选手&#xff1a; 郭伊珍 角色姓名&#xff1a; 黛妮…

Docker-Cgroup资源限制

目录 一、Cgroup 1.CGROUP概念 2.CGROUP 子系统 3.CGROUP 示例 二、内存资源限制 1.内存资源限制概念 2.内存资源限制参数 1 3.内存资源限制参数 2 三、CPU 资源限制 1.容器中 CPU 使用 2.容器 CPU 限制参数 四、实验演示 一、Cgroup 1.CGROUP概念 在linux内核里提…

【LeetCode: 25. K 个一组翻转链表 + 链表 + 递归】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

Vue之初识Vue CLI 脚手架

Vue CLI 是Vue 官方提供的一个全局命令工具 可以帮助我们快速创建一个开发Vue项目的标准化基础架子。【集成了webpack配置】 脚手架有什么好处&#xff1f; 1.开箱即用&#xff0c;零配置 2.内置 babel 等工具 3.标准化 使用步骤: 1.全局安装(一次):yarn globaladd vue/cli …

vue3中使用echarts

效果如图: 1、首先安装echarts npm install echarts --save安装后的版本为&#xff1a; “echarts”: “5.4.2”, 2、页面使用 <template><div class"contact_us_page main"><div class"contact_us " id"main" ref"ech…

实际项目演示:Python RegEx在数据处理中的应用!

更多资料获取 &#x1f4da; 个人网站&#xff1a;ipengtao.com 正则表达式&#xff08;Regular Expressions&#xff0c;简称 RegEx&#xff09;是一种强大的文本匹配和搜索工具&#xff0c;它在数据处理、文本解析和字符串操作中发挥着关键作用。Python 提供了内置的 re 模块…

DevOps落地笔记-01|追溯本源:DevOps的发展历史回顾

任何事物的诞生、发展和消亡都是由所处社会阶段决定的&#xff0c;软件开发方法也是一样。现在我们津津乐道的 DevOps&#xff0c;也有其自己的起源和诞生的前提条件&#xff0c;今天我带领你追本溯源&#xff0c;一起找一找 DevOps 兴起的历史根源。 当谈到 DevOps&#xff0…

kafka集群搭建需要做的事情

首先&#xff0c;虚拟机克隆好之后的步骤如下&#xff1a; 1. 修改IP、主机名&#xff0c;关闭防火墙&#xff1b;&#xff08;reboot重启&#xff09; 2. 在/etc/hosts文件中进行IP与主机名的映射配置&#xff0c;集群中每天都记得配置&#xff1b; 3. 安装JDK并进行分发&a…

3种JWT验证和续签的策略

3 种JWT验证和续签的策略 好文推荐&#xff1a;一文教你搞定所有前端鉴权与后端鉴权方案&#xff0c;让你不再迷惘 - 掘金 (juejin.cn) 3 种jwt 验证的策略 通过解析去验证&#xff1a;每次访问api时parse jwt 判断是否vaild jwt有效 正常调用api jwt无效 返回401 缺点&a…

字符串和格式化输入/输出

本文参考C Primerf Plus进行C语言学习 文章目录 使用scanf() 从scanf()角度看输入格式字符串中的普通字符scanf()的返回值 1.使用scanf() 如果用scanf()读取基本变量类型的值&#xff0c;在变量名前加上一个&;如果用scanf()把字符串读入字符数组中&#xff0c;不要使用&am…

Kotlin快速入门系列6

Kotlin的接口与扩展 接口 与Java类似&#xff0c;Kotlin使用interface关键字定义接口&#xff0c;同时允许方法有默认实现&#xff1a; interface KtInterfaceTest {fun method()fun methodGo(){println("上面方法未实现&#xff0c;此方法已实现")} } 接口实现 …

提升编程效率的利器: 解析Google Guava库之集合篇RangeSet范围集合(五)

在编程中&#xff0c;我们经常需要处理各种范围集合&#xff0c;例如时间范围、数字范围等。传统的集合类库往往只能处理离散的元素集合&#xff0c;对于范围集合的处理则显得力不从心。为了解决这个问题&#xff0c;Google的Guava库提供了一种强大的数据结构——RangeSet&…

【JLU】校园网linux客户端运行方法

终于给这输入法整好了&#xff0c;就像上面图里那样执行命令就行 写一个开机自启的脚本会更方便&#xff0c;每次都运行也挺烦的 补充了一键运行脚本&#xff0c;文件路径$DIR需要自己修改 #!/bin/bash DIR"/home/d0/ubuntu-drclient-64/DrClient" run_per_prog&qu…

微信小程序上传时报错message:Error: 系统错误,错误码:80051,source size 2148KB exceed max limit 2MB

问题&#xff1a; 微信小程序上传时错误码&#xff1a;80051,source size 2248KB exceed max limit 2MB 问题原因&#xff1a; 由于代码中的静态资源 图片大小超了200k以及主包的体积超出1.5M 解决办法 分包 tabBar 是主包的&#xff0c;不需要分包处理&#xff0c;以下是分…

0130-2-秋招面试—HTML篇

2023 HTML面试题 1.src和href的区别 scr用于替换当前元素&#xff0c;href用于在当前文档和外部资源之间建立联系。 <script src"main.js"></script><link href"style.css" rel"stylesheet" />2.对HTML语义化的理解 根据内…

Linux:重定向

Linux&#xff1a;重定向 输出重定向追加重定向输出重定向与追加重定向的本质输入重定向 输出重定向 在Linux中&#xff0c;输出重定向是一种将命令的输出发送到不同位置的方法。通常&#xff0c;执行命令时&#xff0c;输出会显示在终端上。然而&#xff0c;使用输出重定向&a…

5-1 A. DS串应用--KMP算法

题目描述 学习KMP算法&#xff0c;给出主串和模式串&#xff0c;求模式串在主串的位置 算法框架如下&#xff0c;仅供参考 输入 第一个输入t&#xff0c;表示有t个实例 第二行输入第1个实例的主串&#xff0c;第三行输入第1个实例的模式串 以此类推 输入样例&#xff1a; 3 qwe…