第十章 降维与度量学习

news2025/1/23 7:07:30

10.1 k近邻学习

k近邻学习(kNN)是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。
k近邻学习似乎与之前的学习方法相比有一个明显的不同之处:它似乎没有显式的训练过程!它是懒惰学习的著名代表,此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为0,待收到测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方法称为急切学习
下图给出了k近邻分类器的一个示意图,显然k是一个重要的参数,当k取不同值时,分类结果会有显著不同。另一方面,若采用不同的距离计算方式,则找出的“近邻”可能有显著差别,从而也会导致分类结果有显著不同。
在这里插入图片描述
下面给出一个重要结论,最近邻分类器虽简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍。

10.2 低维嵌入

上一节的讨论是基于一个重要假设:任意测试样本x附近任意小的距离范围内总能找到一个训练样本,即训练样本的采样密度足够大,或称为密采样。事实上,在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为维数灾难
缓解维数灾难的一个重要途径是降维,亦称维数约简,即通过某种数学变换将原始高维属性空间转变为一个低维子空间,在这个子空间中样本密度大幅提高,距离计算也变得更为容易。
在这里插入图片描述
若要求原始空间中样本之间的距离在低维空间中得以保持,如上图所示,即得到多维缩放(Multiple Dimensional Scaling,简称MDS)。

10.3 主成分分析

主成分分析(Principal Component Analysis,简称PCA)是最常用的一种降维方法。在介绍PCA之前,不妨先考虑这样一个问题:对于正交属性空间中的样本点,如何用一个超平面对所有样本进行恰当的表达?
PCA算法如下图所示:
在这里插入图片描述

10.4 核化线性降维

线性降维方法假设从高维空间到低维空间的函数映射是线性的,然而,在不少现实任务中,可能需要非线性映射才能找到恰当的低维嵌入。下图给出一个例子,样本点从二维空间中的矩形区域采样后以S形曲面嵌入到三维空间,若直接使用线性降维方法对三维空间观察到的样本点进行降维,则将丢失原本的低维结构。为了对原本采样的低维空间与降维后的低维空间加以区别,我们称前者为本真低维空间。
在这里插入图片描述
非线性降维的一种常用方法,是基于核技巧对线性降维方法进行核化,有一种经典方法叫核主成分分析(KPCA)。

10.5 流形学习

流形学习是一类借鉴了拓扑流形概念的降维方法。“流形”实在局部与欧氏空间同胚的空间,换言之,它在局部具有欧氏空间的性质,能用欧氏距离来进行距离计算。这给降维方法带来了很大的启发:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍具有欧氏空间的性质,因此,可以容易地在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。当维数被降至二维或三维时,能对数据进行可视化展示,因此流形学习也可被用于可视化。

10.5.1 等度量映射

等度量映射(Isometric Mapping,简称Isomap)的基本出发点,是认为低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上是不可达的。如图所示:
在这里插入图片描述
图a中,低维嵌入流形上两点间的距离是测地线距离:想像一只虫子从一点爬到另一点,如果它不能脱离曲面行走,那么图啊中的红色曲线就是距离最短的路径,即S曲面上的测地线,测地线距离是两点之间的本真距离。显然直接在高维空间中计算直线距离是不恰当的。
下面给出Isomap算法的基本描述:
在这里插入图片描述

10.5.2 局部线性嵌入

与Isomap试图保持临近样本之间的距离不同,局部线性嵌入(Locally Linear Embedding,简称LLE)试图保持邻域内样本之间的线性关系,如图所示:
在这里插入图片描述
LLE的算法描述如图所示:
在这里插入图片描述

10.6 度量学习

在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,再此空间中进行学习能比原始空间性能更好。事实上,每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间,实质上就是在寻找一个合适的距离度量。直接尝试学习出一个合适的距离度量就是度量学习的基本动机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/67029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2022 计网复习计算题【太原理工大学】

期末复习汇总,点这里!https://blog.csdn.net/m0_52861684/category_12095266.html?spm1001.2014.3001.5482 三、计算题 1. 假定 1km 长的 CSMA/CD 网络的数据率为 1Gb/s,设信号在网络上的传播速率为 200000km/s。求能够使用此协议的最短帧长…

java swing(GUI) MySQL实现的学生选课成绩管理系统源码+运行教程

今天给大家演示一下由Java swing mysql实现的一款学生选课成绩信息管理系统,主要实现的功能有:学生教师信息管理、年级班级信息管理、课程信息管理、选课、成绩录入功能、成绩统计功能,实现学生、教师、管理员三个角色的登录,三个…

【计算机图形学入门】笔记1:图形学概述

前言:今天开始开启一个新篇章的学习,那就是games101闫令琪老师讲的《现代计算机图形学入门》课程,我会根据闫老师每节课讲的内容记录重点笔记,每节课都会整理一篇发布出来,希望自己可以坚持下去,从图形学小…

可视化音视频分析工具:好用工具大集锦,快转发给你兄弟看看丨音视频工具

(本文基本逻辑:音画原始数据分析工具介绍 → 编码数据分析工具介绍 → 封装格式分析工具介绍) 工欲善其事,必先利其器。在音视频开发中,为了方便、快捷、直观的分析音视频数据,最好能有一些可视化的分析工…

《爱在 ZStack Cube 超融合》三部曲

一、始于初识:很高兴见到你 这一天东川路最靓的仔打开了 ZStack Cube 宝盒 ,这可能是我们的第一次相遇,我们相谈甚欢,相遇恨晚。 我的名字是 ZStack Cube,一个基于超融合架构的云平台。我拥有3300、5300、7300、7300…

Acwing_98

题目链接 考察知识点: 坐标变换、递归、分治。 核心问题:计算出点的坐标。 策略是递归算出子图形中的坐标,再进行平移得到当前图形中的坐标。 采用下图方式建立坐标系:原点在中心。 前置知识: (x,y)(x,y)(x,y) 逆时…

ResNet18实现——MNIST手写数字识别(突破0.995)

1.简单CNN改进 简单的CNN实现——MNIST手写数字识别 该部分首先对我前面的工作进行了改进,然后以此为基础构建ResNet18去实现MNIST手写数字识别。 1.改进要点: 1.利用nn.Sequential()自定义块结构,增加可读性和方便…

Spring - 什么是spring?

好久没更新博客了,今天小更一波。 学习java已经有一段时间了,今天将接触Spring框架技术。 什么是Spring? spring 中文意思就是 春天,实际上spring 是真的给软件行业带来了春天。 使用spring的好处? spring可以解决企业级开发…

眼内衍射透镜的设计与分析

1. 摘要 如今,多焦点眼内透镜移植已广泛用于白内障的治疗。作为其优势特点之一,衍射眼内透镜为病患提供了很好的远近景性能。这种透镜经常在Zemax OpticStudio 中采用binary2面型进行设计。在本示例中,我们阐述了如何将初始设计导入VirtualLa…

嵌入式开发--RS-485通讯的问题

嵌入式开发 RS-485通讯的问题RS-485说明接口芯片硬件连接CubeMX设置代码编写引脚定义使能串口中断函数发送数据接收数据有一个问题,多收了一个数数据线上的波形问题分析问题解决RS-485说明 RS-485一般简称485总线,是最常用的工业总线之一,一…

LeetCode简单题之回环句

题目 句子 是由单个空格分隔的一组单词,且不含前导或尾随空格。 例如,“Hello World”、“HELLO”、“hello world hello world” 都是符合要求的句子。 单词 仅 由大写和小写英文字母组成。且大写和小写字母会视作不同字符。 如果句子满足下述全部条…

从 0 开始学习 Git + GitHub

文章目录一、GitHub创建仓库二、安装Git客户端1、安装2、配置身份三、为Github账户设置SSH key1、生成ssh key2、GitHub 新建SSh key3、测试连接是否成功四、上传本地项目到Github方法一:方法二:master分支到main分支迁移五、Git常用命令git initgit sta…

共享主机安全吗(以及如何保护它)?

共享主机是在一台服务器上存储多个网站的主机。通常,您的资源(例如 CPU、内存、数据库和带宽)会在用户之间溢出。由于它非常适合流量低的网站,且因具成本效益,共享主机相当普遍。如果您是博主和小型企业,则很有可能会选择共享主机…

聊聊我常用的5款动态数据可视化工具

视频当道的时代,数据可视化自然也要动起来。 我常用的动态可视化工具主要有Tableau、Echarts、Flourish、Python这几个,另外一个地图可视化神器kepler.gl,是技术群小伙伴的分享。 这五款可视化工具差异很大,在各自领域都是学霸级…

Grafana 快速配置可视化面板

一、如何快速搭建部署Grafana CSDNhttps://mp.csdn.net/mp_blog/creation/editor/128199952 二、快速配置可视化面板 1.新建数据源 首次新建数据源、首次新建看板 2.选择数据源类型 3.配置数据库 地址、账号、密码 备注:新建的数据源都可以在添加看板作为选项进…

Odoo丨如何在明细行中添加复选框?

最近,在项目实际业务中遇到需要对明细订单添加复选框和按钮进行操作的需求。 起初在拿到需求时,我联想到Odoo默认tree视图是有复选框和操作按钮的功能,于是查看了源码,确认了这个想法。 因为这个是属于字段中one2many 关系属性来…

【DPDK】dpdk样例源码解析之五:dpdk-rss

本篇文章介绍DPDK-RSS相关的功能,RSS是网卡提供的分流机制,简单讲就是一个HASH值,如果使用DPDK收包,开启RSS后,会根据配置项将数据包分流到不同的收包队列,用来是实现负载均衡。 通过DPDK-L3FWD样例&#…

关于Pytorch下载并进行部署

目录 1.关于Pytorch 2.Pytorch环境部署前提条件 3.部署方法 4.测试 1.关于Pytorch PyTorch是一个开源的Python机器学习库,基于Torch,用于计算机视觉、自然语言处理等应用程序。 2017年1月,由Facebook人工智能研究院(FAIR&…

数据库设计 ER图

三个基本概念 Entity Entity Set表示一类事物,类似于面向对象中类的概念,而Entity Instance表示一个具体的事物,类似于对象的概念。 Entity中可以有属性(Attribute),也可以与其他Entity之间存在关系(Relationship)。在设计数据库…

【最新版全插件】多功能同城优选小程序源码

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 1.为本地的线下商家提供线上销售渠道。一直以来本地商品、娱乐、休闲、旅游服务线上购买大家都是以美团为准。近几年来随着微信公众号、小程序的渗透力逐渐加强,越来越多的用…