机器学习(西瓜书)第 10 章 降维与度量学习

news2024/9/20 20:45:52

10.1 k近邻学习kNN

k 近邻(k-Nearest Neighbor,简称kNN)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个 “邻居”的信息来进行预测.通常,在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”,即将这k个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大.

与前面介绍的学习方法相比,k近邻学习有一个明显的不同之处:它似乎
没有显式的训练过程!事实上,它是“懒惰学习”(lazy learning)的著名代表,
此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到
测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方
法,称为“急切学习”(eager learning).

图10.1给出了 k近邻分类器的一个示意图.显然,k是一个重要参数,当k取不同值时,分类结果会有显著不同.另一方面,若采用不同的距离计算方式,则找出的“近邻”可能有显著差别,从而也会导致分类结果有显著不同.暂且假设距离计算是“恰当”的,即能够恰当地找出k个近邻,我们来对“最近邻分类器”(1NN,即k = l)在二分类问题上的性能做一个简单的讨论.

给定测试样本x若其最近邻样本为z则最近邻分类器出错的概率就是x与z类别标记不同的概率
(其中c是指类别标签)
在这里插入图片描述
假设样本独立同分布,且对任意x和任意小正数sigma,在出附近sigma距离范围内总能找到一个训练样本;换言之,对任意测试样本,总能在任意近的范围内找到式(10.1)中的训练样本z.令表示贝叶斯最优分类器的结果,有:
在这里插入图片描述
于是我们得到了有点令人惊讶的结论:最近邻分类器虽简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍

但是这里计算的重要前提是x->z充分接近,这个是要求整个样本空间是很稠密的,待测样本与观测样本之间的距离要足够近

我们想把样本从高维空间中去做一个降维,那么就能够应用这个近邻学习的技术

10.2 低维嵌入

上一节的讨论是基于一个重要假设:任意测试样本究附近任意小的sigma距离范围内总能找到一个训练样本,即训练样本的采样密度足够大,或称为“密采样”(dense sample).然而,这个假设在现实任务中通常很难满足,例如若sigma = 0.001,仅考虑单个属性,则仅需1000个样本点平均分布在归一化后的属性取值范围内,即可使得任意测试样本在其附近0.001距离范围内总能找到一个训练样本,此时最近邻分类器的错误率不超过贝叶斯最优分类器的错误率的两倍.

然而,这仅是属性维数为1的情形,若有更多的属性,则情况会发生显著变化.例如假定属性维数为20,若要求样本满足密采样条件,则至少需(10^3) ^{20} = 10 ^{60}个样本.现实应用中属性维数经常成千上万,要满足密采样条件所需的样本数目是无法达到的天文数字.此外,许多学习方法都涉及距离计算,而高维空间会给距离计算带来很大的麻烦,例如当维数很高时甚至连计算内积都不再容易

事实上,在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难

缓解维数灾难的一个重要途径是降维(dimension reduction), 亦称“维数约简”,即通过某种数学变换将原始高维属性空间转变为一个低维“子空间”,在这个子空间中样本密度大幅提高,距离计算也变得更为容易.为什么能进行降维?这是因为在很多时候,人们观测或收集到的数据样本虽是高维的,但与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维“嵌入”(embedding).图10.2给出了一个直观的例子.原始高维空间中的样本点,在这个低维嵌入子空间中更容易进行学习.
在这里插入图片描述
在这里插入图片描述

10.3 主成分分析PCA

主成分分析(Principal Component Analysis,简称PCA)是最常用的一种降维方法.在介绍P C A 之前,不妨先考虑这样一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?
容易想到,若存在这样的超平面,那么它大概应具有这样的性质:
• 最近重构性:样本点到这个超平面的距离都足够近;
• 最大可分性:样本点在这个超平面上的投影能尽可能分开.
有趣的是,基于最近重构性和最大可分性,能分别得到主成分分析的两种
等价推导.

在这里插入图片描述

我们希望它每维特征尽量分散,用数学语言描述就是希望变换后每一行的对应方差最大,因此可以对每一行求一个方差,然后对方差求一个和,最大化方差的和
依据这样的一个思路,进行PCA的求解过程

假定数据样本进行了中心化,即在这里插入图片描述
,也就是PCA的前提假设:Z的每一行均值是0(在数据输到PCA之中就可以做这样一个均值为0的一个规范化的转换),因此所有的z-bar都是0

在这里插入图片描述

要求所有W是规范化而且正交的,因为这个式子矩阵W可能有无穷个形式,这个式子任意乘一个数对结果没有影响,因此为了避免求解过程中常数项的影响,我们限制了W^TW是一个单位阵I

这就是主成分分析的优化目标.这实际上是一个受约束的线性规划问题,因此很自然地想到了用拉格朗日乘子的方法去求解

在这里插入图片描述
对于这个凸优化问题的话,可以用求微分的方式拿到它的解析解
因为我们现在想求的是这个变换矩阵W,所以我们对这个拉格朗日函数对W求偏微分

在这里插入图片描述

(I是一个常数矩阵和W没关系)
在这里插入图片描述

10.4 流形学习

流形学习(manifold learning)是一类借鉴了拓扑流形概念的降维方法.“流形”是在局部与欧氏空间同胚的空间,换言之,它在局部具有欧氏空间的性质,能用欧氏距离来进行距离计算.这给降维方法带来了很大的启发:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍具有欧氏空间的性质,因此,可以容易地在局部建立降维映射关系,然后再设法将局部映射关系推广到全局.当维数被降至二维或三维时,能对数据进行可视化展示,因此流形学习也可被用于可视化.本节介绍两种著名的流形学习方法.

等度量映射

等度量映射(Isometric Mapping,简称 Isomap) [Tenenbaum et al., 2000]的基本出发点,是认为低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流形上是不可达的.如图10.7(a)所示,低维嵌入流形上两点间的距离是“测地线”(geodesic)距离:想象一只虫子从一点爬到另一点,如果它不能脱离曲面行走,那么图10.7(a)中的红色曲线是距离最短的路径,即S曲面上的测地线,测地线距离是两点之间的本真距离.显然,直接在高维空间中计算直线距离是不恰当的.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

局部线性嵌入

与Isomap试图保持近邻样本之间的距离不同,局部线性嵌入(Locally Linear Embedding,简称LLE) [Roweis and Saul, 2000]试图保持邻域内样本之间的线性关系
在这里插入图片描述

10.5 度量学习

在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好.事实上,每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间,实质上就是在寻找一个合适的距离度量.那么,为何不直接尝试“学习”出一个合适的距离度量呢?这就是度量学习(metric learning)的基本动机.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2150027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

常用排序算法时间复杂度和稳定性

以下是常用排序算法时间复杂度和稳定性,也是常考的:

如何衡量企业品牌力?判断指标有哪些?

企业品牌力是指品牌在市场中的竞争力和影响力,它反映了品牌的价值、知名度、忠诚度、感知质量、差异化以及市场表现等方面。要去衡量一个企业的品牌力,大多从品牌的知名度、忠诚度、所占市场份额、顾客口碑、社媒影响力、品牌资产价值等多方面去判断。我…

【计网】从零开始使用TCP进行socket编程 --- 客户端与服务端的通信实现

阵雨后放晴的天空中, 出现的彩虹很快便会消失。 而人心中的彩虹却永不会消失。 --- 太宰治 《斜阳》--- 从零开始使用TCP进行socket编程 1 TCP与UDP2 TCP服务器类2.1 TCP基础知识2.2 整体框架设计2.3 初始化接口2.4 循环接收接口与服务接口 3 服务端与客户端测试…

Jboss CVE-2015-7501 靶场攻略

漏洞介绍 这是经典的JBoss反序列化漏洞,JBoss在/invoker/JMXInvokerServlet请求中读取了⽤户传⼊的对象,然后我们利⽤Apache Commons Collections中的 Gadget 执⾏任意代码 影响范围 JBoss Enterprise Application Platform 6.4.4,5.2.0,4.3.0_CP10 …

使用API有效率地管理Dynadot域名,为域名进行隐私保护设置

前言 Dynadot是通过ICANN认证的域名注册商,自2002年成立以来,服务于全球108个国家和地区的客户,为数以万计的客户提供简洁,优惠,安全的域名注册以及管理服务。 Dynadot平台操作教程索引(包括域名邮箱&…

欧美海外仓系统有哪些服务商选择?

在跨境电商的全球化浪潮中,欧美市场以其成熟的电商生态和庞大的消费群体,成为了众多跨境卖家竞相争夺的高地。为了提升物流效率、降低成本并增强客户体验,海外仓成为了不可或缺的一环。而海外仓系统的选择,则直接关系到仓库的运营…

qt--Qml控件库如何从外部导入

文章目录 两种方案方案1 给项目添加子项目方案2 使用pri文件 综合来说 : 两种方案 方案1 给项目添加子项目 利用git的特性 对应的子项目就是我们的控件库 然后需要哪个控件 在父项目的qrc路径进行导入 即可将控件库里面的控件给导入项目 在使用的时候 使用模…

tomcat中间件漏洞CVE-2017-12615,后台弱口令部署war包,CVE-2020-1938

一.CVE-2017-12615 环境搭建 cd vulhub-master/tomcat/CVE-2017-12615 docker-compose up -d 漏洞复现 http://172.16.1.22 1.⾸⻚抓包,修改为 PUT ⽅式提交 PUT /shell.jsp/ 2.上传成功进行访问,使用Webshell客户端⼯具进⾏连接 二.后台弱口令部…

二、电源滤波器

电源滤波器 1、电源滤波的过程分析! 波形形成过程: 2、计算: 滤波电容的容量和耐压值选择。 学习心得

mysql-死锁

文章目录 1、概念1.1、创建表 account1.2、id 自动创建 主键索引 primary1.3、name 没有创建索引 2、产生死锁的必要条件2.1、此时 name 没有创建 索引 3、如何处理死锁3.1、方式1:等待,直到超时(innodb_lock_wait_timeout50s)3.2…

软件测试分类篇(上)

目录 引言: 一、为什么要对软件测试进行分类 二、按照测试目标分类 1. 界面测试 2. 功能测试 3. 性能测试 4. 可靠性测试 5. 安全性测试 6. 易用性测试 三、按照执行方式分类 1. 静态测试 2. 动态测试 四、按照测试方法分类 1. 白盒测试 2. 黑盒测试 …

继承常见问题

问题一: 下面关于继承说法不正确的是( ) A.继承可以使用现有类的所有功能,并在无需重新编写原来类的情况下对这些功能进行扩展 B.继承体系中子类必须要体现出与基类的不同 C.子类对象一定比基类对象大 D.继承呈现了面相对象程序设…

关于若尔当矩阵中过渡矩阵的求法

关于若尔当矩阵中过渡矩阵的求法 豆瓜爱数学 ​关注 桜井雪子 等 114 人赞同了该文章 本文主要介绍考研中常考的另一类问题,当我们确认一个Jordan标准形时,对于过渡矩阵如何确定?这个常常是我们复习过程中容易忽略的一部分内容,…

【QT基础】创建项目项目代码解释

目录 前言一,使⽤Qt Creator 新建项目1. 新建项目2. 选择项⽬模板3. 选择项⽬路径4. 选择构建系统5. 填写类信息设置界⾯6. 选择语⾔和翻译⽂件7. 选择Qt套件8. 选择版本控制系统9. 最终效果 二,项目代码说明1. main.cpp文件2. Widget.h文件3. Widget.cp…

AI大模型之旅--milvus向量库安装

milvus-向量索引库 milvus的官方文档中看到最新版本的部署方式 :https://milvus.io/docs/install_standalone-docker.md 部署 curl -sfL https://raw.githubusercontent.com/milvus-io/milvus/master/scripts/standalone_embed.sh -o standalone_embed.sh 如果下载不下来&a…

AI浪潮新崛起:借助AI+实景/视频直播创新魅力,开启无人自动直播新时代!

AI浪潮新崛起:借助AI实景/视频直播创新魅力,开启无人自动直播新时代! 在科技日新月异的今天,人工智能(AI)已不再仅仅是科幻电影中的桥段,它正以不可阻挡之势渗透到我们生活的方方面面&#xff…

【笔记】自动驾驶预测与决策规划_Part3_路径与轨迹规划

文章目录 0. 前言1. 基于搜索的路径规划1.1 A* 算法1.2 Hybrid A* 算法 2. 基于采样的路径规划2.1 Frent Frame方法2.2 Cartesian →Frent 1D ( x , y ) (x, y) (x,y) —> ( s , l ) (s, l) (s,l)2.3 Cartesian →Frent 3D2.4 贝尔曼Bellman最优性原理2.5 高速轨迹采样——…

糟糕~!注册中心是什么!

1. 什么是注册中心 注册中心是服务实例信息的存储仓库,也是服务提供者和服务消费者进行交互的桥梁。它主要提供了服务注册和服务发现这两大核心功能。 我我们看这张服务注册流程图就知道,对于注册中心而言,服务的提供者和消费者都相当于是它…

Jboss CVE-2017-7504 靶场攻略

漏洞介绍 JBoss AS 4.x及之前版本中,JbossMQ实现过程的JMS over HTTP Invocation Layer的 HTTPServerILServlet.java⽂件存在反序列化漏洞,远程攻击者可借助特制的序列化数据利⽤该漏洞执⾏ 任意代码执⾏ 影响范围 JBoss 4.x 以及之前的所有版本 环…

2024 中秋盛景:数据璀璨,文旅辉煌

2024 年的中秋假期,文旅市场热闹非凡。看这一组组令人惊叹的数据,感受中秋旅游的火爆魅力。国内出游人次高达 1.07 亿,相比 2019 年同期增长了 6.3%,这意味着无数人踏上旅途,追寻着心中的诗和远方。国内游客出游总花费…