吴恩达机器学习笔记:第 8 周-14降维(Dimensionality Reduction) 14.3-14.5

news2024/12/25 8:59:48

目录

  • 第 8 周 14、 降维(Dimensionality Reduction)
    • 14.3 主成分分析问题
    • 14.4 主成分分析算法
    • 14.5 选择主成分的数量

第 8 周 14、 降维(Dimensionality Reduction)

14.3 主成分分析问题

主成分分析(PCA)是最常见的降维算法。

在 PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。

在这里插入图片描述
下面给出主成分分析问题的描述:
问题是要将𝑛维数据降至𝑘维,目标是找到向量 u ( 1 ) , u ( 2 ) , . . . , u ( k ) u^{(1)} ,u^{(2)} ,...,u^{(k)} u(1),u(2),...,u(k)使得总的投射误差最小。

主成分分析与线性回顾的比较:
主成分分析与线性回归是两种不同的算法。主成分分析最小化的是投射误差(Projected Error),而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果,而主成分分析不作任何预测。

PCA 将𝑛个特征降维到𝑘个,可以用来进行数据压缩,如果 100 维的向量最后可以用 10维来表示,那么压缩率为 90%。同样图像处理领域的 KL 变换使用 PCA 做图像压缩。但 PCA要保证降维后,还要保证数据的特性损失最小。

PCA 技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

PCA 技术的一个很大的优点是,它是完全无参数限制的。在 PCA 的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。

但是,这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高。

14.4 主成分分析算法

PCA 减少𝑛维到𝑘维:

  1. 第一步是均值归一化。我们需要计算出所有特征的均值,然后令 x j = x j − μ j x_j= x_j − μ_j xj=xjμj。如果特征是在不同的数量级上,我们还需要将其除以标准差 σ 2 σ^2 σ2
  2. 第二步是计算协方差矩阵(covariance matrix)𝛴:
    Σ = 1 m ∑ i = 1 n ( x ( i ) ) ( x ( i ) ) T Σ = \frac{1}{m}\sum_{i=1}^{n}{(x^{(i)}) (x^{(i)})^T} Σ=m1i=1n(x(i))(x(i))T
  3. 第三步是计算协方差矩阵𝛴的特征向量(eigenvectors):在 Octave 里我们可以利用奇异值分解(singular value decomposition)来求解,[U, S, V]= svd(sigma)。

在这里插入图片描述
对于一个 n × n维度的矩阵,上式中的𝑈是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从𝑛维降至𝑘维,我们只需要从𝑈中选取前𝑘个向量,获得一个𝑛 × 𝑘维度的矩阵,我们用𝑈𝑟𝑒𝑑𝑢𝑐𝑒表示,然后通过如下计算获得要求的新特征向量𝑧(𝑖):
z ( i ) = U r e d u c e T ∗ x ( i ) z^{(i)} = U_{reduce}^T∗ x^{(i)} z(i)=UreduceTx(i)

其中𝑥是𝑛 × 1维的,因此结果为𝑘 × 1维度。注,我们不对方差特征进行处理。

14.5 选择主成分的数量

主要成分分析是减少投射的平均均方误差:

训练集的方差为: 1 m ∑ i = 1 m ∣ ∣ x ( i ) ∣ ∣ 2 \frac{1}{m}\sum_{i=1}^m{||x^{(i)}||^2} m1i=1m∣∣x(i)2

我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的𝑘值。如果我们希望这个比例小于 1%,就意味着原本数据的偏差有 99%都保留下来了,如果我们选择保留 95%的偏差,便能非常显著地降低模型中特征的维度了。

我们可以先令𝑘 = 1,然后进行主要成分分析,获得𝑈𝑟𝑒𝑑𝑢𝑐𝑒和𝑧,然后计算比例是否小于1%。如果不是的话再令𝑘 = 2,如此类推,直到找到可以使得比例小于 1%的最小𝑘 值(原因是各个特征之间通常情况存在某种相关性)。

还有一些更好的方式来选择𝑘,当我们在 Octave 中调用“svd”函数的时候,我们获得三个参数:[U, S, V] = svd(sigma)。
在这里插入图片描述
其中的𝑆是一个𝑛 × 𝑛的矩阵,只有对角线上有值,而其它单元都是 0,我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1633131.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot和PostGIS的各省与地级市空间距离分析

目录 前言 一、PostGIS时空库 1、时空表设计 2、空间数据管理与查询 二、后台接口设计 1、ORM层设计与实现 2、业务层设计与实现 3、控制层设计 三、web可视化设计与实现 1、省份范围展示 2、城市距离可视化 3、成果展示 总结 前言 在上一篇博客中基于Java和GDAL实…

npm安装时一直idealTree:npm: sill idealTree buildDeps卡住不动

npm安装时一直idealTree:npm: sill idealTree buildDeps卡住不动 解决步骤: 1.去以下的目录中删掉.npmrc文件(只在C:\User.npmrc) 2.清除缓存,使用npm cache verify 不要用npm cache clean --force,容易出现npm WAR…

科智牧RFID电子耳标识读器-GALLAGHER盖力格平替之王

在畜牧业管理中,RFID技术的应用日益广泛。而科智牧作为畜牧业RFID行业的领先品牌,其RFID电子耳标识读器的性能不输于GALLAGHER盖力格的电子耳标识读器产品。采用RFID无线射频识别技术,能够快速、准确地读取动物耳标中的信息,无需直…

客户端连接ZK失败处理方案

文章目录 背景介绍报错信息处理方案第一步、查看zookeeper启动是否正常第二步、检查本地网络是否正常第三步、检查本地JDK版本 对于zookeeper服务注册中心,在前期【 Dubbo框架注册中心-Zookeeper搭建】博客中有环境搭建部署介绍,感兴趣可以参考安装。 背…

【电路笔记】-RC振荡器电路

RC振荡器电路 文章目录 RC振荡器电路1、概述2、RC 相移网络3、基本RC振荡器电路4、运算放大器RC振荡器5、运算放大器相位滞后RC振荡器电路6、RC振荡器示例11、概述 RC 振荡器使用放大器和 RC 反馈网络的组合,由于级之间的相移而产生输出振荡。 当单级晶体管放大器作为共发射…

iOS 实现视图遮罩效果

有时候,我们会遇到这种需求,只讲视图的某个部分展示出来 这时候,我们可以通过设置该视图layer.mask layerb来实现,需要注意的是,这里的layerb必须要设置backgroundColor,渐变layer有colors,否则达不到效果…

一站式服务:教你搭建AI知识库

在信息化高速发展的今天,知识管理已成为企业提升竞争力的重要因素。而AI知识库,作为知识管理的高级形态,被很多企业选择。那么,如何打造一款高效、智能的AI知识库呢?本文的一站式服务将为您一一解答。 一、明确需求与目…

解决idea不识别${pageContext.request.contextPath}的方法

文章目录 一、产生原因二、解决方法——直接修改web.xml文件三、修改模板——找到web.xml模板,修改替换 一、产生原因 由于web.xml 使用的web-app版本号过低。导致无法识别"{pageContext.request.contextPath}"。 IDEA在创建javaweb项目的时候&#xff0…

畅聊AI生成PPT,ChatPPT神奇测评

大家好,我是清辞,很荣幸能够参与“AI应用有奖试用评测征集【第一期】——畅聊AI生成PPT”的活动。 我们都知道现在AI生成ppt非常火爆,但是许多AI生成的PPT模板显得单调乏味,用词缺乏新意,往往只是对已有数据的简单模仿…

P5931 灯泡

题目描述 相比 Wildleopard 的家,他的弟弟 Mildleopard 比较穷。他的房子是狭窄的,而且在他的房间里仅有一个灯泡。每天晚上,他徘徊在自己狭小的房子里,思考如何赚更多的钱。有一天,他发现他的影子的长度随着他在灯泡…

密文域可逆信息隐藏技术综述(下)

与联合RDH-EI算法相比,可分离RDH-EI算法提取秘密信息时仅需要隐藏密钥,实现了加密者和隐藏者独立操作、互不干扰,扩大了RDH-EI的使用范围,得到了研究者的广泛关注。现有可分离RDH-EI可分为基于加密前预留空间(reserving room befo…

如何消除浏览器SmartScreen对网站“不安全”提示?

面对互联网时代用户对网站安全性和可信度的严苛要求,网站运营者时常遭遇Microsoft Defender SmartScreen(SmartScreen)提示网站不安全的困扰。本文将剖析SmartScreen判定网站不安全的原因,并为运营者提供应对策略,以恢…

Kubernetes - Dashboard 配置用户名密码方式登录

Kubernetes - Dashboard 配置用户名密码方式登录 前言: 为了 K8s 集群安全,默认情况下 Dashboard 以 Token的形式登录的,那如果我们想以用户名/密码的方式登录该怎么操作呢?其实只需要我们创建用户并进行 ClusterRoleBinding绑定即…

J9inceptionv3

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊# 前言 上周学习了inceptionv1网络,这周学习其改进版本inceptionv3 简介 Inception v3是谷歌研究团队提出的深度卷积神经网络架构,通过…

碳化硅片有哪些比较重要的参数?

知识星球(星球名:芯片制造与封测社区)里的学员问:请问碳化硅衬底片到客户端验证主要测试什么项目,比较重要的参数有哪些? Lattice Parameters:晶格参数。确保衬底的晶格常数与将要生长的外延层…

数据结构之顺序表深度讲解

从这节课开始就要进入数据结构的课了,小伙伴们,你们准备好了吗?系好安全带,我们要发了。 顺序表的引入 概念 相互存在一种或多种特定关系的数据元素的集合 大白话:一个结构体包含了一些数据元素 概念不重要&#x…

代码随想录算法训练营第五天:哈希表的初步认识[1]

代码随想录算法训练营第五天:哈希表的初步认识 数组就是简单的哈希表,但是数组的大小可不是无限开辟的 前言 我们已经学习了数组、字符串、链表等数据结构,但是大家有没有发现,如果我们想要找到其中某个元素或者节点&#xff0…

pytho爬取南京房源成交价信息并导入到excel

# encoding: utf-8 # File_name: import requests from bs4 import BeautifulSoup import xlrd #导入xlrd库 import pandas as pd import openpyxl# 定义函数来获取南京最新的二手房房子成交价 def get_nanjing_latest_second_hand_prices():cookies {select_city: 320100,li…

【MySQL 数据宝典】【索引原理】- 001 索引原理分析 (AVL树、B-Tree、B+Tree)

一、索引定义 MySQL官方对索引定义:是存储引擎用于快速查找记录的一种数据结构。需要额外开辟空间和数据维护工作。 索引是物理数据页存储,在数据文件中(InnoDB,ibd文件),利用数据页(page)存储。 索引可以…

Java数据结构堆

堆的概念 所有元素按完全二叉树的顺序存储方式存储 在一个一维数组中。 小根堆:根节点的大小小于孩子节点。整棵树都是小根堆必须满足每颗子树都是小根堆。 堆的存储方式 从堆的概念可知,堆是一棵完全二叉树,因此可以层序的规则采用顺序的…