机器学习---线性判别分析

news2025/1/17 6:06:53

1. 基本思想

        线性判别分析(Linear Discriminant Analysis, LDA),也叫做 Fisher 线性判别(Fisher Linear

Discriminant ,FLD),是模式识别的经典算法,1936年由Ronald Fisher⾸次提出,并在1996年由

Belhumeur引⼊模式识别和⼈⼯智能领域。

       线性判别分析的基本思想是将⾼维的模式样本投影到最佳鉴别⽮量空间,以达到抽取分类信息

和压缩特征空间维数的效果。 投影后保证模式样本在新的⼦空间有最⼤的类间距离和最⼩的类距

离,即模式在该空间中有最佳的可分离性。

       因此,它是⼀种有效的特征抽取⽅法。使⽤这种⽅法能够使投影后模式样本的类间散布矩阵

最⼤,并且同时类内散布矩阵最⼩。

       LDA与PCA(主成分分析)都是常⽤的降维技术。PCA主要是从特征的协⽅差⻆度,去找到⽐较

好的投影⽅式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更⼤,同⼀

类别的数据点更紧凑。

2. LDA

        两个类别,⼀个绿⾊类别,⼀个红⾊类别。下图第一张图是两个类别的原始数据,现在要求

将数据从⼆维降维到⼀维。直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下

降。下图第二张图映射到的直线就是⽤LDA⽅法计算得到的,可以看到,红⾊类别和绿⾊类别在

映射之后之间的距离是最⼤的,⽽且每个类别内部点的离散程度是最⼩的(或者说聚集程度是最⼤

的)。

下图第一张图:当投影到这条直线时,这两个类没有很好地分开 。

下图第二张图:这条线成功地将两个类分开,同时将问题的维数从两个特征(x1,x2)减少到只有

一个标量值y。

LDA是⼀种线性分类器。对于K-分类的⼀个分类问题, 会有K个线性函数: 

       当满⾜条件:对于所有的 j,都有 Yk > Yj 的时候,我们就说 x 属于类别 k。对于每⼀个分类,

都有⼀个公式去算⼀个分值, 在所有的公式得到的分值中,找⼀个最⼤的,就是所属的分类 。

       上式实际上就是⼀种投影,是将⼀个⾼维的点投影到⼀条的直线上,LDA追求的⽬标是,给

出⼀个标注了类别的数据集,投影到了⼀条直线之后,能够使得点尽量的按类别区分开,当k=2即

⼆分类问题的时候,如下图所示:

红⾊的⽅形的点为0类的原始点、蓝⾊的⽅形点为1类的原始点,经过原点的那条线就是投影的直

线,从图上可以清楚的看到,红⾊的点和蓝⾊的点被原点明显的分开了。

3. 优化函数

假设⽤来区分⼆分类的直线(投影函数)为:

 LDA分类的⼀个⽬标是使得不同类别之间的距离越远越好,同⼀类别之中的距离越近越好,所以

我们需要定义⼏个关键的值:

类别 i 的原始中⼼点(均值)为:(Di 表示属于类别 i 的点):

类别 i 投影后的中⼼点为:

衡量类别 i 投影后,类别点之间的分散程度(⽅差)为: 

最终我们可以得到⼀个下⾯的公式,表示LDA投影到w后的⽬标优化函数:

分母表示每一个类别内的方差之和,方差越大表示一个类别内的点越分散,分子为两个类别各自的

中心点的距离的平方,我们最大化J(w)就可以求出最优的w。

分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。

我们定义一个投影前的各类别分散程度的矩阵,其意思是,如果某一个分类的输入点集 Di 里面的

点距离这个分类的中心点 mi 越近,则 Si 里面元素的值就越小,如果分类的点都紧紧地围绕着mi,

则Si里面的元素值越更接近0。

定义:

定义:

化简:

将(1)带入后得:

同样的,将J(w)分子化为:

这样目标优化函数可以化成:

       这样就可以用拉格朗日乘子法了,但是还有一个问题,如果分子、分母是都可以取任意值的,

那就会使得有无穷解,将分母限制为长度为1,并作为拉格朗日乘子法的限制条件,带入得到:   

这样的式子就是一个求广义特征值的问题了。如果 Sw 可逆,那么将求导后的结果两边都左乘以 Sw 的逆得:

这个可喜的结果就是w就是矩阵的特征向量了。这个公式称为Fisher linear discrimination。

再观察一下,发现前面 SB 的公式:

所以:

带入最后的特征值公式得:

由于对 w 扩大缩小任何倍都不影响结果,因此可以约去两边的常数,得到:

至此,我们只需要求出原始样本的均值和方差就可以求出最佳的方向w, 这就是Fisher在1936年提

出的线性判别分析。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/896463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【探索C++】用实例教你理解面向对象编程(看不懂打我版)

(꒪ꇴ꒪ ),Hello我是祐言QAQ我的博客主页:C/C语言,Linux基础,ARM开发板,软件配置等领域博主🌍快上🚘,一起学习,让我们成为一个强大的攻城狮!送给自己和读者的…

软件系统工具-架构师真题(六)

_____不属于可修改性考虑的内容。(2016) 可维护性可扩展性结构重构可变性 答案:D 解析: 可修改性指快速较高的性能价格进行系统优化,包括可维护性、可扩展性、结构重组和可移植性四个方面。 软件系统工具中,软件评…

Docker 常规软件安装

1. 总体安装步骤 1. 搜索镜像 search 2. 拉取镜像 pull 3. 查看镜像 images 4. 启动镜像 - 端口映射 run 5. 停止容器 stop 6. 移除容器 rm 2. 安装tomcat 1. 搜索 docker search tomcat 2. 拉取 docker pull tomcat 3. 查看本地镜像 docker images tomcat 4. 创建容器实…

两个List合并、去重、排序

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

打通应用“壁垒”,数据分类分级结果与安全策略自动匹配

《网络安全法》、《数据安全法》等法律法规,以及各行业各领域与数据安全相关的标准规范,几乎都涉及对数据进行分类分级保护的要求。数据安全始于分类分级,已成为毫无疑问的行业共识。 但现实中不少用户却止步在分类分级工作,“如…

linux虚拟机中各服务端口及配置文件路径

查询端口状况命令: netstat -an| grep 端口号 查询服务状态(服务是否开启)命令:systemctl status 服务名 开启服务命令:systemctl start 服务名 21端口:FTP 文件传输服务 22端口:SSH协议、…

无涯教程-Perl - wait函数

描述 该函数等待子进程终止,返回已故进程的进程ID。进程的退出状态包含在$?中。 语法 以下是此函数的简单语法- wait返回值 如果没有子进程,则此函数返回-1,否则将显示已故进程的进程ID Perl 中的 wait函数 - 无涯教程网无涯教程网提供描述该函数等待子进程终止,返回已故…

怎么把pdf压缩到5m以内?压缩办法非常多

怎么把pdf压缩到5m以内?PDF文件是我们办公过程中较为常用的文件格式,PDF文件所包含的内容通常较多,比如文本、图像以及音视频等等。这样的话,PDF文件占用内存也较大。如果需要对PDF文件进行使用、传输、分享等的话,可能…

中路对线发现正在攻防演练中投毒的红队大佬

背景 2023年8月14日晚,墨菲安全实验室发布《首起针对国内金融企业的开源组件投毒攻击事件》NPM投毒事件分析文章,紧接着我们在8月17日监控到一个新的npm投毒组件包 hreport-preview,该投毒组件用来下载木马文件的域名地址竟然是 img.murphys…

【TypeScript】任意类型

前置准备 在 powershell 安装 ts-node 包,可以先借助 xmzs 包切换淘宝镜像,加快安装速度。 在 vscode 终端执行 npm init -y 生成 package.json 文件 然后在 vscode 终端执行 npm i types/node -D 最后就可以在 vscode 终端执行ts-node,直接…

Typora 相对路径保存图片以及 Gitee 无法显示图片

目录 Typora 相对路径保存图片 Gitee 无法显示图片 Typora 相对路径保存图片 Step1:修改 Typora 的偏好设置 自动在当前目录创建名为 "./${filename}.assets" 的文件夹粘贴图片到 md 中时,图片会自动另存到 "./${filename}.assets&qu…

macOS Ventura 13.5.1(22G90)发布(附黑/白苹果系统镜像地址)

系统镜像下载:百度:黑果魏叔 系统介绍 黑果魏叔 8 月 18 日消息,苹果今日向 Mac 电脑用户推送了 macOS 13.5.1 更新(内部版本号:22G90),本次更新距离上次发布隔了 24 天。 本次更新重点修复了…

ip2region(1):java通过Ip2region实现IP定位

1 Ip2region简介 Ip2region是一个开源工具库,是一种用于IP地址定位的工具。 它是基于B树数据结构的数据库,可用于将IP地址转换为国家、省、市、区县等信息。 使用Ip2region工具,您可以轻松地查找某个IP地址所在的区域信息,从而帮助您进行定位…

页面加载慢问题排查结论

遇到一个很奇怪的现象,已知A和B两个页面,都有调用同一个弹框,但是A页面很快,一切正常,B页面需要加载很久,就很奇怪。 后面又发现,B页面里面不同tab C和D,调用上面的弹框&#xff0c…

专业高度契合|中国文学对接伦敦大学亚非学院访学申请成功

G老师的研究方向以中国文学为主,重点是现当代文学,优先申请英国高校访学,而英国高校从事该领域研究的学者屈指可数,经过努力,我们先后得到伦敦国王学院、斯特林大学及伦敦大学亚非学院的接受意向,用伦敦国王…

【目标检测中对IoU的改进】GIoU,DIoU,CIoU的详细介绍

文章目录 1、IoU2、GIoU(Generalized Intersection over Union)3、DIoU4、CIoU 1、IoU IoU为交并比,即对于pred和Ground Truth:交集/并集 1、IoU可以作为评价指标使用,也可以用于构建IoU loss 1 - IoU 缺点: 2、对于pred和GT相…

学渣的愤怒!自考本科能不能不考英语和数学?

英语和高数哪个更难? 这是自考生们最头大的两个科目。 自考高数有多难? 高数主要有微积分、线性代数和概率论三个部分。 其中微积分是基础、也是重要的一部分,不仅涉及到很多抽象概念和符号运算,还需要具备良好的计算能力和逻…

Nginx的介绍

本资料转载于传智教育-解锁你的IT职业薪未来,仅用于学习和讨论,如有侵权请联系 视频地址:04-Nginx的优点_哔哩哔哩_bilibili 资源文档:链接:https://pan.baidu.com/s/1RlFl92FdxRUqc858JSxPSQ 提取码:12…

Air780EG —— 合宙4G定位解决方案

定位模式: 外部单片机控制模式(常见于AT固件客户): 开机 -> 搜星 -> 定位成功 -> 上报 -> 关机 780E自行控制模式(常见于二次开发客户,AT用户也可以使用): 开机 -> 搜星 -> 定位成功 -> 模块休眠,关闭GP…

【LVS】3、LVS+Keepalived群集

为什么用它,为了做高可用 服务功能 1.故障自动切换 2.健康检查 3.节点服务器高可用-HA Keepalived的三个模块: core:Keepalived的核心,负责主进程的启动、维护;调用全局配置文件进行加载和解析 vrrp:实…