模式识别 第7、8章 特征的选择和提取

news2025/1/12 6:18:35

基本概念

问题的提出

特征→ 特征空间:  每一个特征对应特征空间的一个维度 ;特征越多,特征空间的维度越高
原则:在保证分类效果的前提下用尽量少的特征来完成分类

基本概念

(1)特征形成:由仪器直接测量出来的数值,或者是根据仪器的数据进行计算后的结果

(2)特征选择:用计算的方法从一组给定的特征中选择一部分特征进行分类

(3)特征提取:通过适当的变换把原有的D个特征转换为d(<D)个特征

特征选择

一是对 特征的评价 ,也就是怎样衡量一组特征对分类的有效性
二是 寻优的算法 ,就是怎样更快地找到性能最优或比较优的特征组合

特征的评价准则

利用分类器的错误率作为准则是最直接的想法,但是不可行;  定义与错误率有一定关系但又便于计算的类别可分性准则Jij   用来衡量在一组特征下第i类和第j类之间的可分程度
对判据的要求 : 单调、可加、度量

 

类别可分离性判据

常用的特征判据

1. 基于类内类间距离的可分性判据

(1)基本思想:计算各类特征向量之间的平均距离,考虑最简单的两类情况,可以用两类中任意两两样本间的平均来代表两个类之间的距离。

(2)判据的表达式:

(3)矩阵形式的类间距离的表达式

 

 (4)其它的基于类内类间距离的判据

 2. 基于概率分布的可分性判据

用两类分布密度函数间的距离(或重叠程度)来度量可分性 , 构造基于概率分布的可分性判据
重叠程度反应了概密函数间的相似程度
(1)定义:两个密度函数之间的距离
(2)Bhattacharyya距离(巴氏距离)
(3)Chernoff界(切诺夫界)

 

(4)散度----人们在似然比的基础上定义了散度来作为类别可分性的度量

 

 3. 基于熵的可分性判据

 (1)定义:借用的概念来描述各类的可分性

在特征的某个取值下: 如果样本属于各类的后验概率越平均,则该特征越不利于分类;  如果后验概率越集中于某一类,则特征越有利于分类。在信息论中,熵表示不确定性,熵越大不确定性越大

(2)思路:

 

(3)常用的熵度量

①  Shannon熵

 ②  平方熵

③ 基于熵的可分性判据

特征选择的最优和次优算法

特征选择的最优算法

1. 最优算法

最基本的方法就是 穷举法 ,就是穷举所有这些可能,从中选择判据最优的组合
另外一种取得最优解的方法是 分枝定界法

2. 分枝定界法(branch and bound)

 自顶向下:从包含所有候选特征开始,逐步去掉不被选中的特征

•  回溯:考虑到所有可能的组合

 基本思想:从左到右建树 → 从右到左搜索 → 回溯避免不必要计算 → 找到最优解

 计算量:在d大约为D的一半时,分枝定界法比穷举法节省的计算量最大

 算法要点:根节点为全体特征,每个结点上舍弃一个特征,各个叶结点代表选择的各种组合 等

特征选择的次优算法

 1. 单独最优特征的组合

•  计算各特征单独使用时的判据值并加以排队,取前d 个作为选择结果。

•   这一结果 与所采用的特征选择的准则函数有关 ,只有当所采用的判据是每个特征上的判据之和或
之积时,这种做法选择出的才是最优的特征

2. 顺序前进法

最简单的“ 自下而上 ”的搜索方法
每次从未入选的特征中选择一个特征,使得它与已入选的特征组合在一起时所得判据J值为最大,直到特征数增加到d 为止.

 3. 顺序后退法

是一种“自上而下”的方法。
从全体特征开始每次剔除一个,所剔除的特征应使仍然保留的特征组的判据J值最大,直到特征数减少到d 为止

4. 增l减r法(l-r法)

在第k步可先用顺序前进法一个个加入特征到 k+l 个, 然后再用顺序后退法一个个剔去 r 个特征,我们把这样一种 算法叫增 l 减 r 法(l–r 法)

特征提取之PCA算法

问题的提出

 

主成分分析PCA

主成分分析PCA 是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。

出发点是从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的。

主成分分析的目的:压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息

一般来说,我们希望能用 一个或少数几个综合指标 (分 数)来代替原来分数表做统计分析,而且希望新的综合指标 能够尽可能地保留原有信息,并 具有最大的方差。

主成分分析的方法

是通过适当的变换把D个特征转换为d个新特征
这里的特征提取专指从一组已有的特征通过一定的数学运算得到一组新特征,有时也把这种特征提取称为特征变换

 

 

特征提取之K-L变换

基于PCA变换的iris数据分类

还没更新完 模式识别好难

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/94554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何去除图片雾化?给你推荐图片去雾怎么去除的方法

小伙伴们会不会和我一样喜欢外出爬山呢&#xff1f;为了留住美好记忆&#xff0c;我们会在途中拍照记录。但是山上很经常会有雾气&#xff0c;会容易导致我们拍出来的图片模糊不清。那应该怎么办呢&#xff1f;其实&#xff0c;我们只要对图片进行去雾处理就可以很好解决这个问…

[附源码]Nodejs计算机毕业设计基于的校园疫情防控管理Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置&#xff1a; Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分…

Web(十一)JavaScript知识训练-数学对象

1、Math.ceil(-3.14)的结果是&#xff08; B&#xff09;。 A、 -3.14 B、 -3 C、 -4 D、 3.14 2、Math.floor(-3.14)的结果是&#xff08; C&#xff09;。 A、 -3.14 B、 -3 C、 -4 D、 3.14 3、Math.round(-3.14)的结果是&#xff08; B&#xff09;。 A、 -3.14 B、 -3 C…

Spring Cloud Openfeign微服务接口调用与Hystrix集成实战

关于openfeign 可以认为OpenFeign是Feign的增强版&#xff0c;不同的是OpenFeign支持Spring MVC注解。OpenFeign和Feign底层都内置了Ribbon负载均衡组件&#xff0c;在导入OpenFeign依赖后无需专门导入Ribbon依赖&#xff0c;用做客户端负载均衡&#xff0c;去调用注册中心服务…

dataFactory向mysql批量插入测试数据

目录 第一步&#xff1a;准备阶段&#xff1a;datafactory已连接app_user的表 第二步&#xff1a; 点击原表app_user,其中属性界面properties中配置含义如下&#xff1a; 第三步&#xff1a;根据需要设置插入字段 第四步&#xff1a;设置每个字段的规则后&#xff0c;点击se…

病毒之Worm.Win32.AutoRun

题外话&#xff1a;在被奥密克戎包围的我(两个室友和我&#xff0c;一个低烧、一个咳嗽、就差我了&#xff0c;这属实是真被包围了丫)在和Worm.Win32.AutoRun决一死战… 本次Worm.Win32.AutoRun的来源&#xff1a; windows电脑上重装vscode&#xff0c;然后没有 mingw-get-setu…

浏览器兼容模式如何设置?只需要跟着下面的步骤设置

许多考生在报考教师资格证或者其他的考试报名&#xff0c;会遇到浏览器兼容设置的问题。与其到时急急忙忙来设置浏览器的兼容模式&#xff0c;不如提前设置好&#xff0c;免了后顾之忧。浏览器兼容模式怎么设置&#xff1f;一起来看看关于浏览器兼容模式的含义以及设置方式吧&a…

《Python代码审计》(1)一款超好用的代码扫描工具

1.前言 从本文开始&#xff0c;我将开始介绍Python源代码审计&#xff0c;代码审计是检查源代码中的安全缺陷&#xff0c;检查源代码是否存在安全隐患&#xff0c;或者编码不规范的地方。通常使用自动化工具或者人工审查的方式&#xff0c;自动化工具效率高&#xff0c;但是误…

【浅学Java】Linux系统中的硬连接和软连接

Linux系统中的软连接和硬连接1. 前置知识1.1 文件的存储1.2 inode——索引节点1.3 Linux系统查找文件的过程2. Linux系统中的硬连接2.1 硬连接的实现原理2.2 实现硬连接的指令3. Linux系统中的软连接3.1 软连接的实现原理3.2 实现硬连接的指令4. 软连接和硬连接的区别1. 前置知…

Java 19虚拟线程实战与性能分析

Java 19推出了新特性“虚拟线程”&#xff0c;类似于Go语言中的协程。它是传统线程的不同之处在于&#xff0c;它是一种用户模式&#xff08;user-mode&#xff09;的线程。 虚拟线程是由 JDK 而非操作系统提供的线程的轻量级实现&#xff1a; 虚拟线程是没有绑定到特定操作系…

mock.js的使用

初始化 //main.js中 import "/network/fake-message/index.js" //全局文件中引入虚假数据///network/fake-message/index.js //创建伪数据 import Mock from mockjs import { Random } from mockjs//获取商品列表 Mock.mock(/api\/goodlist/,get,{status:200,mess…

基于java+springmvc+mybatis+vue+mysql的高校课程评价系统

项目介绍 在还没有计算机的时代&#xff0c;对于教学评价的各方面的管理都是靠纸、笔为主要的工具进行的。随着科技的发展&#xff0c;大量信息增长&#xff0c;利用传统的方式已经无法快速、准确的跟随学校各项目的管理工作了。当人们意识到对于大量信息管理的重要性的时候&a…

第二十二章 染色法与匈牙利算法

第二十二章 染色法与匈牙利算法一、使用场景——二分图二、染色法1、算法原理2、代码模板&#xff08;1&#xff09;问题&#xff1a;&#xff08;2&#xff09;代码&#xff1a;&#xff08;3&#xff09;分析&#xff1a;三、匈牙利算法1、算法用途2、算法思路3、算法模板&am…

五个月学完软件测试,现在分享以前自学的测试笔记

以前学习手抄的linux命令哈哈哈 定义 在规定的条件下对程序进行操作&#xff0c;以发现程序错误&#xff0c;衡量软件质量&#xff0c;并对其是否能满足设计要求进行评估的过程。 测试就是发现错误而执行程序的过程。 原则 保证测试的覆盖度&#xff0c;但是穷举测试是不可能…

LVI-SAM坐标系外参分析与代码修改,以适配各种数据集

文章目录0.前言1.原作者传感器件坐标系定义与外参修改1.1.博客作者的讲解&#xff08;仅供参考&#xff09;1.2.LIO-SAM的README中作者对其传感器配置的解释1.3.IMU坐标系详解1.4.params_lidar.yaml中LIO外参修改1.4.1.作者给的参数注释问题1.4.2.自己修改代码2.LVI-SAM中的坐标…

Redis常见面试题(一)

目录 1、Redis是什么? 2、Redis有哪些应用场景? 3、Redis有什么优势? 4、Redis为什么这么快? 5、Redis主要消耗什么物理资源? 6、Redis为什么把所有数据放到内存中? 7、Redis命令是原子性的吗? 8、Redis磁盘快照操作是原子的吗? 9、Redis怎么测试连通性? 10、…

【图像去噪】均值+中值+空间+高斯滤波图像去噪【含GUI Matlab源码 763期】

⛄一、图像去噪及滤波简介 1 图像去噪 1.1 图像噪声定义 噪声是干扰图像视觉效果的重要因素&#xff0c;图像去噪是指减少图像中噪声的过程。噪声分类有三种&#xff1a;加性噪声&#xff0c;乘性噪声和量化噪声。我们用f(x,y&#xff09;表示图像&#xff0c;g(x,y&#xff0…

四十六——

四十六、JavaScript——对象 一、对象 数据类型&#xff1a;原始值&#xff1a; 1. 数值 Number 2. 大整数 BigInt 3. 字符串 String 4. 布尔值 Boolean 5. 空值 Null 6. 未定义 Undefinded 7. 符号 Symbol 除了七种原始值之外&#xff0c;后面所用到的数据类型&#xff0c;都…

jsp+ssm计算机毕业设计茶园文化交流平台论文【附源码】

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; JSPSSM mybatis Maven等等组成&#xff0c;B/S模式 Mave…

jsp+ssm计算机毕业设计超市收银系统论文【附源码】

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; JSPSSM mybatis Maven等等组成&#xff0c;B/S模式 Mave…