特征选择、特征降维和特征提取到底有什么区别和联系?这篇文章一次性给你讲清楚!

news2025/1/17 6:01:12

目录

一、特征选择:

1.最大互信息系数(MIC):

2.互信息(MI):

3.最大相关最小冗余算法(mRMR):

4.支持向量机递归特征消除(SVM_RFE):

二、特征降维:

1.主成分分析(PCA):

2.核主成分分析(KPCA):

3.t-分布随机邻域嵌入(t-SNE):

三、特征提取:

1.信号处理层面

2.深度学习层面

①CNN-LSTM-Attention:

②DBN-SVM:

③CNN-BiGRU-Attention:

④DBN-ELM:

四、总结

以上完整代码获取


不断有小伙伴留言说不了解特征选择、特征降维和特征提取之间的关系,在实际操作中也经常容易搞混。既然用了,就要知其然还要知其所以然,今天这篇文章就用通俗易懂的语言一次性讲清楚三者的区别!

首先,从通俗易懂和标准学术两种角度给大家详细解释!

一、特征选择

通俗易懂版:想象一下,你在拍照时会选择最能代表场景的角度,去除不必要的背景,这样的照片更能吸引人。特征选择也是同样的道理,它的目标是从所有的特征中选出最重要的那些,去除不相关或冗余的特征。这样做的好处是可以让模型更专注于那些有用的信息,提高模型的效率和性能。

学术专业版:特征选择是从原始数据集中选择出最有用的特征子集的过程。比如你现在有50个特征,可以通过模型来选择20个最有用的!目的是去除不相关(噪声)或冗余的特征,从而提高模型的性能,减少计算成本,并提高模型的可解释性。特征选择方法大致可以分为三类:过滤法(Filter Methods)、包裹法(Wrapper Methods)、和嵌入法(Embedded Methods)。

常用方法:

1.最大信息系数(MIC):

属于过滤法,最大互信息系数能够计算各个特征之间的最大互信息系数,进而根据最大互信息系数筛选最优特征。

2.互信息(MI):

属于过滤法,与最大互信息系数类似,计算各个特征之间的最大互信息,进而根据互信息筛选最优特征。

3.最大相关最小冗余算法(mRMR):

属于过滤法,用于在原始特征集合中找到与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征

4.支持向量机递归特征消除(SVM_RFE):

属于包裹法,反复构建模型并选择最好或最差的特征(基于模型的权重),放弃选定的特征并在剩余的特征上重复这个过程,直到所有特征都历完毕。

二、特征维:

通俗易懂版:如果说特征选择是从照片中剪掉不需要的部分,那么特征降维就像是用一种技术手段,将照片压缩成更小的文件,同时尽量保留原来的信息。特征降维是通过数学方法减少特征的数量,将很多特征合并成较少的新特征。这不仅减少了数据的复杂度,还有助于避免过拟合,提高模型的泛化能力。常见的特征降维方法有PCA(主成分分析)。

学术专业版:特征降维是减少数据集中特征数量的过程,但它是通过创建新的特征组合或投影,而不是选择原始特征的子集。这些新特征是原始特征的转换或组合,旨在保留数据的大部分重要信息。常见的特征降维方法包括主成分分析(PCA)、线性判别分析(LDA)和t-分布随机邻域嵌入(t-SNE)等。特征降维通常用于数据可视化、降低存储需求、减少计算时间以及有时还可以帮助改善模型性能。

常用方法:

1.主成分分析(PCA)

通过线性变换将原始数据转换到新的坐标系统中,变换后的每个坐标轴(主成分)依次具有最大的方差。

2.核主成分分析(KPCA):

扩展了传统的主成分分析(PCA)方法,使其能够有效处理非线性数据结构。

3.t-分布随机邻域嵌入(t-SNE)

通过优化相似度的概率分布来寻找数据在低维空间的最佳表示,能够在低维空间中保持高维数据点之间的相对距离,非常适合于数据可视化。

三、特征提取:

通俗易懂版:特征提取就像是从一堆杂乱无章的信息中提炼出精华,创造出新的特征。它通过对原始数据进行变换或组合,生成一组“新”的特征,这些新特征能更好地代表数据的核心信息。特征提取在处理图像、文本等复杂数据时特别有用,因为直接处理这些数据往往不易于模型理解和学习。

学术专业版:特征提取是将原始数据转换或映射到新的特征空间的过程。这个过程涉及到从原始数据中提取信息并将其转化为更有效的表示形式(即,特征集)。特征提取旨在减少原始数据集的维度,同时保留关于原始数据集的尽可能多的重要信息。这种方法在图像处理、文本分析和语音识别等领域尤其常见。特征提取可以是手动设计特征,也可以通过自动化的方法(如通过深度学习模型)来实现。

常用的方法有:

1.信号处理层面

一般有基于频域的信号特征提取、基于时域的信号特征提取等等,一般可以用来做故障诊断等研究~

需要代码的小伙伴可留言,我会尽快出~

2.深度学习层面

一般通过CNN提取时间层面特征,大家熟知的CNN-LSTN-Attention就是通过这种方法实现,每个卷积层通过一系列的卷积核滤波器来捕捉数据的局部特征,然后使用池化层(如最大池化)来降低特征的空间维度,增强模型的泛化能力。

另外还有DBN深度置信网络,DBN由多层受限玻尔兹曼机(RBM)堆叠而成。每个RBM层都学数据在给定层的特征表示时的概率分布,能够自动发现复杂的、非线性的特征,这些特征往往是手工特征提取方法难以捕捉的。

以分类预测为例:

①CNN-LSTM-Attention:

CNN用于捕捉数据中的局部模式和特征;LSTM用于处理数据捕捉长期依赖关系;注意力机制提供了对关键信息的聚焦能力,从而提高预测的准确性。

②DBN-SVM:

用DBN进行特征提取,将提取后的特征放入SVM进行分类实现组合预测

以回归预测为例:

③CNN-BiGRU-Attention:

CNN用于捕捉数据中的局部模式和特征;BiGRU用于处理数据捕捉长期依赖关系;注意力机制提供了对关键信息的聚焦能力,从而提高预测的准确性。

④DBN-ELM:

用DBN进行特征提取,将提取后的特征放入SVM进行分类实现组合预测

四、总结

特征选择关注于从原始特征中选择最重要的子集,不改变特征本身。

特征降维通过创建新的特征组合减少特征的数量,以降低问题的维度。

特征提取从数据中提取新的特征,这些特征是原始数据的高效表示。

以上完整代码获取

点击下方小卡片,找到对应文章,后台回复关键字即可~

其他更多需求或想要的代码均可点击下方小卡片后台私信,看到后会秒回~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1458661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有哪些好用的网页原型网站?

与桌面端相比,在线网页原型网站的使用具有优势,因为在线网页原型网站在整个使用过程中不需要安装,在线网页原型网站在任何地方都没有限制。更重要的是,无论是现在使用的Linux,在线网页原型网站在操作系统中都没有限制、…

智胜未来,新时代IT技术人风口攻略-第六版(弃稿)

文章目录 前言鸿蒙生态科普调研人员画像高校助力鸿蒙 - 掀起鸿蒙教育热潮高校鸿蒙课程开设占比 - 巨大需求背后是矛盾冲突教研力量并非唯一原因 - 看重教学成果复用与效率 企业布局规划 - 多元市场前瞻视野全盘接纳仍需一段时间 - 积极正向的一种严谨态度企业对鸿蒙的一些诉求 …

opencv安装介绍以及基本图像处理详解

文章目录 一、什么是OpenCV ?二. OpenCV 安装1. 下载地址2.安装命令:pip install opencv-python 三、图像基础1. 基本概念2. 坐标系3. 基本操作(彩色图片)(1)读取图片:cv2.imread( )&#xff08…

OPPO公布全新AI战略,AI 手机时代再提速

2024年2月20日,深圳——今日OPPO 举办 AI 战略发布会,分享新一代 AI 手机的四大能力特征,展望由AI驱动的手机全栈革新和生态重构的趋势,并发布由OPPO AI 超级智能体和 AI Pro 智能体开发平台组成的OPPO 1N 智能体生态战略&#xf…

数论 - 容斥原理

文章目录 一、题目描述输入格式输出格式数据范围输入样例:输出样例: 二、算法思路三、代码 在计数时,必须注意没有重复,没有遗漏。为了使重叠部分不被重复计算,人们研究出一种新的计数方法,这种方法的基本思…

酷开科技 | 酷开系统壁纸模式,让过年更有氛围感!

在阵阵爆竹声中,家家户户都沉浸在浓浓的年味中。过年,是团圆,是温暖。团团圆圆的日子里,仪式感不可少,换上一张喜气洋洋的电视壁纸吧,寓意幸福一年又一年。打开酷开系统壁纸模式挑选一张年味十足的壁纸&…

pyside6 两个页面互相跳转

kuka示教器嵌套UR界面操作ros中rviz的UR机器人-CSDN博客 接上一篇,探索了两个页面互相跳转的操作。 1.两个页面 页面:UrWin,主要显示Ur机器人的VNC远程控制界面 页面:ZcWin,主要是选择插针的长度 在Ur远程界面点击下一步会跳转到针选择界面…

前端-游览器渲染原理

渲染 render vue react render 游览器渲染 html字符串 - > 像素信息 游览器是如何渲染页面的? 当游览器的网络线程收到 html文档后,会产生一个渲染任务,并将其传递给渲染主线程的消息队列 在事件循环机制的作用下,渲染主线程取出消息队列中的渲染任务,开启渲染流程. 整…

梵宁教育被误解投诉诈骗全过程始末

近日,梵宁教育因被部分用户投诉涉嫌诈骗而引起了社会的广泛关注。作为一家有着深厚教育背景和良好教育理念的机构,梵宁教育对此事表示高度重视,并在此做出如下澄清和回应。 近期,梵宁教育接到了一些用户的投诉,称其在参…

每日一题——LeetCode1464.数组中两元素的最大乘积

这题就是找数组里的最大值和次大值 方法一 排序 var maxProduct function(nums) {nums.sort((a,b)>b-a)return (nums[0] - 1) * (nums[1] - 1); }; 消耗时间和内存情况: 方法二 一次遍历: var maxProduct function(nums) {let first-1,second-…

常见面试题:TCP的四次挥手和TCP的滑动窗口

说一说 TCP 的四次挥手。 挥手即终止 TCP 连接,所谓的四次挥手就是指断开一个 TCP 连接时。需要客户端和服务端总共发出四个包,已确认连接的断开在 socket 编程中,这一过程由客户端或服务端任意一方执行 close 来触发。这里我们假设由客户端…

工具:clang-format使用

Visual Studio 在扩展-》管理扩展-》联机-》搜索Format on Save (for VS2022)插件,并安装 安装需要关闭VS,安装后重新打开vs。 这样每次保存源文件时就会自动调用vs默认的clang-format.exe对源码进行缩进,空格等进行格式化 如果想使用自定…

Maven依赖下载报错 unable to find valid certification path to requested target

阿里云改了仓库地址&#xff0c;由原来的http改成了https 解决方案一 可以在maven里面中的镜像改成 <mirror><id>aliyunmaven</id><mirrorOf>*</mirrorOf><name>阿里云公共仓库</name><url>https://maven.aliyun.com/repo…

LeetCode---384周赛

题目列表 3033. 修改矩阵 3034. 匹配模式数组的子数组数目 I 3035. 回文字符串的最大数量 3036. 匹配模式数组的子数组数目 II 一、修改矩阵 简单模拟即可&#xff0c;代码如下 class Solution { public:vector<vector<int>> modifiedMatrix(vector<vecto…

DP读书:《openEuler操作系统》(十)套接字 Socket 数据传输的基本模型

10min速通Socket 套接字简介数据传输基本模型1.TCP/IP模型2.UDP模型 套接字类型套接字&#xff08;Socket&#xff09;编程Socket 的连接1.连接概述(1)基本概念(2)连接状态(3)连接队列 2.建立连接3.关闭连接 socket 编程接口介绍数据的传输1. 阻塞与非阻塞2. I/O复用 数据的传输…

FEP空气采样袋耐强酸应用环境检测污水处理

FEP袋&#xff0c;又称F46&#xff0c;聚全氟乙丙烯膜&#xff0c;是四氟乙烯和六氟丙烯的共聚物。FEP袋子是采用进口聚全氟乙丙烯材质加工而成&#xff0c;可用做化学瓶的储存袋&#xff0c;耐化学腐蚀衬里&#xff0c;离型膜&#xff0c;生物制药细胞培养&#xff0c;可耐压灭…

Win11专业版安装集成了谷歌框架的安卓子系统,包含谷歌商店

1.摘要 上一篇博客讲述了使用微软商店安装安卓子系统的教程 https://blog.csdn.net/RudeTomatoes/article/details/135958882 上述方法的优点是安装过程简单&#xff0c;但是&#xff0c;由于Windows安卓子系统是微软与亚马逊联合开发&#xff0c;默认没有安装谷歌框架。我尝试…

营销系统黑名单优化:位图的应用解析 | 京东云技术团队

背景 营销系统中&#xff0c;客户投诉是业务发展的一大阻碍&#xff0c;一般会过滤掉黑名单高风险账号&#xff0c;并配合频控策略&#xff0c;来减少客诉&#xff0c;进而增加营销效率&#xff0c;减少营销成本&#xff0c;提升营销质量。 营销系统一般是通过大数据分析建模…

h5网页和 Android APP联调,webview嵌入网页,网页中window.open打开新页面,网页只在webview中打开,没有重开一个app窗口

我是h5网页开发&#xff0c;客户app通过webview嵌入我的页面 点击标题window.open跳转到长图页面&#xff0c;客户的需求是在app里新开一个窗口展示长图页面&#xff0c;window.open打开&#xff0c;ios端是符合客户需求的&#xff0c;但是在安卓端他会在当前webview打开 这…

Sora:新一代实时音视频通信框架

一、Sora简介 Sora是一个开源的实时音视频通信框架&#xff0c;旨在提供高效、稳定、可扩展的音视频通信解决方案。它基于WebRTC技术&#xff0c;支持跨平台、跨浏览器的实时音视频通信&#xff0c;并且具备低延迟、高并发、易集成等特点。 --点击进入Sora(一定要科学哦&#x…