特征工程之特征降维

news2024/11/17 1:46:33

为什么要进行特征降维?

特征对训练模型是非常重要的,用于训练的数据集包含一些不重要的特征,可能导致模型泛化性能

不佳              

        某些特征的取值较为接近,其包含的信息较少              

        希望特征独立存在对预测产生影响,两个特征同增同减非常相关,不会给模型带来更多信息

特征降维目的:

指在某些限定条件下,降低特征个数

特征降维涉及的知识面比较多,当前阶段常用的方法:        

低方差过滤法、PCA(主成分分析)降维法、相关系数(皮尔逊相关系数、斯皮尔曼相关系数)

 低方差过滤法

低方差过滤法:指的是删除方差低于某些阈值的一些特征

特征方差小:特征值的波动范围小,包含的信息少,模型很难学习到信息

特征方差大:特征值的波动范围大,包含的信息相对丰富,便于模型进行学习

低方差过滤API:

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)       

        实例化对象用于删除所有低方差特征

variance_obj.fit_transform(X)              

        X:numpy array格式的数据[n_samples,n_features]

返回值:训练集差异低于threshold的特征将被删除。            

        默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征

代码示例

import pandas as pd
# 读数据
data =  pd.read_csv('垃圾邮件分类数据.csv')
print(data.shape)
#%%
# 过滤低方差法
from sklearn.feature_selection import VarianceThreshold
transformer = VarianceThreshold(threshold = 0.1)
transformer.fit_transform(data)
print(data.shape)

相关系数

为什么会使用相关系数?

相关系数:反映特征列之间(变量之间)密切相关程度的统计指标

        常见2个相关系数:皮尔逊相关系数、斯皮尔曼相关系数

相关系数的值介于–1与+1之间,即–1≤ r ≤+1。其性质如下:     

        当 r>0 时,表示两变量正相关,r<0 时,两变量为负相关     

        当 |r|=1 时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系     

        当 0<|r|<1时,表示两变量存在一定程度的相关。             

        且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱

一般可按三级划分:|r|<0.4为低度相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关

 皮尔逊相关系数

 斯皮尔曼相关系数

代码示例 

import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(iris.data,columns=iris.feature_names)
iris_df.corr()  # 默认 皮尔逊相关系数
iris_df.corr('spearman')  # 斯皮尔曼相关系数

主成分分析PCA

PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度)损失少量信息,在此过程中会舍

弃原有数据、创造新的变量

 主成分分析API:

sklearn.decomposition.PCA(n_components=None)  

        将数据分解为较低维数空间, n_components: 小数表示保留百分之多少的信息;

        整数表示减少到多少特征 ,由20个特征减少到10个

mypcaobj.fit_transform(X)  

返回值:转换后指定维度的array

代码示例

import pandas as pd
from sklearn.decomposition import PCA   # decomposition 分解
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

# 加载数据
x,y = load_iris(return_X_y = True) # 只返回特征值和目标值
x
#%%
# 指定保留比例的信息
transformer = PCA(n_components=0.95)

# 标准化数据
x_scaled = StandardScaler().fit_transform(x)

# # pca
x_pca = transformer.fit_transform(x_scaled)
x_pca
#%%
# 画图确定x,y
import pandas as pd

x_pca_df = pd.DataFrame(x_pca, columns=['component_1', 'component_2'])
x_pca_df['label'] = y


#%%
import seaborn as sns
sns.scatterplot(data=x_pca_df,x='component_1',y='component_2',hue='label')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1409669.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Goldsky - 使用ClickHouse和Redpanda的黄金标准架构

本文字数&#xff1a;6240&#xff1b;估计阅读时间&#xff1a;16 分钟 作者&#xff1a;ClickHouse Team 审校&#xff1a;庄晓东&#xff08;魏庄&#xff09; 本文在公众号【ClickHouseInc】首发 介绍 作为一家以开源为根基的公司&#xff0c;我们发现用户通常是第一个识别…

JWT登录

JWT JSON Web Token&#xff08;JSON Web令牌&#xff09; 是一个开放标准(rfc7519)&#xff0c;它定义了一种紧凑的、自包含的方式&#xff0c;用于在各方之间以JSON对象安全地传输信息。此信息可以验证和信任&#xff0c;因为它是数字签名的。jwt可以使用秘密〈使用HNAC算法…

3.确认弹窗(ConfirmPopup)

愿你出走半生,归来仍是少年&#xff01; 环境&#xff1a;.NET 7 在开发中&#xff0c;最常用的弹窗之一表示确认弹窗&#xff0c;为了减少重复的开发工作&#xff0c;所以需要基于Popup进行封装。 1.布局 分为标题、确认内容、按钮三个区域&#xff0c;都是可供调整的。 &l…

二叉树堆的应用实例分析:堆排序 | TOP-K问题

&#x1f4f7; 江池俊&#xff1a; 个人主页 &#x1f525;个人专栏&#xff1a; ✅数据结构冒险记 ✅C语言进阶之路 &#x1f305; 有航道的人&#xff0c;再渺小也不会迷途。 文章目录 前言一、堆排序1.1 排序思想1.2 堆排序过程&#xff08;图解&#xff09;1.3 堆排序代…

查看代码是否是在GPU上跑的

import torchif torch.cuda.is_available():print("运行在GPU上") else:print("运行在CPU上")进入容器后 如果进入容器后&#xff0c;是没法通过nvidia-smi命令查看显卡型号的&#xff0c;但是环境仍然是GPU在运行。 nvidia-smi 没进入的时候

【笔记】杨继深老师电磁兼容(EMC)课程1-3笔记

视频链接 【杨继深老师电磁兼容&#xff08;EMC&#xff09;课程最新版——精品课_哔哩哔哩_bilibili 1、什么是电磁骚扰&#xff08;EMI&#xff09;&#xff1f; &#xfeff; 第1讲 什么是辐射发射 P1 - 01:39. &#xfeff; 骚扰&#xff1a;主动性的对其他设备造成影响…

从多巴胺到老钱风,品牌如何做好人设营销

在今年开年&#xff0c;又一大旅游城市爆火&#xff0c;被网友称为“讨好型市格”的哈尔滨&#xff0c;第一次有了清晰的人设&#xff0c;哈尔滨也迎来无数游客。其实品牌玩人设营销不止今年&#xff0c;在去年就已经有趋势&#xff0c;比如i人e人营销、“多巴胺穿搭”&#xf…

激光雷达标定入门(7)海康摄像头驱动

如果你在使用海康威视摄像头时遇到了编译报错的问题&#xff0c;可能是链接库的路径配置不正确。下面是解决这个问题的步骤和原理&#xff1a; 1. 克隆海康摄像头驱动代码 首先&#xff0c;你需要将海康摄像头的驱动代码克隆到你的工作空间中。使用以下命令&#xff1a; git…

【docker】解决docker overlay2目录占用大量磁盘空间,导致验证码出不来,报错Can‘t create output stream!

问题&#xff1a; 验证码出现Cant create output stream!报错信息 排查&#xff1a; 所在服务器磁盘使用率已经到达100%&#xff0c;经排查&#xff0c;服务器目录/var/lib/docker/overlay2占用大量磁盘空间&#xff0c; 解决&#xff1a; 使用【docker system prune】命令删…

哪吒监控面板对VPS统一管理

VPS安装Nginx Proxy Manager 可视化面板 - 非必须 Nginx作用是做一个代理&#xff0c;不用代理直接安装哪吒面板也是可以的&#xff0c;但是必须要有一个域名和github账号。 1、更新下VPS系统环境&#xff1a; apt update -y && apt install -y curl socat wget sudo…

安装宝塔面板后k8s所在节点pod无法正常工作解决方法,kubernetes k8s 与宝塔面板冲突解决方法

在实际项目过程中我们使用了k8s 在生产环境中运行管理服务。 但是对服务器的状态管理我们使用了宝塔面板进行 K8s 版本1.2.8 宝塔面板 版本 8.05 操作步骤是这样的。 1.完成1.2.8 k8s的节点安装&#xff0c;并正常运行服务。 过程略 2.安装宝塔面板 ​ yum install -y …

ChromeDriver谷歌驱动最新版安装120/121/122

chromeDriver最新版本下载 最新驱动 https://googlechromelabs.github.io/chrome-for-testing/参考&#xff1a; https://blog.csdn.net/m0_57382185/article/details/134007615

中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要 --九五小庞

原文链接&#xff1a;中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要_滚动新闻_中国政府网 第二篇 坚持创新驱动发展 全面塑造发展新优势 坚持创新在我国现代化建设全局中的核心地位&#xff0c;把科技自立自强作为国家发展的战略支撑&#xff0c;面…

Cute Http File Server 使用文章

下载 官网&#xff1a;http://iscute.cn/chfs 蓝奏下载&#xff1a;https://wwts.lanpw.com/iKP1i1m9572h 开源&#xff1a;https://github.com/docblue/chfsgui 介绍 Cute Http File Server 是国内免费开源的局域网传输服务器软件。 可以不用借助QQ、某信软件传输文件&am…

AI绘图软件:探索未来的创意工具

AI绘图软件有很多&#xff0c;以下是一些比较知名的AI绘图软件&#xff1a; Adobe Photoshop&#xff1a;全球最流行的图像编辑软件之一&#xff0c;具备多种AI功能&#xff0c;如智能修复、智能笔刷等。Corel Painter&#xff1a;一款专业的数字艺术软件&#xff0c;有AI功能…

SpringBoot,TDengine时序数据库,实现物联网,车联网大批量数据更新最佳实践。

简介 TDengine 是一款专为物联网、工业互联网等场景设计并优化的大数据平台&#xff0c;它能安全高效地将大量设备、数据采集器每天产生的高达 TB 甚至 PB 级的数据进行汇聚、存储、分析和分发&#xff0c;对业务运行状态进行实时监测、预警&#xff0c;提供实时的商业洞察。其…

.NET 跨平台图形库 SkiaSharp 基础应用

写在前面 SkiaSharp 是适用于 .NET 和 C# 的 2D 图形系统&#xff0c;由开源 Skia 图形引擎提供支持&#xff0c;在 Google 产品中广泛使用。 可以在应用程序中使用 SkiaSharp Xamarin.Forms 绘制 2D 矢量图形、位图和文本。支持跨平台&#xff0c;Windows、Linux、Anroid、IO…

IDEA 创建maven项目没有src

环境&#xff1a; IntelliJ IDEA 2022.3.3 (Ultimate Edition) JDK 17 Windows 11 10.0 Maven 3.9.5 创建maven项目的时候没有src目录 试过网上说的重新配置maven库&#xff0c;增加vm-options&#xff0c;并没有什么用。直到我看见了 正常创建就好了。

Spring-简介

一、概念 在向读者描述Spring时&#xff0c;笔者不打算从某处粘贴一段常见的概念性文字糊弄完本专栏的第一篇文章&#xff0c;而是用易于理解的话向读者指出几个重点。 &#xff08;1&#xff09;是框架。何谓框架&#xff1f;就像搭房子一样&#xff0c;框架就如同是墙体结构…

HCIP复习课(重发布实验)

1、ip配置&#xff1a; R1&#xff1a; R2&#xff1a; R3&#xff1a; R4&#xff1a; 2、rip&#xff0c;ospf配置&#xff1a; R1&#xff1a; R2&#xff1a; R3&#xff1a; R4&#xff1a; 3、重发布配置&#xff1a; R1&#xff1a; R2&#xff1a; R3&#xff1a; 检…