数据预处理——数据无量纲化(归一化、标准化)

news2025/1/12 1:34:10

文章目录

      • 1. 数据归一化
        • 1.1 数据归一化定义
        • 1.2 MinMaxScaler 归一化
        • 1.3 MinMaxScaler 使用样例
      • 2. 数据标准化
        • 2.1 数据标准化定义
        • 2.2 StandardScaler 标准化
        • 2.3 StandardScaler 使用样例
      • StandardScaler和MinMaxScaler选哪个?

在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。

数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Meansubtraction)处理和缩放处理(Scale)。

中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。
缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。

1. 数据归一化

1.1 数据归一化定义

在这里插入图片描述

1.2 MinMaxScaler 归一化

sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)

将数据的每一个特征缩放到给定的范围,将数据的每一个属性值减去其最小值,然后除以其极差(最大值 - 最小值)

数据转换:

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))

逆转换:

X_scaled = X_std * (max - min) + min

1.3 MinMaxScaler 使用样例

使用样例1:

from sklearn.preprocessing import MinMaxScaler
data = [[1, 2], [4, 4], [5, 6]]
scaler = MinMaxScaler(feature_range=(0, 1))  # 映射到 0-1 之间
scaler.fit(data)  # 适应数据,找出每列最大、小值,并存储
scaled_df_1 = scaler.transform(data)  # 转换数据

print(scaler.data_max_)  # 最大值   [ 5.  6.]
print(scaler.data_min_)  # 最小值   [ 1.  2.]
print(scaled_df_1)
# scaled_df_1:
# [[ 0.    0.  ]
#  [ 0.75  0.5 ]
#  [ 1.    1.  ]]
scaled_df_2 = scaler.fit_transform(data)   # 将fit,transform一步到位
print(scaled_df_2)
# scaled_df_2
# [[ 0.    0.  ]
#  [ 0.75  0.5 ]
#  [ 1.    1.  ]]
inverse_df = scaler.inverse_transform(scaled_df_1) # 逆转换数据
print(inverse_df)
# inverse_df
# [[ 1.  2.]
#  [ 4.  4.]
#  [ 5.  6.]]

使用样例2:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 数据标准化

2.1 数据标准化定义

在这里插入图片描述

2.2 StandardScaler 标准化

sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)

2.3 StandardScaler 使用样例

在这里插入图片描述
对于StandardScaler和MinMaxScaler来说,空值NaN会被当做是缺失值,在fit的时候忽略,在transform的时候保持缺失NaN的状态显示。并且,尽管去量纲化过程不是具体的算法,但在fit接口中,依然只允许导入至少二维数组,一维数组导入会报错。通常来说,我们输入的X会是我们的特征矩阵,现实案例中特征矩阵不太可能是一维所以不会存在这个问题。

StandardScaler和MinMaxScaler选哪个?

大多数机器学习算法中,会选择StandardScaler来进行特征缩放,因为MinMaxScaler对异常值非常敏感。在PCA,聚类,逻辑回归,支持向量机,神经网络这些算法中,StandardScaler往往是最好的选择

MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛,比如数字图像处理中量化像素强度时,都会使用MinMaxScaler将数据压缩于[0,1]区间之中。

sklearn中也提供了各种其他缩放处理(中心化只需要一个pandas广播一下减去某个数就好了,因此sklearn不提供任何中心化功能)。比如,在希望压缩数据,却不影响数据的稀疏性时(不影响矩阵中取值为0的个数时),我们会使用MaxAbsScaler;在异常值多,噪声非常大时,我们可能会选用分位数来无量纲化,此时使用RobustScaler。

在这里插入图片描述

【参考博客】:

  • 03.(2)数据预处理
  • 03、sklearn中的数据预处理和特征工程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/349837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

儿童玩具车扭扭车上架欧盟亚马逊CE认证EN71项目测试

扭扭车又称儿童健身车,摇摆车,主体由工程聚丙烯,经注塑而成,结构稳固,操作简单,无需电瓶和传动装置,只要左右转动方向盘,就可随意前后行驶。是一种环保的绿色玩具,最早出现在中国台湾…

c++:缺省参数,函数重载

今天介绍的是cpp中的缺省参数以及函数重载的知识。 首先我们先看看缺省参数: 缺省参数 缺省参数是声明或定义函数时为函数的参数指定一个缺省值。在调用该函数时,如果没有指定实 参则采用该形参的缺省值,否则使用指定的实参。 例如&#…

项目——博客系统

文章目录项目优点项目创建创建相应的目录,文件,表,导入前端资源实现common工具类实现拦截器验证用户登录实现统一数据返回格式实现加盐加密类实现encrypt方法实现decrypt方法实现SessionUtil类实现注册页面实现前端代码实现后端代码实现登录页…

JS 动态爱心(HTML+CSS+JS)

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

webstorm开发electron,调试主进程方案

官网教程地址:https://www.electronjs.org/zh/docs/latest/tutorial/debugging-main-process 我只能说官网太看得起人了,整这么简易的教程…… 命令行开关 第一步还是要按要求在我们的package.json里加上端口监听:–inspect5858 我的命令…

恭喜山东翰林“智慧园区管理系统”获易知微可视化设计大赛二等奖

数字化经济发展是全球经济发展的重中之重,“数字孪生(Digital Twin)”这一词汇正在成为学术界和产业界的一个热点。数字孪生作为近年来的新兴技术,其与国民经济各产业融合不断深化,推动着各大产业数字化、网络化、智能…

关于服务连接器(Servlet)你了解多少?

Servlet 1 简介 Servlet是JavaWeb最为核心的内容,它是Java提供的一门动态web资源开发技术。 使用Servlet就可以实现,根据不同的登录用户在页面上动态显示不同内容。 Servlet是JavaEE规范之一,其实就是一个接口,将来我们需要定义…

血液透析过滤芯气密性检测装置中的高精度多段压力控制解决方案

摘要:针对目前血液过滤芯气密性检测过程中存在的自动化水平较低、多个检测压力之间需人工切换和压力控制精度较差的问题,为满足客户对高精度和自动化气密性检测的要求,本文提出了相应的解决方案。解决方案的主要特点是全过程的可编程压力控制…

Git的使用方法(保姆级)

一、安装git二、创建凭据 ①打开电脑的凭据管理器git:https://gitee.com是固定写法用户名、密码是你创建gitee的用户名、密码三、在gitee中创建一个仓库四、项目提交到仓库的方法①选择一个项目交由git管理按照步骤一中召唤小黑窗口输入 git init 就可以出现.git文件夹②右键选…

Golang基础 函数详解 匿名函数与闭包

文章目录01 匿名函数1.1 定义匿名函数1.2 匿名函数使用场景02 闭包2.1 闭包实现公有变量2.2 闭包实现缓存效果参考资料匿名函数是指不需要定义函数名的一种函数实现方式(即没有名字的函数)。匿名函数多用于实现回调函数和闭包。 01 匿名函数 Golang 支持…

财报解读:营收增长、亏损扩大,Shopify如何度过阵痛期?

后疫情时代,Shopify阵痛不断。 图源:Shopify 北京时间2023年2月16日,Shopify披露了2022年四季度财报,营收17.3亿美元,同比增长25.4%,高于分析师预期的16.5亿美元;净亏损为6.24亿美元&#xff0…

用上Visual Studio后,我的世界游戏的构建时间减少了一半

今天我们讲述一个使用 Visual Studio 提升工作效率的案例。 我的世界(Minecraft) 游戏开发商 Mojang Studios 近日联系了 Visual Studio C 团队,因为他们需要将 C 开发扩展到新平台(Linux),同时还希望保留他们现有的技术基础&…

同源页面间的跨页面通信之BroadCast Channel

LocalStorage 通过LocalStorage存储内容,并且在改变某个tab页面后,另外一个tab页面监听变动这种方式应该大家都比较熟悉了。 监听变动的代码如下: 第二个tab页面监听如下 window.addEventListener(storage, function (e) {if (e.key ctc…

LeetCode-77. 组合

目录回溯法剪枝优化题目来源 77. 组合 回溯法 1.递归函数的返回值以及参数 在这里要定义两个全局变量&#xff0c;一个用来存放符合条件单一结果&#xff0c;一个用来存放符合条件结果的集合。 List<List<Integer>> result new ArrayList<>();LinkedList…

数据分析就要选择这款免费报表工具

对于一家企业来说&#xff0c;在日常运营的过程中本身就会产出很多的数据&#xff0c;那么这些数据本身就应该形成报表。可是如果只是选择手工的一种操作&#xff0c;确实需要浪费大量的人力物力。伴随着科技进入到快速发展的阶段&#xff0c;市面上更是出现了很多报表工具可以…

九龙证券|可转债一级市场回暖 14家上市公司可转债发行集中获批

可转债商场悄然升温。春节假期后&#xff0c;可转债新券上市体现普遍不错&#xff0c;多只个券首日涨幅打破30%&#xff0c;更有3个买卖日就实现翻倍的案例。一起&#xff0c;本周初可转债打新户数本年以来也首度站上1000万户大关。 因为新券盈余效应明显&#xff0c;可转债一级…

window10安装MySQL数据库

准备好软件MySql的下载参考&#xff1a;(1137条消息) mysql下载与安装过程_weixin_40396510的博客-CSDN博客_mysql数据库下载安装(1137条消息) 安装MySQL的常见问题_二木成林的博客-CSDN博客_sc不是内部或外部命令,也不是可运行的程序解压要C盘&#xff08;自定义&#xff0c;本…

Ubuntu——扩展磁盘空间,可视化软件简单很多

目录 1. 剩余空间查看 2. 虚拟机先分配 3. 安装与使用 gparted 1. 剩余空间查看 2. 虚拟机先分配 关闭虚拟机&#xff0c;打开虚拟机&#xff0c;但不启动&#xff0c;编辑虚拟机设置——点击硬盘- 拓展 设置扩展大小&#xff0c;确定。 但是此时我们的分区和文件 并没有扩容…

阅读笔记3——空洞卷积

空洞卷积 1. 背景 空洞卷积&#xff08;Dilated Convolution&#xff09;最初是为解决图像分割的问题而提出的。常见的图像分割算法通常使用池化层来增大感受野&#xff0c;同时也缩小了特征图尺寸&#xff0c;然后再利用上采样还原图像尺寸。特征图先缩小再放大的过程造成了精…

HummerRisk V0.9.1:操作审计增加百度云,增加主机检测规则及多处优化

HummerRisk V0.9.0发布&#xff1a;增加RBAC 资源拓扑图&#xff0c;首页新增检查的统计数据&#xff0c;云检测、漏洞、主机等模块增加规则&#xff0c;对象存储增加京东云&#xff0c;操作审计增加金山云&#xff0c;镜像仓库新增设置别名。 感谢社区中小伙伴们的反馈&#…