《机器学习数据标准化》—— 0~1归一化 和 Z标准化

news2024/9/22 6:15:11

文章目录

  • 1、为什么要数据标准化
  • 2、常用的两种数据标准化
    • 1、0~1归一化
    • 2、Z标准化
  • 3、注意事项

1、为什么要数据标准化

主要是基于以下几个方面的原因:

  • 消除量纲影响:在机器学习中,不同的特征往往具有不同的量纲和单位。例如,身高可能以厘米为单位,而体重可能以千克为单位。这种量纲差异会导致数据在分析和建模时受到不必要的影响。通过数据标准化,可以将数据转换为无量纲的形式,从而消除这种影响,使得不同特征之间可以直接进行比较和计算。这样,机器学习算法就能更准确地捕捉数据中的模式和规律。

  • 提高算法性能:许多机器学习算法都假设输入特征是同等重要的,并且具有相似的尺度。如果不同特征的尺度差异很大,那么算法在训练过程中可能会受到较大影响,导致性能下降。通过数据标准化,可以使得所有特征都处于相同的尺度上,这有助于提高算法的稳定性和效率。例如,在梯度下降算法中,标准化后的数据能够使得梯度方向更加准确,从而减少迭代次数,加快收敛速度。

  • 避免特征权重偏差:在某些机器学习算法中,如K-最近邻算法(KNN),特征之间的尺度差异会导致在计算距离时产生偏差。如果某个特征的取值范围远大于其他特征,那么该特征在计算距离时将占据主导地位,导致其他特征的贡献被忽视。通过数据标准化,可以使得所有特征在计算距离时具有相同的权重,从而避免这种情况的发生。

  • 便于数据可视化:在数据可视化过程中,如果不同特征的尺度差异很大,那么绘制出的图形可能会很难解读。通过数据标准化,可以将所有特征都转换到相同的尺度上,使得图形更加直观和易于理解。这有助于研究人员更好地分析数据,发现其中的规律和模式。

  • 提升模型泛化能力:数据标准化还可以提升模型的泛化能力。在训练过程中,如果模型过于依赖某些量纲较大的特征,那么当遇到新的数据时,这些特征的微小变化都可能导致模型性能的显著下降。通过数据标准化,可以使得模型更加关注数据本身的模式和规律,而不是数据的量纲和单位,从而提升模型的泛化能力。

2、常用的两种数据标准化

数据标准化的方法有多种,其中最常用的是最小-最大标准化(也称为0-1归一化)和Z标准化(也称为标准差标准化)。

1、0~1归一化

  • 0~1归一化也叫做最大最小标准化(Min-Max Normalization),通过将原始数据线性地缩放到[0, 1]的范围内来实现,这种方法对于将数据限制在特定范围(如概率、百分比等)内非常有用
  • 公式如下
    在这里插入图片描述
  • 其中:
    • X原始数据
    • X min是原始数据中的最小值
    • X max是原始数据中的最大值
    • X norm是归一化后的数据。
  • 代码示例
    • 运用numpy库中的方法创建一个包含随机数值的二维数组,模拟特征数据集

    • 假设有5个样本,每个样本有3个特征

    • 在Python中,可以使用sklearn.preprocessing.MinMaxScaler类来实现最大最小标准化

      import numpy as np
      from sklearn.preprocessing import MinMaxScaler
      
      # 创建一个包含随机数值的二维数组,模拟特征数据集
      # 假设有5个样本,每个样本有3个特征
      data = np.random.rand(5, 3) * 10  # 生成一个5x3的数组,每个元素的值在0到10之间
      print("原始数据:")
      print(data)
      
      # 使用MinMaxScaler进行归一化
      min_max_scaler = MinMaxScaler()
      data_min_max = min_max_scaler.fit_transform(data)
      print("\nMinMaxScaler归一化后的数据:")
      print(data_min_max)
      """
      原始数据:
      [[5.45374108 6.36285388 6.89790337]
       [4.22031847 9.29446541 1.72869836]
       [6.29878395 8.68105164 8.78970701]
       [7.65555541 3.81574752 1.61238819]
       [9.50247279 8.58981375 9.87706441]]
      
      MinMaxScaler归一化后的数据:
      [[0.23350749 0.4649092  0.63953082]
       [0.         1.         0.01407317]
       [0.39348822 0.88803699 0.86843315]
       [0.65034771 0.         0.        ]
       [1.         0.87138384 1.        ]]
      """
      

2、Z标准化

  • Z标准化也称为Z-score标准化或标准差标准化是一种数据预处理技术,用于将数据转化为均值为0,标准差为1的标准正态分布。这种方法在数据分析和机器学习中非常常见,特别是当不同特征具有不同的尺度或单位时,通过Z标准化可以使这些特征在相同的尺度上进行比较和处理。

  • Z标准化的公式如下
    在这里插入图片描述

  • 其中:

    • x原始数据
    • μ 是所有样本数据的均值
    • σ 是所有样本数据的标准差
    • z 是转化后的数据,即Z分数。
  • Z标准化的步骤

    • 计算均值:首先,需要计算给定数据集的所有样本的均值(μ)。
    • 计算标准差:然后,计算数据集的标准差(σ),它衡量了数据点与均值的偏差程度。
    • 应用公式:最后,使用Z标准化的公式将每个原始数据点转换为Z分数。
  • 代码示例

    • 与上述示例一样,运用numpy库中的方法创建一个包含随机数值的二维数组,模拟特征数据集
    • 假设有5个样本,每个样本有3个特征
    • 在Python中,可以使用sklearn.preprocessing.StandardScaler类或numpy的std和mean函数结合来实现Z-分数标准化,这里我们使用StandardScaler方法,因为此方法中包含了所有过程的计算,只需要传入数据即可
      import numpy as np
      from sklearn.preprocessing import StandardScaler
      
      # 创建一个包含随机数值的二维数组,模拟特征数据集
      # 假设有5个样本,每个样本有3个特征
      data = np.random.rand(5, 3) * 10  # 生成一个5x3的数组,每个元素的值在0到10之间
      print("原始数据:")
      print(data)
      
      # 使用StandardScaler进行标准化
      scaler_Z = StandardScaler()
      data_scaled = scaler_Z.fit_transform(data)
      print("\nStandardScaler标准化后的数据:")
      print(data_scaled)
      """
      原始数据:
      [[2.91800254 3.2360031  9.66065598]
       [7.47746281 4.00855141 2.03950532]
       [9.8433753  8.32004568 4.55501016]
       [6.00990907 9.91191497 4.61528516]
       [0.15924446 1.95696181 6.33065699]]
      
      StandardScaler标准化后的数据:
      [[-0.69405259 -0.73160863  1.67789759]
       [ 0.64479923 -0.48048456 -1.35200705]
       [ 1.33953196  0.92100707 -0.35192975]
       [ 0.21386292  1.43845911 -0.3279665 ]
       [-1.50414152 -1.14737299  0.35400572]]
      """
      

3、注意事项

  • 选择适当的方法:根据数据的特性和算法的需求选择合适的数据标准化方法。例如,如果数据集中存在异常值,Z标准化可能会受到影响,而最小-最大标准化则不受影响(但也可能因为异常值而改变缩放范围)。
  • 考虑数据分布:数据标准化会改变数据的原始分布。在解释标准化后的数据时,需要考虑到这一点。
  • 对测试集使用相同的参数:在训练集上进行数据标准化后,应使用相同的均值、标准差(对于Z标准化)或最小值、最大值(对于最小-最大标准化)来标准化测试集。
  • 避免数据泄露:在实际应用中,需要确保在训练模型之前进行数据标准化,以避免在标准化过程中引入测试集的信息,从而导致数据泄露。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2054306.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DHT11温湿度传感器详解(STM32)

目录 一、介绍 二、传感器原理 1.原理图 2.工作时序 3.起始信号与响应信号 4.读数据时序 5.DHT11数据格式 三、程序设计 main.c文件 dht11.h文件 dht11.c文件 四、实验效果展示 五、资料获取 项目分享 一、介绍 DHT11是一款含有已校准数字信号输出的温湿度复合传感器&…

commvault学习(9):备份mysql(linux平台)

1.全备份 1.1创建实例 在centos7上安装完带有mysql组件的cv客户端后,就能在CS上看到客户端的mysql选项 右击图中mysql,点击所有任务-新MySql Server 在弹出的配置框中进行如下设置: *服务器名:类似任务名,自行设置即…

基于SpringBoot的论坛系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图详细视频演示技术栈系统测试为什么选择我官方认证玩家,服务很多代码文档,百分百好评,战绩可查!!入职于互联网大厂,可以交流,共同进步。有保障的售后 代码参考数据库参…

伊朗通过 ChatGPT 试图影响美国大选, OpenAI 封禁多个账户|TodayAI

OpenAI 近日宣布,他们已经封禁了一系列与伊朗影响行动有关的 ChatGPT 账户,这些账户涉嫌利用该 AI 工具生成并传播与美国总统选举、以色列 – 哈马斯战争以及奥运会等相关的内容。 OpenAI 表示,这些账户与一个名为 “Storm-2035” 的秘密伊朗…

(Arxiv-2023)潜在一致性模型:通过少步推理合成高分辨率图像

潜在一致性模型:通过少步推理合成高分辨率图像 Paper Title: Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference Paper是清华发表在Arxiv 2023的工作 Paper地址 Code地址 ABSTRACT 潜在扩散模型 (LDM) 在合成高分辨率图像方…

寻找峰值(100%用例)C卷(JavaPythonC++Node.jsC语言)

给定一个长度为n的数组nums,请你找到峰值并返回其索引。数组可能包含多个峰值,在这种情况下,返回任何一个所在位置即可。 1. 峰值 元素是指其值严格大于左右相邻值的元素 。严格大于即不能有等于 2.假设 nums[-1] = nums[n] = 3.对于所有有效的 i 都有 nums[i] != nums[…

dockerfile搭建部署LNMP

目录 实验 架构: 实验步骤: nginx部分 mysql部分 php部分 实验 实验:用dockerfile搭建LNMP论坛 架构: 一台docker虚拟机 docker部署nginx 1.22 指定ip地址172.111.0.10 docker部署mysql 8.0.30 指定ip地址…

机器学习常用包numpy篇(三)随机数

目录 前言 随机数的生成 1.指定形状 生成【0,1)的随机数组 2.从标准正态分布中返回一个或多个样本值(组成数组) 3.生成规定区间内的规定形状的随机数组 4. 生成[0, 1) 区间内指定 size 的随机浮点数 数组 5.从给定的数组里…

visionpro链接相机-生成应用程序

Cognex GigE Vision Configurator VisionPro (R) Application Wizard

无边界经济:Web3如何打造全球化数字市场

随着互联网技术的不断发展,Web3正在成为推动全球数字市场变革的关键力量。相较于传统的中心化互联网,Web3通过去中心化、区块链和智能合约等技术,正在重新定义全球经济的运作方式。本文将探讨Web3如何实现全球化数字市场的无边界化&#xff0…

【备战蓝桥杯青少组】第二天 奇特的砖墙

真题 第十四届省赛 编程题 第5题 工人砌了一面奇特的砖墙,该墙由N列砖组成(1≤N≤1e6),且每列砖的数量为Ki(1≤Ki≤1e4,相邻砖块之间无缝隙),每块砖的长宽高都为1。小蓝为了美化这面…

【JAVA CORE_API】Day17 转换流、缓冲字符流、异常概念try、catch、finally、throw、throws、异常API、自定义异常

字符流 字符流 字符流 字符流是以字符(char)为单位读写数据的,一次处理一个unicode;java.io.Reader是所有字符输入流的父类;java.io.Writer是所有字符输出流的父类;字符流仅适合读写文本数据。 字符输入…

计算机毕业设计选题推荐-springboot 基于springboot的扶贫助农系统

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

vscode中自定义vue模板(生成的模版里边的div是自己建的文件名)

1.点击之后会出来这个页面 点击去 然后输入下边这段json就可以了 {"vue3模板": {"prefix": "vue","description": "vue3模板","body": ["<template>","<div class$TM_FILENAME_BASE&g…

网络编程/在哪些场景中不必要进行网络字节序转换? Windows Sockets: Byte Ordering

文章目录 概述字节序必须转换字节序的的情况不必转换字节序的的情况字节序转换的例程字节序转换函数字节序转换可以不生硬字节序和位序 概述 本文主要讲述了在哪些场景下必须要进行大小端字节序转换&#xff0c;在哪些场景下可以不用进行大小端字节序转换&#xff0c;IP和端口…

并查集+思维,CF 1039C - Network Safety

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 1039C - Network Safety 二、解题报告 1、思路分析 考虑边<u, v>&…

深度学习基础—动量梯度下降法

1.算法原理 动量梯度下降法就是在梯度下降法的基础上&#xff0c;使用指数加权移动平均值&#xff0c;来平均梯度&#xff0c;这种算法比梯度下降法更快。 如上图&#xff0c;损失函数的最小值是红点&#xff0c;椭圆是损失函数的图像&#xff0c;梯度下降法就像蓝线和紫线&…

Linux安装MQTT 服务器(图文教程)

MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级的消息传输协议&#xff0c;专为低带宽和不稳定的网络环境设计&#xff0c;非常适合物联网&#xff08;IoT&#xff09;应用。 官网地址&#xff1a;https://www.emqx.com/ 一、版本选择 根据自己…

el-tree多选的父子关联和父子不关联和拖拽功能

公用js变量&#xff1a; data () {return {// 绑定的数组treeData: [],// 多选选择的idids: []} }, 公用js方法&#xff1a; /*** 选择多选改变*/ nodeChange(data, checked, indeterminate) {let keys this.$refs.treeCategory.getCheckedKeys();this.ids keys; } 第一种…

Android 架构模式之 MVP

目录 架构设计的目的对 MVP 的理解代码ModelViewPresenter Android 中 MVP 的问题试吃个小李子ModelViewPresenter 大家好&#xff01; 作为 Android 程序猿&#xff0c;你有研究过 MVP 架构吗&#xff1f;在开始接触 Android 那一刻起&#xff0c;我们就开始接触 MVC 架构&am…