机器学习基础知识之数据归一化

news2024/11/19 13:24:02

文章目录

  • 归一化的原因
    • 1、最大最小归一化
    • 2、Z-score标准化
    • 3、不同方法的应用

归一化的原因

在进行机器学习训练时,通常一个数据集中包含多个不同的特征,例如在土壤重金属数据集中,每一个样本代表一个采样点,其包含的特征有经度、纬度、海拔、不同重金属含量等,这些特征所使用的量纲存在较大的区别,进而导致不同特征下的数值之间的差别也较大。在使用此数据集进行实验时,极有可能忽略了某些数值变化区间较小的特征指标对目标特征数据的影响,进而直接影响到实验的结果。
归一化前的数据:
在这里插入图片描述

为了解决上述问题,在使用该数据集进行相关实验前,通常需要使用归一化方法对数据进行预处理。归一化方法是机器学习中的一项基础工作,可以被通俗的理解为将不同的数据归为同一类。归一化方法有两种形式,一种为通过数学方法将所有的数据映射到0到1范围之内来方便进行处理,另外还有一种方式是将有量纲表达式变为无量纲表达式。由于在进行机器学习时,大部分情况都是将所有的数据映射到0到1范围之内即可,因此将分别针对这一形式中的几种归一化方法进行介绍。
归一化之后的数据:
在这里插入图片描述

1、最大最小归一化

最大最小归一化。这种方法是最简单的一种方法,它主要需要分别针对每一个特征变量,遍历这一个特征变量的所有值,然后保存其中的最大值与最小值,通过计算此特征变量中每个数值与最大值、最小值之间的比值关系来将此数值映射到区间0到1之中,具体的计算公式如下:
在这里插入图片描述

其中x表示原始数据,x_min表示此特征变量下的最小数值,x_max表示此特征变量下的最大数值,x^*表示归一化之后的数据。

由于归一化方法将数值映射到了区间0到1之间,而在训练的过程中需要通过输入特征与参数的计算获得输出值来拟合目标值,因此针对目标特征变量也要进行归一化处理,且此时训练获得参数值为针对归一化后的数据优化得来的。为了在使用训练好的模型进行预测的时候可以获得原量纲下的数据,则需要对计算得出的数据进行反归一化处理,此归一化方法下的反归一化计算方式如下:
在这里插入图片描述

2、Z-score标准化

此方法与最大最小归一化方法最大的不同点在于最大最小归一化方法利用的是同一特征变量下的最大值与最小值,而此方法利用的是同一特征变量下的平均值与标准差,经过此归一化方法进行归一化处理后的数据在数据分布上符合均值为0,标准值为1的标准正态分布。此归一化方法的计算公式如下:
在这里插入图片描述

其中μ表示此特征变量下的数值平均值,σ表示此特征变量下的数值标准差。

同理,在对目标特征变量进行训练时也需要对计算的结果进行反归一化以获得原量纲下的数据,此归一化方法对应的反归一化公式如下:
在这里插入图片描述

3、不同方法的应用

除上述两种归一化方法外,还存在一些归一化方法,如Sigmod函数转换、log函数转换以及反正切函数转换等,这些方法的应用相对较少,但其中心思想都是将数据值大小映射到区间0到1之间。
由于不同归一化方法的实现方式不同,因此它们在解决实际问题时的应用场景也有差别,例如在处理分类、聚类问题时,需要使用距离值来度量不同变量之间的相似性,此时选用Z-score标准化方法对数据进行归一化可以获得更好的效果,而在不涉及距离度量或数据的分布不符合正态分布时,使用最大最小归一化方法则更为合适。在使用协作复合神经网络模型对土壤重金属含量进行预测时由于使用的数据不涉及度量,因此采用的数据归一化方法为最大最小归一化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/502587.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《程序员面试金典(第6版)》面试题 16.16. 部分排序(double双指针(多指针),C++)

题目描述 给定一个整数数组,编写一个函数,找出索引m和n,只要将索引区间[m,n]的元素排好序,整个数组就是有序的。注意:n-m尽量最小,也就是说,找出符合条件的最短序列。函数返回值为[m,n]&#xf…

什么是平台工程?如何开始?

平台工程是为开发人员构建和维护自助服务平台的学科。该平台提供了一套云原生工具和服务,帮助开发者快速高效地交付应用。平台工程的目标是通过标准化和自动化软件交付生命周期 (SDLC) 中的大部分任务来改善开发人员体验 (DX)。开发人员可以专注于使用自动化平台编码…

Type-C PD充电器诱骗PD+QC+AFC+FCP全协议快充取电5V9V12V15V20V

Type-C充电器采用的是PD快充协议,支持的电压高,电流大,一般有5V3A、9V3A、12V3A、15V3A、20V5A等等。 因为充电器内部有协议芯片,当外部设备连接时,设备会和充电器进行协议匹配,匹配成功之后,充…

ASEMI代理ADI亚德诺LT8609AJDDM#WTRPBF车规级芯片

编辑-Z LT8609AJDDM#WTRPBF特点&#xff1a; 宽输入电压范围&#xff1a;3.0V 至 42V 超低静态电流突发模式操作&#xff1a; 将 12VIN 调节到 3.3VOUT 时 IQ 为 2.5A 输出纹波 < 10mVP-P 高效 2MHz 同步操作&#xff1a; 1A 时效率为 93%, 12VIN 可获得 5VOUT 最大…

3.1 一个稍微完善的Vue.js响应式系统

前文提要&#xff1a;3.0 响应式系统的设计与实现 1、设置一个合理的effect副作用函数 如上文所说&#xff0c;如果我们直接将简单的effect函数作为副作用函数&#xff0c;如果一个副作用函数不叫effect岂不是找不到了。解决方案也很简单&#xff0c;我们设定一个全局变量用于…

在CRA中配置别名路径并添加别名路径提示

写在前面&#xff1a; 使用React官方脚手架create-react-app[简称CRA]创建react项目&#xff1a;npx create-react-app 项目名称 一、配置别名路径 1.1 写在前面 目的&#xff1a;简化项目中的路径处理&#xff0c;和Vue项目中的类似。 参考文档&#xff1a;自定义CRA的默认…

MySQL基础(十二)数据类型精讲

1. MySQL中的数据类型 类型类型举例整数类型TINYINT、SMALLINT、MEDIUMINT、INT(或INTEGER)、BIGINT浮点类型FLOAT、DOUBLE定点数类型DECIMAL位类型BIT日期时间类型YEAR、TIME、DATE、DATETIME、TIMESTAMP文本字符串类型CHAR、VARCHAR、TINYTEXT、TEXT、MEDIUMTEXT、LONGTEXT枚…

一个日期类深度认识operator符号重载

一&#xff1a;概念 在以前的C语言的学习中,如果我们需要比较两个整数并返回它的结果可以直接用与之相关的符号。例如我们可以直接写成A>B或者A<B一类的&#xff0c;但是它的局限性很大&#xff0c;只能比较内置类型&#xff0c;因为计算可以直接转换成对应的汇编代码进…

如何通过国外主机租用服务提高网站SEO排名?

当今的互联网已经成为了商业和社交活动的主要场所之一。在这个快速变化的数字时代&#xff0c;网站的搜索引擎优化(SEO)排名对于任何企业的成功都至关重要。一个好的SEO排名能够帮助企业吸引更多的访客和潜在客户&#xff0c;增加业务的转化率。而国外主机租用服务可以帮助您优…

【C++学习】函数模板

模板的概念 模板就是建立通用的模具&#xff0c;大大提高复用性。 模板的特点&#xff1a; 模板不可以直接使用&#xff0c;它只是一个模型 模板的通用不是万能的 基本语法 C中提供两种模板机制&#xff1a;函数模板和类模板 函数模板作用&#xff1a; 建立一个通用函数&…

C++学习day--05 C++数据类型

1、项目需求&#xff1a;实现黑客攻击系统菜单打印 实现&#xff1a; #include <iostream> #include <Windows.h> int main( void ) { std::cout << "1. 网站 404 攻击 " << std::endl; std::cout << "2. 网站篡改攻击 …

实验四 基于PPTP的远程VPN实现【网络安全】

实验四 基于PPTP的远程VPN实现【网络安全】 前言推荐实验四 基于PPTP的远程VPN实现使用&#xff1a;配置CentOS PPTP服务端配置CentOS PPTP客户端常见问题浏览器无法打开网页 最后 前言 2023-5-7 23:10:12 以下内容源自《【网络安全】》 仅供学习交流使用 推荐 第27节 远程…

TCP三次握手/四次挥手

TCP三次握手/四次挥手 TCP的三次握手和四次挥手实质就是TCP通信的连接和断开。 三次握手 任何基于TCP的应用&#xff0c;在发送数据之前&#xff0c;都需要由TCP进行三次握手进行连接 握手流程&#xff1a; 三次握手原理 第1次握手&#xff1a;客户端发送一个带有SYN&#…

【蓝桥杯国赛真题26】Scratch队列练习 少儿编程scratch图形化编程 蓝桥杯省赛真题讲解

目录 scratch队列练习 一、题目要求 编程实现 二、案例分析 1、角色分析

2018年下半年软件设计师下午试题

试题四&#xff08;15分&#xff09; 给定一个字符序列Bb1b2….bn&#xff0c;其中bi∈{A,C,G,U}。B上的二级结构是一组字符对集合S{(bi,bj)},其中i,j∈{1,2,….,n}&#xff0c;并满足以下四个条件&#xff1a; &#xff08;1&#xff09;S中的每对字符是(A,U),(U,A),(C,G)和…

【网络】-- IP协议

应用层&#xff08;http、https&#xff09;&#xff1a; 数据的使用。传输层&#xff08;UDP、TCP&#xff09;&#xff1a;网络通讯的细节&#xff0c;将数据可靠的从A主机跨网络送到B主机。网络层&#xff08;IP&#xff09;&#xff1a;提供一种能力&#xff0c;将数据从A主…

如何让任何小程序都支持在windows系统中打开?

随着小程序的发展&#xff0c;出现了越来越多小程序在PC端打开的需求。很多程序员同行都想了解&#xff1a;小程序支持在windows系统、mac、统信UOS等桌面操作系统中打开吗&#xff1f; 答案当然是&#xff1a;可以&#xff01; 本文就基于作者自身的经验&#xff0c;给大家介…

IPWorks SSH 2022.0.8505 C++ Edition Crack

IPWorks SSH 2022.0.8505 C Edition 轻松将安全外壳 &#xff08;SSH&#xff09; 安全性集成到您的互联网应用程序中。IPWorks SSH 库包括支持 SSH 的客户端、服务器和代理组件&#xff0c;支持强 SSH 2.0 加密和高级加密。 SSH库 SSH 文件传输和通信 借助 IPWorks SSH&#x…

【嵌入式环境下linux内核及驱动学习笔记-(10-内核内存管理)】

目录 1、linux内核管理内存1.1 页1.2 区1.2.1 了解x86系统的内核地址映射区&#xff1a;1.2.2 了解32位ARM系统的内核地址映射区&#xff1a; 2、内存存取2.1 kmalloc2.1.1 kfree2.1.2 kzalloc 2.2 __get_free_page函数族2.2.1 free_page2.2.2 __get_free_pages()2.2.3 free_pa…

20230502 - 二叉树1 | 二叉树理论基础、二叉树的递归遍历

1、二叉树理论基础篇 二叉树可以链式存储&#xff0c;也可以顺序存储。 用数组来存储二叉树如何遍历的呢&#xff1f; 如果父节点的数组下标是 i&#xff0c;那么它的左孩子就是 i * 2 1&#xff0c;右孩子就是 i * 2 2。 深度优先遍历 前序遍历&#xff08;递归法&…