数据预处理——调整方差、标准化、归一化(Matlab、python)

news2024/11/24 8:36:20

对数据的预处理:

(a)、调整数据的方差

(b)、标准化:将数据标准化为具有零均值和单位方差;(均值方差归一化(Standardization)

(c)、最值归一化也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 , 1]之间

(a)、调整数据的方差

 均方差=标准差

方差的定义是:离平均值的平方距离的平均。

(b)、标准化

也称为均值归一化(mean normaliztion), 给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。转化函数为:

虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量在聚类分析中的重要性程度是同等看待的。


(c)、最值归一化

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 , 1]之间。

将一列数据变化到某个固定区间(范围)中,通常,这个区间是[0, 1] 或者(-1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。 

注意:由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。

所用语言---matlab,python

matlab

%% 调整数据范围   预处理    调整方差到0.02
K=sqrt(0.02/var(inputData));
inputData = inputData*K;
K=sqrt(0.02/var(targetData));
targetData = targetData*K;
%% 标准化
mu = mean(inputData);
sig = std(inputData); %标准差std函数
inputData = (inputData - mu) / sig;
mu = mean(targetData);
sig = std(targetData);
targetData = (targetData - mu) / sig;
% 预处理  归一化
inputData= mapminmax(inputData, 0, 1);
targetData= mapminmax(targetData, 0, 1);

python

import numpy as np

inputData=x
targetData=y
K=np.sqrt(0.02/np.var(inputData))
inputData=np.dot(inputData, K)
K=np.sqrt(0.02/np.var(targetData))
targetData=np.dot(targetData, K)

 将数据标准化

import numpy as np

inputData=x
targetData=y
input_mean=np.mean(inputData)
input_std=np.std(inputData)
inputData=(inputData-input_mean)/input_std

 最值归一化适用于数据有明显边界的情况,例如考试成绩。该方法是将所有数据映射到[0,1]之间

(x-np.min(x))/(np.max(x)-np.min(x))  # 最值归一化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1819276.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elasticsearch 第二期:倒排索引,分析,映射

前言 正像前面所说,ES真正强大之处在于可以从无规律的数据中找出有意义的信息——从“大数据”到“大信息”。这也是Elasticsearch一开始就将自己定位为搜索引擎,而不是数据存储的一个原因。因此用这一篇文字记录ES搜索的过程。 关于ES搜索计划分两篇或…

刷题笔记2:用位运算找“只出现一次的一个数”

1. & 和 | 的基本操作 137. 只出现一次的数字 II - 力扣(LeetCode) 先对位运算的操作进行复习: 1、>> 右移操作符 移位规则:⾸先右移运算分两种: 1. 逻辑右移:左边⽤0填充,右边丢…

Stable diffusion 3 正式开源

6月12日晚,著名开源大模型平台Stability AI正式开源了,文生图片模型Stable Diffusion 3 Medium(以下简称“SD3-M”)权重。 SD3-M有20亿参数,平均生成图片时间在2—10秒左右推理效率非常高,同时对硬件的需求…

Instagram涨粉六大秘籍:从零开始建立粉丝基础

Instagram已经从一个简单的社交分享平台演变成一个强大的营销工具,品牌和内容创作者利用它来吸引潜在客户并推广个人品牌。 随着全球超过13.5亿用户每日在Instagram寻找新的视觉灵感和最新潮流,如何在这个竞争激烈的环境中脱颖而出,有效增粉…

msvcp110.dll有什么解决方案,msvcp110.dll几种方法详细步骤教程

本文旨在探讨如何应对电脑出现 vcruntime140_1.dll 无法继续执行代码错误提示的问题。同时,将阐释该文件的作用,列举常见的错误问题,并提供一些在修复 vcruntime140_1.dll 时的注意事项,以避免在解决过程中引发其他问题。接下来&a…

界面控件DevExpress WinForms垂直属性网格组件 - 拥有更灵活的UI选择(一)

DevExpress WinForms垂直&属性网格组件旨在提供UI灵活性,它允许用户显示数据集中的单个行或在其90度倒置网格容器中显示多行数据集。另外,用户可以把它用作一个属性网格,就像在Visual Studio IDE中那样。 P.S:DevExpress Win…

meilisearch的索引(index)的最佳实践

官网的第一手资料学新技术:meilisearch官方文档 安装的官网地址:meilisearch安装的官网 部署在生产环境的指导:meilisearch部署在生产环境的指导 Elasticsearch 做为老牌搜索引擎,功能基本满足,但复杂,重…

Deep Freeze冰点还原8.57最新版软件安装包下载+详细安装步骤

​冰点还原精灵(DeepFreeze)是由Faronics公司出品的一款系统还原软件,能保留您的计算机配置,确保全面的端点保护,任何更改,无论是恶意更改还是无意更改,都会在重启时撤销,这就是“重…

想设计完美Banner?这7个步骤教你快速上手!

一个合格的网页横幅设计体现在吸引用户点击,促进用户的购物欲望上。网页横幅设计可能是一个漫长而复杂的过程,涉及到每个职位。团队工作时,横幅设计的沟通过程越长,越容易忘记某些步骤,或者因为时间限制而忽略某些部分…

YOLO系列理论解读 v1 v2 v3

YOLO系列理论解读 YOLO v1(You Only Look Once:Unified, Real-Time Object Detection) YOLO v1实现步骤 将一幅图像分成SxS个网格(grid cell),如果某个object的中心落在这个网格中,则这个网格就负责预测这个object。 通常情况…

如何理解 Java 的垃圾回收机制及其工作原理

Java的垃圾回收机制(Garbage Collection,GC)是Java虚拟机(JVM)内存管理的重要组成部分,其主要目的是自动管理内存,释放不再使用的对象所占的内存空间,防止内存泄漏,确保应…

C#——析构函数详情

析构函数 C# 中的析构函数(也被称作“终结器”)同样是类中的一个特殊成员函数,主要用于在垃圾回收器回收类实例时执行一些必要的清理操作。 析构函数: 当一个对象被释放的时候执行 C# 中的析构函数具有以下特点: * 析构函数只…

助力OTT大屏营销,酷开科技引领产业变革与创新

随着大屏电视产品的迭代,越来越多家庭以增换购等多种形式获得超高清、超大屏的智能电视,大屏的人均拥有量和渗透率进一步增加。在这种情况下,通过OTT应用为载体,将大量内容持续输送到大屏终端,从而形成了电视硬件普及与…

消费盲返新风尚:让消费者与商家共享繁荣

在当今的消费市场中,消费盲返模式作为一种创新型的消费返利机制,正在逐步改变消费者的购物体验。这种模式不仅为消费者提供了额外的返利机会,同时也为商家带来了诸多益处,实现了消费者与商家的共赢。 消费盲返模式解读 消费盲返模…

Postman batch post requests import 双引号问题

初次使用工具中注意事项: 1 定义json参数变量value由于没有注意双引号问题导致run 报400 错误 测试结果总是报400 bad request错误

不会开发的你也能管理好企业漏洞,开源免费工具:洞察(insight II)

公司刚开始建设安全管理时,都是从一片混沌开始的,资源总是不够的,我们每个做安全的人员,又要会渗透,又要抓制度,还得管理各种漏洞。在管理楼栋是,我相信大家都遇到过以下几个问题: …

Modbus协议转Profinet协议网关与气体监测系统配置案例

一、背景;Modbus协议和Profinet协议作为工业领域常见的两种通讯协议,各自具有一定的特点和应用范围。Modbus转Profinet网关(XD-MDPN100/300)在工业自动化控制系统中,可以将Modbus协议转换为Profinet协议,以…

SurfaceView->SurfaceView基本概念

绘制过程 View和SurfaceView绘制过程 PhoneWindow:Window的具体实现,在Activity中调用setContentView()方法时,一个PhoneWindow实例会对应一个ViewRootImpl实例,绘制,事件分发传递给ViewRootImpl进行ViewRootImpl&…

李宏毅深度学习01——基本概念简介

视频链接 基本概念 Regression(回归): 类似于填空 Classification(分类): 类似于选择 Structure Learning(机器学习): ?? 机器学习找对应函数…