【深度学习】数据归一化/标准化 Normalization/Standardization

news2024/9/22 11:23:33

目录

一、实际问题

二、归一化 Normalization

三、归一化的类型

1. Min-max normalization (Rescaling)

2. Mean normalization

3.Z-score normalization (Standardization)

4.非线性归一化

4-1 对数归一化

4-2 反正切函数归一化

4-3 小数定标标准化(Demical Point Normalization)

四、如何选择归一化函数?

五、Java实现归一化工具类


一、实际问题

在数据分析、深度学习中,经常需要对数据进行处理,数据处理时,会发现一个问题:

不同维度的数据,数据范围偏差比较大,如

  • 距离地铁的距离——房价的关系
  • 海拔高度——氧气含量的关系

一个维度的数据范围大,一个小,导致以下问题:

【1】求解过程不平缓、函数收敛慢

【2】相关性展示不明显

如下图:

海拔越高、氧气含量越低,因为数据范围的原因,导致两者的相关性展示得不明显。

解决得方式就是归一化和标准化

二、归一化 Normalization

归一化,指将数据样本中的数据进行处理,使它们处于同一量级。

如 [0,1] 或者 [-1,1] 或者其它

归一化后,数据更具有可比性,如图

函数的求解过程也会比较平缓,更快求得最优解,如下图

左:未归一化的求解  右:归一化后的求解

三、归一化的类型

1. Min-max normalization (Rescaling)

最值归一化,公式如下:

\mathbf{​{x}'=\frac{x-min}{max-min}}

归一化后的数据范围为 [0, 1],其中min max分别求样本数据的最小值和最大值。

2. Mean normalization

均值归一化,公式如下:

\mathbf{​{x}'=\frac{x-mean}{max-min}}

归一化后的数据范围为 [-1, 1],其中mean、min、max为样本数据的平均值、最小值和最大值。

3.Z-score normalization (Standardization)

标准差归一化,也成为标准化(标准化其实就是归一化的一种),公式如下:

\boldsymbol{\mathbf{}\boldsymbol{\mathbf{}{x}'=\frac{x-mean}{\sigma}}}

归一化后的数据范围为实数集,其中mean、σ 分别为样本数据的均值和标准差。

4.非线性归一化

4-1 对数归一化

\boldsymbol{\mathbf{}{x}'=\frac{lg(x)}{lg(max)}}

4-2 反正切函数归一化

\boldsymbol{\mathbf{}{x}'=arctan(x)*\frac{2}{pi}}

归一化后的数据范围为 [-1, 1]

4-3 小数定标标准化(Demical Point Normalization)

\boldsymbol{\mathbf{}{x}'=\frac{x}{10^{j}}}

j为使

 \boldsymbol{\mathbf{}max(\left |{ x}' \right |)<1}

的最小整数,归一化后的数据范围为 [-1, 1]

四、如何选择归一化函数?

Min-Max归一化、Mean归一化适合

【1】最大最小值明确不变:如图像处理中,RGB值为0~255,可以使用Min-Max来处理。

【2】对数据范围有明确要求:如需要数据范围为-1~1

不适合:

【1】最大最小值不明确:每次有新的值加入,之前的结果就会发生改变,导致不稳定。

【2】有过大或过小的异常值存在:效果会较差

Z-score归一化适合:

【1】存在异常值、最大最小值不固定

缺点是:

【1】改变了数据的状态分布,但不会改变分布的种类:经过处理的数据呈均值为0,标准差为1的分布

非线性归一化适合

【1】数据分化程度较大的场景

五、Java实现归一化工具类

package com.potato.commonpro.util.math;

import java.util.ArrayList;
import java.util.List;

/**
 * 数据样本归一化工具类
 * 包含了多个归一化函数,提供了List/Array两种类型的输入输出,具体的归一化函数如下:
 * 【1】min-max normalization(Rescaling)
 * 【2】mean normalization
 * 【3】Z-score normalization (Standardization)
 * 【4】对数归一化
 * 【5】反正切函数归一化
 * 【6】小数定标标准化
 * <p>
 * Author:PotatoChan
 * Date:2023-12-30
 */
public class PotatoNormalization {


    /**
     * min-max normalization(Rescaling)
     * 归一化公式:x'=(x-min)/(max-min)
     * 归一化后的数据范围为 [0, 1],其中min 、max 分别求样本数据的最小值和最大值。
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForMinToMax(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的最大值与最小值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
        }
        //计算归一化后的数据
        double dis = max - min;
        for (Double item : data) {
            double num = (item - min) / dis;
            result.add(num);
        }
        return result;
    }

    /**
     * min-max normalization(Rescaling)
     * 归一化公式:x'=(x-min)/(max-min)
     * 归一化后的数据范围为 [0, 1],其中min 、max 分别求样本数据的最小值和最大值。
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForMinToMax(double[] data) {
        double[] result = new double[data.length];

        //求取样本数据中的最大值与最小值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
        }
        //计算归一化后的数据
        double dis = max - min;
        for (int i = 0; i < data.length; i++) {
            result[i] = (data[i] - min) / dis;
        }

        return result;
    }

    /**
     * mean normalization
     * 归一化公式:x'=(x-mean)/(max-min)
     * 归一化后的数据范围为 [-1, 1],其中mean为样本数据的平均值,min 、max 分别求样本数据的最小值和最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForMean(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的最大值与最小值、平均值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        double mean = 0;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
            mean += item;
        }
        mean = mean / data.size();

        //计算归一化后的数据
        double dis = max - min;
        for (Double item : data) {
            double num = (item - mean) / dis;
            result.add(num);
        }
        return result;
    }

    /**
     * mean normalization
     * 归一化公式:x'=(x-mean)/(max-min)
     * 归一化后的数据范围为 [-1, 1],其中mean为样本数据的平均值,min 、max 分别求样本数据的最小值和最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForMean(double[] data) {
        double[] result = new double[data.length];
        //求取样本数据中的最大值与最小值、平均值
        double max = Double.MIN_VALUE;
        double min = Double.MAX_VALUE;
        double mean = 0;
        for (Double item : data) {
            if (item > max) max = item;
            if (item < min) min = item;
            mean += item;
        }
        mean = mean / data.length;

        //计算归一化后的数据
        double dis = max - min;
        for (int i = 0; i < data.length; i++) {
            result[i] = (data[i] - mean) / dis;
        }
        return result;
    }

    /**
     * Z-score normalization (Standardization)
     * 归一化公式:x'=(x-mean)/σ
     * 归一化后的数据范围为实数集,其中μ、σ 分别为样本数据的均值和标准差
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForZScore(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的平均值
        double mean = 0;
        for (Double item : data) {
            mean += item;
        }
        mean = mean / data.size();

        //计算方差
        double variance = 0;
        for (Double item : data) {
            variance += (item - mean) * (item - mean);
        }
        variance = variance / data.size();
        //计算标准差
        double standardDeviation = Math.sqrt(variance);

        //计算归一化后的数据
        for (Double item : data) {
            double num = (item - mean) / standardDeviation;
            result.add(num);
        }
        return result;
    }

    /**
     * Z-score normalization (Standardization)
     * 归一化公式:x'=(x-mean)/σ
     * 归一化后的数据范围为实数集,其中μ、σ 分别为样本数据的均值和标准差
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForZScore(double[] data) {
        double[] result = new double[data.length];
        //求取样本数据中的平均值
        double mean = 0;
        for (Double item : data) {
            mean += item;
        }
        mean = mean / data.length;

        //计算方差
        double variance = 0;
        for (Double item : data) {
            variance += (item - mean) * (item - mean);
        }
        variance = variance / data.length;
        //计算标准差
        double standardDeviation = Math.sqrt(variance);

        //计算归一化后的数据
        for (int i = 0; i < data.length; i++) {
            result[i] = (data[i] - mean) / standardDeviation;
        }
        return result;
    }

    /**
     * 对数归一化
     * 归一化公式:x'=ln(x)/ln(max)
     * 其中,max为数据样本的最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForlg(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //求取样本数据中的最大值
        double max = Double.MIN_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
        }
        //计算归一化后的数据
        for (Double item : data) {
            double num = Math.log10(item) / Math.log10(max);
            result.add(num);
        }
        return result;
    }

    /**
     * 对数归一化
     * 归一化公式:x'=ln(x)/ln(max)
     * 其中,max为数据样本的最大值
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForlg(double[] data) {
        double[] result = new double[data.length];
        //求取样本数据中的最大值
        double max = Double.MIN_VALUE;
        for (Double item : data) {
            if (item > max) max = item;
        }
        //计算归一化后的数据
        for (int i = 0; i < data.length; i++) {
            result[i] = Math.log10(data[i]) / Math.log10(max);

        }
        return result;
    }

    /**
     * 反正切函数归一化
     * 归一化公式:x'=arctan(x)*(2/PI)
     * 归一化后的数据范围为 [-1, 1],PI表示圆周率Π
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static List<Double> normalizationForArctan(List<Double> data) {
        List<Double> result = new ArrayList<>();
        //计算归一化后的数据
        for (Double item : data) {
            double num = Math.atan(item) * (2 / Math.PI);
            result.add(num);
        }
        return result;
    }


    /**
     * 反正切函数归一化
     * 归一化公式:x'=arctan(x)*(2/PI)
     * 归一化后的数据范围为 [-1, 1],PI表示圆周率Π
     *
     * @param data 数据样本
     * @return 归一化后的数据样本
     */
    public static double[] normalizationForArctan(double[] data) {
        double[] result = new double[data.length];
        //计算归一化后的数据
        for (int i = 0; i < data.length; i++) {
            result[i] = Math.atan(data[i]) * (2 / Math.PI);
        }
        return result;
    }


}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1421497.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

山海鲸智慧教育方案:教育数据的未来

作为山海鲸可视化软件的开发者&#xff0c;我们深知数据可视化在教育领域的重要价值。山海鲸智慧教育解决方案正是在这样的背景下应运而生&#xff0c;致力于为教育行业提供高效、直观的数据可视化解决方案。 随着教育信息化的深入推进&#xff0c;教育数据呈爆炸式增长。如何…

嵌入式学习 Day14

一. 三个函数 1.strncpy char *strncpy(char *dest, const char *src, size_t n) // 比正常拷贝多了一个n { n < strlen(src) // 只拷贝前n个字符&#xff0c;最终dest中不会有\0 n strlen(src) // 正常拷贝 n > strlen(src) …

【Golang】ModbusRTU协议CRC16校验算法

CRC校验码是通过在数据后面附加一个短的校验序列来生成的&#xff0c;用于检测数据在传输过程中是否发生错误。CRC16是一种特定的CRC校验算法&#xff0c;它生成一个16位的校验码。 下面是使用Go语言实现CRC16校验算法的代码&#xff1a; package main import ("encoding…

【01】Linux 基本操作指令

带⭐的为重要指令 &#x1f308; 01、ls 展示当前目录下所有文件&#x1f308; 02、pwd 显示用户当前所在路径&#x1f308; 03、cd 进入指定目录&#x1f308; 04、touch 新建文件&#x1f308; 05、tree 以树形结构展示所有文件⭐ 06、mkdir 新建目录⭐ 07、rmdir 删除目录⭐…

某赛通电子文档安全管理系统 PolicyAjax SQL注入漏洞复现

0x01 产品简介 某赛通电子文档安全管理系统(简称:CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资产,对电子文档进行全生命周期防护,系统具有透明加密、主动加密、智能…

Linux--redhat9创建软件仓库

1.插入光盘&#xff0c;挂载镜像 模拟插入光盘: 点击:虚拟机-可移动设备-CD/DVD 设备状态全选&#xff0c;使用ISO影响文件选择当前版本镜像&#xff0c;点击确认。 2.输入: df -h 可以显示&#xff0c;默认/dev/sr0文件为光盘文件&#xff0c;挂载点为/run/media/root/镜像…

【操作系统·考研】文件系统基础

1.概述 文件(File)是以硬盘为载体的存储在计算机上的信息集合&#xff0c;文件可以是文本文档、图片、程序等&#xff0c;基本访问单元可以是字节或记录&#xff0c;可以长期储存在硬盘中&#xff0c;并允许可控制的进程间共享访问&#xff0c;还可以被组成成更复杂的结构。 在…

关于 IntelliJ IDEA 中 Schedule for Addition 的问题

IntelliJ IDEA是一款强大的Java集成开发环境&#xff0c;由JetBrAIns公司开发。它以其智能代码编辑、代码分析工具、自动代码补全、强大的调试功能和内建的版本控制等特性而闻名。此外&#xff0c;它还支持Kotlin、Groovy、Scala和Android开发等多种语言和框架。 IntelliJ IDE…

【XR806开发板试用】在 xr806 上用 ncnn 跑神经网络 mnist

在 xr806 上用 ncnn 跑神经网络 mnist 0x0 介绍 xr806 和 ncnn https://xr806.docs.aw-ol.com/ XR806是全志科技旗下子公司广州芯之联研发设计的一款支持WiFi和BLE的高集成度无线MCU芯片&#xff0c;支持鸿蒙L0系统 https://github.com/Tencent/ncnn ncnn是腾讯开源的高性…

纯静态微信小程序水果商城

首页代码 <view class"container"><!-- 轮播图 --><view class"swiper-container"><swiper class"screen-swiper" indicator-dots"true" circular"true" autoplay"true" interval"300…

【开源】基于JAVA+Vue+SpringBoot的数据可视化的智慧河南大屏

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 数据模块 A4.2 数据模块 B4.3 数据模块 C4.4 数据模块 D4.5 数据模块 E 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的数据可视化的智慧河南大屏&#xff0c;包含了GDP、…

Unity:构建游戏和交互应用的强大引擎

Unity&#xff1a;构建游戏和交互应用的强大引擎 在游戏开发和交互应用领域&#xff0c;Unity 已经成为最受欢迎和广泛使用的开发引擎之一。无论是独立开发者、游戏工作室还是企业开发团队&#xff0c;Unity 都提供了强大的工具和功能&#xff0c;帮助开发者构建出令人惊叹的视…

【Prometheus】Prometheus的容器化部署

目录 实验部署 1、创建账户绑定集群 2、node-exporter发现节点 3、创建configmap&#xff0c;传输配置文件&#xff1a; 3.1、热更新修改configmap方式&#xff1a; 4、部署Prometheus&#xff1a; 5、部署service提供外部访问&#xff1a; 6、安装grafana可视化工具&am…

win wsl2 Ubuntu-22.04 设置时间为国内时间

使用 wsl2 安装 Ubuntu-22.04 后 时间不正确&#xff0c;主要有两个原因 时区设置不正确&#xff0c;国内为京八区。 时区正确后&#xff0c;没有同步时间。&#xff08;大部分人容易忽略这一点&#xff09; Linux 默认情况下使用 UTC 格式作为标准时间格式&#xff0c;如果在…

【论文解读】Collaboration Helps Camera Overtake LiDAR in 3D Detection

CoCa3D 摘要引言Collaborative Camera-Only 3D DetectionCollaborative depth estimationCollaborative detection feature learning 实验结论和局限 摘要 与基于 LiDAR 的检测系统相比&#xff0c;仅相机 3D 检测提供了一种经济的解决方案&#xff0c;具有简单的配置来定位 3…

qt语言国际化(翻译),并实现多窗口同时翻译

一、.pro文件中添加支持的语言 在.pro文件中添加下面几句&#xff0c;支持中文和英文 TRANSLATIONS lanague_cn.ts\lanague_en.ts二、通过qt语言家更新翻译生成.ts文件 完成以后在工程目录可以看到.ts文件 三、通过linguist翻译文件 打开文件 将两个文件同时选中&#xf…

(一)PySpark3:安装教程及RDD编程(非常详细)

目录 一、pyspark介绍 二、PySpark安装 三、RDD编程 1、创建RDD 2、常用Action操作 ①collect ②take ③takeSample ④first ⑤count ⑥reduce ⑦foreach ⑧countByKey ⑨saveAsTextFile 3、常用Transformation操作 ①map ②filter ③flatMap ④sample ⑤d…

Matlab plot绘图的 title 语法

x 0:1:10; >> y x.^2 -10*x15; >> plot(x,y) >> title(x_y, interpreter, none) title 里面的 x_y , y不会被当作下标。

数据结构--堆排序(超详细!)

一、前言 堆排序与Top K问题是堆的两大应用&#xff0c;在我们日常也有很广泛的用处 我们已经上面已经说过了堆&#xff0c;这次来说堆的其中一个应用---堆排序。 二、堆排序 堆排序优势在哪里&#xff1f;有什么恐怖之处吗&#xff1f; 重点&#xff1a;拿一个举例&…

你ping一下,服务器累成狗--第二篇

你ping一下&#xff0c;服务器累成狗-目录篇文章浏览阅读1.7k次&#xff0c;点赞65次&#xff0c;收藏20次。我们的电脑怎么干活的https://blog.csdn.net/u010187815/article/details/135796967 你ping一下&#xff0c;服务器累成狗--第一篇文章浏览阅读62次&#xff0c;点赞6…