【机器学习300问】12、为什么要进行特征归一化?

news2024/11/6 7:13:59

        当线性回归模型的特征量变多之后,会出现不同的特征量,然而对于那些同是数值型的特征量为什么要做归一化处理呢?

一、为了消除数据特征之间的量纲影响

        使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用米(m)和于克(kg)作为单位,那么身高特征会在 1.6m ~ 1.8m的数值范围内,体重特征会在50~ 100kg 的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果,就需要进行特征归一化(Normalization)处理,使各指标处于同一个数值量级,以便进行分析。

二、为了让模型训练更迅速

        归一化后的特征在数值上更接近,这可以使得模型训练过程中的梯度下降步长更加稳定,同时避免了某些特征因数值过大而在梯度下降过程中占据主导地位。

特征归一化对梯度下降有影响

三、为了使特征间的权重更公平

        在一些算法中,比如逻辑回归,如果不进行归一化,那么特征的重要性可能会被特征的尺度所影响。即那些取值范围较大的特征可能会被模型认为是更重要的特征,从而导致在计算距离时,尺度较大的特征将会导致距离主要由它来决定,这可能会掩盖掉其他特征的信息,降低模型的预测精度。

四、归一化最常用的两种方法

        对数值型特征做归一化处理可以将所有特征都统一到一个大致相同的区间内。

(1)线性函数归一化(Min-Max Scaling)

        这是最常见的归一化形式,也被称为离差标准化,是把原始数据线性变换到 [0, 1] 区间。实现对数据的等比缩放。归一化公式如下

        X_{norm} = \frac{(X - X_{min})}{(X_{max} - X_{min})}

        其中的X是原始数据,Xmax是其中的最大值,Xmin是其中的最小值。

(2)零均值归一化(Z-Score Normalization)

        它会将原始数据规范化为标准正态分布(均值为0,标准差为1),适合于原始数据的分布不满足正太分布的情况。其归一化公式如下

Z = \frac{(X - \mu )}{\sigma }

        其中的\mu是均值,\sigma是标准差。经过Z-Score Normalization,数据会被映射到一个均值为0,标准差为1的分布上。

(3)两种归一化的对比

        这两种归一化方法在不同的场景下有不同的优势:

  • Min-Max Scaling 更适合于特征的最大值和最小值有明确意义且已知的情况下,或者是输入数据的上下界很重要时。
  • Z-Score Normalization 对于那些期望符合正态分布的模型或算法更有利,同时它不会改变数据的分布形状,而是将其调整到标准正态分布的形式,这有助于消除由于特征度量单位不同造成的偏差,并突出数据的内在结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1395431.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【物以类聚】给el-image预览多张图片增加提示文字,让每张图片有所分类

【物以类聚】给el-image预览多张图片增加提示文字,让每张图片有所分类 一、需求二、el-image三、实施步骤3.1 导包3.2 改造3.3 引入 三、效果 一、需求 点击地图上的一张图片,弹出所有相关的图片资源,图片资源上显示每个图片的所属类型。 二…

22k+star一款自托管的开源的的好用的碎片化笔记软件 Memos超级详细部署教程

目录 1.拉取镜像 2.启动 3.体验 4.源码地址 1.拉取镜像 docker pull neosmemo/memos:stable 2.启动 创建目录 mkdir -p /opt/memos/ 启动 docker run -d --name memos -p 10006:5230 -v /opt/memos/:/var/opt/memos neosmemo/memos:stable 3.体验 浏览器输入下面地址…

2023年全球软件架构师峰会(ArchSummit深圳站):核心内容与学习收获(附大会核心PPT下载)

本次峰会是一次重要的技术盛会,旨在为全球软件架构师提供一个交流和学习的平台。本次峰会聚焦于软件架构的最新趋势、最佳实践和技术创新,吸引了来自世界各地的软件架构师、技术专家和企业领袖。 在峰会中,与会者可以了解到数字化、AIGC、To…

彩超框架EchoSight开发日志记录

EchoSight开发记录 蒋志强 我会不定期的更新 开发进展。最近更新进展于2024年1月15日 1.背景 由于某些不可抗逆的原因,离开了以前的彩超大厂,竞业在家,难得有空闲的时间。我计划利用这段时间 自己独立 从零开始 搭建一套 彩超系统的软件工…

GLM-4多模态重磅更新!摸着OpenAI过河!

智谱CEO张鹏说:OpenAI摸着石头过河,我们摸着OpenAI过河。 摸来摸去摸了一年,以每3-4个月升级一次基座模型的速度,智谱摸着OpenAI过河的最新成绩到底怎么样?真如所说吗? 听到GLM-4发布的当天,我就…

FPGA物理引脚,原理(Pacakge and pinout)-认知3

画FPGA芯片引脚封装图(原理),第一是参考开发板(根据一下描述了解总览),第二是研究Datasheet. ASCII Pinout File Zynq-7000 All Programmable SoC Packaging and Pinout(UG585) 1. Pacakge overview 1.1&#xff0…

小封装高稳定性振荡器 Sg2520egn / sg2520vgn, sg2520ehn / sg2520vhn

描述 随着物联网和ADAS等5G应用的实施,数据流量不断增长,网络基础设施变得比以往任何时候都更加重要。IT供应商一直在快速建设数据中心,并且对安装在数据中心内部/内部的光模块有很大的需求。此应用需要具有“小”,“低抖动”和“…

npm run dev 启动vue的时候指定端口

使用的是 Vue CLI 来创建和管理 Vue 项目, 可以通过设置 --port 参数来指定启动的端口号。以下是具体的步骤: 打开命令行终端 进入您的 Vue 项目目录 运行以下命令,通过 --port 参数指定端口号(例如,这里设置端口号…

PBR材质纹理下载

03:10 按照视频里的顺序 我们从第6个网站开始倒数 点击本行文字或下方链接 进入查看 6大网站地址 网址查看链接: http://www.uzing.net/community_show-1962-48-48-35.html 06 Tectures Wood Fence 001 | 3D TEXTURES 简介:最大的纹理网站之一&#x…

2024美赛数学建模思路 - 案例:异常检测

文章目录 赛题思路一、简介 -- 关于异常检测异常检测监督学习 二、异常检测算法2. 箱线图分析3. 基于距离/密度4. 基于划分思想 建模资料 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 一、简介 – 关于异常…

操作系统-操作系统的发展与分类

文章目录 总览手工操作阶段批处理系统-单道批处理系统批处理系统-多道批处理系统分时操作系统实时操作系统其他操作系统小结 总览 绿框部分重点考察 手工操作阶段 有孔代表1,没孔代表0 程序写到纸带上,然后机器读取执行纸带上的内容,然后…

Python 一行命令部署http、ftp服务

Python 一行命令部署http服务 文章目录 Python 一行命令部署http服务具体操作命令如下浏览器返回下载Python 一行命令部署FTP服务 具体操作命令如下 这个比nginx相对来说更加简单,可以用于部署特殊场景时如银行等部署时,各种权限控制,内网之间…

Docker五部曲之五:通过Docker和GitHub Action搭建个人CICD项目

文章目录 项目介绍Dockerfile解析compose.yml解析MySQL的准备工作Spring和环境变量的交互 GitHub Action解析项目测试结语 项目介绍 该项目是一个入门CICD-Demo,它由以下几部分组成: Dockerfile:用于构建自定义镜像compose.yml:…

使用opencv把视频转换为灰色并且逐帧率转换为图片

功能介绍 使用opencv库把视频转换为灰色,并且逐帧率保存为图片到本地 启动结果 整体代码 import cv2 import osvc cv2.VideoCapture(test.mp4)if vc.isOpened():open, frame vc.read() else:open Falseos.makedirs("grayAll", exist_okTrue) i 0 wh…

深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?

深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度? 目录 深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?引言1 数据预处理2 数据集增强3 特征选择4 模型选择5 模型正则化与泛化6 优化器7 学习率8 超…

【RT-DETR有效改进】轻量级网络ShuffleNetV2(附代码+修改教程)

前言 大家好,这里是RT-DETR有效涨点专栏。 本专栏的内容为根据ultralytics版本的RT-DETR进行改进,内容持续更新,每周更新文章数量3-10篇。 专栏以ResNet18、ResNet50为基础修改版本,同时修改内容也支持ResNet32、ResNet101和PP…

StarRocks 生成列:百倍提速半结构化数据分析

半结构化分析主要是指对 MAP,STRUCT,JSON,ARRAY 等复杂数据类型的查询分析。这些数据类型表达能力强,因此被广泛应用到 OLAP 分析的各种场景中,但由于其实现的复杂性,对这些复杂类型分析将会比一般简单类型…

Resnet结构的有效性解释

Resnet结构的有效性解释 先看一看Resnet网络的块结构: 根据上图,设有函数 z ( l ) x ( l − 1 ) F ( x ) ( l − 1 ) (1) \mathbf{z}^{(l)}\mathbf{x}^{(l-1)}\mathcal{F}(\mathbf{x})^{(l-1)}\tag{1} z(l)x(l−1)F(x)(l−1)(1) 考虑由式 ( 1 ) (1…

广和通AI解决方案“智”赋室外机器人迈向新天地!

大模型趋势下,行业机器人将具备更完善的交互与自主能力,逐步迈向AI 2.0时代,成为人工智能技术全面爆发的重要基础。随着行业智能化,更多机器人应用将从“室内”走向“室外”,承担更多高风险、高智能工作。复杂的室外环…

小麦淀粉行业研究:预计2029年将达到13亿美元

此前,小麦淀粉整体市场价格稳定运行,8月下旬,受疫情、原料供应、运输和市场需求等多重因素影响,小麦淀粉价格上涨。9月份以来,小麦淀粉价格一直延续8月份价格稳定运行,无明显波动,走货较8月份有…