1.1为什么需要对数值类型的特征做归一化?

news2024/9/21 4:28:12

01 知识点:特征归一化(第一章 特征工程)

摘要

为什么需要对数值类型的特征做归一化?

简要回答:对数值类型的特征做归一化,使得各指标除以同一个数量级,以便进行分析

场景描述

为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性

example

分析一个人的身高和体重健康的影响,如果使用米(m)和千克(kg)作为单位,那么身高特征会在1.6 ~ 1.8m的数值范围内,体重特征会在50 ~ 100kg的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果,就需要进行**特征归一化(Normalization)**处理,使各指标处于同一数值量级,以便进行分析

问题:为什么需要对数值类型的特征做归一化?(难度:1颗星)

分析与解答

目的:对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内

最常用的方法:主要有以下两种。

  1. 线性函数归一化(Min-Max Scaling)

它对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。归一化公式如下
X n o r m = ( X − X m i n ) / ( X m a x − X m i n ) Xnorm=(X-Xmin)/(Xmax-Xmin) Xnorm=(XXmin)/(XmaxXmin)

其中X为原始数据,Xmax、Xmin分别为数据最大值和最小值。

  1. 零均值归一化(Z-Score Normalization)

    它会将原始数据映射到均值为0、标准差为1的分布上。

    具体来说,假设原始特征的均值为μ、标准差为σ,那么归一化公式定义为
    z = ( x − μ ) / σ z=(x-\mu)/\sigma z=(xμ)/σ

重要性

我们不妨借助随机梯度下降的实例来说明归一化的重要性。

假设有两种数值型特征,x₁的取值范围为[0,10],x₂的取值范围为[0,3],于是可以构造一个目标函数符合图1.1(a)中的等值图。
在学习速率相同的情况下,x₁的更新速度会大于x₂,需要较多的迭代才能找到最优解。如果将x₁和x₂归一化到相同的数值区间后,优化目标的等值图会变成图1.1(b)中的圆形,x₁和x₂的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

图1.1

当然,数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。

但对于决策树模型则并不适用,以C4.5为例,决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比(详见第3章第3节),而信息增益比跟特征是否经过归一化是无关的,因为归一化并不会改变样本在特征x上的信息增益。

参考文献:

《百面机器学习》 诸葛越主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-48736-0

2022年1月北京第19次印刷

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1480413.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI时代来临:解锁大模型的神秘面纱!

在AI时代的黎明,大模型技术的发展不仅仅是科技进步的一个标志,更是人类文明新篇章的开启。这篇文章旨在揭开大模型的神秘面纱,探索其对未来社会的深远影响。 大模型,作为人工智能领域的一个重要分支,其核心在于构建能…

内网搭建mysql8.0并搭建主从复制详细教程!!!

一、安装mysql 1.1 mysql下载链接: https://downloads.mysql.com/archives/community/ 1.2 解压包并创建相应的数据目录 tar -xvf mysql-8.2.0-linux-glibc2.28-x86_64.tar.xz -C /usr/local cd /usr/local/ mv mysql-8.2.0-linux-glibc2.28-x86_64/ mysql mkdir…

Pytorch学习 day01(Jupyter安装、常用函数、三种编辑器的对比)

Jupyter 安装过程中遇到的问题: Anaconda的base环境会自动安装Jupyter,但是如果我们要在其他环境中安装Jupyter,就需要注意,该环境的python版本不能高于3.11,且用以下代码安装: conda install nb_conda_…

迭代模型:让项目管理更加高效与灵活

迭代模型:让项目管理更加高效与灵活 在当今快速变化的市场环境中,项目管理面临着前所未有的挑战。传统的瀑布模型已无法满足不断变化的需求,而迭代模型则以其灵活性和适应性成为了项目管理的新宠。本文将详细介绍迭代模型的概念、特点、应用…

基于vue3 BIMFACE 单楼层平滑切换

模型加载 vue3使用hooks实现模型的加载 hooks文件: useBimLoad.js import { getAccessToken, getViewToken } from "/api/bimface";//获取accessToken和viewToken,自行编写 import { toRefs } from "vue";export function useBimLoad(props)…

Android Tombstone 分析

1.什么是tombstone Tombstone是指在分布式系统中用于标记数据已被删除的记录,通常包含删除操作的时间戳和相关信息。 当一个动态库(native程序)开始执行时,系统会注册一些连接到 debuggerd 的signal handlers。当系统发生崩溃时…

浪潮服务器使用ARCCONF查看RAID配置信息

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、获取ARCCONF二、使用步骤1.Windows Server 20221.查看RAID控制器2.查询控制器属性3.查询虚拟磁盘属性4.查询物理硬盘属性 2.Ubuntu-22.043.CentOS7 三、配置…

精益工程师3000工资与30000工资的区别!

在同一职场征程中,为何有的精益工程师月入仅三千,而另一些则能达到三万?这一差距,远超薪酬数额的简单对比,它深刻反映了专业能力、工作态度和个人品质的全面差异。 首先,对于刚踏入职场的精益工程师而言&a…

1.3 vue ui框架-element-ui框架

1 前言 ElementUI是一套基于VUE2.0的桌面端组件库,ElementUI提供了丰富的组件帮助开发人员快速构建功能强大、风格统一的页面。 ElementUI官网 https://element.eleme.io 2 安装 运行命令 cnpm i element-ui -S -S表示只在该项目下安装,不是全局安…

Springboot配置定时任务

介绍SpringBoot集成定时任务的过程。 目 录 1、引入相关依赖 2、启动类添加注解 3、定时任务类添加注解 4、cron表达式 5、总结 1、引入相关依赖 SpringBoot自带定时任务配置,只要引入springboot相关类即可。 2、启动类添加注解 在启动类上添加注解EnableSch…

【学习心得】Python调用JS的三种常用方法

在做JS逆向的时候,一种情况是直接用Python代码复现JS代码的功能,达成目的。但很多时候这种方法有明显的缺点,那就是一旦JS代码逻辑发生了更改,你就得重写Python的代码逻辑非常不便。于是第二种情况就出现了,我直接得到…

CDN CloudFlare 接入 OCI 对象存储

在当今数字化时代,网站性能和可用性是业务成功的关键。为了提供快速且可靠的访问体验,许多组织正在寻找有效的内容分发网络(CDN)解决方案。CloudFlare作为业界领先的CDN提供商,其强大的全球网络基础设施能够加速网站内…

UE学习笔记--解决滚轮无法放大蓝图、Panel等

我们发现有时候创建蓝图之后,右上角的缩放是1:1 但是有时候我们可能需要放的更大一点。 发现一直用鼠标滚轮像上滚动,都没有效果。 好像最大只能 1:1. 那是因为 UE 做了限制。如果希望继续放大,我们可以按住 Ctrl 再去…

Excel常用公式总结非常实用

16个最实用的Excel万能公式 1、多条件判断 IF(And(条件1,条件2..条件N),条件成立返回值) IF(or(条件1,条件2..条件N),条件成立返回值) 2、多条件查找 Lookup(1,0/((条件1*条件2*...条件N)),返回值区域) 3、多条件求和 Sumifs(值区域,判断区域1,条件1,判断区域2,条…

hive报错:FAILED: NullPointerException null

发现问题 起因是我虚拟机的hive不管执行什么命令都报空指针异常的错误 我也在网上找了很多相关问题的资料,发现都不是我这个问题的解决方法,后来在hive官网上与hive 3.1.3版本相匹配的hadoop版本是3.x的版本,而我的hadoop版本还是2.7.2的版本…

opencv VideoCapture

videocapture顾名思义视频捕捉,主要是从视频文件、摄像头或网络摄像头获取视频流数据,并将其作为一系列帧进行处理。 我们这里主要实现了获取项目文件夹下的1.mp4视频文件,然后经过灰度变化、均值滤波、边缘检测然后将视频显示出来 #include…

MySQL的索引和B+tree结构

目录 0.关于索引的常见面试题 1.什么是索引? 索引的优缺点 2.索引的数据结构,为什么InnoDb引擎使用Btree作为索引的数据结构? 分析怎样的索引才是好的 二插搜索树 红黑树 B-Tree BTree 哈希 为什么 InnoDB 存储引擎选择使用 Btree 索…

初学HTMLCSS——盒子模型

盒子模型 盒子:页面中所有的元素(标签),都可以看做是一个 盒子,由盒子将页面中的元素包含在一个矩形区域内,通过盒子的视角更方便的进行页面布局盒子模型组成:内容区域(content&…

商城系统_大型商城系统源码_免费开源商城_OctShop

随着互联网对各行各业的渗透,以及人们网络购物的习惯已经形成,很多商家或企业都开始搭建与开发自己的商城系统平台。商城系统是一个以互联网技术为基础,依托电子商务的电商系统平台。一般大型的的商城系统都会有前台各种客户端,如…

JVM原理-基础篇

Java虚拟机(JVM, Java Virtual Machine)是运行Java应用程序的核心组件,它是一个抽象化的计算机系统模型,为Java字节码提供运行环境。JVM的主要功能包括:类加载机制、内存管理、垃圾回收、指令解释与执行、异常处理与安…