新手村:数据预处理-特征缩放

news2025/3/17 18:41:12

新手村:数据预处理-特征缩放

在这里插入图片描述

特征缩放(Feature Scaling)是数据预处理中的一个重要步骤,特别是在应用某些机器学习算法时。特征缩放可以使不同尺度的特征具有相同的量级,从而提高模型训练的效率和性能。常见的特征缩放方法包括标准化(Standardization)和归一化(Normalization)。

常见的特征缩放方法

  1. 标准化(Standardization)

    • 将特征转换为均值为0,标准差为1的标准正态分布。
    • 公式: x ′ = x − μ σ x' = \frac{x - \mu}{\sigma} x=σxμ
      • x ′ x' x 是缩放后的特征值
      • x x x 是原始特征值
      • μ \mu μ 是特征的均值
      • σ \sigma σ 是特征的标准差
  2. 归一化(Normalization)

    • 将特征缩放到一个特定范围(通常是[0, 1]或[-1, 1])。
    • 最常用的归一化方法是Min-Max缩放:
      • 公式: x ′ = x − x min x max − x min x' = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} x=xmaxxminxxmin
        • x ′ x' x 是缩放后的特征值
        • x x x 是原始特征值
        • x min x_{\text{min}} xmin x max x_{\text{max}} xmax 分别是特征的最小值和最大值

特征缩放的应用场景

  • 需要特征缩放的算法

    • 线性回归、逻辑回归、支持向量机(SVM)、K近邻(KNN)、神经网络等。
    • 这些算法对特征的尺度敏感,特征缩放可以加快收敛速度并提高模型性能。
  • 不需要特征缩放的算法

    • 决策树、随机森林等基于树的算法,这些算法不依赖于特征的尺度。

示例代码

以下是一个使用Python和scikit-learn库进行特征缩放的示例代码:

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 创建一个示例数据集
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [100, 200, 300, 400, 500],
    'C': [0.1, 0.2, 0.3, 0.4, 0.5]
}

df = pd.DataFrame(data)

print("原始数据:")
print(df)

# 标准化
scaler_standard = StandardScaler()
df_standardized = pd.DataFrame(scaler_standard.fit_transform(df), columns=df.columns)
print("\n标准化后的数据:")
print(df_standardized)

# 归一化(Min-Max缩放)
scaler_minmax = MinMaxScaler()
df_normalized = pd.DataFrame(scaler_minmax.fit_transform(df), columns=df.columns)
print("\n归一化后的数据:")
print(df_normalized)

输出结果解释

原始数据
原始数据:
     A      B    C
0    1    100  0.1
1    2    200  0.2
2    3    300  0.3
3    4    400  0.4
4    5    500  0.5
标准化后的数据
标准化后的数据:
          A         B         C
0 -1.414214 -1.414214 -1.414214
1 -0.707107 -0.707107 -0.707107
2  0.000000  0.000000  0.000000
3  0.707107  0.707107  0.707107
4  1.414214  1.414214  1.414214
归一化后的数据
归一化后的数据:
     A    B    C
0  0.0  0.0  0.0
1  0.25 0.25 0.25
2  0.5  0.5  0.5
3  0.75 0.75 0.75
4  1.0  1.0  1.0

总结表格

方法描述适用场景优点缺点
标准化将特征转换为均值为0,标准差为1的标准正态分布。线性回归、逻辑回归、SVM、KNN、神经网络等。不受数据范围影响,适用于大多数算法。对异常值较为敏感,可能导致极端值的影响被放大。
归一化(Min-Max缩放)将特征缩放到一个特定范围(通常是[0, 1])。需要将数据限制在特定范围内的情况。数据范围固定,适用于需要严格控制输出范围的场景。受数据范围影响较大,对异常值敏感,可能导致信息丢失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2316763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Xinference大模型配置介绍并通过git-lfs、hf-mirror安装

文章目录 一、Xinference开机服务systemd二、语言(LLM)模型2.1 配置介绍2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)工具下载git-lfs(可以绕过Hugging Face) 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF&am…

0x04.若依框架微服务开发(含AI模块运行)

微服务本地开发硬件资源有限,所以会将核心微服务组件先部署在服务器上比如:mysql,redis,注册中心Nacos,网关Gateway,认证中心Auth和upms模块以及低代码生成模块。 mysql、redis部署前篇已讲,这…

判断是不是二叉搜索树(C++)

目录 1 问题描述 1.1 示例1 1.2 示例2 2 解题思路 3 代码实现 4 代码解析 4.1 中序遍历函数 inorder 4.2 主函数 isValidBST 初始化及中序遍历调用 4.3 检查数组中元素是否严格递增 4.4 返回验证结果 5 总结 1 问题描述 给定一个二叉树根节点,请你判断…

Linux--gdb/cgdb

ok,我们今天学习gdb的安装和使用 调试器-gdb/cgdb使用 VS、VScode编写的代码一般都是release格式的,gdb 的格式一般是debug 换成debug模式命令 :-g gdb会记录最新的一条命令,直接回车就是默认执行该命令 一个调试周期下,断点…

超精密工件小孔几何尺寸测量:自动化解决方案

下载链接:(最新版本)超精密工件小孔几何尺寸测量:自动化解决方案python脚本代码,可直接运行,内包含测试数据,亲测好用资源-CSDN文库 在现代制造业中,超精密工件的质量控制至关重要&a…

Blender-MCP服务源码1-项目解读

Blender-MCP服务源码 有个大佬做了一个Blender-MCP源码,第一次提交代码是【2025年3月7号】今天是【2025年月15日】也就是刚过去一周的时间,所以想从0开始学习这个代码,了解一下大佬们的开发思路 1-核心知识点 1)第一版&#xff1…

小程序配置

注册小程序账号和安装开发工具 参考文档:注册小程序账号和安装开发工具https://blog.csdn.net/aystl_gss/article/details/127878658 HBuilder新建项目 填写项目名称,选择UNI-APP,修改路径,点击创建 manifest.json 配置 需要分别…

基于Python的selenium入门超详细教程(第1章)--WebDriver API篇

学习路线 自动化测试介绍及学习路线-CSDN博客 ​自动化测试之Web自动化(基于pythonselenium)-CSDN博客 参照博文:selenium入门超详细教程——网页自动化操作-CSDN博客 目录 前言 一、WebDriver API介绍 1.1 什么是WebDriver? 1.2 工…

每日Attention学习26——Dynamic Weighted Feature Fusion

模块出处 [ACM MM 23] [link] [code] Efficient Parallel Multi-Scale Detail and Semantic Encoding Network for Lightweight Semantic Segmentation 模块名称 Dynamic Weighted Feature Fusion (DWFF) 模块作用 双级特征融合 模块结构 模块思想 我们提出了 DWFF 策略&am…

接上一篇,C++中,如何设计等价于Qt的信号与槽机制。

看下面例子: class FileManager : public QObject {Q_OBJECTpublic:FileManager(QObject* parent nullptr) : QObject(parent) {}void changeFileName(const QString& newName) {fileName newName;emit fileNameChanged(fileName);}signals:void fileNameChan…

安装baselines出现的环境配置问题

该错误通常是由于环境配置问题、依赖包缺失、权限不足等原因导致 1. 更新相关工具 pip install --upgrade pip setuptools 2. 检查并安装依赖 conda install setuptools pip wheel 出现新问题: 3.尝试使用 Conda 安装 conda install mpi4py 再尝试安装 baseli…

perl的package中“Subroutine new redefined”问题

我在一个脚本run_PMseq.V8.pl调用了一些.pm文件 $perl -c run_PMseq.V8.pl Subroutine new redefined at /mnt/lustre/user/wubin/01.Program/Scripts/01.script/GeneLab/PMSeq/package_V3/Add_mismatch.pm line 25. Subroutine generate_shell redefined at /mnt/lustre/use…

英语学习(GitHub学到的分享)

【英语语法:https://github.com/hzpt-inet-club/english-note】 【离谱的英语学习指南:https://github.com/byoungd/English-level-up-tips/tree/master】 【很喜欢文中的一句话:如果我轻轻松松的学习,生活的幸福指数会提高很多…

【eNSP实战】三层交换机使用ACL实现网络安全

拓图 要求: vlan1可以访问Internetvlan2和vlan3不能访问Internet和vlan1vlan2和vlan3之间可以互相访问PC配置如图所示,这里不展示 LSW1接口vlan配置 vlan batch 10 20 30 # interface Vlanif1ip address 192.168.40.2 255.255.255.0 # interface Vla…

Javascript BOM,DOM 知识简介

JSON 一种数据交换格式,作为数据载体,传输数据, Json比xml 更简单,可读性更高.js的对象和Json可以相互转换. //json定义格式: var varName{"key1":value1,"key2":value2};value的数据类型为数字,字符串(在双引号中),布尔值,数组(在方括号中),对象(在花括…

拆解 “ES 已死“ 伪命题:Agentic RAG 时代搜索引擎的终极形态

作者:来自 Elastic 李捷 xxx:“ES已死,#%#……” 我:??? 最近,某厂商发了一堆公关文章,翻来覆去地炒作 “ES 已死”,“放弃 ES”。这哪是什么正经的技术文章&…

.net 6程序在IIS中部署后点击IIS设置报错“执行此操作时出错”

.net 6写的程序,需要在Windows服务器的IIS中部署,由于是刚装的系统,先安装.net 6运行时,装了才发现没有IIS,于是又通过“添加角色和功能”添加与IIS相关的功能。安装完毕后,在IIS中添加网站,并将…

《从零手写Linux Shell:详解进程控制、环境变量与内建命令实现 --- 持续更新》

承接上文Linux 进程的创建、终止、等待与程序替换保姆级讲解-CSDN博客,涉及所用到的代码,本文所绑定的资源就是上篇文章的主要代码。 完整代码在文章末尾 目录 1.实现编写代码输出一个命令行 a.如何获取自己的用户名,主机名,路径…

k8s环境部署

四台机器 分别是 k8s-master:172.25.254.100 k8s-node1:172.25.254.10 k8s-node2:172.25.254.20 docker-harbor:172.25.254.200 reg.timinglee.org 四台机器分别配置好网络和软件仓库 做好地址解析 scp -r /etc/hosts/ root17…

CentOS 系统安装 docker 以及常用插件

博主用的的是WindTerm软件链接的服务器,因为好用 1.链接上服务器登入后,在/root/目录下 2.执行以下命令安装docker sudo yum install -y yum-utilssudo yum-config-manager \--add-repo \https://download.docker.com/linux/centos/docker-ce.reposudo…