python基础学习9【MinMaxScale()、StandScale()、DecimalScale、transformer】

news2025/1/12 6:15:58

标准化数据【离差标准化数据、标准差标准化数据、小数定标标准化数据】

离差标准化数据:

数据的整体分布情况并不会随离差标准化而发生改变,原先取值较大的数据,在做完离差标准化后的值依旧较大;

对原始数据的一种线性变换,结果是将原始数据的数值映射到[0,1]区间之间。

实操:

import pandas as pddata =pd.read_csv('./609/detail.csv',encoding='gbk')data.head()

def MinMaxScale(data):    return (data-data.min())/(data.max()-data.min())MinMaxScale(data['counts'])#做完离差标准化后的数据

a = MinMaxScale(data['counts'])#做完离差标准化后的数据b = MinMaxScale(data['amounts'])#对单价离差标准化后的数据pd.concat([a,b],axis=1)#对做完俩离差标准化的数据合并一下

标准差标准化数据:

也叫零均值标准化或分数标准化,是当前使用最广泛的数据标准化方法。经过该方法处理的数据均值为0,标准差为1。

实操:

def StandScale(data):    return (data-data.mean())/data.std()a = StandScale(data['counts'])#做完标准差标准化后的数据b = StandScale(data['amounts'])#对单价标准差标准化后的数据pd.concat([a,b],axis=1)#对做完俩标准差标准化的数据合并一下

小数定标标准化数据:

通过移动数据的小数位数,将数据映射到区间[-1,1]之间。

实操:

import numpy as npdef DecimalScale(data):    return data/10**(np.ceil(np.log10(data.abs().max())))#ceil取整a = DecimalScale(data['counts'])#做完标准差标准化后的数据b = DecimalScale(data['amounts'])#对单价标准差标准化后的数据pd.concat([a,b],axis=1)#对做完俩标准差标准化的数据合并一下

使用sklearn构建模型【scikit-learn】:

加载datasets模块中数据集

sklearn库的datasets模块集成了部分数据分析的经典数据集,可以使用这些数据集进行数据预处理,建模等操作,熟悉sklearn的数据处理流程和建模流程;

datasets模块常用数据集的加载函数与解释。

嘿嘿,一来就报错,解决一下子:

好的,我们就采取第二种好了方法好了:【文末附🔗】

将数据集划分为训练集和测试集

k折交叉验证法:将样本打乱,均匀分成k份;轮流选择其中k-1份做训练,剩余的一份做验证;计算预测误差平方和。

train_test_split()函数:能够对数据集进行拆分。

X ,y = data[data.columns.delete(-1)], data['MEDV']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=888)

sklearn把相关的功能封装为转换器(transformer)

在数据分析过程中,各类特征处理相关的操作都需要对训练集和测试集分开操作。

y = data['MEDV'] # 标签-房价X = data.drop(['MEDV'], axis=1) #去掉标签(房价)的数据子集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)from sklearn import preprocessingscaler=preprocessing.StandardScaler().fit(X_train)X_train=scaler.transform(X_train)scaler.transform(X_test)

资料分享栏目

数据集之波斯顿房价:

链接:https://pan.baidu.com/s/1za40m3Cq9R0w0pKpe8qhXA

提取码:jq3v

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/685225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

模拟电路系列分享-运放的关键参数

目录 概要 整体架构流程 技术名词解释 1.输入失调电压 2.输入失调电压对电路的影响 3.数据手册中关于失调电压的描述 技术细节 小结: 概要 提示:这里可以添加技术概要 实际运放与理想运放具有很多差别。理想运放就像一个十全十美的人&#xff0…

C语言王国探险记之数据类型

王国探险记系列 文章目录(1) 目录 1,写程序和数据类型有啥关系? 2.C语言里面都有啥数据类型? 1,数据类型的介绍 2,为什么浮点数描述的是小数 3,区分程序中的数字那些是整型&am…

02_深入浅出vite(二)--vue3全家桶+ts构建后管系统

安装基础包 npm create vitelatest # 这里选择的是VueTypescript的组合 cd vue-admin npm install# 先安装基础包 npm install vue-router4 npm i pinia npm i axios npm install sass --save-dev npm install element-plus --save npm install element-plus/icons-vue npm in…

SQL Server数据库 -- 表的基础查询

文章目录 一、单表查询基本结构二、单表查询结构语法 select聚合函数where模糊查询order bygroup byhaving三、多表查询基本结构四、多表查询结构语法 内连接自连接外连接五、总结 前言 学习了数据库,在以后公司等地方,你可能不会用到创建数据库或者表格…

LeetCode 双周赛 107(2023/06/24)滑动窗口与离散化

本文已收录到 AndroidFamily,技术和职场问题,请关注公众号 [彭旭锐] 和 [BaguTree Pro] 知识星球提问。 往期回顾:LeetCode 单周赛第 348 场 数位 DP 模版学会了吗? T1. 最大字符串配对数目(Easy) 标签&…

FlutterUnit 已上架 iOS,暗色模式全面支持

theme: cyanosis 一、FlutterUnit 的全平台支持 FlutterUnit 是我的一个开源项目,基于 Flutter 构建的一个 全平台 应用程序。现在很荣幸地宣布: FlutterUnit 已经上架 iOS 的 App Store ,自此主流的几大平台均已提供体验。 项目地址: https://github.co…

Chrome Edge Firefox Safari 如何清除 DNS 缓存

Chrome Edge Firefox Safari 如何清除 DNS 缓存 如何清除浏览器的 DNS 缓存 (Chrome, Firefox, Safari) Chrome Chromium Edge Firefox Safari clear DNS Cache, flush DNS cache 请访问原文链接:https://sysin.org/blog/clear-browser-dns-cache/,查…

前端Vue仿京东天猫商品属性选择器自定义单选按钮

前端Vue仿京东天猫商品属性选择器自定义单选按钮&#xff0c; 下载完整代码请访问uni-app插件市场地址&#xff1a;https://ext.dcloud.net.cn/plugin?id13176 效果图如下&#xff1a; # cc-radioBtnBox #### 使用方法 使用方法 <!-- attrArr&#xff1a;属性数据 clic…

改进YOLOv5/YOLOv8:复现结合即插即用 | 高效多尺度注意力(EMA),模块成为YOLOv5改进的小帮手

高效多尺度注意力(EMA) 论文介绍简介EMA模块图像分类实验目标检测实验yolov5加入方法yolo注册yaml文件3563.pdf](https://arxiv.org/ftp/arxiv/papers/2305/2305.13563.pdf) 论文介绍 通道或空间的显著有效性 注意机制对产生更多可辨识的 特征表示的显著效果,在各种计算机视…

深度学习-数据增强与扩充

数据增强可以说是数据驱动下的深度学习必经之路,掌握数据,相当于掌握当下主流方向的自动驾驶的命脉,是人工智能不可或缺的资源。本文将介绍最新的利用大模型扩充数据的方式! 先看下变色效果: 左褐色背景图 为原图,右侧为处理后的图! ​ AI day也在自动标注数据方面,着重…

软件测试技术-期末理论知识复习速成

第一章 软件测试概述 什么是软件缺陷&#xff0c;发生软件缺陷的原因是什么&#xff1f; 答&#xff1a;软件缺陷指的是在软件开发过程中出现的错误、缺陷或故障&#xff0c;导致软件无法按照预期的功能运行或者产生错误的结果。 导致软件缺陷的原因可能有&#xff1a;&#…

AI提高软件外包开发效率

最近几年AI技术取得了很大的进步&#xff0c;在一些领域甚至有突破性的进展&#xff0c;虽然无法预测未来AI会如何影响到人们的生活&#xff0c;但可以确定的是AI会在方方面面影响到大家的生活方式&#xff0c;也许未来五年内就会有一个明显的变化。今天和大家分享AI如何提高软…

IPv6地址配置与验证实验

IPv6地址配置与验证实验 【实验目的】 启动IPv6功能。配置IPv6地址。验证配置。 【实验拓扑】 实验拓扑如下图所示。 实验拓扑 设备参数如表所示。 设备参数表 设备 接口 IPv6地址 子网掩码位数 默认网关 R1 S0/1/0 2000:f106:f208:12::1 64 N/A R2 S0/1/0 2…

【软考网络管理员】2023年软考网管初级常见知识考点(9)- 接入网技术

涉及知识点 接入网相关技术&#xff0c;XDSL 接入&#xff0c;HFC 接入&#xff0c; PON 接入&#xff0c;软考网络管理员常考知识点&#xff0c;软考网络管理员网络安全&#xff0c;网络管理员考点汇总。 原创于&#xff1a;CSDN博主-《拄杖盲学轻声码》&#xff0c;更多考点…

Spring源码:调度框架EnableSchedulingScheduled源码解析

目录 1.开启调度框架 2.ScheduledAnnotationBeanPostProcessor Bean后处理器分析 2.1 调度框架支持的Task类型 2.2 对Task进行调度执行 3.任务调度器 3.1 任务调度器获取 3.2 框架内提供的任务调度器 3.3 任务调度器执行逻辑 在实际项目开发中&#xff0c;有时会遇到定…

1、动手学深度学习——线性神经网络:线性回归的实现(从零实现+内置函数实现)

1、线性回归基本概念 回归&#xff08;regression&#xff09;是能为一个或多个自变量与因变量之间关系建模的一类方法。 在自然科学和社会科学领域&#xff0c;回归经常用来表示输入和输出之间的关系。 给定一个数据集&#xff0c;我们的目标是寻找模型的权重和偏置&#xf…

selenium测试框架快速搭建(UI自动化测试)

一、介绍 selenium目前主流的web自动化测试框架&#xff1b;支持多种编程语言Java、pythan、go、js等&#xff1b;selenium 提供一系列的api 供我们使用&#xff0c;因此在web测试时我们要点页面中的某一个按钮&#xff0c;那么我们只需要获取页面&#xff0c;然后根据…

【力扣刷题 | 第十五天】

目录 前言&#xff1a; ​​​​​​​63. 不同路径 II - 力扣&#xff08;LeetCode&#xff09; 343. 整数拆分 - 力扣&#xff08;LeetCode&#xff09; 总结&#xff1a; 前言&#xff1a; 本篇我们主要刷动态规划的题&#xff0c;解题还是严格按照我们在【夜深人静写算法…

Linux查看文件大小

1、Linux下查看文件和文件夹大小 当磁盘大小超过标准时会有报警提示&#xff0c;这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点&#xff0c;但对文件却无能为力。 du可以查看文件及文件夹大小。 两者配合使用&#xf…

UE中创建可脚本化编辑器工具(Scriptable Tools)

UE5.2中提供了可脚本化工具编辑模式&#xff0c;该模式下用户可以编写蓝图节点自定义界面操作模式下的逻辑&#xff0c;例如重写鼠标点击事件&#xff0c;制作自定义画刷等。 如果你不太了解UE编辑器工具&#xff0c;可以参考这篇文章&#xff1a; https://blog.csdn.net/gray…