数据挖掘实验(一)数据规范化【最小-最大规范化、零-均值规范化、小数定标规范化】

news2025/1/11 20:03:20

一、数据规范化的原理

数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异,需要进行标准化处理。将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

1.1.最小-最大规范化

clear;clc;
A = [78 521 602 2863
    144 -600 -521 2245
    95 -457 468 -1283
    69 596 695 1054
    190 527 691 2051
    101 403 470 2487
    146 413 435 2571];

new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
% 计算每列的最小值和最大值
min_vals = min(A);
max_vals = max(A);

% 对每个元素进行最小-最大规范化
normalized_A = (A - min_vals) ./ (max_vals - min_vals)* (new_mx - new_mi) + new_mi;;

disp(normalized_A);

MATLAB支持广播机制的,在进行矩阵运算时,可以自动扩展维度较小的矩阵,使其与维度较大的矩阵相匹配,从而实现逐元素的运算。

在MATLAB中,要实现广播机制,需要满足以下条件:

  • 运算的两个矩阵相应维度的大小要么相同,要么其中一个为1。
  • 运算符必须是逐元素的运算符,如.*、./、.\、.^等,不能是矩阵乘法*或矩阵除法/。
  • 如果运算的两个矩阵都是列向量或者行向量,那么它们可以直接进行逐元素运算,无需扩展维度。

disp函数是MATLAB中用于在命令行窗口中显示输出的函数。它可以显示各种类型的数据,包括数字、字符串、矩阵等。 

A = [78 521 602 2863
    144 -600 -521 2245
    95 -457 468 -1283
    69 596 695 1054
    190 527 691 2051
    101 403 470 2487
    146 413 435 2571];
new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
B = mapminmax(A',new_mi ,new_mx)';
fprintf("\n经过最小最大规范化后:\n"); 
disp(B)

Matlab有一个现成的函数可以实现最小-最大规范化,它就是 mapminmax() 函数

[Y,PS] = mapminmax(X,YMIN,YMAX)

其中X是要规范化的矩阵或向量,YMIN和YMAX是指定的区间端点(默认为-1和1),Y是规范化后的矩阵或向量,PS是一个结构体,包含了规范化所用的参数,如最小值、最大值、缩放因子等。如果要对另一个矩阵或向量应用相同的规范化参数,可以使用 mapminmax(‘apply’,X,PS) 函数。

代码运行结果

输入的新区间范围为[0,1]:

原数据:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

请输入需要映射到的新区间。输入格式示例:[0,1]
[0,1]

经过最小最大规范化后:
B =

    0.0744    0.9373    0.9235    1.0000
    0.6198         0         0    0.8509
    0.2149    0.1196    0.8133         0
         0    1.0000    1.0000    0.5637
    1.0000    0.9423    0.9967    0.8041
    0.2645    0.8386    0.8150    0.9093
    0.6364    0.8470    0.7862    0.9296

 1.2零-均值规范化

clear;clc;

%% 数据存入A
A=[78 521 602 2863	
144 -600 -521 2245	
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];

A_mean=mean(A); % mean求的是每列的均值
A_std=std(A); % std求的是每列的标准差
[n,m]=size(A);
B=(A-A_mean)./A_std;

fprintf("原数据:"); 
disp(A);
fprintf("经过零均值规范化后:"); 
disp(B);
代码运行结果
原数据:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

经过零均值规范化后:
B =

   -0.9054    0.6359    0.4645    0.7981
    0.6047   -1.5877   -2.1932    0.3694
   -0.5164   -1.3040    0.1474   -2.0783
   -1.1113    0.7846    0.6846   -0.4569
    1.6571    0.6478    0.6752    0.2348
   -0.3791    0.4018    0.1521    0.5373
    0.6504    0.4216    0.0693    0.5956
clear;clc;

%% 数据存入A
A=[78 521 602 2863	
144 -600 -521 2245	
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];

B = zscore (A); % 沿每列计算标准差

fprintf("原数据:"); 
disp(A);
fprintf("经过零均值规范化后:"); 
disp(B);

Matlab有一个现成的函数可以实现零-均值规范化,它就是 zscore() 函数1。这个函数可以计算一个数组或向量中元素的标准差,并返回每个元素的 z 分数,即对数据进行中心化和缩放处理,使其均值为 0,标准差为 1。

Z = zscore (X) % 计算X沿第一个非单一维度的标准差
Z = zscore (X,flag) % 指定标准差的类型
Z = zscore (X,flag,'all') % 使用X中所有值的均值和标准差
Z = zscore (X,flag,dim) % 指定沿哪个维度计算
Z = zscore (X,flag,vecdim) % 指定沿多个维度计算
[Z,mu,sigma] = zscore ( ___) % 还返回均值和标准差

 1.3小数定标规范化

clear;clc;

%% 数据存入A
A = [78 521 602 2863
    144 -600 -521 2245
    95 -457 468 -1283
    69 596 695 1054
    190 527 691 2051
    101 403 470 2487
    146 413 435 2571];

mx = max(abs(A)); % 求每列绝对值最大的数mx
len = floor(log10(mx))+1; % 求mx的位数len
B = A ./ (10.^len); % 将A中每个元素除以10^len

fprintf("原数据:\n"); 
disp(A);
fprintf("经过小数定标规范化:\n"); 
disp(B);
代码运行结果
原数据:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

经过小数定标规范化后:
B =

    0.0780    0.5210    0.6020    0.2863
    0.1440   -0.6000   -0.5210    0.2245
    0.0950   -0.4570    0.4680   -0.1283
    0.0690    0.5960    0.6950    0.1054
    0.1900    0.5270    0.6910    0.2051
    0.1010    0.4030    0.4700    0.2487
    0.1460    0.4130    0.4350    0.2571

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1058588.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系统编程系列之线程的信号处理

一、为什么要有线程的信号处理 由于多线程程序中线程的执行状态是并发的,因此当一个进程收到一个信号时,那么究竟由进程中的哪条线程响应这个信号就是不确定的,只能取决于哪条线程刚好在信号达到的瞬间被调度,这种不确定性在程序逻…

java学生成绩管理信息系统

一、 引言 学生成绩管理信息系统是一个基于Java Swing的桌面应用程序,旨在方便学校、老师和学生对学生成绩进行管理和查询。本文档将提供系统的详细说明,包括系统特性、使用方法和技术实现。 二、 系统特性 2.1 学生管理 添加学生信息:录…

基于SSM农产品商城系统

基于SSM农产品商城系统的设计与实现,前后端分离,文档 开发语言:Java数据库:MySQL技术:SpringSpringMVCMyBatisVue工具:IDEA/Ecilpse、Navicat、Maven 系统展示 农产品列表 产品详情 个人中心 登陆界面 管…

gici-open示例数据运行(1.1开阔环境数据运行)

1、配置数据和处理模式 下载对应的数据集后,首先处理1.1中的开阔环境下数据,将option目录下的配置文件复制到1.1数据目录下(若采用ROS编译,则配置文件目录为ros_wrapper/src/gici/option/ros real time estimation xxx.yaml&…

Fiddle日常运用手册(2)-使用过滤器进行接口精准拦截

关于Fiddle的基础界面大家已经了解,日常工作中可以进行简单的抓包和数据分析了。 但是,工作中我们又会发现,单纯的进行批量抓包会抓取很多无效的心跳接口数据导致让我们漏掉一些重要信息。那么如果我们想精准的拦截某一个IP的接口交互数据&am…

231003-四步MacOS-iPadOS设置无线竖屏随航SideCar

Step 0:MacOS到iPad无线竖屏随航显示,最终效果 Step 1: 下载 Better Display Step 2:在设置中新建虚拟屏幕,创建虚拟屏幕 Step 3:进行如下设置 Step 4:注意事项 ⚠️ 设置后的虚拟屏幕与Sideca…

基于SSM的餐厅点菜管理系统的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用Vue技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

找不到VCRUNTIME140_1.dll怎么办,VCRUNTIME140_1.dll丢失的5个解决方法

在当今的数字时代,我们的生活和工作都离不开电脑。然而,随着科技的发展,我们也会遇到各种各样的问题。其中,VCRUNTIME140_1.dll丢失的问题是许多人都会遇到的困扰。这个问题可能会导致许多应用程序无法正常运行,给我们…

如何在 Google Earth 中创建轨迹、路线并制作动画

如何创建航迹 https://kurviger.de/en Google 地球飞行教程(天桥动画) 选择合适的点 (可调整视图快照)点击录制,依次点击图标即可

电子计算机核心发展(继电器-真空管-晶体管)

目录 继电器 最大的机电计算机之一——哈弗Mark1号,IBM1944年 背景 组成 性能 核心——继电器 简介 缺点 速度 齿轮磨损 Bug的由来 真空管诞生 组成 控制开关电流 继电器对比 磨损 速度 缺点 影响 代表 第一个可编程计算机 第一个真正通用&am…

Go 代码中的文档和注释

撰写清晰、简洁和全面的代码文档的指南 在软件开发领域,编写代码只占了一半的战斗。另一半则围绕着创建清晰、简洁和全面的文档展开,这些文档不仅有助于开发人员理解代码库,还充当未来开发的路线图。在本指南中,我们将深入探讨编…

蓝桥杯每日一题2023.10.3

杨辉三角形 - 蓝桥云课 (lanqiao.cn) 题目描述 题目分析 40分写法&#xff1a; 可以自己手动构造一个杨辉三角&#xff0c;然后进行循环&#xff0c;用cnt记录下循环数的个数&#xff0c;看哪个数与要找的数一样&#xff0c;输出cnt #include<bits/stdc.h> using na…

协议栈——收发数据(拼接网络包,自动重发,滑动窗口机制)

目录 协议栈何时发送数据&#xff5e; 数据长度 IP模块的分片功能 发送频率 网络包序号&#xff5e;利用syn拼接网络包ack确认网络包完整 确定偏移量 服务器ack确定收到数据总长度 序号作用 双端告知各自序号 协议栈自动重发机制 大致流程 ack等待时间如何调整 是…

动态链接那些事

1、为什么要动态链接 1.1 空间浪费 对于静态链接来说&#xff0c;在程序运行之前&#xff0c;会将程序所需的所有模块编译、链接成一个可执行文件。这种情况下&#xff0c;如果 Program1 和 Program2 都需要用到 Lib.o 模块&#xff0c;那么&#xff0c;内存中和磁盘中实际上就…

WEB3 solidity 带着大家编写测试代码 操作订单 创建/取消/填充操作

好 在我们的不懈努力之下 交易所中的三种订单函数已经写出来了 但是 我们只是编译 确认了 代码没什么问题 但还没有实际的测试过 这个测试做起来 其实就比较的麻烦了 首先要有两个账号 且他们都要在交易所中有存入 我们还是先将 ganache 的虚拟环境启动起来 然后 我们在项目…

【计算机组成原理】考研真题攻克与重点知识点剖析 - 第 1 篇:计算机系统概述

前言 本文基础知识部分来自于b站&#xff1a;分享笔记的好人儿的思维导图&#xff0c;感谢大佬的开源精神&#xff0c;习题来自老师划的重点以及考研真题。此前我尝试了完全使用Python或是结合大语言模型对考研真题进行数据清洗与可视化分析&#xff0c;本人技术有限&#xff…

关于算法复杂度的几张表

算法在改进今天的计算机与古代的计算机的区别 去除冗余 数据点 算法复杂度 傅里叶变换

WebSocket实战之五JSR356

一、前言 前几篇WebSocket例子服务端我是用NodeJS实现,这一篇我们用Java来搭建一个WebSocket服务端&#xff0c;从2011年WebSocket协议RFC6455发布后&#xff0c;大多数浏览器都实现了WebSocket协议客户端的API,而对于服务端Java也定义了一个规范JSR356,即Java API for WebSoc…

软件工程与计算总结(二)软件工程的发展

本章开始介绍第二节内容&#xff0c;主要是一些历史性的东西~ 一.软件工程的发展脉络 1.基础环境因素的变化及其对软件工程的推动 抽象软件实体和虚拟计算机都是软件工程的基础环境因素&#xff0c;它们能从根本上影响软件工程的生产能力&#xff0c;而且是软件工程无法反向…

设计模式(包括Spring)、贯穿项目梳理与源码知识点

目标&#xff1a;高复用性&#xff0c;高内聚&#xff0c;低耦合 目的&#xff1a;高可读性&#xff0c;重用性&#xff0c;可靠性 类的六种关系 依赖&#xff0c;类中用到了对方&#xff0c;没有对方连编译都通不过&#xff0c;如下的几种关系全部是依赖关系泛化/继承&…