【机器学习】噪声数据的理解

news2024/10/7 10:23:53

文章目录

  • 一、噪声数据
    • 1.1 分箱
    • 1.2 回归
    • 1.3 聚类
    • 1.4 其他
  • 二、数据清理作为一个过程
    • 2.1 偏差检测
      • 2.1.1 使用“元数据”:关于数据的数据
      • 2.1.2 编码格式:存在使用不一致、数据表示不一致
      • 2.1.3 字段过载
      • 2.1.4 唯一性规则
      • 2.1.5 连续性规则
      • 2.1.6 空值规则
    • 2.2 数据变换(纠正偏差)
    • 2.3 迭代
    • 2.4 加强交互性
  • 三、数据集成和变换
    • 3.1 数据集成
    • 3.2 数据变换
    • 3.3 规范化
      • 3.3.1 Min-Max 规范化(最小-最大规范化)
      • 3.3.2 Min-Max 规范化(最小-最大规范化)例子代码(红酒数据集)
      • 3.2.3 缺点
    • 3.3 Score 规范化(零-均值规范化)
      • 3.3.1 Score 规范化(零-均值规范化)例子代码(红酒数据集)

一、噪声数据

噪声数据(Noisy Data)就是无意义的数据,这个词通常作为损坏数据的同义词使用。

1.1 分箱

通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。

  • 划分:等频、等宽
  • 光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)
  • 箱中的最大和最小值被视为箱边界。箱中的每一个值都被最近的边界值替换

1.2 回归

用一个函数(回归函数)拟合数据来光滑数据。

  • 线性回归
  • 多元线性回归

在这里插入图片描述

1.3 聚类

将类似的值聚集为簇 A A A

噪声数据是有益处的。

在这里插入图片描述

1.4 其他

如数据归约、离散化和概念分层。

二、数据清理作为一个过程

2.1 偏差检测

2.1.1 使用“元数据”:关于数据的数据

例如,每个属性的数据类型是什么?定义域是什么?

2.1.2 编码格式:存在使用不一致、数据表示不一致

例如:日期“2015/12/08”和”08/12/2015"

2.1.3 字段过载

新属性的定义挤进已定义的属性的未使用(位)部分

2.1.4 唯一性规则

给定属性的每个值都必须不同于该属性的其他值

2.1.5 连续性规则

属性的最低值和最高值之间没有缺失的值,并且所有的值还必须是唯一的(例如,检验数)

2.1.6 空值规则

说明空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值

2.2 数据变换(纠正偏差)

  • 数据清洗工具:使用简单的领域知识(邮政地址知识和拼写检查),检查并纠正数据中的错误。在清理多个数据源的数据时,这些工具依赖分析和模糊匹配技术。
  • 数据审计工具:通过分析数据发现规则和联系,并检测违反这些条件的数据来发现偏差。
  • 数据迁移工具:允许说明简单的变换。
  • ETL(提取/变换/装入)工具:允许用户通过图形用户界面说明变换。
  • 通常这些工具只支持有限的变换。

2.3 迭代

  • 需要迭代执行偏差检测和数据变换(纠正偏差)这两步过程。
  • 通常需要多次迭代才能达到满意的效果。

2.4 加强交互性

  • 数据清理工具:kettle 是一个开源的数据清理工具
  • 开发数据变换操作规范说明语言

三、数据集成和变换

  • 数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。
  • 源数据可能包括多个数据库,数据立方或一般文件。
  • 数据变换将数据转换或统一成适合于挖掘的形式。

3.1 数据集成

  1. 实体识别:元数据可帮助避免错误
  2. 属性冗余与相关性分析:相关分析
  3. 数据重复(元组冗余)
  4. 数据值冲突的检测与处理:表示、比例或编码不同

3.2 数据变换

  1. 平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。
  2. 聚集 Aggregation:对数据进行汇总或聚集。
  3. 数据泛化(概化):使用概念分层,用高层概念替换低层或“原始”数据。
  4. 规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、按小数定标规范化。
  5. 属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。

数据立方体聚集:
在这里插入图片描述
概念分层:
在这里插入图片描述
在这里插入图片描述

3.3 规范化

3.3.1 Min-Max 规范化(最小-最大规范化)

规范化公式:

在这里插入图片描述

3.3.2 Min-Max 规范化(最小-最大规范化)例子代码(红酒数据集)

  1. 事先准备,采用红酒数据集,将数据拿出:
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target
  1. 支持向量机
from sklearn import svm
svm = svm.SVC()
  1. 支持向量机 training score:
print("支持向量机 training score: ",svm.score(X,y))
svm.fit(wine_X,y)

运行结果为:

在这里插入图片描述

  1. 手动让其进行 Min-Max 规范化(最小-最大规范化):
wind_X=X.copy()
for i in range(13):
    columu_X = X[:, i]
    wind_X[:, i] = (columu_X-columu_X.min())/(columu_X.max()-columu_X.min())
print(wind_X)
  1. 对照组,输出之前的训练得分:
svm.fit(X,y)
print("支持向量机 training score: ",svm.score(X,y))
  1. 支持向量机归一化后 training score:
svm.fit(wind_X,y)
print("支持向量机归一化后 training score: ",svm.score(wind_X,y))
  1. 结果:可以看出,对其改善很大:

在这里插入图片描述

3.2.3 缺点

  1. 若存在离群点,可能影响规范化
  2. 若在规范化后添加新的数据,当新数据落在原数据的区间[min A, max A ]之外,将导致“越界”错误

3.3 Score 规范化(零-均值规范化)

z-score 规范化(零均值规范化):属性 A A A 的值基于 A A A 的平均值和标准差规范化。

在这里插入图片描述

对离群点不敏感。

3.3.1 Score 规范化(零-均值规范化)例子代码(红酒数据集)

  1. 事先准备,采用红酒数据集,将数据拿出:
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target
  1. 支持向量机
from sklearn import svm
svm = svm.SVC()
  1. 使用模型里的按列归一化:
from sklearn import preprocessing
#数据预处理:按列归一化
wine_X=preprocessing.scale(X)
print(wine_X)
  1. 输出结果为:

在这里插入图片描述

  1. 手动撰写按列归一化
wind_X=X.copy()
for i in range(13):
    columu_X = X[:, i]
    wind_X[:, i]=(columu_X-columu_X.mean())/columu_X.std()
print(wind_X)563

结果查看:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/365987.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爆赞!首次公布阿里Java成长路线,Github访问量突破80万

作为程序员,进大厂是大多数人的梦想,进大厂的好处也如下图一样: 有面儿,不易失业。牛人多,培训多,成长更快。钱多。有较为完善的晋升规则。站在巨人肩膀人,眼界开阔更何况程序员不同于其他行业…

zabbix4.0安装部署

目录 1.1、添加 Zabbix 软件仓库 1.2、安装 Server/proxy/前端 1.3、创建数据库 1.4、导入数据 1.5、为 Zabbix server/proxy 配置数据库 1.6、 启动 Zabbix server 进程 1.7、zabbix前端配置 SELinux 配置 1.8、安装 Agent 1.9、启动zabbix 2.0、访问zabbix 1.1、添加…

【图像处理OpenCV(C++版)】——4.6 限制对比度的自适应直方图均衡化

前言: 😊😊😊欢迎来到本博客😊😊😊 🌟🌟🌟 本专栏主要结合OpenCV和C来实现一些基本的图像处理算法并详细解释各参数含义,适用于平时学习、工作快…

使用FORCE训练的脉冲神经网络中的监督学习(Matlab代码实现)

目录 💥1 概述 📚2 运行结果 🎉3 参考文献 👨‍💻4 Matlab代码 💥1 概述 1.1 脉冲神经网络简介 脉冲神经网络 (SNN) 属于第三代神经网络模型,实现了更高级的生物神经模拟水平。除了神经元和…

3.知识图谱概念和相关技术简介[知识抽取、知识融合、知识推理方法简述],典型应用案例介绍国内落地产品介绍。一份完整的入门指南,带你快速掌握KG知识,芜湖起飞!

1. 知识图谱(KG)的概念 知识图谱(KG)得益于Web的发展(更多的是数据层面),有着来源于KR、NLP、Web、AI多个方面的基因。知识图谱是2012年后的提法,基础还是语义网和本体论。 知识图谱的本质包含: 知识表示——Knowledge Representation基于知识表示的知识库——Knowledge…

OpenGL入门demo

开发环境visual studio 2022 preview版本,x64版本安装OpenGL首先OpenGL是windows系统里面自带的,我们可以不用去下载最新版。直接在此基础上配置OpenGL的三个扩展库glew,glfw,flut就可以了。下载OpenGL的开发依赖类库:…

【java】Spring Cloud --Spring Cloud Alibaba 微服务解决方案

文章目录1、Spring Cloud Alibaba 是什么先说说 Spring CloudSpring Cloud Alibaba和Spring Cloud 的区别和联系Spring Cloud Alibaba2、Spring Cloud Alibaba 包含组件阿里开源组件阿里商业化组件集成 Spring Cloud 组件3、Spring Cloud Alibaba 功能服务注册与发现支持多协议…

python-剑指 Offer 42. 连续子数组的最大和【动态规划经典题解】

一.题目 剑指 Offer 42. 连续子数组的最大和 描述:输入一个整型数组,数组中的一个或连续多个整数组成一个子数组。求所有子数组的和的最大值。 要求时间复杂度为O(n)。 示例1: 输入: nums [-2,1,-3,4,-1,2,1,-5,4] 输出: 6 解释: 连续子数组 [4,-1,2…

html初识

HTML认知 文章目录HTML认知语法规范注释标签组成和关系标签的关系标签学习排版系列标签**标题标签****段落标签**换行标签水平线标签文本格式化标签媒体标签图片标签src 目标图片的路径alt 替换文本title 图片的标题width 宽度 / height 高度路径绝对路径相对路径(常…

feature分支开发到一半时切换到bugfix分支,如何暂存数据

1、解决思路在工作过程中,当你正在当前feature分支上进行功能的开发,突然来了一个bug,要创建一个bugfix修复分支进行修复。但是当前feature分支你只开发了一半,显然你去提当前的半成品是不合适的,我们如何处理此类问题…

面试题-----JDBC单例模式(懒汉式和饿汉式)

1.单例概念 作为一种常见的设计模式,单例模式的设计概念是"两个私有,一个公有",即私有属性/成员变量和私有构造,以及公有方法,常用于在整个程序中仅调用一次的代码。 2.具体操作 从单例模式的描述来看,单例模式并不能用于多次频繁调用的设计中,而更适用…

【Linux】进程状态|优先级|进程切换|环境变量

文章目录1. 运行队列和运行状态2. 进程状态3. 两种特殊的进程僵尸进程孤儿进程4. 进程优先级5. 进程切换进程特性进程切换6. 环境变量的基本概念7. PATH环境变量8. 设置和获取环境变量9. 命令行参数1. 运行队列和运行状态 💕 运行队列: 进程是如何在CP…

如何在Net6.0里配置多版本支持并支持注释说明的Swagger

一、前言现在已经进入了微服务的开发时代了,在这个时代,如果有人问你什么是微服务,你说不知道,就有点太丢人了,别人会有异样的眼光看你,俗话说:唾液淹死人。没办法,我们只能去学习新…

一款 Linux、数据库、Redis、MongoDB 统一管理平台,这个开源平台非常好用!

一、开源项目简介基于DDD分层实现的web版 linux(终端 文件 脚本 进程)、数据库(mysql postgres)、redis(单机 集群)、mongo统一管理操作平台二、开源协议使用Apache-2.0开源协议三、界面展示(系统核心功能截图)四、服务部署&#…

Windows 平台 oracle11g 单机 打补丁(33883353)

一、从oracle官网下载最新补丁包和打包工具 二、 对数据库及软件作全备 略 三、解压p33883353_112040_MSWIN-x86-64.zip 在33883353文件夹中打开README.html 2.1 OPatch Utility You must use the OPatch utility version 11.2.0.3.34 or later to apply this patch. 必须…

Maven 依赖-镜像仓库替换为 -- 阿里云镜像仓库(飞快实现 pom 引入)

在本地 maven 的 setting 配置文件中加上阿里云镜像地址就行了&#xff1a;新增配置内容&#xff1a;<!-- 阿里镜像仓库 --><mirrors><mirror><id>alimaven</id><name>aliyun maven</name><url>http://maven.aliyun.com/nexus…

高项--十大管理、47个过程、五大过程组

十大管理、47个过程、五大过程组【联想记忆】 文章目录 十大管理、47个过程、五大过程组【联想记忆】 十大管理 1.十大管理是哪几个&#xff1f; 2.十大管理记忆口诀&#xff1a; 3.各大管理记忆口诀&#xff1a; 4.十大管理、十大管理的47个过程、47个过程所属的五大过程组&a…

一篇文章搞定linux网络模型

网络协议感觉晦涩难懂&#xff1f;什么七层网络模型&#xff1f;又五层网络模型&#xff1f;又四层网络模型&#xff1f;TCP/IP协议是个啥&#xff1f;UDP是啥&#xff1f;什么是三次握手&#xff1f;什么是四次挥手&#xff1f;tcpdump听说是抓包的&#xff0c;怎么用&#xf…

期末综合考试

一、概率论1、全概率公式、贝叶斯公式应用2、期望、方差、协方差的定义以及性质证明(1) 期望(2) 方差(3) 协方差二、数理统计1、参数估计(1) 矩估计(2) 最大似然估计(3) 综合例题一、概率论 1、全概率公式、贝叶斯公式应用 记住标黄的两段&#xff0c;上考场直接套数据&#x…

相交链表【2.23】

题目&#xff1a;给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交&#xff1a; 题目数据 保证 整个链式结构中不存在环。 注意&#xff0c;…