超全总结!探索性数据分析 (EDA)方法汇总!

news2024/11/20 23:34:49

探索性数据分析(EDA)是一种系统地分析、可视化和总结数据集的过程,以获取洞察并更好地理解数据中潜在的模式和趋势。

EDA是任何数据分析项目中的重要步骤,因为它有助于识别数据中的潜在问题和偏见。EDA有助于为建模和进一步分析奠定基础。

总体而言,EDA的目标是更深入地了解数据,并识别进一步分析的潜在兴趣领域。

技术交流

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

本文由粉丝群小伙伴总结与分享,如果你也想学习交流,资料获取,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、添加微信号:dkl88194,备注:来自CSDN + 加群
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

在EDA中常见的步骤和技术有:

数据清理和预处理

这涉及识别和纠正数据中的错误、缺失值和不一致之处。

数据可视化

这涉及创建图表、图形和图表,以可视化数据中的趋势、模式和关系,例如:

  • 饼图
  • 热力图
  • 折线图
  • 面积图
  • 条形图
  • 瀑布图
  • 气泡图
  • 柱形图
  • 子弹图
  • 漏斗图
  • 散点图
  • Mekko图
  • 双轴图
  • 堆叠条形图
  • 堆叠柱形图

统计分析

这涉及使用统计技术对数据进行总结和描述,例如计算集中趋势(均值、中位数、众数)和离散度(标准差、范围、四分位距)等。

数据转换

这涉及以某种方式转换数据,以更好地展现模式或关系,例如标准化数据或应用对数转换。以下是一些常见的数据转换技术:

  • 归一化(最小-最大归一化):归一化是将变量缩放到在0和1之间的过程。当比较具有不同尺度或测量单位的变量时,这可能是有用的。
normalized_value = (value - min_value) / (max_value - min_value)
  • 标准化(Z分数标准化):标准化是将变量缩放为具有均值为0和标准差为1的过程。当数据遵循正态分布或变量的尺度不重要时,这可能是有用的。
standardized_value = (value - mean) / standard_deviation
  • 鲁棒标量缩放:鲁棒标量缩放是一种标准化方法,将数值特征缩放为该特征的中值为0,四分位距(IQR)为1。四分位距是数据的第25和第75百分位数之间的范围,用作数据分散的一种度量。
scaled_value = (value - median) / IQR
  • 聚合:聚合是将多个数据点或观察值组合成单个摘要值的过程。一些常见的聚合公式包括:均值、中位数、众数、求和、计数

  • 分箱:分箱是将连续的数值变量分组为一组离散的分类“箱”或间隔的转换过程。常见的分箱方法包括:等宽分箱、等频分箱、自定义分箱

    例如,如果我们有一个值范围从0到100的数据集,并且想要在值0、25、50、75和100处创建箱子。

  • 对数转换:对数转换是将对数函数应用于变量的过程。这对于归一化变量的分布或减小异常值的影响非常有用。对数转换可用于通过减小大值的影响来归一化偏斜的数据。这可以使数据更对称,减小偏斜。

    对数转换是通过用该值的对数替换每个值来应用于数据的。所使用的具体对数取决于对数的底数,但最常见的底数是10。基于10的对数转换的公式是:

log_transformed_value = log10(value)

探索性数据分析示例

这里我提供一个在Python中使用样本数据集进行探索性数据分析的非常简单的示例:

import pandas as pd
import matplotlib.pyplot as plt

# Load the dataset
df = pd.read_csv("sample_data.csv")

# Check the shape of the data
print(df.shape)

# Check the data types of the columns
print(df.dtypes)

# Check for missing values
print(df.isnull().sum())

# Summary statistics of the numerical columns
print(df.describe())

# Countplot of a categorical column
plt.figure(figsize=(10, 6))
sns.countplot(x="categorical_col", data=df)
plt.show()

# Boxplot of a numerical column
plt.figure(figsize=(10, 6))
sns.boxplot(x="categorical_col", y="numerical_col", data=df)
plt.show()

# Scatterplot of two numerical columns
plt.figure(figsize=(10, 6))
sns.scatterplot(x="numerical_col_1", y="numerical_col_2", data=df)
plt.show()

在计算机视觉中,针对图像数据的探索性数据分析(EDA)通常涉及以下常见步骤和技术:

  1. 加载和检查图像数据: 使用诸如OpenCV或Pillow等库加载并查看数据集中的图像。检查图像的大小、形状和格式。

  2. 检查缺失或损坏的图像: 检查数据集中是否存在缺失或损坏的图像,并在必要时将其删除。

  3. 探索图像内容和标签: 检查图像的内容以及与之关联的标签。检查标签中是否存在不一致或异常。

  4. 可视化图像数据: 使用直方图、散点图和散点矩阵等可视化技术,了解不同图像属性和标签之间的分布和关系。

  5. 预处理图像数据: 根据需要对图像数据进行预处理,例如调整大小、裁剪或对图像进行归一化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1195596.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

极智芯 | 存算一体 弯道超车的希望

欢迎关注我的公众号 [极智视界],获取我的更多经验分享 大家好,我是极智视界,本文分享一下 存算一体 弯道超车的希望。 邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接:…

win11下安装odoo17(conda python11)

win11下安装odoo17 odoo17发行了,据说,UI做了很大改进,今天有空,体验一下 打开官方仓库: https://github.com/odoo/odoo 默认的版本已经变成17了 打开odoo/odoo/init.py,发现对python版本的要求也提高了…

揭秘南卡开放式耳机创新黑科技,核心技术剑指用户痛点

随着科技的进步和人们娱乐方式的升级,大家对听音工具的选择,从传统的耳机到蓝牙耳机再到AirPods这样的真无线耳机,而今年,也有一种全新的耳机爆发式涌入人们之中,那就是开放式耳机。 开放式耳机的出现,满足…

Vuex:模块化Module

由于使用单一状态树,应用的所有状态会集中到一个比较大的对象。当应用变得非常复杂时,store 对象就有可能变得相当臃肿。 这句话的意思是,如果把所有的状态都放在/src/store/index.js中,当项目变得越来越大的时候,Vue…

小白版SpringMVC执行流程

目录 从MVC聊起 认识核心组件 SpringMVC执行流程 从MVC聊起 相信大家在刚接触到springMVC的时候,上手时接触的第一个理论应该就是mvc的含义,我们先简单的回顾一下,什么是MVC。 MVC的全名是Model View Controller,是一种使用“…

快块手多功能全自动引流软件-引流工具-引流脚本-自动引流技术功能介绍

脚本功能: 功能1_养号功能 功能2_评论区关注 功能3_评论区私信 功能4_评论区用户作品评论 功能5_评论区点赞 功能6_粉丝回关 功能7_自己粉丝私信 功能8_已关私信 功能9_好友私信 功能10_关键词搜索关注 功能11_关键词搜索私信 功能12_搜索ID关注 功能13_搜索ID私信…

Windows7+vs2005源码安装subversion

Windows源码安装subversion 一、运行环境 windows7 32位系统 VS2005完整安装 二、源码编译环境配置 1、python环境安装 python-2.4.msi2、perl环境安装 ActivePerl-5.8.8.822-MSWin32-x86-280952.msi3、openssl编译 C:>cd openssl-0.9.7f C:>perl Configure VC-W…

element ui中Select 选择器,自定义显示内容

正常情况下,下拉框选项展示内容,就是选择后展示的label内容 如图所示: 但是要想自定义选项内容,但是展示内容不是选项label的内容,可以在el-option标签内增加div进行自定义选项label展示,但选择后结果展示…

【STM32】STM32Cube和HAL库使用初体验

1.STM32Cube和HAL库模式开发流程 1、流程介绍 (1)环境搭建:STM32CubeMX安装、STM32xxFW安装、MDK5安装、pack包安装【顺序很重要】 【STM32】STM32的Cube和HAL生态-CSDN博客中的3.STM32CubeMX工具入门 (2)STM32CubeMX中创建工程,选择芯片型号&#xff0…

跟着openai学编程

装饰者模式 class Component:def operator(self):passclass ConcreteComponent(Component):def operator(self):return "ConcreteComponent operator"class Decorator(Component):def __init__(self, component) -> None:super().__init__()self.component compo…

MySQL最新2023年面试题及答案,汇总版(4)【MySQL最新2023年面试题及答案,汇总版-第三十四刊】

文章目录 MySQL最新2023年面试题及答案,汇总版(4)01、一个6亿的表a,一个3亿的表b,通过外键tid关联,你如何最快的查询出满足条件的第50000到第50200中的这200条数据记录?02、SQL语句优化的一些方法有哪些?03…

机器人入门(五)—— 仿真环境中操作TurtleBot

仿真环境中操作TurtleBot 一、实操1.1 查看姿态信息1.2 控制turtlebot移动的三种方式1.2.1 命令行发布指令1.2.2 键盘操控1.2.3 Python脚本控制1.2.4 使用rqt工具界面,发布运动指令 二、里程计(odometry)TurtleBot3 仿真 进行实操之前,先准备环境 $ sud…

【每日OJ——21. 合并两个有序链表(链表)】

每日OJ——21. 合并两个有序链表(链表) 1.题目:21. 合并两个有序链表 (链表)2.方法讲解:2.1.解法一:递归2.1.1.图文解析2.1.2.代码实现2.1.3.提交通过展示 2.2.解法二:迭代(无哨兵位…

网络运维Day09

文章目录 环境准备ssh远程管理远程管理进阶MobaXterm远程工具 环境准备 远程管理linux主机 环境准备如下方表格(主机名IP)使用CentOS7.9克隆一台新的机器 主机名IP地址som.tedu.cn192.168.4.7/24pc207.tedu.cn192.168.4.207/24 将虚拟机A、B的网络模式选择为vmnet1 真机网络…

Hololens开发笔记

1、关闭阴影 2、将相机渲染改为后向。因为默认是Forward,当在场景里面想使用点光源时,运行起来三角面会翻倍,影响软件运行流畅度。 3、第三人称同步相关。开启Host/Sever/Client前,需要将所有挂有NetworkObject/NetworkTransfor…

ai批量剪辑矩阵无人直播一站式托管系统源头技术开发

1.全店IP形象打造----剪辑 全店IP打造模式为场景组合,需要在每个场景内按照顺序分别上传短视频素材,会与选中的音乐、标题文案组合生成有逻辑顺序的视频。可调配标题字号大小、音频音量大小。如想要携带团购地址可设置POI。可开启团购引导动画、镜头转场…

HTML页面模拟了一个类似Excel的表格在线diy修改表格内容

html实现在线表格编辑,可以修改每个表格内容,并且可以添加行和列 这个HTML页面模拟了一个类似Excel的表格,可以添加和删除行和列,并且可以编辑每个表格的内容。通过点击按钮可以添加新的行和列,通过按钮可以删除最后一…

近日的ChatGPT宕机事件,竟是黑客组织的蓄谋攻击!?还声称要教训OpenAI和奥特曼

作者 | 王二狗 想必大家都知道了,近日无论是ChatGPT还是其API服务都出现了长时间的线上崩溃! Sam Altman还下场亲自道歉说是因为太受欢迎导致服务器负载超荷。 大模型研究测试传送门 GPT-4传送门(免墙,可直接测试,遇…

【算法与数据结构】131、LeetCode分割回文串

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:本题仍然使用回溯算法的一般结构。加入了一个判断是否是回文串的函数,利用起始和终止索引进…

YOLOv8模型ONNX格式INT8量化轻松搞定

ONNX格式模型量化 深度学习模型量化支持深度学习模型部署框架支持的一种轻量化模型与加速模型推理的一种常用手段,ONNXRUNTIME支持模型的简化、量化等脚本操作,简单易学,非常实用。 ONNX 模型量化常见的量化方法有三种:动态量化…