这 6 个探索性数据分析(EDA)工具,太实用了!

news2024/12/26 9:18:55

当进行数据分析时,探索性数据分析(EDA)是一个至关重要的阶段,它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的EDA工具又能够极大地提高工作效率和分析深度。

在本文中,我将介绍6个极其实用的探索性数据分析(EDA)工具,这些工具能够帮助您更好地理解数据、发现隐藏的信息,并为后续分析和决策提供有力支持。让我们一起来看看这些工具是如何帮助我们探索数据世界的吧!

在这里插入图片描述

技术提升

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

完整代码、数据、技术交流提升, 均可加入知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、添加微信号:dkl88191,备注:来自 CSDN +加群
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

1. SweetViz

SweetViz是一个开源的 Python 库,可以通过仅两行代码生成美观且高密度的可视化图表,以便快速进行探索性数据分析(EDA)。其输出是一个完全独立的HTML应用程序。

其设计初衷是快速可视化目标数值并比较数据集,帮助快速分析目标特征、训练数据与测试数据之间的差异,以及数据集的结构、特征之间的关系、数据的分布情况等,从而加速数据分析的过程。

在这里插入图片描述

下面是一个简单的示例,演示如何使用SweetViz 进行数据探索性分析:

import pandas as pd
import sweetviz as sv
import numpy as np

data = pd.DataFrame({'随机数': np.random.randint(1, 100, 100)})

# 创建SweetViz 报告
report = sv.analyze(data)

# 将报告保存为HTML文件
report.show_html('random_report.html')

2. ydata-profiling

ydata-profiling是一个用于数据探查和分析的 Python 库,可以帮助用户快速了解和分析数据集的内容。通过使用ydata-profiling,用户可以生成关于数据集中各种变量的统计信息、分布情况、缺失值、相关性等方面的报告。这可以帮助用户在数据分析阶段更快地了解数据集的特征,从而更好地进行后续的数据处理和建模工作。

在这里插入图片描述

以下是一个简单的示例代码,展示了如何使用ydata-profiling对数据集进行分析:

import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profiling Report")

3. DataPrep

Dataprep是一个用于分析、准备和处理数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上,可以很容易地与其他Python库集成。

在这里插入图片描述

下面是一个简单的示例,演示如何使用DataPrep进行数据探索性分析:

from dataprep.datasets import load_dataset
from dataprep.eda import create_report

df = load_dataset("titanic.csv")
create_report(df).show_browser()

4. AutoViz

Autoviz包可以用一行代码自动可视化任何大小的数据集,并自动生成HTML、bokeh等报告。用户可以与AutoViz包生成的HTML报告进行交互。

在这里插入图片描述

以下是一个简单的示例代码,展示了如何使用 AutoViz:

from autoviz.AutoViz_Class import AutoViz_Class

AV = AutoViz_Class()
filename = "" # 如果有文件名,可以在这里指定
sep = "," # 数据集的分隔符
dft = AV.AutoViz(
    filename,
    sep=",",
    depVar="",
    dfte=None,
    header=0,
    verbose=0,
    lowess=False,
    chart_format="svg",
    max_cols_analyzed=30,
    max_rows_analyzed=150000,
    )

5. D-Tale

D-Tale 是一个结合了 Flask 后端和 React 前端的工具,为用户提供了一种轻松查看和分析 Pandas 数据结构的方式。它与 Jupyter 笔记本和 Python/IPython 终端完美集成。目前,该工具支持 Pandas 的数据结构,包括 DataFrame、Series、MultiIndex、DatetimeIndex 和 RangeIndex。用户可以通过 D-Tale 在浏览器中直观地查看数据、生成统计信息、创建可视化图表,并进行一些数据处理操作。D-Tale 的结构使得数据分析变得更加直观和便捷,为用户提供了一种高效的数据探索和分析工具。

图片

6. Dabl

Dabl不太关注单个列的统计度量,而是更多地关注通过可视化提供快速概述,以及方便的机器学习预处理和模型搜索。Dabl中的Plot()函数可以通过绘制各种图来实现可视化,包括:

  • 目标分布图

  • 散射对图

  • 线性判别分析

在这里插入图片描述

以下是一个简单的示例代码,展示了如何使用Dabl:

import pandas as pd
import dabl

df = pd.read_csv("titanic.csv")
dabl.plot(df, target_col="Survived")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1591777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UTONMOS元宇宙游戏特点

在元宇宙的世界里,游戏不再只是一种娱乐方式,而是一种全新的生活体验。UTONMOS元宇宙游戏带你穿越虚拟与现实的边界,开启一段前所未有的冒险之旅。 在这个充满无限可能的UTONMOS元宇宙游戏中,你将成为自己游戏世界的主角。可以自…

Java(多线程)

一、基本概念 进程:一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元,在传统的操作系统中,进程既是基本的分配单元,也是基本的执行单元。线程:操作系统中能够进行运算的最…

蓝桥杯 2019 省A 糖果 动态规划/二进制

#include <bits/stdc.h> // 包含标准库中的所有头文件 using namespace std;int main() {int n,m,k; // 定义变量n&#xff08;糖果包数&#xff09;、m&#xff08;口味数&#xff09;、k&#xff08;每包糖果的个数&#xff09;cin>>n>>m>>k; // 输入…

院子里种点什么树风水好呢?

植物本身是一个丰富的生活领域&#xff0c;有着强烈的视觉暗示。其实&#xff0c;在家中养植物&#xff0c;是有许多好处的&#xff0c;它不仅能够装点庭院的环境让家更美丽&#xff0c;还能调节室内的空气质量&#xff0c;对家人的运势也有着非常大的帮助。 不过&#xff0c;并…

Android 四大组件启动

service: startService启动过程分析 - Gityuan博客 | 袁辉辉的技术博客 在整个startService过程&#xff0c;从进程角度看服务启动过程 Process A进程&#xff1a;是指调用startService命令所在的进程&#xff0c;也就是启动服务的发起端进程&#xff0c;比如点击桌面App图标…

Java 中文官方教程 2022 版(四十九)

原文&#xff1a;docs.oracle.com/javase/tutorial/reallybigindex.html JAXB 示例 原文&#xff1a;docs.oracle.com/javase/tutorial/jaxb/intro/examples.html 以下部分描述如何使用包含在 JAXB RI 捆绑包中的示例应用程序。JAXB RI 捆绑包可从jaxb.java.net获取。下载并安装…

华为云配置安全组策略开放端口

&#x1f436;博主主页&#xff1a;ᰔᩚ. 一怀明月ꦿ ❤️‍&#x1f525;专栏系列&#xff1a;线性代数&#xff0c;C初学者入门训练&#xff0c;题解C&#xff0c;C的使用文章&#xff0c;「初学」C &#x1f525;座右铭&#xff1a;“不要等到什么都没有了&#xff0c;才下…

文件上传【2】--靶场通关

1.前端禁用js绕过 上传文件&#xff0c;进行抓包&#xff0c;没有抓到&#xff0c;说明这里的验证是前端js验证跳出的弹窗 禁用js后&#xff0c;php文件上传成功。 2.文件上传.htaccess 上传png木马后连接不上 代码中存在.htaccess&#xff0c;判断此时应该就是需要用到.htac…

单细胞RNA测序(scRNA-seq)cellranger count的细胞定量和aggr整合

单细胞RNA测序(scRNA-seq)基础知识可查看以下文章: 单细胞RNA测序(scRNA-seq)工作流程入门 单细胞RNA测序(scRNA-seq)细胞分离与扩增 单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分 单细胞RNA测序(scRNA-seq)Cellranger流程入门和数据质控 细胞定量…

[大模型]Qwen1.5-7B-Chat FastApi 部署调用

Qwen1.5-7B-Chat FastApi 部署调用 环境准备 在 Autodl 平台中租赁一个 3090 等 24G 显存的显卡机器&#xff0c;如下图所示镜像选择 PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8&#xff08;11.3 版本以上的都可以&#xff09;。 接下来打开刚刚租用服务器的 Jupyt…

yolov9训练自己的数据—vehicle 4类

yolov9训练自己的数据 1 conda环境安装指定版本torch 2 预训练模型测试3 训练自己的数据集3.1 制作数据3.2 创建模型配置文件3.3 创建数据加载配置文件3.4 使用ClearML跟踪训练日志3.5 训练3.6 模型测试3.7 转换成TensorRT模型 4 参考文档 1 conda环境 下载yolov9代码&#xf…

Traefik和HAProxy全方位对比

在面对各种现代应用部署需求时&#xff0c;选择合适的反向代理和负载均衡器至关重要。Traefik&#x1f6a6;和HAProxy&#x1f6e1;️都是领先的解决方案&#xff0c;但它们各有特点&#xff0c;适用于不同的场景。本文将从多个维度全面对比Traefik&#x1f6a6;和HAProxy&…

MySQL基础知识——MySQL日志

一条查询语句的执行过程一般是经过连接器、 分析器、 优化器、 执行器等功能模块&#xff0c; 最后到达存储引擎。 那么&#xff0c; 一条更新语句的执行流程又是怎样的呢&#xff1f; 下面我们从一个表的一条更新语句进行具体介绍&#xff1a; 假设这个表有一个主键ID和一个…

vueRouter动态路由(实现菜单权限控制)

一、权限控制管理&#xff1a; 对于企业级的项目, 我们可能需要对项目做权限控制管理, 实现不同角色的用户登录项目根据所拥有的权限访问不同的页面内容&#xff0c;此时就需要使用到动态路由来对权限页面做限制。 【使用vue-router实现动态路由&#xff0c;达到实现菜单权限…

玩爆私域,和爱豆P图,每天几分钟 轻松日入300+【揭秘】

这个项目的亮点在于能够将你的照片与你喜欢的明星合成一张合影。这种合照在社交媒体上获得了相当高的点赞量。接着&#xff0c;我们可以通过引流和评论区互动&#xff0c;将感兴趣的粉丝转化为我们的微信好友&#xff0c;进而实现交易。你们可以查看我们的收益情况&#xff0c;…

matlab 安装 mingw64(6.3.0),OPENEXR

matlab安装openexr 1. matlab版本与对应的mingw版本选择2. mingw&#xff08;6.3.0&#xff09;下载地址&#xff1a;3. matlab2020a配置mingw&#xff08;6.3.0&#xff09;流程“4. matlab 安装openexr方法一&#xff1a;更新matlab版本方法二&#xff1a;其他博文方法方法三…

每日两题 / 3. 无重复字符的最长子串 84. 柱状图中最大的矩形(LeetCode热题100)

3. 无重复字符的最长子串 - 力扣&#xff08;LeetCode&#xff09; 双指针&#xff0c;l和r从字符串最左边开始&#xff0c;保存l和r之间的所有字符 移动r&#xff0c;若新加入的字符和已有字符重复&#xff0c;则不断移动l&#xff0c;直到l和r之间不出现重复字符 注意&#…

C语言【整数与浮点数的存储区别】

例题引入 #include <stdio.h> int main() {int n 9;float* pFloat (float*)&n;printf("n的值为&#xff1a;%d\n",n);printf("*pFloat的值为&#xff1a;%f\n",*pFloat);*pFloat 9.0;printf("num的值为&#xff1a;%d\n",n);print…

MySQL知识整理

MySQL知识整理 基础第一讲&#xff1a;基础架构&#xff1a;一条SQL查询语句是如何执行的&#xff1f;架构尽量减少长连接的原因和方案为什么尽量不要依赖查询缓存 索引第四讲&#xff1a;深入浅出索引&#xff08;上&#xff09;第五讲&#xff1a;深入浅出索引&#xff08;下…

4月12日重新安排行程

332.重新安排行程 332. 重新安排行程 - 力扣&#xff08;LeetCode&#xff09; 给你一份航线列表 tickets &#xff0c;其中 tickets[i] [fromi, toi] 表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。 所有这些机票都属于一个从 JFK&#xff08;肯尼迪国际机…