8个 Python 自动探索性数据分析神库!

news2024/11/20 0:26:12
探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA Python包可以用几行Python代码执行EDA。
在本文中整理了10个可以自动执行EDA并生成有关数据的见解的Python包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。
  1. DTale

  2. Pandas-profiling

  3. sweetviz

  4. autoviz

  5. dataprep

  6. KLib

  7. dabl

  8. speedML

1、D-Tale

D-Tale使用Flask作为后端、React前端并且可以与ipython notebook和终端无缝集成。D-Tale可以支持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。



import dtale  
import pandas as pd  
dtale.show(pd.read\_csv("titanic.csv"))  



D-Tale库用一行代码就可以生成一个报告,其中包含数据集、相关性、图表和热图的总体总结,并突出显示缺失的值等。D-Tale还可以为报告中的每个图表进行分析,上面截图中我们可以看到图表是可以进行交互操作的。

2、Pandas-Profiling

Pandas-Profiling可以生成Pandas DataFrame的概要报告。panda-profiling扩展了pandas DataFrame df.profile_report(),并且在大型数据集上工作得非常好,它可以在几秒钟内创建报告。



#Install the below libaries before importing  
import pandas as pd  
from pandas\_profiling import ProfileReport  
  
#EDA using pandas-profiling  
profile = ProfileReport(pd.read\_csv('titanic.csv'), explorative=True)  
  
#Saving results to a HTML file  
profile.to\_file("output.html")


3、Sweetviz

Sweetviz是一个开源的Python库,只需要两行Python代码就可以生成漂亮的可视化图,将EDA(探索性数据分析)作为一个HTML应用程序启动。Sweetviz包是围绕快速可视化目标值和比较数据集构建的。



import pandas as pd  
import sweetviz as sv  
  
#EDA using Autoviz  
sweet\_report = sv.analyze(pd.read\_csv("titanic.csv"))  
  
#Saving results to HTML file  
sweet\_report.show\_html('sweet\_report.html')  



Sweetviz库生成的报告包含数据集、相关性、分类和数字特征关联等的总体总结。

4、AutoViz

Autoviz包可以用一行代码自动可视化任何大小的数据集,并自动生成HTML、bokeh等报告。用户可以与AutoViz包生成的HTML报告进行交互。



import pandas as pd  
from autoviz.AutoViz\_Class import AutoViz\_Class  
  
#EDA using Autoviz  
autoviz = AutoViz\_Class().AutoViz('train.csv')  



5、Dataprep

Dataprep是一个用于分析、准备和处理数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上,可以很容易地与其他Python库集成。

DataPrep的运行速度这10个包中最快的,他在几秒钟内就可以为Pandas/Dask DataFrame生成报告。



from dataprep.datasets import load\_dataset  
from dataprep.eda import create\_report  
  
df = load\_dataset("titanic.csv")  
create\_report(df).show\_browser()  



6、Klib

klib是一个用于导入、清理、分析和预处理数据的Python库。



import klib  
import pandas as pd  
  
df = pd.read\_csv('DATASET.csv')  
klib.missingval\_plot(df)  





klib.corr\_plot(df\_cleaned, annot=False)  





klib.dist\_plot(df\_cleaned\['Win\_Prob'\])  





klib.cat\_plot(df, figsize=(50,15))  



klibe虽然提供了很多的分析函数,但是对于每一个分析需要我们手动的编写代码,所以只能说是半自动化的操作,但是如果我们需要更定制化的分析,他是非常方便的。

7、Dabl

Dabl不太关注单个列的统计度量,而是更多地关注通过可视化提供快速概述,以及方便的机器学习预处理和模型搜索。

dabl中的Plot()函数可以通过绘制各种图来实现可视化,包括:

  • 目标分布图

  • 散点图

  • 线性判别分析



import pandas as pd  
import dabl  
  
df = pd.read\_csv("titanic.csv")  
dabl.plot(df, target\_col="Survived")  



8、Speedml

SpeedML是用于快速启动机器学习管道的Python包。SpeedML整合了一些常用的ML包,包括 Pandas,Numpy,Sklearn,Xgboost 和 Matplotlib,所以说其实SpeedML不仅仅包含自动化EDA的功能。

SpeedML官方说,使用它可以基于迭代进行开发,将编码时间缩短了70%。



from speedml import Speedml  
  
sml = Speedml('../input/train.csv', '../input/test.csv',  
            target = 'Survived', uid = 'PassengerId')  
sml.train.head()  
  





sml.plot.correlate()  





sml.plot.distribute()  





sml.plot.ordinal('Parch')  





sml.plot.ordinal('SibSp')  





sml.plot.continuous('Age')  



---------------------------END---------------------------

题外话

在这里插入图片描述

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

若有侵权,请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/955487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

43、基于 springboot 自动配置的 spring mvc 错误处理,就是演示项目报错后,跳转到自定义的错误页面

Spring MVC 的错误处理:基于 SpringBoot 自动配置之后的 Spring MVC 错误处理。 就是访问方法时出错,然后弄个自定义的错误页面进行显示。 ★ 两种错误处理方式 方式一: 基于Spring Boot自动配置的错误处理方式,只要通过属性文件…

常用的中间件有哪些

中间件是什么 中间件(英语:Middleware)顾名思义是系统软件和用户应用软件之间连接的软件,以便于软件各部件之间的沟通,特别是应用软件对于系统软件的集中的逻辑,是一种独立的系统软件或服务程序&#xff0c…

Java 16进制字符串转换成GBK字符串

问题: 现在已知有一个16进制字符串 435550D3C3D3DAD4DABDBBD2D7CFECD3A6CFFBCFA2D6D0B4E6B7C5D5DBBFDBD0C5CFA2A3ACD5DBBFDBBDF0B6EE3130302E3036 而且知道这串的字符串对应的内容是: CUP用于在交易响应消息中存放折扣信息,折扣金额100.06 但…

设备报修系统有什么用?企业如何提高维修效率和质量?

在数字化时代,基于人工智能和大数据技术的设备报修系统已经成为企业提高服务质量和效率的重要手段。这种系统可以为用户提供方便快捷的报修方式,例如通过扫描设备上的二维码或通过公众号、企业微信、钉钉等平台提交报修请求。这种报修系统不仅可以提高故…

评估安全 Wi-Fi 接入:Cisco ISE、Aruba、Portnox 和 Foxpass

在当今不断变化的数字环境中,对 Wi-Fi 网络进行强大访问控制的需求从未像现在这样重要。各组织一直在寻找能够为其用户提供无缝而安全的体验的解决方案。 在本博客中,我们将深入探讨保护 Wi-Fi(和有线)网络的四种领先解决方案——…

Linux土遁术之监测监测进程打开文件

分析问题过程中,追踪进程打开的文件可以在许多不同情况下有用,体现在以下几个方面: 故障排除和调试: 当程序出现问题、崩溃或异常行为时,追踪进程打开的文件可以帮助您找出问题的根本原因。这有助于快速定位错误&…

基于战争策略算法优化的BP神经网络(预测应用) - 附代码

基于战争策略算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于战争策略算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.战争策略优化BP神经网络2.1 BP神经网络参数设置2.2 战争策略算法应用 4.测试结果:5…

AI绘画的一些网址收集

1、负面tag词语收集 https://www.bilibili.com/read/cv19834742 https://y3if3fk7ce.feishu.cn/docx/VOZMdoib8oY7xVxVoYbcA8m1nld 2、如何写关键词 https://y3if3fk7ce.feishu.cn/docx/KqEMdhJigoFY8fxc9TPcwMninKf 3、关键词 https://zhuanlan.zhihu.com/p/573340345 模板词…

电脑提示缺少d3dx9_43.dll的问题及5个解决方法

大家好!今天,我将和大家分享一个电脑提示缺少d3dx9_43.dll的问题及其解决方法。这个问题可能会影响到我们在使用电脑时的一些功能,所以掌握这个解决方法对我们来说是非常有帮助的。 首先,我们来了解一下什么是d3dx9_43.dll。d3dx9…

串口接收不定长数据

使用串口进行数据的收发在嵌入式产品中是很常用的一种通信方式,因为串口的简单使用,很容易就被选为产品中数据交互的通信手段。 基于串口进行开发的功能有很多,比如同类/不同类产品之间的通信,RS485通信,RS232通信方式…

记一次私服GitLab合并分支教程

背景 关于在做项目的时候需要合并分支,第一次听到的时候一脸懵逼。之前都是在主支上面跑的,为此闹了不少笑话,现在记录一下教程步骤 合并请求新建合并请求 比较分支并继续 创建合并请求 构建 完成任务,这是自动化构建合并请求过…

前端面试知识点

基本方法 在 JavaScript 中,push、pop、shift 和 unshift 是用于操作数组的方法,它们的作用如下: push:将一个或多个元素添加到数组的末尾,并返回修改后的数组的新长度。原始数组会被修改。 const array [1, 2, 3]; …

Java 多线程系列Ⅰ(创建线程+查看线程+Thread方法+线程状态)

多线程基础 一、创建线程的五种方法前置知识1、方法一:使用继承Thread类,重写run方法2、方法二:实现Runnable接口,重写run方法3、方法三:继承Thread,使用匿名内部类4、方法四:实现Runnable&…

如何在,Linux中安装Luajit2.*

1.文件下载The LuaJIT Project 2.将下载文件上传到对应的服务器:例如/opt 3.进入对应的文件夹 4.make PREFIX/usr/local,设置安装路径 5.make install,编译安装 6.进入安装目录,cd /usr/local/include/luajit-2.0 7.luajit -v…

SAP FI之定义财务年和财务年度变式(Fiscal Year Variants)

目录 前言 一、财务年度/财务年度变式 二、使用步骤 1.配置步骤 前言 本文主要介绍SAP会计年度和SAP会计年度变式。 一、财务年度/财务年度变式 财务年度可以具有与日历年相同的期间,也可以不同。中国财政年度从1月到12月,称为历年制,有…

基于沙猫群算法优化的BP神经网络(预测应用) - 附代码

基于沙猫群算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于沙猫群算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.沙猫群优化BP神经网络2.1 BP神经网络参数设置2.2 沙猫群算法应用 4.测试结果:5.Matlab代…

WebGL 同一缓冲区多种数据传入顶点着色器 gl.vertexAttribPointer()的步进和偏移参数

目录 目录 为了将顶点坐标传入着色器,需要遵循一下五步: 但是!!! 示例代码: gl.vertexAttribPointer()的函数规范 stride参数 顶点坐标数据 offset参数 顶点尺寸数据 首先…

KaiwuDB 助力能源企业实现 4 大价值提升

行业背景 近年来,随着能源行业数字化的不断推进,智能电网、可再生能源发电、分布式发电、微电网等技术蓬勃发展。越来越多的能源企业意识到数据管理与价值挖掘对储能及能源利用有着重大意义,并开始探索一套有效的数据库解决方案以应对分布式…

Chrome小恐龙快跑小游戏——Python实现

目录 视频演示 代码实现 视频演示 Chrome小恐龙快跑小游戏——Python实现 代码实现 import pygame import os import random pygame.init()# Global Constants SCREEN_HEIGHT 600 SCREEN_WIDTH 1100 game_over False SCREEN pygame.display.set_mode((SCREEN_WIDTH, SCR…

电子词典dictionary

一、项目要求: 1.登录注册功能,不能重复登录,重复注册。用户信息也存储在数据库中。 2.单词查询功能 3.历史记录功能,存储单词,意思,以及查询时间,存储在数据库 4.基于TCP,支持多客户…