在完成竞赛和数据挖掘的过程中,数据分析一直是非常耗时的一个环节,但也是必要的一个环节。
能否使用一个工具代替人来完成数据分析的过程呢,现有的AutoEDA工具可以一定程度上完成上述过程。本文将盘点常见的AutoEDA工具,欢迎收藏转发。
技术交流
技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。
本文文章由粉丝的讨论与分享、推荐,资料干货、资料分享、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。
方式①、添加微信号:dkl88194,备注:来自CSDN + 加群
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群
Pandas Profiling
https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html
Pandas Profiling
是款比较成熟的工具,可以直接传入DataFrame即可完成分析过程,将结果展示为HTML格式,同时分析功能也比较强大。
-
功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、重复行分析
-
耗时:较少
AutoViz
https://github.com/AutoViML/AutoViz
AutoViz
是款美观的数据分析工具,在进行可视化的同时将结果保存为图片格式。
-
功能:相关性分析、数值变量箱线图、数值变量分布图
-
耗时:较多
Dataprep
https://dataprep.ai/
Dataprep
是款比较灵活也比较强大的工具,也是笔者最喜欢的。它可以指定列进行分析,同时也可以在Notebook中进行交互式分析。
-
功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。
-
耗时:较多
SweetViz
https://github.com/fbdesignpro/sweetviz
SweetViz
是款强大的数据分析工具,可以很好的分析训练集和测试集,以及目标标签与特征之间的关系。
-
功能:数据集对比分析、字段类型分析、变量分布分析、目标变量分析
-
耗时:中等
D-Tale
https://github.com/man-group/dtale
D-Tale
是款功能最为强大的数据分析工具,对单变量的分析过程支持比较好。
-
功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。
-
耗时:中等