本次分享一个Python数据探索小工具dshelper,适合快速查看数据基本特征、数据可视化等使用场景。
无需代码,自动完成数据集描述统计;
无需代码,界面点鼠标绘制多种统计图:
支持命令行、jupyter notebook、docker三种使用模式。
dshelper:安装
pip install dshelper
dshelper:快速上手
下面简单介绍使用,
第一步,需要几行代码导入包、读入数据集,
import dshelper
import pandas as pd
df = pd.read_csv('./titanic.csv')
dshelper.dshelp(df) #一行代码调用dshelper
第二步,界面操作数据
将第一步代码存于run_demo.py中,/Users/xmy/anaconda/anaconda3/bin/pythonw run_demo.py即可调出界面。
⚠️注意,针对不同操作系统,第二步使用方法有差异,
- windows,linux:
python
run_demo.py - mac:
pythonw main_gui.py
出现以下界面,即可愉快的使用dshelper了。
dshelper:数据集描述统计
浏览原始数据
原始数据描述统计、操作日志
dshelper:数据可视化
dshelper支持7类图表,histogram、heatmap、correlation、scatter、box、violin、pair;
底层调用的是seaborn,所以比较美观;
heatmap、correlation小例子
pair plot小例子
histogram小例子
box、violin小例子
dshelper:Jupyter Notebook中使用
代码第一行添加:%gui wx,
dshelper:Docker中使用
make build
to build the projectmake runlinux
to run in Linux- WIP for mac
dshelper:未来值得期待
dshelper已经有详细的迭代计划,会新增多种数据格式导入、大数据抽样、时间序列等等,值得期待。