领导说这个很牛,不过咱们不能听别人一口之言,咱们应该亲手试试,在来说这个好或者不好。
这个dataprepe已经不维护了,最高只支持python3.11以下版本,建议选择3.9.
他只能处理dataframe格式的数据,也就是pandas加载后的数据。
准备一个excel
先安装
pip install dataprep==0.4.4
我靠,用了这么多依赖(安装了jupyter全版本,我笑了)。我对他的印象只能用神奇操作来评论。
然后他这个只能在jupyter上才能显示。所以他会装很多jupyter。
启动
jupyter lab
from dataprep.datasets import load_dataset # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report # 分析报告
from dataprep.eda import plot_missing # 缺失值
df = load_dataset("titanic")
print(df.head())
plot(df)
我让他生成了很漂亮的图
但是这是个网站,怎么导出呢?
这个烂狗的网站,后端服务都挂了。
文档都是双重叠加,挡着你看不见。靠。
我tm眼球都看爆了,终于从里面提取了重要信息。
from dataprep.eda import create_report # 分析报告导入
excel_file_path = 'xxx.xlsx'
df = pd.read_excel(excel_file_path)
#创建报告
report = create_report(df, title='My Report')
#jupyter里面展示报告
#report
#打印报告
report.save('report_01')
下载下来了
create_report: generate profile reports from a pandas DataFrame — DataPrep 0.4.0 documentation