Power Query 有一个被糟糕的翻译耽误了的宝藏功能,我估计绝大多数的用户都没发现。
在 Power Query —— 视图 —— 数据预览 下,有几个奇怪的选项 “列分发”、“列配置文件”、“列质量”,从名字根本看不出来是做什么的!
看英文名就一目了然了,其实分别是列分布、列质量、列概要。可以在没有进入分析之前,就粗略查看这列数据的分布和统计信息,方便数据的整理和清洗。
column distribution | 列分发(列分布) | 勾选后,在每一列上方显示此列数据的分布图,以及非重复值(Distinct value)和唯一值(Unique value)的数量 | |
column quality | 列质量 | 勾选后,在每一列上方显示此列数据的质量数据:有效行、错误行、空行分别的占比 | |
column profile | 列配置文件(列概要) | 勾选后,选中某一列时,就在下方显示这一列的统计信息和取值分布。包括计数:计数、错误值计数、空值计数、非重复值计数、唯一值计数、NaN值计数、零值计数;统计信息:最大值、最小值、平均值、标准差 |
默认的这些分析是基于数据的前1000行进行的,如果数据量大于1000行,想要知道全量数据的概况,也可以在左下角切换是“基于前1000行的列分析”还是“基于整个数据集的列分析”。