本系列的文章:
-
安装流程和示例介绍:
- 《Power BI windows下载安装流程)》
- 《Power BI 11个必学官方示例数据案例(附下载链接)》
-
数据导入阶段介绍:
- 《Power BI 数据导入(SQL Server、MySQL、网页数据)》
- 《Power BI 存储模式介绍(导入、DirectQuery、双))》
- 《Power BI 常见数据导入错误(查询超时、找不到文件、数据类型错误、找不到表格)》
目录
- 前言
- Power Query
- 打开Power Query
- Power Query 编辑器
- 一、初始数据调整
- 1. 转换
- 1)“将第一行用作标题”
- 2) 替换值
- 3. 数据类型转换
- 2. 管理列
- 1)选择所需的列(选择列)
- 2)查找列(转到列)
- 二、合并列
- 1)快速合并列
- 2)自定义格式合并列(添加列)
- 三、查看数据结构
前言
从这篇文章起,将开始介绍Power BI数据清洗阶段的功能。本文总结了常用的基础数据调整技巧,包括初始的数据调整转换、合并及查看数据分布。
Power Query
Power BI的数据处理都是在Power Query 编辑器里面完成的。
打开Power Query
进入Power Query有两种途径:
-
第一种是在导入数据时,通过导航器里的“转换数据”进入。 (此时如果点击”加载“就会直接加载数据,不进入Power Query)
-
第二种是直接点击主页的“转换数据”进入
Power Query 编辑器
- 自动记录调整步骤:(见下图中右下角)在 Power Query 编辑器中工作时,数据调整的所有步骤都会被记录下来。 随后,每次查询连接到数据源时,它会自动根据记录的步骤调整,相当于数据清洗调整的自动化程序。
一、初始数据调整
基础的数据调整功能键都在“主页”页签下,包括列管理、行管理、转换(数据类型、替换值等)、排序、组合:合并查询、追加查询。
1. 转换
1)“将第一行用作标题”
如下图所示,导入数据后,标题行被识别成了第一行,而标题的列名是空白。
直接点击“转换”中的“将第一行用作标题” 进行处理。
2) 替换值
在“要查找的值”中填写需要替换的值,如果是Null值可以填Null, 然后在下面“替换为”的框中填写需要替换的数值。
3. 数据类型转换
选中需要查看的列,数据类型就会自动显示该列的数据类型。 如下图中,选中的Units Sold
的数据类型是小数。
方法一: 通过转换功能区中的“数据类型”进行修改。
方法二:点击列名旁边的数据类型图示。
2. 管理列
如下图所示,“管理列” 功能选项在“主页”页签下面,可以筛选、删除和查看列数据。
1)选择所需的列(选择列)
当数据中包含大量无用的信息时,将无用的数据列剔除,只保留需要的数据,可以简化数据模型,提高工作效率。
- 只需要将需要的列挑选上,其他没被选中的列就会从数据中删除掉。
2)查找列(转到列)
当数据量大的时候,尤其是表格中包含许多列,这是手动去查找就很麻烦,可以直接使用“转到列”功能。
- 点击“转到列”选项,会显示表格中所有列名, 选择对应的列名(图中选择“Gross Sales”),点击“确认”, 就会跳转到选择的列。
二、合并列
这里介绍了两种比较方便的合并列方式,快速合并 和 示例中的列。 前者适合需要直接合并的情况,后者适合需要特殊处理的情况。
1)快速合并列
- 选择需要合并的列:按住Ctrl选择需要合并的列,右键打开菜单,点击“合并列”
- 设置分隔符和列名:选择连接的分隔符是“空格”,新的合并列名字为“Country-Segment"
- 结果展示:选中的两列已经合并了,并且中间用空格分隔开来。
PS:同样,按住Ctrl可以同时选择多列,一起批量处理,比如删除、复制等等。
2)自定义格式合并列(添加列)
根据原来的数据添加列,使用到的是“添加列”中 “示例中的列"功能。这个功能的优点是:1)提供了常用的数据合并方法;2)适合用于处理时间数据。
- 如下图所示,点击“示例中的列”后,双击最右边“列1”里任意空白单元格,就会显示下拉选项,展示了可选则的示例内容。
- 手动输入需要合并的列的样式, 比如需要合并Month和Year,手动输入后“2014-January”,系统就会自动展示其他行的合并结果。
- 也可以使用公式创建一个新列,比如根据提示内容中的转换公式。
三、查看数据结构
导入数据之后,第一步就是要检查数据的情况,比如总数、空值等统计信息和值的分布情况。
查看数据结构:
- 进入Power Query编辑器后,点击“视图”页签,在“数据预览”中,选择需要显示的信息选择框。
查看列具体信息分布:
- 点击其中一列,在下方就会出现这一列的统计信息及值分布。
- 下面图中选择了"国家(Country)" 一列。下半页窗口显示了5个国家名字,并且每个国家的值分布相同。