可视化制作
通过图表展示如何用Power BI 制作可视化的图表,来展示可视的数据内容。
柱形图
用水平的柱子来表示不同分类数据的大小,类似于条形图,相当于竖着的条形图。堆积柱形图是不同的序列数据都堆积在一个柱子上,簇状柱形图中不同的序列使用不同的柱子,方便比较不同序列数值的大小。百分比堆积柱形图中y轴的数据变成百分比显示(相对大小),跟堆积柱形图相似,没办法比较总量。可以在格式中对图表进行个性化的设置,美化图表。合格的柱形图为y轴内容清晰、有图例说明、单位、与图表相呼应的标题、合理的颜色搭配等。
以百分比堆积柱形图为例进行展示,跟堆积柱形图类似,不同的序列在一根柱子上进行显示。
可以利用格式,对图表进行美化,以簇状柱形图为例,更改图表显示情况的参数,如X、Y轴,标题,柱子的颜色、背景等。合格的柱形图要求X和Y轴清晰,有图例和说明、数据单位、与图表相呼应的标题等等。
树状图
也被称为矩形树图,把整体的数据想象成一棵树,每一个数据就是一个枝叶,枝叶是放在矩形中的,每个矩形错落有致的排列在大矩形中。适用场景:需要显示大量的分层数据,而条形图不能有效的去处理大量的值,需要显示各个部分与整体的比例,层次当中的指标在各个类别层次当中的分布模式以及使用颜色、大小来显示属性,离群点、异常值等。树状图中几乎没有空白区域,里面的每一簇都用在表述关系上,在空间利用率是比较高的。
可以Power Query界面,转换—脚本中选择运行Python 脚本,使用Python代码进行数据的处理。原本的数据会发生变化,展开value列,不勾选使用原始列名作为前缀选项,原始的数据都会显示出来。在可视化界面选择树状图,显示品牌的数量占比,把品牌放在组和值中,就得到上图显示的效果。
在矩形树图中,可以通过每个矩形的大小、位置和颜色来区分每个数据的权重关系及占总体的比例,可以一目了然的看到整个数据集。整个图形都是按从左到右、从上到下面积的降序进行排列,此时树形图展示的是单层的数据结构。把容量放到详细信息中,就可以看到每个品牌中不同容量的硬盘信息,这时显示的就是双层的树状图。
地图可视化
利用微软内置的必应地图,在Power BI中轻松的生成地图来实现各种地图的可视化。默认的有三种地图对象,频繁使用的是气泡地图,着色地图需要用在线版的来显示。
利用气泡的大小来表示不同地区GDP的值,在格式中更改气泡的颜色等信息。把国家、省份、城市的数据放到位置栏中,可以显示不同层级的数据情况。利用图表上方的向上钻取和向下钻取来选择不同层级的数据,在数据中数据要用全称,如北京市等等,可以把数据中的经纬度放到经度和维度中来保证数据能显示完整。
常用操作
1. 查看数据
可以在生成图表的右上角,点击三个点,来以列表显示或者导出数据。
2. 图表钻取
当图表数据中存在层级结构时,可以在图表中直接展示下一级数据,只要具体日期数据的层级结构足够详细,可以如从年份到季度、月份、日期、小时等。利用生成后的图表上方,向下钻取按钮,然后点击图表中的数据,会展开相应的数据;点击“向上钻取”,进行汇总相应的数据信息。点击图表中“转至层次结构中的下一级别按钮”(两个向下的箭头),可以逐级显示所有层级的内容;点击图表中“展开层次结构中的所有下级级别”,可以展开所有级别的数据信息。在其他图表中钻取功能类似,可以钻取从国家、省份、城市等一直向下细分的数据信息。
3. 编辑交互
Power BI 可视化的图表是动态的,通过页面上的筛选、钻取、突出显示等交互功能进行快速的访问、发现、探索数据背后的规律。默认筛选数据的改变,Power BI上与此相关的所有可视化视图都会发生变化,每个可视化对象同样可以作为其他图表的筛选条件,其他图表也会动态的响应,从不同的角度来展现数据,筛选操作不当,展示的可视化效果也会千差万别。
选中图表,点击格式—编辑交互,在每个图表上方都会出现“筛选器”和“无”,如果希望筛选其中一个图表,其他图表不发生变化,可以选中其他图表的“无”;如果筛选其中一个图表,其他图表也跟着产生响应,就选中图表上方的“筛选器”。在圆环图和柱形图中还会出现一个按钮“突出显示”,当其他图形进行筛选时候,这两个图形也会随着筛选产生图形的变化,此时单击“突出显示”按钮,图形就会恢复之前的状态,保留之前图形数据点的内容,筛选的部分会进行突出显示,有利于我们进行数据的探索。
实战:A股上市公司数据分析
1. 数据准备
数据,是接下一系列分析的前提。
以中商情报网为例。
在PowerBI 获取数据,选择从Web中获取,把需要获取网页的url传入到高级选项卡下的URL部分中,需要获取的数据可以为1-20页,把URL和后面的数字分开进行传入,点击确定就可与获取到第1页的数据。勾选导航器中的表7,选择转换数据进入Power Query编辑器中,就可以看到获取的第1页的数据。
2. 数据清洗
把“脏数据”洗掉,这也关乎到后面的分析工作。
把获取到的“招股书”和“公司财报”等不需要的数据点右键进行删除。
可以根据页码参数来设定自定义函数,实现批量下载或导入数据。
单击主页—查询—高级编辑器,或者右键单击表7选择高级编辑器。在显示的代码上方增加一行代码,(p as number as table) =>,把let里第一行代码中的字符串1改为 (Number.ToText(p))),单击完成。
进入输入参数的界面,更改表名称为 Data_zs,此时p就为该函数的变量,传入p的参数值,在界面中数据数字,就会查询到相应页码的数据。实现批量抓取数据,就要批量调用该函数。
点击主页—新建查询—新建源中找到空查询,输入内容,= {1…10},创建一个查询的列表,然后点击转换—到表,转化为表格;点击添加列—常规—调用自定义函数,在弹出的对话框内输入新的列名称“页码”,功能查询内选择创建好的“Data_zs”,单击确定就开始抓取设置的1-10页的网页数据。
单击页码列右边的双向箭头,去掉使用原始列名作为前缀的勾选,就可以展开抓取到的10页(200条)数据。
3. 数据建模
多表的协同配合依靠表与表之间的逻辑关系, 建立关系的过程称为数据建模。
此时就一个表,不需要建立表与表之间的逻辑关系,这个步骤可以省略。
4. 指标计算
需要熟悉常用的业务指标。
可以更改部分列的数据格式,如根据需求更改上市日期的显示内容为年(右键单击–转换–年),点击主页—关闭并应用,退出Power Query编辑器,加载查询的数据内容。销售额,月度增长人数、活跃用户等数据的计算可以通过添加度量值的方式为我们的分析添加相应的指标数据内容。如计算北京、上海、深圳的上市公司的数量,在字段下,右键单击表名称,通过新建度量值的方式来添加数据的查询,北上深上市公司数量 = CALCULATE(COUNTROWS(‘查询1’),‘查询1’[城市] in {“上海市”,“深圳市”,“北京市”}),字段的调用要用双引号,查询1表中就会出现度量值的数据。
5. 可视化展示
通过可视化,让枯燥的数据变得直观,更容易理解,更快的传递关键信息。
绘制仪表盘图,显示北上深上市公司数量的占比个数,把刚创建的度量值放到“值”中,可以在设置视觉对象格式中修改图表的基本参数值。
添加环形图,显示上市公司中经营的行业,把行业分类数据放到图例和值中。
添加饼图,显示上市公司在城市的排名,把城市放到图例中,把公司名称放到值中。可以创建度量值进行城市的筛选,也可以在右侧的筛选器中城市的筛选类型中选择城市进行显示。
添加簇状柱形图,显示从1990年开始每年上市公司的数量,把上市日期放在轴中,公司名称放在Y轴中。
添加地图,显示上市公司在地理位置上的分布,把城市放在位置和大小中,此时显示的是全球的地图,可以在可视化的右下角选择导入视觉对象,导入中国的视觉地图,导入成功后在可视化的下方会显示中国地图,可以在设置视觉对象格式中选择仅数据,更改视觉映射的颜色,更改地图中地图区域的颜色。
可以在视图中选择主题,更改整个画板的主题风格,在主页—插入中选择插入文本框,输入“A股上市公司数量分析”,调整字体的格式和大小以及颜色等。