由于资源和人才的限制,很多中小微企业目前在数据收集和数据应用上还处于比较落后的阶段,没有合适的方法处理数据。最典型的情况就是通过Excel收集数据,然后频繁的手动生成报告。这样会导致数据质量差,流程重复,还可能增加数据错误的风险。因此,企业需要非常通过BI工具来改善数据处理流程,获得更自动化的数据体验。接下来,我们将以虹科Domo商业智能分析工具为例,为大家展示如何实时连接本地Excel。
虹科Domo是一款将所有数据、BI和工作流都整合到应用程序中的综合性商业智能(BI)分析工具,全球有2000+知名企业正在使用Domo。Domo功能非常强大,其具有可定制、实时性、交互性的自助仪表板,有1000+接口实现数据集成,在Domo平台上可以构建自定义应用程序并通过Buzz实现共享和聊天功能,Domo具有云灵活性、能够进行异常管理、嵌入式分析、拥有世界一流的数据治理和安全性。从可视化到数据应用程序,Domo帮助企业简化数据集成、提供数据洞察力、优化业务决策、实现多场景数据共享,助力企业数据上云与数字化转型升级!
第一步:数据准备
我们今天要介绍的案例是通过超市销售订单数据实现的。原始数据存储在超市订单、超市退货以及超市销售人员这三张本地Excel表中,数据更新方式是直接在本地Excel表中编辑行。三张表包含的字段如下:
我们假设原始数据只有2017年的订单数据。随着时间的推移,我们有了2018、2019以及2020年的数据。我们先在超市订单表中导入2017年的订单交易数据,在超市退货表中导入2017年的退货订单数据,在超市销售人员表中导入地区销售人员信息,若无人员变动,超市销售人员表将不会更新。
第二步:数据连接
如果将本地的Excel数据分享给其它用户或者分享到其它平台是比较简单的操作,但如果后续Excel数据进行了更新,我们如何告知下游程序和用户进行相应的修改,这才是难点。当前,大多规模较小的企业采取的是最简单的方法-即重新导出数据,再次分享,如此循环下去。这不仅造成了重复的工作,类似的表格太多还很容易将数据搞混。因此,在虹科Domo商业智能工具中,我们可以使用Wrokbench这个工具,实现数据的实时连接和跟踪。
我们可以在本地将所有需要实时连接的Excel文件存储到一个文件夹,接着在Workbench上设置数据同步文件夹,从而实时追踪文件中的数据更新。这个文件夹里面的所有Excel表都会被跟踪,然后自动创建调度作业。
比如在今天的案例中,我们需要跟踪的是超市订单、超市退货以及超市销售人员三张表。我们设置文件夹同步后就自动创建了这三个调度作业,传输类型是本地文件,读取器类型是本地的Excel。其中一个作业的具体配置如下:
自动创建作业后,我们还需要在配置选项卡设置一些信息,作业才能正常执行。如果是通过文件夹同步自动创建的作业,默认文件路径已经选好,有需要的话可以进行更改。“正在处理”选项,是用于填写Excel的相关信息,我们可以在其中输入文件密码,选择其中的一个工作表,以及选择起始单元格和结束单元格。没有选定范围的话,默认是读取整个工作表。
对于数据的更新,我们可以在计划选项卡中设置。有手动更新、文件更改时更新以及按计划更新三种方式。其中文件更改时更新仅针对于本地文件,按计划更新就是设置在某一个时间点自动的更新。对于数据量更新不频繁的情况,建议采用文件更改时更新,这样可以避免频繁的占用内存。
作业成功执行之后,我们可以在Workbench中进行预览,也可以在Domo商业智能平台的数据中心进行查看,Domo平台也是我们后续进行数据处理和可视化的地方。连接到Domo平台的三个表如下:
第三步:数据预处理
实现数据连接后,就需要对数据进行预处理。首先,我们预览超市订单表,发现“产品id“字段包含了产品类别、子类别和编号,其实只有后面的编号是需要的;”产品名称“字段包含了产品的品牌、名字以及相关描述;”城市“字段的值归类不正确;部分字段值不好区分需要替换等,这些就是我们可能需要去做预处理的地方。
通过我们在本地连接到Domo平台的三个表,我们可以在Domo平台中构建一个ETL数据流。
- 首先,通过一个输入数据集的操作块,连接到超市订单表。
- 其次,通过“字符串操作”块从右边截取“产品id”字段的8个字符,以获得正确的产品编号。
- 接着,对于”产品名称字段“,采用”拆分列“操作块,以空格为标识符,截取产品品牌和产品名称,再一次运用”拆分列“操作块,修正产品名称。
- 然后,对于字段值的修正,直接使用”替换文本“操作块,将”客户领域“字段中的”消费者“替换为”个体消费者“,”小型企业“替换为”中小型企业“,”公司“替换为”大型企业“。
- 最后,为了便于在可视化中应用地图,需要将地区、省份和城市等地理名称进行修正,此处使用”公式“操作块,应用Case语句,将名称进行整理。
对于超市订单表的预处理,大致如下:
对于超市退货表和超市销售人员表,本身数据是干净的,不需要做太多的预处理,此处只需要通过“加入数据“操作块对表进行连接即可,采用的关联字段分别是”订单Id“和”地区“。对于连接后存在Null值的情况,我们需要进行补全。比如,对”退回“字段,没退回的订单由于与超市退货表没有匹配的记录,因此值为空,此处用”否“进行填充。完成三表连接后,还需要对数据进行筛选过滤,将重复的记录进行删除,只保留一条。操作流程大致如下:
最终我们输出了一个叫做“超市数据Demo“的数据集,这个数据流我们设置的调度是仅当数据集更新时运行。即当超市订单表、超市退货表、超市销售人员表中的任一数据集发生更改,都会触发这个数据流的更新,从而我们获得的处理后的数据集永远是基于最新数据的。
第四步:数据可视化
基于上述数据集,我们绘制了两个仪表板。首先超市利润分析仪表板,第一幅图是利润趋势图,以月份进行聚合,以季度为单位进行回归预测,因此默认是预测3个月的。点击旁边的控件,可以相应的增加或减少预测的范围。
然后是利润地图,以省份为单位进行统计的中国地图。可以看到,地图版块颜色越深,代表值越大,灰色的版块代表的是无数据,即当前在该地区暂无成交的订单。
点击进入省份地图的详情页,可以看到设置了地区控件,可以对数据进行过滤。比如我们选择华东地区,地图就会自动筛选该地区的数据并进行放大,以便更清楚的了解华东地区的情况。
在这个地图上,我们还可以进行下钻。点击任一省份,可以钻取到城市级别的地图。如下图,就是山东省的利润数据。
第三幅图是按七大地区进行统计的帕累托图,同样可以进行下钻。我们可以看到华东地区贡献了全国29.08%的利润,是最重要的地区之一。
接着钻取到该地区,发现大部分省份都是盈利的,但是在江苏和浙江这两个省份有亏损的情况发生。
我们再下钻到浙江省,了解到浙江省只有在办公用品这类别的销售中存在少量的盈利,其他大部分的产品以及地区都是亏损状态。因此,连锁超市可以重点在金华市和绍兴市销售办公用品,其他地区的话可以做一些资源上的调整。
第四幅图是产品子类别利润贡献率条形图。可以看到,椅子这一类别获得的利润是最大的,而桌子这一类别是亏损最严重的。
接着钻取到椅子这一子类别,从而了解到,扶手椅在椅子当中是获得利润最高的,并且Harbour Creations这个品牌,是利润贡献率最高的,其次是SAFCO。
接下来,我们看一下客户分析仪表板。第一幅图是客户地理位置的一个分布图,其中广东省和山东省的客户相对较多,是需要投入更多资源的地方。台湾暂时还没获客,是之后可以调研扩展的区域。
下面是客户贡献度散点图,是以利润率为横轴,以利润额为纵轴绘制的。气泡越大代表客户购买的数量越多。可以看到第三象限全部气泡都是红色的,代表的是这个客户提交的总体订单利润和小于0,是亏损的。换句话说,这些客户并不能给我们带来盈利。所以在这个图中,我们需要关注偏右上角的这一块的客户,这些相对来说是我们的重点客户,因为他们能够购买的东西以及贡献的利润是最多的。
接着是客户交易次数统计图,此处仅展示前30名客户,从中我们可以了解到哪些客户是交易比较频繁的,以及他们的交易频率如何,从而进行需求预测。比如杨欢这个客户,他到目前总共交易了10次。
我们点击进来,可以看到他分别是在什么时候交易的,交易的金额是多少。可以预测他可能在2019年12月初会有交易需求,所以在这个时间段我们可以主动与他联系沟通,抓住销售机会。
第四幅图是以交易的销售额进行统计的条形图,同样做了子类别区分。可以看到武杰这个客户,他到目前成交的订单销售额是最高的,并且最高的是复印机这个子类别。
第五步:数据更新
接下来我们更新一下数据,前面已经添加了2017年、2018年、2019年的交易数据,现在我们再把2020年的数据添加进来。总共是3377条订单记录,386条退货记录,把它们分别复制到超市订单表和超市退货表中。然后我们回到Domo平台,可以看到数据集立刻就发生了更新,数据流也同步运行了。
类似的,由于驱动可视化的数据集有了更新,我们的图表也会自动进行更新。比如客户交易次数这幅图,我们可以看到累计的订单数已经变为2770笔,交易次数的第一名变成了彭博,达到了17次。
点击“彭博“所属的条形图,钻取到下一层,可以看到该客户的具体交易时间,其中就包含2020年的交易记录。基于此预测,在2021年的1月份该客户可能没有需求,因此不必分配太多精力去跟进这个客户。
通过上述例子,我们实现了本地Excel数据集的实时连接,实时分析和实时可视化,使整个数据过程智能化。您需要做的只是更新数据,其它的工作在最初完成部署之后都会自动的执行!
推荐阅读:
《虹科干货 | BI软件如何实时连接本地Excel?-以HK-Domo为例》
《虹科Domo商业智能云平台简介》
虹科是Dom商业云的中国区战略合作伙伴,了解更多【商业智能解决方案】及【Domo工具数据连接试用】,欢迎评论交流!