本章内容包括:
- 识别潜在的企业Power BI用户
- 使用Power BI解决数据生命周期问题
- 区分使用Power BI生产的分析产品的类型
企业商业智能(BI)解决方案并非一刀切,这就是为什么像微软这样的供应商在Power BI利基市场的产品营销和分销中迎合了广泛的受众。参与商业智能生命周期的利益相关者创建用于分析和规划的数据模型,清理数据集,将数据集转换和验证为数据模型,并管理数据模型每天运行的基础设施。
几年前,你可能会用双手数出一个全球组织中有多少人参与了数据管理。如今,多达十几个独立的团队可能负责数据管理,其中一个团队可以很容易地致力于支持Power BI工作和分析输出,如生成的报告、仪表盘和数据集。在本章中,您可以阅读有关组织中使用power BI的典型权力参与者的信息,这些参与者从一开始就如何塑造数据,以及他们在这一过程中可能创建的分析输出类型。
Power BI参与者
曾经有一段时间,你可以指着一家公司的一个人说:“标记——你就是它!”你知道这个人负责运行报告和核算硬盘上的全公司数据,所以你知道如果你有问题该找谁。那些日子已经一去不复返了。
新的世界秩序现在包括了处理数据管理和分析的部门。众所周知,现在比以往任何时候都更多的资金被用于知识经济,其中大部分资金被引导到使用Power BI的部门。在那里,你可以找到几个负责明智地使用这些资金的关键利益相关者。如今,最重要的BI项目包括业务分析师、数据分析师、数据工程师、数据科学家和数据库管理员作为其团队的一部分。这些数据专家一起宣传如何获取原始数据,并用它来讲述一个引人注目的故事。
业务分析师
业务分析师从定性或功能角度关注数据足迹。当你需要一个人来解释数据,并用文字而不是数字来解释它的含义时,你会要求业务分析师收集和记录业务数据需求,或者评估数据。业务分析师是参与日常决策过程的Power BI团队中最亲密的成员,因为此人经常充当决策者和数据团队的业务联络人。当需要创建新的报告或仪表板时,您通常会发现业务分析师是业务中利益相关者的第一个联系点。这个人的视觉可以翻译成一个可行的数据集,最终成为一个数据模型。
数据分析师
与业务分析师不同,数据分析师不根据用户或业务需求进行分析,而是根据生成的数据进行分析。一旦数据进入企业信息系统,这些资产就成为分析师最有价值的工具。数据分析师希望通过可视化和报告工具(如Power BI)来理解价值。因此,数据分析师在这个角色中身兼数职,从分析、清理和转换原始数据,到将数据以最终形式呈现给适当的利益相关者。
请记住,数据分析师除了在幕后管理数据外,还在Power BI资产的管理中发挥实际作用。当业务分析师负责将需求转化为实际产品时,数据分析师是充当开发人员的关键人员。该人员通过将原始数据转化为相关的、有价值的见解来满足数据和报告要求。
将数据分析师视为看门人。该人员必须充当最终用户和a)业务分析师、b)数据工程师和c)数据库管理员之间的中间人,以确认操作有效性。这是一大堆谈判!最后一个命名的角色要求数据分析师熟悉数据平台及其附带的安全原则、流程管理和一般管理原则。不过,BI生态系统中的其他角色也需要同样多的任务,所以责任并不完全落在数据分析师身上。
数据工程师
因为数据不是一个一刀切的概念,所以你可以想象,实现数据的个人需要了解他们可以使用的不同类型的数据交付。例如,实施BI解决方案的人员必须能够处理本地数据以及云中的数据。此外,您管理和保护的数据通常需要评估结构化和非结构化数据源的流量。有时,它可能只是一个来源,但往往涉及许多不同的来源。平台本身涵盖了各个领域,从典型的关系数据库到非关系数据库,甚至从数据流到文件存储。但有一点是肯定的:无论数据服务如何,数据都必须始终安全且无缝集成。
就像数据分析师一样,数据工程师也不得不身兼数职--只是,在戴着这些帽子的同时,他们在实现数据工具,而不是分析流程。这意味着工程师必须知道如何使用本地服务工具以及云数据服务工具来跨源获取和转换数据。最后,请记住,您不能只将数据源绑定到组织本身,因为数据源通常位于组织的墙之外。
技术协作通常存在于数据工程师和数据库管理员之间。您可能想知道为什么数据工程师不同时被称为数据库管理员。问题是,数据工程师不仅仅提供咨询服务、管理托管基础设施或支持运营数据需求。该人还负责制定商业智能和数据科学倡议的议程。该角色要求工程师能够处理各种形状和格式的数据。因此,数据工程师必须掌握数据争论,即使用最新技术将数据从原始形式转换和映射为更精简的形式——换句话说,BI或分析更容易利用这种形式。
记住,规模较小的组织通常希望拥有一位多才多艺的人,能够支持尽可能多的任务。你很快就会意识到,角色有点模糊。在现实世界中,数据分析师、数据工程师和数据库管理员共同工作,通常分担职责。只有一个头衔的监督员角色并不少见——通常是数据工程师。数据库管理员、分析师,甚至BI专业人员,只要掌握用于筛选数据的人员、流程和技术的要求,就可以轻松过渡到数据工程师的角色。
数据科学家
数据科学家很少负责管理基础设施。大多数数据科学家通常也不安装太多软件。数据科学家专注于创建和执行高级分析,从业务分析师、数据分析师、数据工程师和数据库管理员建立的系统中提取数据。正如后面所解释的,数据科学家对描述性、诊断性、规范性、预测性和认知性数据进行分析。无论所进行的分析是使用统计工具或机器学习功能来检测模式和异常的定量分析,还是数据需要定性评估,最终目标都是一样的:创建一个构建良好的模型。
通过分析构建数据模型只是数据科学家职责的一部分。随着机器学习和人工智能世界的不断繁荣,这位数据科学家的任务是探索深度学习,并使用算法技术用各种编码语言对复杂的数据问题进行实验。他们必须高度重视理解编程语言,这些语言可以转换可能不清楚或难以利用的数据。
记住,数据科学家花在解决与修复数据相关的问题上的大部分时间,也被称为数据争论,这已经不是什么秘密了。通过组建一个团队,数据科学家通常可以加快这一过程。更好的是,通过使用Power BI等工具,使商业智能和数据科学生命周期中的许多角色自动化,数据科学家可以更容易地解决需要答案的问题。
数据库管理员
您的数据库管理员负责实施和管理数据库基础结构。在一些组织中,数据库完全启用了云。另一方面,遗留组织经常将其数据库保留在本地或处于不断变化的状态,从而导致混合数据平台部署。使用Power BI时,您可能会让数据库管理员在基于Microsoft Azure的数据服务(包括Microsoft Azure SQL)之上构建解决方案。
数据工程师或分析师可能会处理数据库解决方案的可用性和性能,确保利益相关者能够确定并实施他们所需的政策和程序,以正确支持数据环境,而数据管理员则有一套完全不同的职责。数据库管理员就像一名医生:该人员确保数据库以及组织数据运行的基础设施的健康。
请记住,当您试图总结Power BI数据生命周期中谁在做什么时,请记住以下两点:
- 您的业务分析师、数据分析师和数据工程师都参与了数据的创建及其可管理性。这里的关键词是吸收、转化、验证、净化和创造。
- 另一方面,您的数据库管理员负责处理确保数据保持健康的系统。责任不仅限于数据可靠性,还包括安全适用性。
了解数据生命周期
数据需要时间来培育。把这个过程当作从靶心开始,重点放在准备上。随着您对组织的人员、流程和技术的了解越来越多,您的数据需求也在不断发展,而这些不断发展的需求最终会为您的数据模型提供信息。随着模型的成熟和数据量的激增,可供您使用的可视化在细节、多样性和大小上都有所增加。你可以完成更多的分析,这些分析可能从定性到定量,偶尔或实时发生。最终,数据管理是包罗万象的,因为它覆盖了数据生命周期的每个阶段。图2-1展示了一个典型组织的领导者在使用企业BI解决方案(如Power BI)培育数据时应该期待什么。
准备
尽管准备阶段是最集中和最乏味的阶段,但整个数据生命周期都会受到准备的影响。你问为什么?好吧,如果你一开始数据不足,你会得到什么?糟糕的报告或构建不当的可视化导致错误的分析,这可能会对组织产生灾难性影响。
使用Power BI的组织的原型数据生命周期的示意图。(上图)
记住,数据准备需要一名业务分析师来评估业务需求,并需要一名数据分析师来构建适当的数据概要文件以进行清理和转换。数据可能来自一个或多个来源。
假设业务分析师或数据分析师构建期望的概要文件不正确,对结果输出的映射不好,或者将数据转换为不合格的结果,从而导致模型和可视化不正确地呈现数据。在这种情况下,组织可能会发现BI工具提供的产品没有什么意义。诚然,这个过程可能很复杂,因为数据可能来自多个来源,或者可能不清楚如何最好地连接到您的来源--我可以补充一点,这些因素可能会对性能产生重大影响。
诀窍是确定需要什么来确保性能不会受到负面影响,然后确保模型和报告满足这些预先确定的要求。(这里的需求示例将包括数据和内存容量,或者可能包括用于处理的CPU。)
小贴士:在满足这些要求时,不要吝啬。这些过程包括收集数据、寻找模式和异常,并将数据合成有意义的需求。不过,请注意,如果内存容量或处理能力不足,某些数据工作负载可能无法处理临时查询功能。
模型
你的数据准备已经完成了。数据审查处于高水平,因此许多人已经确认数据处于正常状态。现在怎么办?组织经常利用这个机会对数据进行建模。在这种情况下,数据建模可以被视为一个过程,所有这些原始数据都已被形式化和结构化。目标是决定组织的数据集如何相互关联。定义关系后,可以通过创建度量、计算和规则集来构建模型。
请记住,模型是数据生命周期中的一个关键组件。如果没有模型,最终用户就无法为组织生成报告或进行分析。设计得当的模型是提供准确可靠结果的关键,尤其是在越来越多的组织开始使用大型数据集的情况下。
提示:使用Power BI遇到性能问题时,请首先评估您的模型。可能将性能显示为一个问题的示例包括报告刷新率比应该的时间长一点,数据加载和准备滞后,或者来自经常访问的数据集的数据呈现需要太长时间才能查询。
可视化
可视化数据有助于组织以纯文本无法传达的方式更好地理解业务问题。把这本书的厚度想象成一份报告的一组数据。你认为一个人在读了两分钟后总结这本书的内容很容易吗?离散地得出五六个关键数据点需要付出多少努力?(我的感觉是,这需要超人的努力。)“一张照片胜过千言万语”这句老话在这里当然适用。这就是为什么可视化可以让数据变得生动起来。可视化讲述了引人入胜的故事,使商业决策者能够合理快速地获得所需的见解。
一个好的BI解决方案,如Power BI,包含了许多可视化选项,使决策者更容易理解报告输出。
可视化通常会聚集数据,以指导专业人员快速浏览数据集。当涉及到推动组织中的决策行动和行为时,建立在这些可视化基础上的报告可能是至关重要的帮助。考虑到许多组织甚至不查看结构化数据集,更不用说业务或数据分析师在准备和数据建模阶段花费大量时间评估的原始数据,您需要确保可视化提供准确的信息。
提示:并非所有可视化都适用于数据集。例如,一个树图至少需要三个变量才能成为一个可行的视觉输出。另一方面,饼图和条形图只满足于两个变量。考虑到这一事实,花时间充分了解您试图解决的业务问题,看看是否所有数据点都是必要的,这是值得的。过多的数据可能会使检测关键模式变得更加困难。
记住,Power BI具有内置的AI功能,可以在不需要代码的情况下为报告提供最适合的可视化指导。考虑使用问答功能,尝试各种可视化选项,或使用Quick Insights将您的数据模型与Power BI中最适合的解决方案进行映射。
分析
没有两个人以相同的方式分析数据。分析任务是制作数据模型和解释可视化过程中的另一个步骤。将分析视为一项总体活动,它往往与各个角色相一致。最好是你必须不断地分析你的数据、你导出的模型和你的可视化输出,以确保准确性。你应该确保在发现模式、注意趋势、与他人沟通,甚至根据数据预测结果方面的准确性,即使你发现了异常趋势。Power BI等平台使数据分析更容易访问,因为在完成每一项任务时,业务利益相关者都简化了流程。
记住,Power BI是一个桌面解决方案,也是一个基于云的解决方案。您可以使用Power BI Desktop进行大部分业务分析、数据分析、数据建模和可视化活动。假设您已将数据模型连接到正确的数据源,您甚至可以使用Power BI Desktop自行分析数据。但是,如果要与他人共享数据或分析数据,则必须使用Power BI服务。
管理
当你有机会更仔细地观察Power BI时,你很快就会发现,作为一个平台,它由许多不同的应用程序组成。生成的输出非常丰富:报告、仪表板、工作区、数据集、KPI,甚至其他应用程序。在一个组织良好的团队中,每个成员通常都管理一个或多个副产品,以支持Power BI资产的管理,从而实现数据的共享和分发。无论您是负责监督数据验证的数据分析师,还是必须确保硬件基础设施的健康的数据库管理员,每个人都有责任管理平台。
当您使用Power BI Desktop完成活动时,最终目的是与更多的受众共享可交付成果。一旦交付成果可用,您使用Power BI Desktop创建的内容就会促进团队和个人之间的协作。共享内容意味着确保合适的利益相关者能够访问您创建的产品。
请记住,在大型组织中,安全性可能有点挑战性。您的业务分析师、数据分析师和数据工程师都有责任确保合适的人只能访问他们需要的东西。数据科学家确保正在创建的数据资产具有高价值。
当然,数据库管理员通过管理所有利益相关者支持的基础设施来确保数据库始终对业务开放,这是使用Power BI实现商业智能的数据生命周期的一部分。
检查各种类型的数据分析
在本章的前面,我描述了组织中通常使用Power BI的利益相关者。我试图在非常高的级别上展示这些利益相关者如何使用Power BI Desktop或Power BI Services将创建的数据转换为有用的数据。在我让你进入Power BI森林之前,你唯一要做的就是学习Power BI产生的分析类型。如果你读过一本关于商业智能的多面手书,本节可能不会为你提供新的信息。如果这是您第一次涉足BI,或者了解Power BI在分析产品输出中的不同之处,那么本节是您总结详细信息的一站式商店。
您可以使用Power BI生成五种类型的分析:x、描述性、诊断性、预测性、规定性和认知性。根据Power BI中的业务目标和应用程序,分析产品有点不同。表2-1描述了五种类型的分析,包括每种分析的目的以及使用每种分析类型最有可能成功的地方。
类型 | 作用 |
描述性分析 | 帮助回答基于历史数据的问题。描述性分析还总结了大型数据集并描述了结果。 |
诊断分析 | 解释事件发生的原因。通常,诊断分析支持描述性分析,将其作为第二种分析形式,使您能够发现事件的原因。分析师在数据集、报告和KPI中查找异常情况。Power BI中可用的统计技术的使用有助于用户发现数据和趋势中的关系。 |
预测分析 | 帮助回答有关未来可能发生的事情的问题。根据历史趋势和发现模式,得出的结果是对可能发生的情况的观察。用于导出结果的技术涉及Power BI中可用的统计方法和机器学习能力的组合。 |
规则分析 | 回答了为实现目标必须采取哪些行动的问题。利用收集到的数据,组织可以解决基于未知条件的问题。此类分析还严重依赖大数据分析和Power BI的机器学习引擎评估的现有数据集来寻找模式,这有助于实现不同的结果。 |
认知分析 | 有时被称为推理分析;让分析师将数据集中的数据汇集在一起,以检测模式、得出结论,并为未来的学习建立知识库。这里的关键词是未来,因为所学到的和所看到的都是对未来的自我引导。如果条件发生变化,知识库会相应调整。 由于推断是非结构化的想法和假设,因此由Power BI中的机器学习解决方案来处理数据变化、理解现有数据源并创建数据相关性。 |
着眼全局
随着组织中数据的增长,需要更多的利益相关者来支持企业。每个利益相关者在支持BI数据生命周期方面都有其独特的地位。尽管数据在最初作为数据生命周期的一部分引入时通常是原始的,但使用Power BI创建的最终产品必须经过精炼和清晰。无论您在Power BI平台中启用报告、数据可视化、仪表板、KPI还是其他BI选项,请记住,数据必须无错误且可靠,任何业务才能成功。这意味着,无论分析产品是什么,数据都是可消耗的、有意义的、可访问的,各方都能理解。而且,正如你现在所知,无论生产哪种类型的分析产品,都有人和流程来确保引擎持续运行。