《DataOps实施》课程内容包括《数据之旅第一数据运营》《精益数据运营的四个阶段》《DataOps的流程及结论》。本文汲取课程精华要点,如需完整版可观看视频讲解,关注公众号回复关键字【第五课】,获取课程完整版文字内容。
课程完整版(33分钟)
数据之旅第一数据运营
很多人的数据库都是黑洞,他们不知道里面有什么,这对他们来说就像黑盒子。
他们有数据团队还有很多事情要做,客户要求很高,情况很糟糕。因此,团队压力很大,并明显的出现了令人尴尬的生产错误,你的客户在你之前发现了这些错误。
数据团队并不具备业务知识,你可能有1000个表,如果你要测试数据,怎么能在不真正连接业务端、级别和数据、数据的语法、语义和语用的情况下测试数据呢?如果你能了解组织中其他人的情况,这会节省很多时间。
因此,把它归结为一种叫做数据之旅的东西——一条从数据源到客户价值的道路。这一点的基石是,你需要一个关于分析结果的预期层,预期可能在日志上、错误上、指标上,也可能是在数据测试上,你需要判断什么是真实的,什么应该是真实的。
这些旅程本身在开发中也有用处,除了生产之外,还可以进行开发回归测试。最后,你的数据之旅和有地方放它的想法实际上让它变得非常有用,你可以进行分享,每个人都想知道生产进度。
希望你首先关注数据之旅。因此,将所有这些信息汇集在一起并构建数据旅程层。
精益数据运营的四个阶段
谈一谈每一个阶段,真正好的开始方式是在第一阶段,即关注生产周期中的错误。根据Gartner的数据,目前大多数数据团队花费了太多时间来查找和修复错误,这占据了他们78%的时间。事实上,80%的时间应该花在交付业务价值上。在最近的数据工程调查中,52%的人表示错误是数据工程师倦怠的主要来源。
团队正在处理的数据错误数量确实惊人。2019年的一项调查显示,79%的公司存在太多的数据错误,起码每月三次以上。因此,79%的受访者每月出现3次以上的错误,高达30%的人每月出现11次或更多的错误。像这样的数字会对数据团队的生产力产生巨大影响,并会大大降低对团队产品的信任。现在,如果这些错误可以减少或消除,想象一下团队可以体验到巨大的生产力提升。
使用DataOps工具可以在管道的每一步添加自动测试。越多越好,管道中的测试数量与所经历的错误数量之间存在直接相关性。因此,随着测试的进行,我们看到错误的数量急剧下降。
使用DataOps平台很容易上手,因为测试可以用用户选择的工具编写,任何人都没有必要学习新的语言或工具;还有无数的测试可以添加,比如统计过程控制、位置平衡和历史平衡测试。
因此只需付出很少的努力,就可以实现DataOps的一个非常重要的原则,并消除生产错误。当这在百时美施贵宝公司(一家全球生物制药公司)实施时,他们从每次构建没有测试变成了每次构建1000次测试,从每次构建频繁错误变成了零错误,这是一个相当大的进步。
这颠覆一些事情:通过花更少的时间发现和纠正错误,团队有更多的时间从事创新和交付商业价值的重要工作,同时也带来了更高的生产力和信任。用一位实施Production DataOps客户的话来说,“我们将错误减少到了大约每季度一次,我们已经好几年没有出现任何重大故障了,这大大提高了数据团队的效率,也提高了最终利益相关者对数据的信心。”
答案是进入第二阶段,专注于你的开发和部署过程。专注于尽可能多的流程自动化,这将反过来使你最大限度地提高分析开发速度,最大限度地降低部署风险,并对团队内部或跨团队的协作产生巨大影响。
然而现实情况是手动确实容易出错。在现实生活的例子中,部署到生产需要四个月的时间,新的分析涉及许多不同的团队和工具。数据经过四个阶段进入生产阶段——从开发到测试,再到预生产,最后到生产。这些过程都是手动的,这就带来了很多复杂性、缓慢性和错误。
总体而言,2019年的调查结果支持这一点,大多数团队将新的分析部署到生产中的速度太慢了——70%需要几周或几个月的时间,一大瓶颈是创建分析开发环境的能力。在同一项调查中,发现大多数团队都很难做到这一点——38%的团队需要数周或数月的时间,这几乎不可能快速提供新的分析。
为了解决开发和部署问题,DataKitchen创建了厨房,数据开发人员和自助服务用户可以在这里工作。这里有一个典型的生产流程,有人想在这一步做出改变,他们可以分散到测试厨房工作,其活动被隔离,厨房可以根据需要上下旋转,可能需要10或20周的时间,在这里只需几分钟。
所有这些也带来了巨大的改进和创新,当你的团队更有效率时,他们可以更具创新性,并对客户的要求做出回应。正如这里所表达的,“高管们希望尽快得到答案,通过使用DataOps工具,我们能够以新的方式混合和匹配数据,这样就可以快速提供问题的答案。”
因此,进入下一阶段是测量数据操作,一旦你在第一阶段和第二阶段取得了进展,是时候开始衡量和改进流程了。在这一阶段,该平台将全系统流程分析的收集自动化为整个分析系统的一个组合数据存储。这使你能够跟踪生产、团队和项目指标,以及流程沿袭。你正在向上移动精益数据操作层次结构,这个阶段涉及多个团队,可以通过一些流程数据集成中的一些小流程更改来实现。
首先,希望跟踪你的制造设施的运行情况,并实时了解运营情况,以便快速消除瓶颈;测量DataOps还允许衡量和改进项目和团队绩效,这里的数据可以让你鸟瞰,你可以判断项目是否按时完成,或者构建时间是否在改善;测量 DataOps还将帮助你跟踪流程沿袭,许多公司跟踪数据谱系,但他们对处理数据的所有过程一无所知;最后,一旦你完成了测量 DataOps,所有这些数据都将真正帮助你向老板证明DataOps的价值。通过定期与团队和关键利益相关者审查和共享这些指标,能够不断改进。
最后,是企业数据操作。准备好后,你可以在组织或业务部门中扩展DataOps以及在第一、第二和第三阶段学到的一切。在这里,你将实现持久的组织变革,此步骤涉及多个组和重大流程更改。在这里你还将认识到DataOps与协作相关的全部好处。整个组织的团队,无论他们位于何处或使用何种工具,都将能够无缝合作,这将带来巨大的好处。
如今,大多数没有DataOps的团队将不到3%的时间用于运营,但那些进行DataOps的人正在接近15%,这无疑是朝着正确的方向迈出的一步。在软件领域,这一比例甚至更高约为23%。因此,企业数据运营的一个关键部分是让你的团队朝着这个方向前进。
DataOps的流程及结论
轻松支持向企业DataOps的过渡。除了技术之外,还可以帮助你在一些较软的方面取得成功。创建一个在整个组织中建立DataOps的框架,其中有六个步骤可以帮助你实现这一目标,包括教育团队了解DataOps的价值,找到第一个项目,建立感兴趣的社区,在短时间内展示价值,迭代更多用例,并在整个组织中扩展到更多用例。
如果你要把DataOps带到组织中,那么就要以敏捷和迭代的方式带来DataOps。从小处着手,进行示威,让更多人参与进来。
不要忽视软性的东西——社会证明、抵制、文化转变,想想你需要花在DataOps工程上的时间,最终能够进行衡量。
如果你在这之前一直遵循精益数据运营原则,你就已经遥遥领先了,在早期阶段取得了成功,这将使企业数据操作更容易实现。
该如何进行DataOps?有很多方法,第一件事就是创建一些自动化的测试,不要寄托于当你从开发人员那里部署一些东西来刺激它时,证明它是有效的;第二个想法是如何降低错误率?用Excel解决了这个问题,每次有错误都会把它放在电子表格的一行,然后每三到四周就会查看错误,只找到一件需要修复的事情;第三点是改进协作。到处都是大量的数据和分析,把它全部放在Git中,这样你就能知道一切都在哪里;最后,在测量方面的跟踪,如果你有一个包含错误的电子表格,那么可以开始跟踪每周的错误数量,如果你想把东西放在Git中,那么跟踪Git中有多少代码,有多少签入和签出,计算自动测试的数量,然后为自己构建一个能够查看这些东西的仪表板。
让团队中的一些人能够专注于自动化测试、自动化部署,确保系统和分析交付无缝运行,并且你可以衡量结果。
最后,关于精益数据运营的概述能给你一些信心,让你相信现在是开始使用数据运营的最佳时机。你可以从生产数据操作开始,以此实现真正的好处并消除生产管道中的错误。然后,当你准备好进入下一阶段时,就可以按照自己的节奏进行了。
扫码关注云原生大数据平台KDP
践行云原生DataOps
本文汲取课程精华要点,详情可关注公众号,回复关键字【第五课】,获取课程完整版文字内容。
- FIN -
更多精彩推荐
DataOps课程:使用DataOps,如何实现快速部署?
DataOps课程:DataOps如何提高工作效率,降低出错率?
DataOps课程:如何做到先于客户发现问题?
DataOps课程:DataOps环境管道,如何实现一键自动化?
👇点击阅读原文,了解更多详情。