DataOps课程:DataOps实施,花更少的时间发现和纠正错误 | 内附视频

news2024/12/25 23:52:59

《DataOps实施》课程内容包括《数据之旅第一数据运营》《精益数据运营的四个阶段》《DataOps的流程及结论》。本文汲取课程精华要点,如需完整版可观看视频讲解,关注公众号回复关键字【第五课】,获取课程完整版文字内容。

课程完整版(33分钟)

数据之旅第一数据运营

很多人的数据库都是黑洞,他们不知道里面有什么,这对他们来说就像黑盒子。

他们有数据团队还有很多事情要做,客户要求很高,情况很糟糕。因此,团队压力很大,并明显的出现了令人尴尬的生产错误,你的客户在你之前发现了这些错误。

数据团队并不具备业务知识,你可能有1000个表,如果你要测试数据,怎么能在不真正连接业务端、级别和数据、数据的语法、语义和语用的情况下测试数据呢?如果你能了解组织中其他人的情况,这会节省很多时间。

40c4484fa891199f66616253a4db99cc.jpeg

因此,把它归结为一种叫做数据之旅的东西——一条从数据源到客户价值的道路。这一点的基石是,你需要一个关于分析结果的预期层,预期可能在日志上、错误上、指标上,也可能是在数据测试上,你需要判断什么是真实的,什么应该是真实的。

这些旅程本身在开发中也有用处,除了生产之外,还可以进行开发回归测试。最后,你的数据之旅和有地方放它的想法实际上让它变得非常有用,你可以进行分享,每个人都想知道生产进度。

希望你首先关注数据之旅。因此,将所有这些信息汇集在一起并构建数据旅程层。

精益数据运营的四个阶段

谈一谈每一个阶段,真正好的开始方式是在第一阶段,即关注生产周期中的错误。根据Gartner的数据,目前大多数数据团队花费了太多时间来查找和修复错误,这占据了他们78%的时间。事实上,80%的时间应该花在交付业务价值上。在最近的数据工程调查中,52%的人表示错误是数据工程师倦怠的主要来源。

团队正在处理的数据错误数量确实惊人。2019年的一项调查显示,79%的公司存在太多的数据错误,起码每月三次以上。因此,79%的受访者每月出现3次以上的错误,高达30%的人每月出现11次或更多的错误。像这样的数字会对数据团队的生产力产生巨大影响,并会大大降低对团队产品的信任。现在,如果这些错误可以减少或消除,想象一下团队可以体验到巨大的生产力提升。

使用DataOps工具可以在管道的每一步添加自动测试。越多越好,管道中的测试数量与所经历的错误数量之间存在直接相关性。因此,随着测试的进行,我们看到错误的数量急剧下降。

67588fafd6076c1ac8900f9cbf2aa34b.png

使用DataOps平台很容易上手,因为测试可以用用户选择的工具编写,任何人都没有必要学习新的语言或工具;还有无数的测试可以添加,比如统计过程控制、位置平衡和历史平衡测试。

因此只需付出很少的努力,就可以实现DataOps的一个非常重要的原则,并消除生产错误。当这在百时美施贵宝公司(一家全球生物制药公司)实施时,他们从每次构建没有测试变成了每次构建1000次测试,从每次构建频繁错误变成了零错误,这是一个相当大的进步。

这颠覆一些事情:通过花更少的时间发现和纠正错误,团队有更多的时间从事创新和交付商业价值的重要工作,同时也带来了更高的生产力和信任。用一位实施Production DataOps客户的话来说,“我们将错误减少到了大约每季度一次,我们已经好几年没有出现任何重大故障了,这大大提高了数据团队的效率,也提高了最终利益相关者对数据的信心。”

答案是进入第二阶段,专注于你的开发和部署过程。专注于尽可能多的流程自动化,这将反过来使你最大限度地提高分析开发速度,最大限度地降低部署风险,并对团队内部或跨团队的协作产生巨大影响。

然而现实情况是手动确实容易出错。在现实生活的例子中,部署到生产需要四个月的时间,新的分析涉及许多不同的团队和工具。数据经过四个阶段进入生产阶段——从开发到测试,再到预生产,最后到生产。这些过程都是手动的,这就带来了很多复杂性、缓慢性和错误。

总体而言,2019年的调查结果支持这一点,大多数团队将新的分析部署到生产中的速度太慢了——70%需要几周或几个月的时间,一大瓶颈是创建分析开发环境的能力。在同一项调查中,发现大多数团队都很难做到这一点——38%的团队需要数周或数月的时间,这几乎不可能快速提供新的分析。

为了解决开发和部署问题,DataKitchen创建了厨房,数据开发人员和自助服务用户可以在这里工作。这里有一个典型的生产流程,有人想在这一步做出改变,他们可以分散到测试厨房工作,其活动被隔离,厨房可以根据需要上下旋转,可能需要10或20周的时间,在这里只需几分钟。

所有这些也带来了巨大的改进和创新,当你的团队更有效率时,他们可以更具创新性,并对客户的要求做出回应。正如这里所表达的,“高管们希望尽快得到答案,通过使用DataOps工具,我们能够以新的方式混合和匹配数据,这样就可以快速提供问题的答案。”

99ca97deca625f629712799b788b64f9.jpeg

因此,进入下一阶段是测量数据操作,一旦你在第一阶段和第二阶段取得了进展,是时候开始衡量和改进流程了。在这一阶段,该平台将全系统流程分析的收集自动化为整个分析系统的一个组合数据存储。这使你能够跟踪生产、团队和项目指标,以及流程沿袭。你正在向上移动精益数据操作层次结构,这个阶段涉及多个团队,可以通过一些流程数据集成中的一些小流程更改来实现。

首先,希望跟踪你的制造设施的运行情况,并实时了解运营情况,以便快速消除瓶颈;测量DataOps还允许衡量和改进项目和团队绩效,这里的数据可以让你鸟瞰,你可以判断项目是否按时完成,或者构建时间是否在改善;测量 DataOps还将帮助你跟踪流程沿袭,许多公司跟踪数据谱系,但他们对处理数据的所有过程一无所知;最后,一旦你完成了测量 DataOps,所有这些数据都将真正帮助你向老板证明DataOps的价值。通过定期与团队和关键利益相关者审查和共享这些指标,能够不断改进。

最后,是企业数据操作。准备好后,你可以在组织或业务部门中扩展DataOps以及在第一、第二和第三阶段学到的一切。在这里,你将实现持久的组织变革,此步骤涉及多个组和重大流程更改。在这里你还将认识到DataOps与协作相关的全部好处。整个组织的团队,无论他们位于何处或使用何种工具,都将能够无缝合作,这将带来巨大的好处。

如今,大多数没有DataOps的团队将不到3%的时间用于运营,但那些进行DataOps的人正在接近15%,这无疑是朝着正确的方向迈出的一步。在软件领域,这一比例甚至更高约为23%。因此,企业数据运营的一个关键部分是让你的团队朝着这个方向前进。

DataOps的流程及结论

轻松支持向企业DataOps的过渡。除了技术之外,还可以帮助你在一些较软的方面取得成功。创建一个在整个组织中建立DataOps的框架,其中有六个步骤可以帮助你实现这一目标,包括教育团队了解DataOps的价值,找到第一个项目,建立感兴趣的社区,在短时间内展示价值,迭代更多用例,并在整个组织中扩展到更多用例。

如果你要把DataOps带到组织中,那么就要以敏捷和迭代的方式带来DataOps。从小处着手,进行示威,让更多人参与进来。

不要忽视软性的东西——社会证明、抵制、文化转变,想想你需要花在DataOps工程上的时间,最终能够进行衡量。

如果你在这之前一直遵循精益数据运营原则,你就已经遥遥领先了,在早期阶段取得了成功,这将使企业数据操作更容易实现。

3d86f5d337c813803df422b70ea26cba.jpeg

该如何进行DataOps?有很多方法,第一件事就是创建一些自动化的测试,不要寄托于当你从开发人员那里部署一些东西来刺激它时,证明它是有效的;第二个想法是如何降低错误率?用Excel解决了这个问题,每次有错误都会把它放在电子表格的一行,然后每三到四周就会查看错误,只找到一件需要修复的事情;第三点是改进协作。到处都是大量的数据和分析,把它全部放在Git中,这样你就能知道一切都在哪里;最后,在测量方面的跟踪,如果你有一个包含错误的电子表格,那么可以开始跟踪每周的错误数量,如果你想把东西放在Git中,那么跟踪Git中有多少代码,有多少签入和签出,计算自动测试的数量,然后为自己构建一个能够查看这些东西的仪表板。

让团队中的一些人能够专注于自动化测试、自动化部署,确保系统和分析交付无缝运行,并且你可以衡量结果。

最后,关于精益数据运营的概述能给你一些信心,让你相信现在是开始使用数据运营的最佳时机。你可以从生产数据操作开始,以此实现真正的好处并消除生产管道中的错误。然后,当你准备好进入下一阶段时,就可以按照自己的节奏进行了。

30ccdb85a169d55d31005436a5c6cdf3.png

扫码关注云原生大数据平台KDP

践行云原生DataOps

本文汲取课程精华要点,详情可关注公众号,回复关键字【第五课】,获取课程完整版文字内容。

- FIN -       

c7a09241493c6259a7ee68daa367a1ec.png

更多精彩推

  • DataOps课程:使用DataOps,如何实现快速部署?

  • DataOps课程:DataOps如何提高工作效率,降低出错率?

  • DataOps课程:如何做到先于客户发现问题?

  • DataOps课程:DataOps环境管道,如何实现一键自动化?

👇点击阅读原文,了解更多详情。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1045091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IT项目管理十大模版(三)

一、项目组成员表 要把项目组成员的名单都罗列出来,形成一个有效的团队;成员角色和职责要写清楚,职责分明、各司其职;领导审核并签字确认。 二、项目范围说明书 此表,包含了6个部分,基本情况、项目描述…

训练聊天机器人,改善客户体验

谈及对待客户,最重要的一点便是尊重他们,并尊重他们的时间。这意味着在与客户互动过程中,回应需及时有用,而且要赢得回头客尤是如此。社会约定俗成的期望是:客户能够全天候随时提出问题,并获得近乎即时的回…

终于有人能说清火爆全网的AIGC了 | 附赠试用

AIGC全称为AI Generated Content,直译为人工智能生产的内容,认为是继PGC、UGC之后的新型内容创作方式。也是现在市场最火的”AI“概念的延伸应用。 AIGC之以这么热门,主要因为其上手非常简单大大降低了创作门槛,只需用文字描述您想…

FPGA行业应用一:LED控制器

什么是LED控制器 LED控制器已经有很多年头了,应该是上世纪90年代就开始有了。它的主要构成是: 1:视频信号源——如 电脑,机机,DVD,U盘等 2:视频处理器——通过 HDMI/DVI/网口接收来自视频源的…

Tensorboard中常用的函数和类

常用函数 ①tf.summary.scalar 用于汇总标量数据,共有四个参数,格式如下: tf.summary.scalar(tags,values,collections None,name None) 例如:tf.summary.scalar(test,test) 以标量的形式显示变量test的变化。该函数一般用于表示损失值、准确率的变化情况。 ②tf.summary.h…

开利网络受邀参与生态合作伙伴和合控股“数利丰”品牌营销会议

近日,开利网络受邀出席生态合作伙伴“数利丰”品牌营销会议,就“数利丰”产品的技术能力和案例沉淀进行分享。 作为“数利丰”项目的技术支持方,开利网络创始人付立军在分享会上表示,现如今,每个企业都至少做过一套系统…

双翼邮件群发软件怎么用?怎么做邮件营销?

如何使用双翼邮件群发软件?营销邮件群发系统哪个好? 近年来,随着电子邮件在商业和个人通信中的普及,双翼邮件群发软件已经成为了一个不可或缺的工具。蜂邮EDM将深入探讨这一强大工具的使用方法,以及如何充分利用其崭新…

✔ ★ 算法基础笔记(Acwing)(六)—— 贪心【java版本】

贪心 一、 区间问题1. 区间选点2. 最大不相交区间数量3. 区间分组(用 堆top 代表区间 头头)POJ3614Sunscreen(优先队列贪心) 4. 区间覆盖 二、哈夫曼树1. 合并果子 三、排序不等式1. 排队打水 四、绝对值不等式货仓选址 五、推公式耍杂技的牛 一、 区间问题 1. 区间选点 原题…

爬虫代理请求转换selenium添加带有账密的socks5代理

爬虫代理请求转换selenium添加带有账密的socks5代理。 一、安装三方库 二、使用方法 1、在cmd命令行输入: 2、给selenium添加代理 最近因为工作需要,需要selenium添加带有账密的socks5代理,贴出一个可用的方法。 把带有账密的socks5代理&am…

Xshell安装使用教程~

简介 Xshell 是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。Xshell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。 Xshell可以在Windows界面下用来访问远端不…

iOS 视频压缩 mov转mp4 码率

最近还是因为IM模块的功能,IOS录制MOV视频发送后,安卓端无法播放,迫不得已兼容将MOV视频转为MP4发送。 其中mov视频包括4K/24FPS、4K/30FPS、4K/60FPS、720p HD/30FPS、1080p HD/30FPS、1080p HD/60FPS! 使用AVAssetExportSessi…

14. Redisson 分布式锁

Spring Cloud 微服务系列文章,点击上方合集↑ 1. 开头 在单体应用中,我们可以用Java的synchronized或lock来使用锁,但在微服务的场景下,一个应用会部署多个实例,就需要保证多个实例的多个线程同时只能有一个线程来操…

破信息壁垒,亿发一站式ERP系统建设,打造五金制造信息管理平台

五金制造拥有明显的行业特征,如体量小、品种繁多、颜色多样、加工工艺不断演进等,呈现出一种独特的管理挑战。大多数五金企业仍然依赖人工管理和经验决策,如今需要寻求更合理和科学的决策方法,以实现生产、销售、仓储、采购和财务…

无人机如何做到自动巡检?关键技术步骤分析

无人机应用在电网、水利、交通、城管等巡逻巡检领域带来了巡视效率的提升。同时飞手操作的难度和门槛、野外环境的影响、巡检结果处理难度大等带来一系列的巡检问题,自动化的无人机巡检则能很好的解决这些问题,比如我们比较熟知的自动机场,它…

【DETR】

https://tianfeng.space/ 前言 论文 代码 DETR(Data-efficient Image Transformer)是一种用于目标检测任务的深度学习模型。它与传统的目标检测方法不同,采用了Transformer架构,将目标检测问题转化为一个序列到序列的问题。以下…

【广州华锐互动】VR消防队灭火实训:让消防安全教育变得更生动有趣!

VR消防队灭火实训是一种基于虚拟现实技术的消防培训及模拟,学习如何在火灾中保护自己的自救和逃生方法、技能。这种平台可以让市民在虚拟环境中进行火灾逃生训练,提高人的消防意识和自救能力。 传统的消防培训方式通常是通过理论讲解和现场演示来进行&am…

《论文阅读27》SuperGlue: Learning Feature Matching with Graph Neural Networks

一、论文 研究领域: 图像特征点匹配论文:SuperGlue: Learning Feature Matching with Graph Neural NetworksCVPR 2020veido论文code 二、论文简述 [参考] [参考] [参考] 三、论文详述 SuperGlue:使用图神经网络学习特征匹配 本文介绍了…

【AI视野·今日Sound 声学论文速览 第十一期】Mon, 25 Sep 2023

AI视野今日CS.Sound 声学论文速览 Mon, 25 Sep 2023 Totally 1 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers Deepfake audio as a data augmentation technique for training automatic speech to text transcription models Authors Alexandre R. …

Hashable/哈希协议, Arrays/数组 的使用

1. Hashable 模型实现哈希协议 1.1 实现 /// Identifiable struct MyCustomModel: Hashable{//let id UUID().uuidStringlet title: Stringfunc hash(into hasher: inout Hasher) {hasher.combine(title)} }/// 哈希协议: 唯一标识值 struct HashableBootcamp: View {// 每个…

山西电力市场日前价格预测【2023-09-27】

日前价格预测 预测说明: 如上图所示,预测明日(2023-09-27)山西电力市场全天平均日前电价为342.48元/MWh。其中,最高日前电价为454.24元/MWh,预计出现在18: 30。最低日前电价为171.32元/MWh,预计…