企业数字化管理中,数据治理到底怎么“治”

news2024/12/26 11:13:59

随着信息化、数字化的理念、技术及其应用在社会的方方面面进行扩散,数据的规模和丰富程度已经达到了一个新的高度,所以当下如何更进一步利用好数据,充分发挥数据的价值,将其真正变为高质量的数据资产成为了企业要面对的重要问题,这也就是数据治理项目如此火热的原因。

数据治理是一个庞大的工程,数据开发人员要积极介入整个数据的上下游流程,理解多个系统的内在逻辑,才能建设出高质量的数仓,并打造数据驱动型的业务。

数据治理的目标

虽然数据治理很复杂,在企业中的实际成功率也并不高,但大多数企业的数据治理目标其实很简单,就是不断提升数据质量,规范数据生产、存储、处理、分析等数据生命周期的过程,让企业能够更方便的利用数据,将数据转化为信息和知识,形成企业的重要资产。

业务数据 - 派可数据商业智能BI可视化分析平台

所以说,企业进行数据治理不需要考虑太多数据治理有什么意义,而是应该转而思考规划数据治理项目应该有什么样的目标,从而实现什么样的企业发展,给整个数据治理项目划出一个方向。

这样一来企业进行数据治理整个项目就可以转化为一个个目标,企业在将数据价值化的过程中,影响数据价值的主要原因是数据质量过低,导致数据分析结果可信度低、准确性差,所以提高数据质量是大多数企业共同的目标。

如何数据治理

(一)上报治理

作为数据的源头,上报的质量直接关系着数仓的质量。有没有、对不对、准不准是上报发展过程中依次要解决的问题。解决这个矛盾的方向是标准化采集上报工具和简单可执行的上报规范流程。有条件的业务可以开发自己的采集上报工具(SDK),完成上报时机、采集参数位置的统一,将开发人员从每个埋点的重复开发工作中解放出来。若场景比较复杂,很难用工具进行标准化,或者数据开发人力不足,无法维持上报工具的开发与维护,可以根据自己的业务特征,制定一套简单可执行的上报规范。其中简单可执行是设计的核心,一定要让开发人员一看就明白该怎做,否则在规范设计人员看来很简单的东西,推广到几十上百人时就会变成一场理解成本灾难,那么理解的统一又成了一个问题。

企业数据 - 派可数据商业智能BI可视化分析平台

(二)参数治理

大型业务的上报参数,可能已有上千个之多。原因在于不同场景下的运营和产品团队可能是独立的,就导致了即使2个参数的相似度高达90%,但上报的字段名却是不同的。

这就是上报混乱的另一个问题:参数膨胀。对于存量业务,从熟悉业务参数到找到相似参数并进行整合,上下游配合修改,是一个比较长且比较耗费人力的操作,看到收益前的投入会非常大,但如果评估出来的收益更大,那么就需要决策者有足够的定力,去持续投入和推动。更加优雅的方式应该是前端框架的功能模块化,相同的模块具有相同的功能和上报参数命名。

(三)指标治理

指标治理来到了数仓层面,同样是由于缺乏统一规范,导致相似度很高的指标,以不同的名称在多张表中呈现,给下游的使用带来疑惑。

解决的方向之一是建立统一指标库,新增指标需要进行评审才能加入指标库并进行开发。更健康的方式应该是加深数仓和下游团队彼此的理解和信任,有些比较定制化的业务指标,可以由业务方先行计算并验证其可行性,不需要从一开始就固化在数仓层面;经过验证并确认有效的,数仓人员要想办法将其融合进现有数仓。

指标 - 派可数据商业智能BI可视化分析平台

(四)流程治理

在业务已经比较成熟的数据团队内,规范化数据开发流程可以一定程度上避免野蛮开发,提高迭代效率。DataOps是一种协作数据管理实践,将数据开发、管理、分析、运营融为一体的方法论,通过更好的协作和自动化来改善组织对于数据的使用。

(五)成本优化

因为一些历史原因,有些数据表和计算任务的使用率很低或者高度重复,造成了计算和存储资源的浪费,就像每次搬家的时候往往能发现一大堆从来没用过的东西。


1、计算资源优化

定期回顾数仓计算任务,合并类似的计算任务。

基础流水的解析,在实时任务保障稳定的前提下,离线任务可以不用例行化执行,仅作为实时任务的备份。

合理设置计算任务的所需资源,避免任务申请远超于实际需求的计算资源。

适当地用视图代替实际计算。

大屏看板 - 派可数据商业智能BI可视化分析平台

2、存储资源优化

根据数据表下游使用情况,合理设置生命周期。

针对下游数据使用的时效性,合理选择存储引擎。

及时下线数仓中已失效的字段。

适当地使用视图代替实体表。

(六)价值循环

数据治理的最终目标是更大程度地发挥数据价值,融入数据价值循环中促进正反馈。其中数据团队的话语权是能够进行深度数据治理的先决条件,数据治理的成果一般在两三年后才能慢慢显现,属于长期价值投入,如果没有一定的基础是无法坚持下去的。数据治理的结果是数据质量的提升,进而可以在部分场景下产生业务决策,促进收入的增长。在这种正向驱动的作用下,数据的价值进一步凸显,数据团队也有更多的资源来继续提升数据质量和服务水平。

经营数据 - 派可数据商业智能BI可视化分析平台

数据不是万能的。在强内容质量、特定人群共识、外部公司协作等场景下,无法仅通过数据大幅提升业务的关键指标,这时更关键的业务驱动力来源于产品设计的和运营管理,此时数据团队更多的时候是提供基础的运营数据分析,以辅助和建议为主。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/464046.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Matlab高光谱遥感、数据处理与混合像元分解及典型案例

站在学员的角度去理解“高光谱”,用大家能听的懂的语言去讲述高光谱的基本概念和理论,帮助学员深入理解这项技术的底层科学机理。方法篇,将高光谱技术与MATLAB工具结合起来,采用MATLAB丰富的工具箱,快速复现高光谱数据…

爱快 Docker NodeRed Tcp服务器远程连接试验

有一台基于4415软路由安装的ubuntu server系统,在Ubuntu上通过Docker安装了NodeRed。ubuntu通过爱快硬路由与外网连接。爱快硬路由通过动态域名和端口映射实现远程访问ubuntu。 平时通过如下命令运行NodeRed镜像: docker run -it --rm -e TZ"Asia/…

掌握这些Revit常见术语,从此BIM建模再无压力

BIM模型看似复杂,其实只要掌握模型中基本元素的概念,理清建模原理,就能轻松上手,游刃有余。 首先,我们要清楚,作为BIM主要建模软件的Revit,可以在三维空间中建立起数字化的建筑信息模型&#xf…

【更新公告】AirtestIDE更新至1.2.15版本

1. 前言 本次更新为AirtestIDE、Airtest、Poco、iOS-tagent更新。 AirtestIDE更新至1.2.15版本,Airtest更新为1.2.10版本,Poco更新为1.0.89版本,iOS-tagent重新梳理了master分支内容。更新内容详见下文。 2. 更新内容 1)Airte…

HBase之全文检索Phoenix

HBase高手之路6-HBase之全文检索Phoenix 一、全文检索 ​ 二、全文检索工具phoenix简介 三、OLTP和OLAP 1. OLAP 在线分析处理系统,hadoop、hbase、hive提供支持 2. OLTP 在线事务处理系统,传统的关系数据库支持 四、Phoenix的安装 1. 下载 2.…

企业数字化转型的核心是什么?如何才能真正做到数字化转型?

什么是数字化转型?如何才能做到数字化转型? 好像大家一直在讨论,但仍然没有一个明确的答案。 这其实很正常: 因为“数字化”一词对不同的企业来说有不同含义。它可以是从采用新技术——引入自动化操作中的任何一样东西。此外,“…

《一次性分割一切》阅读笔记

目录 0 体验 1 摘要 2 十个问题 参考文献 0 体验 体验地址:SEEM - a Hugging Face Space by xdecoder 体验结果: 将哈士奇和汽车人从图片中分割出来。 1 摘要 尽管对于交互式人工智能系统的需求不断增长,但在视觉理解(例如…

HCIP之RSTP、MSTP

目录 RSTP 相较于802.1D改进 改进1:变更了端口角色 改进点2:修改了端口的状态类型 改进3:对配置BPDU的报文内容进行修改 改进点4:对配置BPDU的处理 改进点5:快速收敛机制 改进点6:拓扑变更机制的改进…

用户画像系列——HBase 在画像标签过期策略中的应用

一、背景 前面系列文章介绍了用户画像的概念、用户画像的标签加工、用户画像的应用。本篇文章主要介绍一些画像的技术细节,让大家更加详细的了解画像数据存储和处理的逻辑 举个现实中的例子: 例子1:因为疫情原因,上线一个平台(…

使用chatgpt探索XSS问题

首先问的问题是:XSS的类型有哪些?如何有效地预防? 回答的结果来看,还是比较中规中矩的。 紧接着,第二个问题:“XSS的三种类型的区别是什么?” 只是从形成原理上分析了不同,但是&…

服务器空间不足处理与解决思路—实战docker占用空间太大

前言 服务器Centos操作系统,空间不足的问题处理了三次了,决定把它的解决思路和处理过程记录下来。服务器空间不足是一个经常会遇到的问题,尤其是在大型应用程序和网站上。当服务器空间不足时,应该采取一些步骤来处理和解决这个问…

AWT_绘图_组件绘图原理

组件绘图原理: 之前我们已经学习过很多组件,例如Button、Frame、Checkbox等等,不同的组件,展现出来的图形都不一样,其实这些组件展示出来的图形,其本质就是用AWT的绘图来完成的。 在AWT中,真正提…

idea使用 ( 三 ) 常用配置

4.常用配置 4.1.Settings 配置 接 2.3.2.设置配置 也可以 从菜单选择 设置配置 File > Settings 打开配置窗口 其中 Appearance & Behavior : 外观 与 行为 Keymap : 快捷键 Editor : 编辑器 Plugins : 插件 Version Control : 版本控制 Build, Execution,…

数据库系统--并发控制

文章目录 一、为什么要并发控制1.2 并发控制解决的问题1.2.1 脏读1.2.2 幻读1.2.3 不可重复读1.2.4 数据丢失问题 二、事务调度及可串行性2.1 事务2.1.1 事务的宏观2.1.2 事务的微观2.1.3 事务的特性 ACID 2.2 事务调度与可串行性2.3 冲突可串行化判定 三、基于封锁的并发控制方…

【MySQL高级】——存储引擎

一、查看存储引擎 show engines;二、设置系统默认的存储引擎 <1> 查看默认的存储引擎 show variables like %storage_engine%; #或 SELECT default_storage_engine;<2> 修改默认的存储引擎 1. 命令方式 SET DEFAULT_STORAGE_ENGINEMyISAM;2. 配置文件方式 …

研读Rust圣经解析——Rust learn-13(并发)

研读Rust圣经解析——Rust learn-13&#xff08;并发&#xff09; 并发创建新线程使用 join 等待所有线程结束线程获取环境所有权通过消息传递传送数据创建通道发送|接收消息隐式调用recv 共享状态并发通过使用互斥器Mutex创建Mutex共享MutexArc<T>原子引用计数 使用 Syn…

top命令学习

文章目录 一、top命令回显信息含义1、第一行2、第二行3、第三行4、第四行5、第五行6、第六行进程信息 二、top简单交互1、按数字“1”&#xff0c;显示列出所有cpu的信息2、按“M”&#xff0c;按内存使用率从大到小排序3、按“P”&#xff0c;按CPU使用率从大到小排序 一、top…

深度学习基础知识-感知机+神经网络的学习

参考书籍&#xff1a;&#xff08;找不到资源可以后台私信我&#xff09; 《深度学习入门&#xff1a;基于Python的理论与实现 (斋藤康毅)》 《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition (Aurelien Geron [Gron, Aurlien])》 机器学习…

(转)mysql数据库安装指南

如果你的电脑是mac&#xff0c;参考社群会员 奔跑的土豆 的分享&#xff1a; https://http://zhuanlan.zhihu.com/p/37942063232 赞同 162 评论文章 如果你的电脑是windows&#xff0c;参考下面的安装步骤。 一、下载mysql数据库 进入MySQL官方网站&#xff08;MySQL Co…

ARM Cortex-R52 通用中断控制器GIC:Generic Interrupt Controller(一)

ARM Cortex-R52 GIC:Generic Interrupt Controller 前言&#xff1a;名词解释 英文缩写英文全称&#xff08;中文释义&#xff09;GICgeneral interrupt controllerITSInterrupt Translation Service:用来解析中断SPIShared Peripheral InterruptsPPIPrivate peripheral inte…