数据资产管理:数据目录怎么搞?

news2024/11/16 21:29:01

         经过了站在业务视角的自上而下的数据梳理,以及站在IT视角的自下而上的数据盘点,一套“热腾腾”的数据资产清单终于新鲜出炉了。

         通过数据资产盘点,企业终于知道他们拥有哪些数据、如何使用数据、是否安全以及数据在哪里。 然而,据笔者观察,业内大多数的数据资产盘点工作是通过手工作业的方式进行的,使用Excel工具进行记录。请不要小瞧这种方式,Excel手工盘点数据资产的方式之所以是主流,证明其简单易用、方便灵活、协作敏捷的特点是被广泛认可的。这里要提醒广大的数据产品经理们注意了:如果你能涉及出一款比Excel还灵活、好用的数据盘点工具,一定会大受欢迎!可能有人要问,数据梳理的再好,盘点的再清晰,那输出的也只不过是一堆Excel,对企业没有什么价值啊?

       是的。这个时候就需要“数据资产目录”来发挥他的作用了!

01 数据资产目录是什么?

        我经常将书的目录与数据目录进行类比,翻开一本书的目录,它会告诉你这本书写了啥、内容结构、作者的写作思路等,如果你对某一章节感兴趣,通过目录就可以快速找到这想看的内容。图书目录起到提纲挈领,纲举目张的作用。

        数据资产目录也一样,它也有都有“字典”的作用,能够帮助企业相关业务和技术人员快速定位数据,解释数据,找到数据,并从中提取业务价值。

1、数据资产目录的本质

      数据资产目录本质上就是一个元数据的存储库,它提供特定范围内所有数据资产的清单,无论其位置或来源如何。数据目录包括有关数据资产的关键属性信息,例如:名称、业务含义、类型、大小、模式和其他相关属性。

      数据资产目录支持数据治理,包括:数据的分类分级,数据权限的管理,识别冗余和不一致的数据并为数据血缘分析和影响分析奠定了基础。

2、数据资产目录与数据目录

       数据资产目录和数据目录本质上是一样的,都是元数据管理。

       在项目实践中,数据目录也叫数据资源目录,一般是指通过元数据管理工具,对相关数据源(业务系统数据库、数据仓库、数据湖等)的元数据进行采集,而形成的数据目录。由于直接采集过来的基本都是数据库表结构、数据流、ETL脚本、数据库操作日志等技术元数据,所以数据目录要有一定的技术基础才能看懂,而且它的定位就是给技术人员看的。

       而数据资产目录是数据目录的子集,更多是站在业务的视角,以利益相关者的数据需求为目标对那些预期能够为企业带来价值的数据进行分类分级,业务元数据定义、打标签,授权等。请参考:《数据资产管理:企业的数据资产怎么盘?》

02 数据资产目录为何如此重要?

        数据驱动是企业数字化转型的重要手段,而这一目标的需要业务人员能够快速定位、充分理解和有效利用数据。随着企业数据体量的不断增多和数据结构复杂度的增加,数据资产目录在企业数字化转型过程中,将发挥越来越大的作用。

1、数据资产目录对业务人员至关重要

        通常情况下,说到管理数据、准备数据、分析数据,那都是IT的事,业务用户对 IT 的技术语言和工具感到困惑。然而,只有让业务人员能够随时找到和理解了数据,才能将其转化为有用的信息和有价值的业务洞察力,以便指导业务实施改进。如果跨部门的关键业务决策者不能信任数据,如果他们无法理解数据,如果他们找不到数据,那么他们就无法利用数据来发现他们的业务问题,优化他们的业务。

       数据资产目录是一个有组织的数据资产清单,他不仅包含了IT人员擅长的数据库表、数据结构、数据流等技术元数据,还包含了数据的数据定义、同义词、使用方式、存储位置、数据所有者、数据管理者、数据上架时间等关键业务属性。数据资产目录为业务人员提供了一个理解数据、集中定位数据、快速访问和评估数据的入口,以便更快、更有效地进行数据洞察和分析。

        数据资产目录通过识别数据所有者、管理者和主题专家来实现跨部门协作,因此业务人员在遇到紧急的数据问题时知道该去哪里找。数据资产目录屏蔽了底层技术复杂性,提供了数据血缘的查询能力,使业务用户能够了解其数据的来源以及数据流转和加工的全链路,而无需或不必了解底层的数据采集、加工算法和过程。借助数据资产目录,业务用户可以轻松沟通并确保他们使用正确的数据,以便在正确的时间以正确使用获得最大的结果。

2、数据资产目录不只服务于业务人员

       除了业务人员,数据资产目录的用户还包括数据分析师、数据工程师、数据科学家、数据管理员和CDO等用户,他们无不希望能够轻松访问到可靠的数据。

       数据分析师可以通过数据资产目录了解和分析现有数据,例如:数据结构、数据安全性和数据质量,极大地增强了数据分析建模能力。

        数据科学家可以通过数据资产目录进行相关数据的探索,通过利用不同的数据集并构建和评估更复杂的数据模型和算法,从数据中获取更多的洞察力。

        数据工程师可以通过数据资产目录盘查数据链路中的相关问题,判断某个数据的更改将对整个系统产生哪些影响,分析不同数据集的数据结构,建立业务元数据和物理库表字段的映射等。

        数据管理员可以通过数据资产目录实时查看数据状态,监控数据的质量,控制数据访问权限,对关键数据定义数据标准,并监测贯标情况等。

        对于数据所有者,CDO等角色,数据资产目录可以帮助提高运营效率并降低成本。

       最后,数据资产目录为每个用户提供了授权和访问控制机制,让每个人都在其可访问的级别更轻松地在整个企业中查找和发现数据。

03 数据资产目录有哪些功能?

       数据资产目录不是一个单独的系统,它是数据资产管理的重要组成功能,数据资产目录需要配合其他数据管理工具使用,才能发挥其重要的价值。根据笔者的实践和观察,一个优秀的数据资产目录,可能与数据管理组件都相关。

1、元数据采集

        数据资产目录支持连接多个数据源,从不同结构的数据源中提取元数据,包括:本地部署的数据源,云中的数据源,物联网IoT数据源,非结构化数据源等。自动化元数据采集能够帮助用户了解整个企业的数据结构和关系,使企业能够自动分析和发现不哪些不易发现,但却蕴含价值的数据。

2、元数据管理

       数据资产目录应支持分类分级、关联映射,打标签,用户自定义注释,敏感字段识别等形式,对采集的元数据进行管理,以便让用户更容易理解和查找数据。这里的元数据包括了技术元数据和业务元数据。技术元数据描述了数据的详细的存储位置和结构,例如数据库、字段和列信息,使IT人员能够了解数据的物理存储。业务元数据为用户提供清晰的业务上下文,包括数据定义、同义词和业务属性,帮助用户了解数据与其他数据集的关系以及发现数据的流动和依赖关系。

3、数据血缘

        数据血缘反义了数据在整个企业中的端到端流动情况,作为数据资产目录的一部分,它在数据整个生命周期中提供跟踪和追溯,以了解数据的来源、转换情况以及谁在使用它。通常,数据血缘是元数据管理的重要功能之一,记录并展示了系统、表、视图、字段等之间的关系,并采用DAG(有向无环图)的模式进行可视化展现。简单地说就是可视化地展示这个数据是怎么来的,经过了哪些过程和阶段。

4、数据标准

        一个数据要从数据资源转化为数据资产必须要对其进行标准化定义,一个典型的实践是“业务术语表”。通过数据资产目录,建立数据标准与技术元数据的关联映射,是实现数据标准贯标的重要手段。

5、数据发现

        数据资产目录支持自助服务,允许用户轻松访问和理解他们的数据,而无需依赖 IT 的支持。通过自动化的数据标记、分类和关系映射,用户可以使用关键字、过滤器、 查询条件等进行数据搜索,以定位、访问和查询数据。数据发现还提供对数据当前状态的实时可见性,例如:数据是如何被采集、整合和使用的,是最新的数据、还是过时的数据。

6、数据申请/审批

        数据资产目录为用户提供了一个基于元数据的数据资产清单,但是并不是所有用户都对这个清单拥有全局权限。每一个数据资产都是需要经过确权认责后才能纳入数据资产目录的,只有权限范围内的用户才能访问相关数据。数据资产目录支持申请/审批功能,为用户提供了一个访问更多数据的机会,以提升数据资产的利用率。

7、数据API服务

       用户通过数据资产目录可以找到所需的数据,数据资产目录不仅是告诉你:数据是什么(定义),它在哪里(位置)以及该如何访问它(所有者),一般还会提供一个基于数据目录生成数据服务API的功能,以帮助用户实现数据的集成共享。

8、数据资产监控

       提供数据资产监控功能,以热力图的形式展示哪些数据应用价值高,通过使用次数、使用对象、使用效果评价等指标对数据资产应用情况进行评估。根据数据资产使用情况,对数据资产目录进行重新组织,最大化释放数据资产价值。

04 数据资产目录的建设步骤

第 1 步:数据资产盘点

        数据资产盘点是使用科学的数据盘点方法,以“摸清家底”为目标,对企业的数据资源进行统筹规划,全面梳理。一方面,从业务视角对数据资源进行梳理和规划,包括:制度文件的解读、流程表单梳理、关键数据的识别等,并定义数据的分类体系和数据资产的业务属性。另一方面,从技术视角对系统数据进行盘点,包括:数据关系、数据结构、数据存量、数据增量、存储方式等,梳理数据资产的技术属性。

       数据资产盘点的方法和步骤在《数据资产管理:企业的数据资产怎么盘?》有详细的描述,此处不再赘述。

第 2 步:数据资产登记

        根据数据盘点结果,在数据资产目录完成数据资产概要信息的登记。数据资产登记主要包含三个方面信息:第一,业务方面,例如:数据资产名称,所属数据域,所属数据分类、数据资产描述等;第二,技术方面,数据资产位置(哪个系统,那张表),数据资产类型(结构化数据/非结构化数据),数据资产方式(数据库/文件/API接口)等;第三,管理方面,数据资产所有者(归口部门),数据资产管理员,数据资产上架时间,

         数据资产共享条件等。数据资产登记可以采用人工方式(据笔者观察目前大多数是采用这种方式)或者基于AI的数据资产识别。

第 3 步:采集元数据

        在登记完数据资产基本信息后,接下来关键一步是采集数据资产的元数据。数据资产目录使用元数据来识别数据表、文件和数据库。元数据采集爬取公司的数据库并将元数据(不是实际数据)带到数据资产目录中。由于数据资产分布在不同的位置,元数据采集的范围包括:

  • 关系数据库 - Oracle、SQL Server、MySQL、DB2 等。

  • 数据仓库 - Teradata、Creenplum等。

  • 存储对象的元数据。

  • 云平台 - 阿里云、微软 Azure Data Lake、AWS 的Athena 和 Red Shift。

  • 非关系/NoSQL 数据库 - Cassandra、MongoDB。

  • Hadoop大数据平台的相关元数据采集。

  • BI平台,Tableau、Power BI、国产BI软件等。

  • ETL工具,Kettle、DataStage、Informatic等。

第 4 步:标记数据关系

       标记关系是管理数据资产的一个重要步骤,通过这一步,用户可以跨多个数据库发现相关数据。例如,分析师可能需要整合的客户信息。通过数据资产目录,发现五个不同系统中的都有客户数据。有了数据目录的帮助,可以构建一个实验区域,在那里可以连接所有数据,清理数据,然后使用合并的客户数据来实现业务目标。

为表“Accounts”标记的关系示例如下:

第 5 步:建立血缘关系

      标记关系后,数据目录会构建血缘,。数据血缘的可视化表示有助于跟踪从源到目的地的数据,它解释了数据流中涉及的不同过程。数据分析师能够根据数据血缘追溯分析中错误的根本原因。通常,ETL(Extract、Transfer、Load)工具用于从源数据库中提取数据、转换和清洗数据并将其加载到目标数据库中。

一些可以解析血缘关系的ETL工具包括:SQL解析、Alteryx、Informatica、Talend等。

第 6 步:数据资产组织

        采集过来的元数据以技术格式排列,缺少表、列的中文注释,不利于业务人员理解数据。这时候需要基于这些技术元数据构建语义层,对相关数据表、列进行中文标记,以便业务人员能够发现、访问和理解它们。

  • 标记——创建数据语义层

  • 按使用量组织——数据资产热力图

  • 按特定用户使用情况进行组织——推送至用户的数据门户

  • 自动化组织,可以高级算法来组织数据

写在最后:数据治理与数据资产目录

        数据治理定义了数据管理的总体策略,规定了数据管理的组织、制度和流程,明确了数据的权属,定义了数据标准,为数据资产管理指明方向。数据资产目录是数据治理策略的具体执行,以业务友好的方式展示企业的数据资产和位置,帮助用户更好地找到、理解和使用他们的数据。

        数据资产目录的建设是数据治理中重要的一环,创建可访问的数据资产目录允许非技术人员定位和利用整个企业的数据,并自动发现企业系统中的数据源,包括业务、技术和流程的数据血缘提供了完整的数据透明度,因此用户可以了解数据的来源、流程和依赖关系,以及数据从源头到完成和消费的流向。因此,用户可以快速发现数据的影响,使其适合企业业务流程并做出更明智的数据决策。

       数据资产目录的构建是实现自助数据准备,自助数据分析的前提。基于数据资产目录,业务数据分析师可以企业有哪些可用数据资源或已更新的数据资产,知道谁是数据所有者,以及这些数据资产位于哪里、如何处理它。最重要的是,基于数据资产目录可以提高定位和查询数据的速度和效率,以推动数据的使用,从数据中获得洞察力,增强企业竞争力。

参考文献:

https://www.icode9.com/content-4-960194.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/985126.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库误修改后的数据恢复

一不小心将数据库数据修改了,而且回滚无效,于是去尝试各种方法恢复数据 查询到修改时间点之前的数据 恢复数据 恢复数据库被修改数据的流程及代码,这里被修改的表是AUTH_USER,实际应用填写对应表名。 -- 通过时间恢复删除且已提交的数据-- 1…

Jenkins安装配置及插件安装使用

个人理解持续集成:为解决程序代码提交质量低,提交内容导致原有系统的BUG,按时或按需自动编译版本,进行自动化测试。 百度对持续集成的定义:持续集成是一种软件开发实践,即团队开发成员经常集成他们的工作,…

配额 安排

一 常用Tcode 基于Tcode的顺序排列 供应商主数据物料主数据货源清单配额安排采购信息记录采购订单框架协议采购询价/报价采购申请订单收货发票校验物料需求计划BP-供应商主数据MM01 - 物料主数据新增ME01 - 维护MEQ1 - 维护ME11 - 创建ME21N - 创建框架协议-合同&#xff1a…

Qt6_贪吃蛇Greedy Snake

贪吃蛇Greedy Snake 1分析 首先这是一个贪吃蛇界面,由一个长方形边框和一只贪吃蛇组成 默认开局时,贪吃蛇身体只有3个小方块,使用画笔画出 1.1如何移动 对于蛇的移动,有2种方法 在一定时间范围内(定时器),未对游戏…

谷歌 reCAPTCHA 人机验证

一、问题 smogon 论坛注册不成功。输入账号、密码、邮箱后显示 You did not complete the CAPTCHA verification properly. Please try again. 即未通过 CAPTCHA 验证。 二、原因 使用的 CAPTCHA 验证是谷歌的 reCAPTCHA 人机验证,国内无法访问谷歌服务。 三、解决…

分页查询实现

目录 1.实体类 2.Mapper层 2.1.xxxMapper接口 2.2.xxxMapper.xml文件 3.Service层 3.1.xxxService接口 3.2.xxxServiceImpl层 4.xxxController层 5.调用接口 6.总结 1.实体类 与数据库交互和与前端交互的实体类 这个Model是与数据库交互的实体类,其中的…

python调用GPT实现:智能用例生成工具

工具作用: 根据输入的功能点,生成通用测试点 实现步骤 工具实现主要分2个步骤: 1.https请求调用Gpt,将返回响应结果保存为.md文件 2.用python实现 将 .md文件转换成.xmind文件 3.写个简单的前端页面,调用上述步骤接口 详细代…

7个数据科学Python库将为您节省大量时间

7个数据科学Python库将为您节省大量时间 在进行数据科学时,您可能会花费大量时间编写代码并等待计算机运行某些操作。我挑选了一些可以在这两种情况下节省您时间的Python库。即使您只将其中一个库纳入您的工具库,您仍然可以在下次项目工作时节省宝贵的时…

揭示OLED透明屏数据:探索未来显示技术的潜力

OLED透明屏作为一项颇具吸引力的显示技术,以其独特的特点和卓越的画质在市场上引起了广泛关注。 在这篇文章中,尼伽将和大家一起深入探索OLED透明屏的数据,通过具体的市场趋势分析、技术指标解析、应用领域探讨和未来前景展望,为…

【C++基础】实现日期类

​👻内容专栏: C/C编程 🐨本文概括: C实现日期类。 🐼本文作者: 阿四啊 🐸发布时间:2023.9.7 对于类的成员函数的声明和定义,我们在类和对象上讲到过,需要进行…

mac 查看端口占用

sudo lsof -i tcp:port # 示例 sudo lsof -i tcp:8080 杀死进程 sudo kill -9 PID # 示例 sudo kill -9 8080

“搞事情”?OpenAl将于11月召开其首届开发者大会

摘要:OpenAI也要召开它的第一届开发者大会了。这次活动,或许标志着OpenAI向其下一阶段的商业开发迈出了关键一步。 昨天,OpenAI宣布将于11月6日举办其首次开发者大会。在这场名为“OpenAI DevDay”的活动中,OpenAI的技术人员将进行…

欧科云链与HashKey Exchange达成合作,助力香港虚拟资产合规化

继8月10日 欧科云链 与 华为云 达成合作之后, 今天,欧科云链 又与 Hashkey Exchange 共同宣布正式达成合作! 这次与Hashkey达成合作,双方又将在Web3行业中谱写怎样的故事? 9月6日,欧科云链控股有限公司&…

2023 年高教社杯全国大学生数学建模竞赛题目 C 题 蔬菜类商品的自动定价与补货决策

C 题 蔬菜类商品的自动定价与补货决策 在生鲜商超中,一般蔬菜类商品的保鲜期都比较短,且品相随销售时间的增加而变差, 大部分品种如当日未售出,隔日就无法再售。因此,商超通常会根据各商品的历史销售和需求情况每天进…

生物通路数据库收录1600+整合的经典通路

生物通路数据库为科学家提供了关于生物通路的大量信息和资源,特别是在数据整合、信息检索、数据可视化分析、数据交互、生物学研究等方面,积极推动了生物学研究和科学的发展。 世界各地正在创建各种类型的通路数据库,每个数据库都反映了其创…

快递批量查询高手必备的实用工具

在网购日益普及的今天,我们经常需要查询快递的物流信息。但是,传统的查询方式一个一个地输入快递单号,不仅费时费力,还容易出错。有没有一种方法可以批量查询多个快递单号呢?答案是肯定的,今天我们就来介绍…

2140. 解决智力问题;1401. 圆和矩形是否有重叠;901. 股票价格跨度

2140. 解决智力问题 核心思想:动态规划。dp[i]表示解决i-n-1的问题所能获得的最高分数,注意需要倒叙遍历,因为i的状态由后面的状态转移过来的。 1401. 圆和矩形是否有重叠 核心思想:分情况讨论,圆心情况。借用别人一张图说明。 …

JWT-Token升级方案

1. 介绍 JWT是JSON Web Token的缩写,即JSON Web令牌,是一种自包含令牌。 是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息,以便于从资源服务器获取资…

ATFX汇市:美联储褐皮书透露就业市场新动向,美元指数中期多头趋势延续

ATFX汇市:今日2:00,美联储发布褐皮书,关于就业市场,其中提到:全国就业增长乏力,大多数地区的劳动力成本压力增长加剧,企业预计工资增长将在短期内普遍放缓。从7月、8月的非农就业报告当中&#…