【图书推荐】《数据资产管理核心技术与应用》

news2024/12/28 19:13:01

内容简介

《数据资产管理核心技术与应用》深入探讨数据资产管理的核心技术与应用,融入作者在大数据领域多年的丰富经验。《数据资产管理核心技术与应用》为读者提供一套可以落地的数据资产管理框架,并详解两个基于该框架进行数据资产管理的应用案例,使读者能更好地了解数据资产管理底层所涉及的众多核心技术,让数据可以发挥出更大的价值。本书配套PPT课件、示例源代码、作者微信群答疑服务。

全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

适合读者

适合数据资产管理者、数据资产管理初学者、数据应用开发工程师、数据分析师、数据库管理员、架构师、产品经理、技术经理作为技术参考书,也适合高等院校或高职高专数据资产管理相关课程的教学参考书。

作者简介

张永清,从事功能测试、自动化测试、性能测试、Java软件开发、大数据开发、架构师等工作十多年,在自动化测试设计、性能测试设计、性能诊断、性能调优、分布式架构设计等方面积累了多年经验。参与过的系统涉及公安、互联网、移动互联网、大数据、人工智能等领域。先后任职于江苏飞搏软件、苏宁大数据研发中心、苏宁研究院、苏宁人工智能研发中心、紫金普惠研发中心、福特汽车工程研究有限公司,历任测试经理、技术经理、部门经理、高级架构师等职位。重点关注大数据、图像处理、高性能分布式架构设计等领域。著有图书《软件性能测试、分析与调优实践之路(第2版)》《软件性能测试、分析与调优实践之路》《Robot Framework自动化测试框架核心指南》。

前言

随着互联网技术的稳步发展以及人工智能时代的到来,我们已经迈入了一个数据激增的时代。每时每刻都在产生大量的数据,数据的格式和种类也在不断增加。与此同时,大数据技术和架构也在不断变革。传统的数据仓库已经无法满足海量数据的存储和分析需求,于是出现了数据湖以及湖仓一体的新型大数据技术架构。由此可以看到,随着大数据的发展,数据存储和分析会变得越来越复杂,海量数据的管理也会变得越来越重要。同时,随着人工智能技术越来越成熟,海量数据可以更好地服务于人工智能的模型训练,让人工智能变得更加准确。

本书从技术与应用两个角度讲述了如何管理数据资产、解决数据资产管理中面临的诸多技术痛点,从而让数据终端用户或者数据分析师等能快速找到自己想要的数据,让数据可以发挥出更大的价值。

关于本书

本书聚焦数据资产管理的核心技术与应用,作者分享了多年大数据工作中积累的相关技术与经验,旨在为读者提供一套可以落地的数据资产管理框架,基于该框架进行数据资产管理实践,让读者能更好地学习和理解数据资产管理底层所涉及的众多核心技术。

本书内容可以分为如下三个部分来理解:

(1)第1章,主要让读者认识数据资产,了解数据资产相关的基础概念及其发展情况。

(2)第2~8章,主要介绍大数据时代数据资产管理包含的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等,全面介绍数据资产管理底层所涉及的核心技术。

(3)第9~10章,主要从实战的角度介绍数据资产管理的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

配套资源下载

本书配套PPT课件、示例源代码、作者微信群答疑服务,需要读者用自己的微信扫描下方的二维码下载。如果在学习本书的过程中发现问题或有疑问,可发送邮件至booksaga@163.com,邮件主题写上“数据资产管理核心技术与应用”。

本书作者

本书第1章由张永清和王函共同写作,第2~3章由张永清写作,第4章由蒋彪和张永清共同写作,第5~8章由张永清写作,第9~10章由赵伟写作。

鸣谢

感谢清华大学出版社的编辑们对本书的出版所做出的贡献。

感谢福特中国新能源技术、数字化及整车硬件研发执行总监陈兵为本书写推荐序。

感谢白鲸开源联合创始人、Apache基金会正式成员、Apache孵化器导师、Apache DolphinScheduler PMC Chair、Apache SeaTunnel PMC、ApacheCon亚洲大数据湖仓论坛出品人、中国开源先锋、中国科协“2023开源创新榜”优秀人物代立冬为本书写推荐序。

感谢Databricks高级架构师吴舒对本书的技术指导。

感谢福特中国数字化高级经理周扬对本书的特别点评和支持。

感谢部门同事以及身边的众多朋友对本书的支持。

感谢江苏省交通通信信息中心朱雷雷为本书写推荐序。

由于作者水平和时间的限制,书中难免存在疏漏之处,还望见谅并帮忙指正,也恳请读者提出更多宝贵的意见和建议。

张永清于南京

2024年5月

目录

目    录
第 1 章  认识数据资产 1
1.1  数据资产的基本介绍 1
1.2  数据资产的分类 4
1.3  数据资产的价值评估 5
1.4  数据资产的质量 6
1.5  数据资产的存储 6
1.6  数据资产管理 9
1.7  数据资产管理的信息化建设 11
1.8  数据资产与人工智能 11
第 2 章  元数据的采集与存储 13
2.1  Hive中的元数据采集 14
2.1.1  基于Hive Meta DB的元数据采集 14
2.1.2  基于Hive Catalog的元数据采集 18
2.1.3  基于Spark Catalog的元数据采集 21
2.2  Delta Lake中的元数据采集 29
2.2.1  基于Delta Lake自身设计来采集元数据 31
2.2.2  基于Spark Catalog来采集元数据 32
2.3  MySQL中的元数据采集 34
2.4  Apache Hudi中的元数据采集 41
2.4.1  基于Spark Catalog采集元数据 42
2.4.2  Hudi Timeline Meta Server 43
2.4.3  基于Hive Meta DB采集元数据 47
2.5  Apache Iceberg中的元数据采集 49
2.5.1  Iceberg的元数据设计 50
2.5.2  Iceberg元数据的采集 54
2.6  元数据的存储模型设计 56
2.6.1  如何对元数据进行整合 56
2.6.2  元数据的存储模型设计 57
第 3 章  数据血缘 59
3.1  获取数据血缘的技术实现 59
3.1.1  如何从Hive中获取数据血缘 60
3.1.2  从Spark执行计划中获取数据血缘 66
3.1.3  从Spark SQL语句中获取数据血缘 82
3.1.4  从Flink中获取数据血缘 91
3.1.5  从数据任务的编排系统中获取数据血缘 92
3.2  数据血缘的存储模型与展示设计 94
第 4 章  数据质量的技术实现 98
4.1  质量数据采集的技术实现 100
4.1.1  定义数据采集的规则 100
4.1.2  定时Job的技术选型 103
4.2  如何处理采集到的质量数据 109
4.3  质量数据的存储模型设计 110
4.4  常见的开源数据质量管理平台 112
4.4.1  Apache Griffin 112
4.4.2  Qualitis 113
第 5 章  数据监控与告警 116
5.1  数据监控 116
5.1.1  数据监控的种类 116
5.1.2  监控数据的特点与存储方式 117
5.2  常见的数据监控目标 118
5.2.1  数据链路监控 118
5.2.2  数据任务监控 124
5.2.3  数据质量监控 125
5.2.4  数据服务监控 125
5.2.5  数据处理资源监控 126
5.3  Prometheus简介 128
5.4  Grafana简介 135
5.5  使用Grafana和Prometheus来实现数据监控与告警 138
5.5.1  数据链路的告警实现 138
5.5.2  数据任务的告警实现 141
5.5.3  数据质量的告警实现 142
5.5.4  数据服务的告警实现 142
5.5.5  数据处理资源的告警实现 143
第 6 章  数据服务 146
6.1  如何设计数据服务 146
6.1.1  数据源管理 148
6.1.2  数据服务的敏捷化和可配置化 148
6.1.3  数据服务文档的自动生成 151
6.1.4  数据服务的统一认证与鉴权 151
6.1.5  数据服务的监控与告警 153
6.2  数据服务的性能 155
6.3  数据服务的熔断与降级 159
第 7 章  数据权限与安全 163
7.1  常见的权限设计模式 163
7.1.1  基于角色的访问控制 164
7.1.2  基于属性的访问控制 165
7.1.3  基于对象的访问控制 165
7.2  数据权限 166
7.2.1  列权限控制 167
7.2.2  行权限控制 170
7.3  数据脱敏 171
7.4  数据安全 174
第 8 章  数据资产架构 176
8.1  数据资产的架构设计 177
8.1.1  数据获取层 177
8.1.2  数据处理层 178
8.1.3  数据存储层 180
8.1.4  数据管理层 182
8.1.5  数据分析层 182
8.1.6  数据服务层 183
8.2  常见的开源数据资产管理平台 185
8.2.1  Apache Atlas 185
8.2.2  Data Hub 186
8.2.3  OpenMetadata 189
第 9 章  元数据管理实践 193
9.1  如何理解元数据 194
9.1.1  为何需要元数据 194
9.1.2  如何让元数据产生更大价值 195
9.1.3  元数据分类及其好处 196
9.1.4  元数据管理 198
9.1.5  参与角色 201
9.2  元数据管理 202
9.2.1  元数据模型的组织关系 202
9.2.2  元数据的采集 204
9.2.3  业务域设计 205
9.2.4  业务术语设计 209
9.2.5  元数据标签设计 212
9.2.6  数据Owner 214
9.2.7  数据生命周期 215
9.2.8  元数据注册和发布 216
9.2.9  核心功能介绍 218
第 10 章  数据建模实践 224
10.1  什么是数据建模 224
10.1.1  数据模型分类 224
10.1.2  数据建模方法 227
10.2  数据仓库建模架构 229
10.3  关系型数据建模 231
10.3.1  概念模型阶段 231
10.3.2  逻辑模型阶段 235
10.3.3  物理模型阶段 238
10.4  维度建模 240
10.4.1  基本概念 240
10.4.2  维度表设计 246
10.4.3  事实表分类 250
10.4.4  基于维度建模的数据分析实践 251
参考文献 253

正版购买

《数据资产管理核心技术与应用 张清 赵伟 蒋彪 王函 清华大学出版社9787302666998》【摘要 书评 试读】- 京东图书 (jd.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1987971.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[米联客-安路飞龙DR1-FPSOC] UDP通信篇连载-09 ICMP层程序设计

软件版本:Anlogic -TD5.9.1-DR1_ES1.1 操作系统:WIN10 64bit 硬件平台:适用安路(Anlogic)FPGA 实验平台:米联客-MLK-L1-CZ06-DR1M90G开发板 板卡获取平台:https://milianke.tmall.com/ 登录“米联客”FPGA社区 ht…

github技巧和bug解决方法短篇收集

有一些几句话就可以说明白的观点或者解决的的问题,小虎单独收集到这里。 Commits没有算入每天的activity fork的仓库是不算的。 Commits made in a fork will not count toward your contributions. 参考: Contribution activity not shown for github…

win7一键修复所有dll缺失详细方法,7个dll修复方法深度解析(2024)

dll文件是一种包含函数和其他关键信息的文件,供 Windows 应用程序使用。虽然大多数普通用户对.dll 文件的具体工作原理并不熟悉,但这些文件对于系统应用来说是至关重要的。通常情况下,人们在遇到因 DLL 文件缺失或损坏而导致的错误时&#xf…

Vue3+Ts项目中经常遇到导入组件,vscode报无法找到模块xxx,xxx隐式拥有 “any“ 类型解决办法~

1、报错截图: 2、解决办法:在确保路径正确的情况下,你会在 src 目录下找到一个名为 env.d.ts 的文件(或者类似的名称)。在这个文件中,你可以声明 .vue 文件的模块类型。例如:(这告诉 TypeScript…

探索Cohere的Prompt Tuner:革新你的提示优化工具

在今天的文章中,我们将深入探讨Cohere的Prompt Tuner。这是一款在你指尖的提示优化工具,至少这是他们所宣称的。Prompt Tuner的主要理念是,它提供了一种最简化、最标准化的方式来生成你所需要的提示。而最棒的部分是,你不需要成为…

vtkConnectivityFilter提取连通区域中的问题

直接使用vtkConnectivityFilter提取连通区域&#xff0c;渲染上没问题&#xff0c;但是打印出polydata中的点数&#xff0c;发现跟原始数据是一致的。 for (int i 0; i < numRegions; i){vtkSmartPointer<vtkConnectivityFilter> connectivityFilter vtkSmartPointe…

嵌入式人工智能(树莓派4B基础实验代码等)

本专栏收录了近40个实验,含全部实验代码,都已经打包。 1、简介 本实验平台为树莓派4B,处理器4核ARMV8架构-A72,内存8G版本,SD卡容量为64G。操作系统版本lsb_release -a 操作系统内核为uname -a 本专栏收录了树莓派系统的基本知识,环境基本配置,常用Linux系统操作、基…

Ecovadis丨Ecovadis认证丨Ecovadis评估

EcoVadis 是以下这样的一个存在和具有以下这些特点等&#xff1a; 背景方面&#xff1a; 它源自法国 &#xff0c;前身由“携手实现可持续发展 - 全球化学联盟&#xff08;TFS - CI&#xff09;”、“联合国全球契约组织&#xff08;UN Global Compact&#xff09;”、IPE公众…

<数据集>腐烂水果识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;3304张 标注数量(xml文件个数)&#xff1a;3304 标注数量(txt文件个数)&#xff1a;3304 标注类别数&#xff1a;6 标注类别名称&#xff1a;[good apple, bad apple, good orange, bad orange, good banana, bad …

从“抠图”到“抠视频”,Meta上新AI工具SAM 2。

继2023年4月首次推出SAM&#xff0c;实现对图像的精准分割后&#xff0c;Meta于北京时间2024年7月30日推出了能够分割视频的新模型SAM 2&#xff08;Segment Anything Model 2&#xff09;。SAM 2将图像分割和视频分割功能整合到一个模型中。所谓“分割”&#xff0c;是指区别视…

Python 如何处理命令行参数(argparse)?

在Python编程中&#xff0c;处理命令行参数是一项非常重要的技能&#xff0c;特别是在编写可执行脚本或工具时。Python的标准库提供了一个强大的模块来处理命令行参数&#xff0c;即argparse模块。 一、argparse模块简介 argparse模块是Python标准库中用于解析命令行参数的模…

达梦数据库的系统视图v$mem_pool

达梦数据库的系统视图v$mem_pool 达梦数据库的V$MEM_POOL视图主要用于显示所有内存池的信息。通过查询这个视图&#xff0c;用户可以监控数据库中各个内存组件的使用状况&#xff0c;包括内存池的大小、使用情况等。这有助于用户判断内存池是否空闲或紧张&#xff0c;从而进行…

使用消息队列完成两个进程之间相互通信

/*执行两个程序&#xff0c;程序间通过一个消息队列实现同时收发消息*/ #include <myhead.h>// 消息队列的大小 #define SIZE (sizeof(struct msgbuf) - sizeof(long)) // 消息队列结构体 struct msgbuf {long mtype; // 消息类型char mtext[1024]; // 消息内容 };…

微服务面试必读:拆分、事务、设计的综合解析与实践指南

谈谈你对微服务的理解&#xff0c;微服务有哪些优缺点&#xff1f; 首先&#xff0c;微服务是对传统单体架构的一种优化。当一个单体架构随着业务的增加而变得臃肿时&#xff0c;微服务通过将业务拆分成小的独立单元来进行优化。 微服务的优点有以下几点&#xff1a; 业务清…

SpirngCloud+Vue3通过id批量修改某一个字段的值

♥️作者&#xff1a;小宋1021 &#x1f935;‍♂️个人主页&#xff1a;小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识&#xff0c;和大家一起努力呀&#xff01;&#xff01;&#xff01; &#x1f388;&#x1f388;加油&#xff01; 加油&#xff01…

MiniCPM 多模态VLM图像视频理解代码案例

参考: https://huggingface.co/openbmb/MiniCPM-V-2_6 https://github.com/OpenBMB/MiniCPM-V 效果很好,20g现场可以运行: 下载模型 export HF_ENDPOINT=https://hf-mirror.comhuggingface-cli download --resume-download --local-dir-use-symlinks False openbmb/MiniC…

公司居然还在用zookeeper,吓得我马上学习了相关命令

zookeeper的数据结构优点类似linux系统中的文件系统&#xff0c;例如/opt/mysql&#xff0c;/usr/local&#xff0c;都是可以有树形结构的&#xff0c;但是又有些不同&#xff0c;因为他的节点也是可以存储信息的&#xff0c;例如在linux中/usr/local 本来是个文件夹&#xff0…

STM32G474CBT6之HAL_RCC_ClockConfig()问题?

STM32G474CBT6之HAL_RCC_ClockConfig()问题&#xff1f; 很多人在用HAL库时&#xff0c;都用到了寄存器&#xff0c;特别是在数字电源案例中。我也在想&#xff0c;有了标准库&#xff0c;为什么要搞HAL库&#xff1f;HAL库降低了入门的门槛&#xff0c;但在实际应用中&#x…

24/8/6算法笔记 支持向量机

支持向量机&#xff08;Support Vector Machine, SVM&#xff09;是一种监督学习算法&#xff0c;主要用于分类和回归任务。它基于统计学习理论中的结构风险最小化原理&#xff0c;通过找到数据点之间的最优边界来实现模型的泛化能力。 import numpy as np import matplotlib.…

Android SurfaceFlinger——Fence流转状态(五十)

明白了 fence 的基本原理&#xff0c;我们可以进一步的探索整个 SurfaceFlinger 的中 fence 在其中处于什么角色。 一、流转状态 从启动到屏幕的第一帧的渲染&#xff0c;fence 是不会有任何效果的。因为此时 fence 还没有经过 hwc_set 给 fence 进行赋值。但是到了第二帧开始…