（学习笔记）数据基建-元数据管理

（学习笔记）数据基建-元数据管理

news2026/2/13 22:56:32

（学习笔记）数据基建-元数据管理

什么是元数据
元数据该如何管理
- 工具化
- 规范化
数据血缘

什么是元数据

简单来说就是描述数据的数据，更直白来说就是描述表名、表制作者、表字段、表生命周期、表存粗等信息的数据
在这里插入图片描述

元数据该如何管理

工具化

开源：可通过atlas获取表依赖及信息做二次开发，或者完成可视化界面
平台化：
通过数据地图可完成元数据一站式管理
在这里插入图片描述

数据资产门户(对主题域、数据表、归纳、提升下游使用效率)
在这里插入图片描述

规范化

表/字段
表/字段注释：
字段（文本文本类型标记清楚内容，枚举值写清枚举值内容，日期写清楚日期内容yyyy-mm-dd）表（写清具体数据域，颗粒度，用途）

表/字段命名：符合第二讲的命名体系

字段主键注释：主键，联合主键

字段类型统一：数值类型，文本类型

表/字段血缘：表数据链路模型，字段全链路模型

模型/字段热度：
读取热度：该热度包含两部分，针对离线读取，计算的是昨日该表被离线开发任务和Query任务访问的总次数，针对实时读取，是定时请求获取读取该表的实时任务的数量。
引用热度：该热度包含两部分，针对离线引用，计算的是昨日该表被离线开发任务和Query任务引用数，针对实时引用，是定时请求获取读取该表的实时任务的数量。
收藏热度：该表被收藏的人数
检索热度：被用户查看的搜索并点击的次数
是否核心表

表属性：维度表，事实表

模型使用说明

存储规范：
分区合理化
小文件处理（使用spark3自动小文件合并
key打散减少reduce聚合
where过滤少量的key
map join
参数调优shew join(跳过热点key)
从源头解决小文件合并问题）

存储类型（orc
parquet (spark)）

模型评分：
模型质量评分-模型建设内容考量
模型监控评分-根据最近X天规则触发情况给模型数据质量评分

owner：表持有人，表使用者权限

数据血缘

数据血缘功能：清晰知道表/任务上下游，方便排查问题，知道下游哪个模块在使用，提升开发效率及后期管理维护

数据血缘类型：
活跃血缘：指离线开发线上调度产出的血缘，且调度持续生效
静默血缘：指离线开发中，开发模式运行、线上调度已运行过但是已取消调度、线上模式严重逾期执行等。静默血缘在图中用虚线连线表示

数据血缘项目中使用：
数仓中表/字段上下游查询、发送字段变更通知、
探查除数仓外其他场景使用例如报表、olap库等等

如何开发血缘功能
团队合作搭建：与前端配合，数仓出血缘链路模型，前端完成数据填充可视化
使用现成组件/二次开发：openmetadata

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1794019.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【备战蓝桥杯】蓝桥杯省一笔记：算法模板笔记（Java）

【备战蓝桥杯】蓝桥杯省一笔记：算法模板笔记（Java）

蓝桥杯 0、快读快写模板1、回文判定2、前缀和3、差分4、二分查找5、快速幂6、判断素数7、gcd&lcm8、进制转换9、位运算10、字符串常用API11、n的所有质因子12、n的质因子个数13、n的约数个数14、n阶乘的约数个数15、n的约数和16、阶乘 & 双阶乘17、自定义升序降序18、动…

阅读更多...

Docker安装、使用，容器化部署springboot项目

Docker安装、使用，容器化部署springboot项目

一、使用官方安装脚本自动安装安装命令如下： curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun 也可以使用国内 daocloud 一键安装命令： curl -sSL https://get.daocloud.io/docker | sh 二、Docker离线安装 1. 下载安装包可…

阅读更多...

【android】设置背景图片

【android】设置背景图片

改变值，可显示zai在在theves下面的两个value都要增加名字代码 <item name"windowActionBar">false</item><item name"android:windowNoTitle">true</item><item name"android:windowFullscreen">tru…

阅读更多...

一、【源码】创建简单的映射器代理工厂

一、【源码】创建简单的映射器代理工厂

源码地址：https://github.com/mybatis/mybatis-3/ 仓库地址：https://gitcode.net/qq_42665745/mybatis/-/tree/01-xxxDao-proxy 创建简单的映射器代理工厂执行xxxDao.method()时都做了些什么？ 原理是：首先定义Dao接口&#xff…

阅读更多...

docker 停止重启容器命令start/stop/restart详解(容器生命周期管理教程-2)

docker 停止重启容器命令start/stop/restart详解(容器生命周期管理教程-2)

Docker 提供了多个命令来管理容器的生命周期， 其中start、stop 和 restart。这些命令允许用户控制容器的运行状态。 1. docker start 命令格式： docker start [OPTIONS] CONTAINER [CONTAINER...]功能： 启动一个或多个已经停止的 Docker …

阅读更多...

【Qt系列教程】一、认识Qt、安装Qt、运行Hello Qt

【Qt系列教程】一、认识Qt、安装Qt、运行Hello Qt

文章目录 1.1 Qt 简介1.2 Qt 的安装1.3 编写 Hello World 1.1 Qt 简介 Qt（官网：https://www.qt.io）于1995年5月首次公开发布，是一个跨平台的应用程序开发框架，也是最主流的 C 开发框架； Qt 具有其他编程…

阅读更多...

[XYCTF新生赛]-Reverse：ez_rand解析（爆破时间戳，汇编结合反汇编）

[XYCTF新生赛]-Reverse：ez_rand解析（爆破时间戳，汇编结合反汇编）

无壳查看ida 这里是利用time64获取种子，但是time64不是标准的函数，这里是伪随机数，简单地来说就是它不是通过时间来确定种子，所以我们没办法在脚本里直接调用它得到种子，那就意味着我们不知道种子是多少，…

阅读更多...

一个好用的对外开放端口工具 Ngrok

一个好用的对外开放端口工具 Ngrok

工作中我们经常需要在测试或者开发阶段给客户快速展示程序，需要运维打开端口、部署等一系列操作，成本较高。如果能够直将本地开发环境发布给客户直接进行体验、需求确认，就会方便很多，本文将介绍一个小工具可以快速对外打开端口。…

阅读更多...

Docker笔记-解决非交互式运行python时print不输出的问题

Docker笔记-解决非交互式运行python时print不输出的问题

换句话来说就是在docker中如何不会python的print 只需要在启动时，不让python缓冲其输出。关键命令如下：PYTHONUNBUFFERED1 如下： docker run -e PYTHONUNBUFFERED1 <your_image> 下面解释下-e "-e"选项的全称是"…

阅读更多...

冯喜运：6.6外汇黄金原油晚间行情预测及独家操作建议

冯喜运：6.6外汇黄金原油晚间行情预测及独家操作建议

【黄金消息面分析】：周三（6月5日），黄金价格继续区间波动并上涨，与周二的价格走势形成鲜明对比，此前美国公布的经济数据好坏参半，可能促使美联储降低借贷成本。美国国债收益率下降，美…

阅读更多...

书生·浦语大模型全链路开源体系-笔记作业4

书生·浦语大模型全链路开源体系-笔记作业4

XTuner 微调 LLM:1.8B、多模态、Agent 引自：Tutorial/xtuner/personal_assistant_document.md at camp2 InternLM/Tutorial GitHub 1. XTuner介绍引自：欢迎来到 XTuner 的中文文档 — XTuner 0.1.18.dev0 文档 1.1. 什么是 XTuner ？ X…

阅读更多...

gitblit 环境搭建，服务器迁移记录

gitblit 环境搭建，服务器迁移记录

下载 Gitblit： http://www.gitblit.com/ JDK：gitblit网站显示需要jdk1.7，这里用的1.8。 Git：到官网下载最新版本安装 1). 分别安装JDK，Git，配置环境变量，下载并解压Gitblit 2). 创建代码仓库 …

阅读更多...

微软云计算Windows Azure（三）

微软云计算Windows Azure（三）

目录五、Windows Azure Marketplace六、Windows Azure服务平台（一）网站（二）虚拟机（三）云服务（四）移动服务（五）大数据处理（六）媒体支持…

阅读更多...

【微机原理及接口技术】中断系统

【微机原理及接口技术】中断系统

【微机原理及接口技术】中断系统文章目录【微机原理及接口技术】中断系统前言一、中断概述中断的基本概念中断处理过程二、8086/8088中断系统中断类型中断响应过程中断向量表内部中断服务程序总结前言本篇文章我们会讲到中断的概述，8086/8088中断系统。一、…

阅读更多...

Linux驱动开发笔记（三）平台设备驱动

Linux驱动开发笔记（三）平台设备驱动

文章目录前言一、Linux的设备模型1. 总线1.1 bus_type结构体1.2 注册/注销总线 2. 设备2.1 device结构体2.2 内核注册/注销设备 3. 驱动3.1 device_driver结构体3.2 注册/注销驱动 4. attribute属性文件4.1 attribute_group结构体4.2 设备属性文件4.3 驱动属性文件4.3. 总线属…

阅读更多...

2024骨传导耳机品牌排行前五名汇总，揭晓年度最强王者骨传导机型！

2024骨传导耳机品牌排行前五名汇总，揭晓年度最强王者骨传导机型！

骨传导耳机自问世以来，便迅速在蓝牙耳机市场中崭露头角，并且凭借特殊的传声方式和特健康的佩戴方式深得消费者的喜爱。然而，随着骨传导耳机逐渐热门，市场中品牌越来越多，也逐渐出现了一些劣质品牌，这些品牌…

阅读更多...

vscode运行Java utf-8文件中文乱码报错

vscode运行Java utf-8文件中文乱码报错

问题现象 vscode 运行utf-8 java文,爆出如下错误 hello.java:5: ����: ����GBK�Ĳ���ӳ���ַ&a…

阅读更多...

Latex之图片排列的简单使用（以MiKTeX工具为例）

Latex之图片排列的简单使用（以MiKTeX工具为例）

一、参考资料 Latex如何插入图片 Latex 学术撰写工具推荐（在线、Windows、Mac、Linux） 关于Latex并排多张图片及加入图片说明的方法二、准备工作 1. 在线LaTex工具 Overleaf 2. 本地LaTex工具 MiKTeX 3. 测试用例 \documentclass{article} \ti…

阅读更多...

AWS EC2服务器开启root密码，SSH登录

AWS EC2服务器开启root密码，SSH登录

1) EC2 Instance Connect连接，更改root密码 sudo passwd root 2）接着切换到切换到 root 身份，编辑 SSH 配置文件 $ sudo -i$ vi /etc/ssh/sshd_configPasswordAuthentication no，把 no 改成 yes #PermitRootLogin prohibit-passw…

阅读更多...

SSM旅游论坛（前后分离源码+论文）

SSM旅游论坛（前后分离源码+论文）

该旅游论坛是基于Spring、SpringMVC、Mybatis框架开发出来的用户信息管理此页面提供给管理员的功能有：用户信息的查询管理，可以删除用户信息、修改用户信息、新增用户信息， 还进行了对用户名称的模糊查询的条件景点信息管理论坛类型管理…

阅读更多...

推荐文章

最新文章