实时数仓:基于数据湖的实时数仓与数据治理架构

news2025/1/10 2:28:15

设计一个基于数据湖的实时数仓与数据治理架构,需要围绕以下几个核心方面展开:实时数据处理、数据存储与管理、数据质量治理、数据权限管理以及数据消费。以下是一个参考架构方案:


一、架构整体概览

核心组成部分
  1. 数据源层

    • 数据来源:多样化的数据源(OLTP数据库、日志系统、IoT设备、API接口等)。
    • 数据类型:结构化、半结构化(JSON、CSV)、非结构化(图片、视频)。
  2. 数据接入层

    • 工具:使用 Flink CDCDebezium 捕获数据库变更;通过 KafkaPulsar 作为数据流传输工具。
    • 实现:实时采集和流式数据传输,支持批流融合。
  3. 数据存储层

    • 湖仓一体化存储
      • 使用 Hudi/Iceberg/Delta Lake 作为数据湖存储格式,提供流批融合的 ACID 事务支持。
      • 元数据管理工具:集成 Apache Hive MetastoreAWS Glue
      • 分层存储:
        • ODS层:原始数据按时间分区存储。
        • DWD层:清洗后数据,按主题域区分,增强列式存储优化。
        • DWS层:宽表或汇总数据,支持实时与离线分析。
        • ADS层:直接服务于BI和报表需求。
  4. 数据处理层

    • 实时处理
      • 使用 Flink Structured StreamingSpark Structured Streaming 处理实时流数据。
      • 实现基于事件驱动的实时数据加工。
    • 离线处理
      • 使用 Spark SQLHive 定期对冷数据做批量清洗和汇总。
    • 查询加速
      • Doris 提供在线分析服务,支持对实时数仓和数据湖查询加速。
  5. 数据消费层

    • BI工具:如 Apache Superset、Tableau
    • 实时监控:通过 Grafana 或自研监控平台展示实时指标。
    • 数据接口:通过 REST API 或 GraphQL 提供服务。
  6. 数据治理层

    • 数据质量:Great Expectations 或自研工具,监控数据准确性、一致性、完整性。
    • 数据权限:集成 Apache RangerAWS Lake Formation,实现细粒度权限控制。
    • 数据血缘:通过 Apache Atlas 构建血缘追踪系统。

二、架构设计细节

1. 实时数据处理架构
  • 工具选择
    • Kafka:实时数据管道,存储流数据。
    • Flink Structured Streaming:低延迟的流式处理框架。
    • Hudi/Iceberg/Delta Lake:支持实时写入与批量读取。
  • 流处理流程
    1. 事件驱动
      • 例如:电商订单事件,基于订单状态变化驱动实时处理。
    2. 时间驱动
      • 例如:按时间窗口计算销售汇总数据(1分钟/1小时)。
2. 数据湖存储架构
  • 数据按 主题域时间分区 存储:
    • ODSods/{业务域}/{表名}/{年}/{月}/{日}/{小时}
    • DWDdwd/{业务域}/{表名}/{年}/{月}/{日}
    • DWSdws/{业务域}/{汇总主题}/{年}/{月}
    • ADSads/{业务域}/{分析主题}/{年}/{月}
  • 数据湖存储格式:选择支持事务的格式(Hudi、Iceberg)。
3. 数据治理实现
  1. 数据质量管理
    • 定义质量规则:
      • Null值校验、唯一性校验、值域校验。
    • 工具:通过 Great Expectations 自动化校验规则。
  2. 数据权限管理
    • 设置访问策略:
      • 按主题域、角色分配细粒度权限。
    • 工具:使用 Apache Ranger
  3. 数据血缘管理
    • 构建数据流向:
      • 数据从 Kafka -> Flink -> Hudi -> Doris 的全链路血缘图。
    • 工具:Apache Atlas
4. 数据消费设计
  • BI报表和实时监控:
    • 将指标数据实时暴露到 Doris,供 Superset 或其他BI工具使用。
  • API服务:
    • 提供基于实时数仓的接口服务,支持企业内部应用快速访问。

三、架构优点与挑战

优点
  1. 实时性强:利用事件驱动和流处理,实时响应数据变化。
  2. 灵活扩展:湖仓一体化架构,支持高效存储和查询。
  3. 数据治理完备:实现从质量、权限到血缘的全面管理。
挑战
  1. 实时任务复杂度高:Flink流任务设计需要更高的工程能力。
  2. 数据湖性能优化:Hudi/Iceberg在查询性能上仍需精心设计分区和索引。
  3. 治理系统维护成本高:需要持续投入开发和运维力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2274108.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑硬盘系统迁移及问题处理

一、系统迁移准备 1、确认你的电脑主板是否支持安装两块硬盘,如电脑主板有多个M2硬盘接口,我们将新硬盘安装到主板上,原来的老硬盘安装在第二个接口上,主板只有一个M2接口的话可以使用移动硬盘盒。 2、新硬盘安装好后,我们进入原来的系统,在 此电脑–右键–管理–磁盘管…

【NLP高频面题 - Transformer篇】Transformer的输入中为什么要添加位置编码?

Transformer的输入中为什么要添加位置编码? 重要性:★★★ Transformer 将句子中的所有词并行地输入到神经网络中。并行输入有助于缩短训练时间,同时有利于学习长期依赖。不过,并行地将词送入 Transformer,却不保留词…

http range 下载大文件分片

摘自:https://www.jianshu.com/p/32c16103715a 上传分片下载也能分 HTTP 协议范围请求允许服务器只发送 HTTP 消息的一部分到客户端。范围请求在传送大的媒体文件,或者与文件下载的断点续传功能搭配使用时非常有用。 检测服务器端是否支持范围请求 假…

Improving Language Understanding by Generative Pre-Training GPT-1详细讲解

Improving Language Understanding by Generative Pre-Training 2018.06 GPT-1 0.有监督、半监督、无监督 CV:ImageNet pre-trained model NLP:pre-trained model? 在计算机视觉中任务包含分类、检测、分割,任务类别数少,对应…

onLoad 生命周期函数是否执行取决于跳转的方式和小程序的页面栈管理机制

文章目录 1. 页面跳转方式2. 你的场景分析3. 页面生命周期4. 总结5. 建议 在微信小程序中,页面跳转时, onLoad 生命周期函数是否执行取决于跳转的方式和小程序的页面栈管理机制。以下是详细说明: 1. 页面跳转方式 微信小程序提供了多种页面…

后台管理系统引导功能的实现

引导是软件中经常见到的一个功能,无论是在后台项目还是前台或者是移动端项目中。 那么对于引导页而言,它是如何实现的呢?通常情况下引导页是通过 聚焦 的方式,高亮一块视图,然后通过文字解释的形式来告知用户该功能的作…

vue js实现时钟以及刻度效果

2025.01.08今天我学习如何用js实现时钟样式&#xff0c;效果如下&#xff1a; 一、html代码如下&#xff1a; <template><!--圆圈--><div class"notice_border"><div class"notice_position notice_name_class" v-for"item in …

CSS Grid 布局全攻略:从基础到进阶

文章目录 一.Grid 是什么二.示例代码1. 基础使用 - 固定宽高2.百分百宽高3.重复设置-repeat4.单位-fr5.自适应6.间距定义其他 一.Grid 是什么 CSS 中 Grid 是一种强大的布局方式&#xff0c;它可以同时处理行和列 Grid 和Flex有一些类似&#xff0c;都是由父元素包裹子元素使用…

【adb】5分钟入门adb操作安卓设备

ADB&#xff08;Android Debug Bridge&#xff09; 是一个多功能的命令行工具&#xff0c;用于与 Android 设备进行交互、调试和管理。它提供了对设备的直接控制&#xff0c;能够帮助开发者进行调试、安装应用、传输文件等。 目录 将设备和电脑连接 adb shell 文件的基本操…

Jenkins-持续集成、交付、构建、部署、测试

Jenkins-持续集成、交付、构建、部署、测试 一: Jenkins 介绍1> Jenkins 概念2> Jenkins 目的3> Jenkins 特性4> Jenkins 作用 二&#xff1a;Jenkins 版本三&#xff1a;DevOps流程简述1> 持续集成&#xff08;Continuous Integration&#xff0c;CI&#xff0…

Golang笔记:使用net包进行TCP监听回环测试

文章目录 前言TCP监听回环代码演示 附&#xff1a;UDP监听回环 前言 TCP是比较基础常用的网络通讯方式&#xff0c;这篇文章将使用Go语言实现TCP监听回环测试。 本文中使用 Packet Sender 工具进行测试&#xff0c;其官网地址如下&#xff1a; https://packetsender.com/ TC…

SSL 证书格式和证书文件扩展名:完整指南

SSL 证书是什么以及它如何工作相当容易理解。但当涉及到在服务器上安装它时&#xff0c;有时&#xff0c;你可能觉得这是在处理火箭科学。 由于有如此多的SSL 证书格式与特定服务器要求相关&#xff0c;您更有可能感到困惑和沮丧&#xff0c;而不是从一开始就正确配置证书。但…

【源码+文档+调试讲解】项目申报小程序

摘 要 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时代…

echarts横向柱状图胶囊

echarts配置项 tooltip: {trigger: axis, // 触发tooltip提示类型 axis:坐标轴触发axisPointer: {type: cross, // 指示器类型 cross: 十字准星指示器crossStyle: {color: #999 // 线颜色}} }, grid: { left: 0%, //离容器左侧的距离top:5%,bottom: 3%,containLabel: true…

人工智能的发展领域之GPU加速计算的应用概述、架构介绍与教学过程

文章目录 一、架构介绍GPU算力平台概述优势与特点 二、注册与登录账号注册流程GPU服务器类型配置选择指南内存和存储容量网络带宽CPU配置 三、创建实例实例创建步骤镜像选择与设置 四、连接实例SSH连接方法远程桌面配置 一、架构介绍 GPU算力平台概述 一个专注于GPU加速计算的…

Redis Exporter 安装与配置指南(v1.67.0)

&#x1f680; 1. 下载 Redis Exporter 首先&#xff0c;登录到目标服务器&#xff0c;下载 Redis Exporter v1.67.0 安装包。 wget https://github.com/oliver006/redis_exporter/releases/download/v1.67.0/redis_exporter-v1.67.0.linux-amd64.tar.gz&#x1f4e6; 2. 解压…

WD5105同步降压转换器:9.2V-95V宽电压输入,4.5A大电流输出,95%高效率,多重保护功能

概述 • WD5105同步降压转换器 • 封装形式&#xff1a;QFN-20封装 • 应用场景&#xff1a;适用于车载充电器、电动车仪表、电信基站电源、电源适配器等 性能特点 • 输入电压范围&#xff1a;9.2V至95V • 输出电流&#xff1a;可提供4.5A连续负载电流 • 效率&#xff1a;高…

Laravel 新 WebSocket 服务 Reverb 使用指南

旧篇 > Laravel/Lumen 中使用 Echo Socket.IO-Client 实现网页即时通讯广播 https://blog.csdn.net/maxsky/article/details/130394420 已过时 与时俱进&#xff0c;Laravel 官方在 2024 年 7 月发布了 laravel/reverb 包的正式版&#xff0c;因为之前使用的 laravel-echo-…

什么是Kafka?有什么主要用途?

大家好&#xff0c;我是锋哥。今天分享关于【什么是Kafka&#xff1f;有什么主要用途&#xff1f;】面试题。希望对大家有帮助&#xff1b; 什么是Kafka&#xff1f;有什么主要用途&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Kafka 是一个分布式流…

Python爬虫基础——认识网页结构(各种标签的使用)

1、添加<div>标签的代码定义了两个区块的宽度和高度均为100px&#xff0c;边框的格式也相同&#xff0c;只是区块中显示的内容不同&#xff1b; 2、添加<ul>和<ol>标签分别用于定义无序列表和有序列表。<il>标签位于<ul>标签或<ol>标签之…