数据湖技术之平台建设篇2

news2024/11/18 21:25:27

        数据湖技术之平台建设篇1,主要介绍了湖仓平台建设的前三个主要工作,本次主要继续上次的建设工作介绍,聊一聊一站式湖仓服务平台的相关管理能力建设以及针对小文件的处理。

一. 一站式湖仓服务平台的相关管理能力

主要是将相关能力落地到平台功能,简化业务操作,形成一体化的平台服务,整体如下图所示:

  • 首先是库表管理,支持安全便捷的库表管理功能,支持多种建表方式(页面配置 or Sql),方便业务根据情况进行应用,同时结合业务需求,可以考虑扩展相关功能,比如元数据表拷贝能力等。整体是保证库表管理的安全性,且还需要考虑让业务减少操作成本,尽量增强业务的体验感受。
  • 库表认领、权限管理,细粒度的权限控制,针对敏感数据的字段设置oa账号粒度的权限,保障数据安全。
  • 数据集成管理,数据采集、存储、分发, 数据存储到kafka上,配置化服务,申请工单直接采集和存储,简化业务应用成本。
  • 数据探查,满足业务产品、技术同学临时探查、周期探查的使用需求,需要支持快捷方便的探查能力。
  • 入湖入仓任务管理,支持高效便捷入湖,支持配置化方式、sql化方式,满足不同业务场景需求,降低业务接入成本。
  • 湖仓任务管理,湖仓任务相关管理操作,启停任务、编辑任务、复制任务等等。
  • 数据生命周期管理,库表数据生命周期管理,天粒度异步清理过期数据,清理无用数据,避免数据冗余。
  • 监控告警管理,任务告警机制(特别是压缩效率相关的监控)、业务库表小文件监控告警机制等。
  • 湖仓报表管理,湖仓相关库表、任务统计报表化,方便分析湖仓具体情况。
  • 异步压缩任务管理,Iceberg库表方面:压缩合并任务、快照过期任务、清理孤儿文件任务管理。Hudi库表方面:压缩合并任务管理。同时各种为了适配各种场景需求,可以按照不同时间粒度进行调度任务。
  • 业务治理,结合各种监控数据,自动分析湖仓库表、任务的合理性,手动或者自动进行治理操作,避免资源浪费等。

二. 小文件相关处理:

应用数据湖引擎会产生一些小文件,无论是Hudi还是Iceberg都会产生大量小文件,非常影响存储集群的稳定性以及业务读取性能,所以需要进行压缩合并,减少整体文件数量。下面我们看下Iceberg方面小文件增长的过程:

        

可以从异步任务和同步处理两个方面 共同保障业务读写性能的稳定。为了避免影响写入任务的稳定性,同步处理方面小量级进行压缩合并,异步任务全量压缩合并小文件,彻底解决掉小文件问题。

三.总结:

本篇文章主要介绍了湖仓平台建设的后两个主要工作:一站式湖仓服务平台的相关管理能力、小文件相关处理。整体建设工作是一个逐步的过程,需要不断的优化和完善,适配不同业务场景的使用需求,也包括平台的适用性、安全性、稳定性方面的优化,同时业务使用体验、接入成本也是一个比较重要的考量点,让业务更低成本、高效率应用湖仓平台去解决痛点问题,才能事半功倍的推广具体业务的落地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1417613.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

day03-今日佳人功能实现

课程说明 首页功能说明系统架构说明实现今日佳人功能实现推荐用户的列表接口增加缓存功能整合前端联调测试 1、首页 在用户登录成功后,就会进入首页,首页中有今日佳人、推荐好友、探花、搜附近等功能。 2、系统架构 在开发完SSO系统中的登录功能后&…

【Spring实战】31 Spring Boot3 集成 Gateway 微服务网关

文章目录 1. 定义2. 功能3. 示例代码1) 创建一个业务服务2)创建一个网关服务3)启动服务4)验证 4. 代码参考结语 1. 定义 Spring Cloud Gateway 是一个基于 Spring Framework 的开源网关服务,用于构建微服务架构中的 API 网关。它…

SpringCloud LoadBalancer

SpringCloud LoadBalancer 1.什么是LoadBalancer LoadBalancer(负载均衡器)是一种网络设备或软件机制,用于分发传入的网络流量负载请求到多个后端目标服务器上,从而实现系统资源的均衡利用和提高系统的可用性和性能。 负载均衡器…

前端工程化之:webpack1-7(入口和出口)

前置知识 node 环境下 "./" 代表的意思: 模块化代码中,比如 require("./") ,表示当前 js 文件所在的目录。在路径处理中, "./" 表示 node 运行目录。__dirname:所有情况下,…

Python tkinter (8) ——Spinbox控件

Python的标准Tk GUI工具包的接口 tkinter系列文章 python tkinter窗口简单实现 Python tkinter (1) —— Label标签 Python tkinter (2) —— Button标签 Python tkinter (3) —— Entry标签 Python tkinter (4) —— Text控件 Python tkinter (5) 选项按钮与复选框 Pyt…

数据结构【图的遍历】

数据结构之图 图的类型定义和存储结构图的遍历遍历的定义图的特点图常用的遍历深度优先搜索 DFS(DepthFirstSearch)算法实现算法效率分析 广度优先搜索 BFS(BreadthFirstSearch)算法实现算法效率分析 DFS与BFS算法效率比较 图的类…

iOS_Xcode_LLDB调试常用命令

文章目录 结构常用命令:1、流程控制:2、常用命令3、进程信息:4、寄存器:register5、镜像:image6、内存:memory7、符号断点:breakpoint8、内存断点:watchpoint9、Tips: 结…

【HarmonyOS应用开发】开发介绍 DevEco Studio安装与使用(一)

内容比较长,干货满满,全是实战操作内容,希望耐心观看,如果对你有所帮助,请点个赞! 官方文档:https://developer.huawei.com/consumer/cn/training/course/slightMooc/C101667303102887820 访…

华为OD-华为机试精讲500篇系列文章目录介绍(持续补充ing)

目录 背景介绍 什么是华为OD? OD现状 OD趋势 华为OD机考刷题攻略 1、刷题资料:投递岗位通过筛选后提供 2、注意事项: 真题代码目录 背景介绍 经济下行的这几年,每个人都感同身受,如何让自己在芸芸众生中脱颖而…

ubuntu中的rsyslog

目录 1. rsyslog简介 2. 查看/var/log 3. syslog的配置文件 3.1 /etc/rsyslog.d/50-default.conf 3.2 /etc/rsyslog.conf 4. 如何写入syslog 4.1 C语言 4.2 shell 4.3 内核输出 5. syslog.1和syslog.2.gz等文件是如何生成 6. logrotate是如何被执行 7. 如何限制sys…

linux 运行vue项目

1:在本地电脑 项目跟目录 执行 npm run build 在根目录生成文件夹 dist 2:复制dist 到linux 上 /usr/vuespace/ledger-web/dist 3: 配置nginx server {listen 443 ssl;server_name tz.i569.cn; #填写绑定证书的域名ssl_certificate /etc/nginx/myconf…

蓝桥杯备战——8.DS1302时钟芯片

1.分析原理图 由上图可以看到,芯片的时钟引脚SCK接到了P17,数据输出输入引脚IO接到P23,复位引脚RST接到P13。 2.查阅DS1302芯片手册 具体细节还需自行翻阅手册,我只截出重点部分 总结:数据在上升沿写出,下降沿读入,…

赚钱的雏形,是跑通最小闭环!

没赚钱本事,就专心打磨武器! 很多人有一个错误的认知,就是做项目一定是新的,一定是有创新在里面,但其实赚钱的开始,一定是复制现有的项目。 现有的项目,可以确保他有市场,能够跑通&a…

Ps:段落面板

Ps菜单:窗口/段落 Window/Paragraph Ps菜单:文字/面板/段落面板 Type/Panels/Paragraph Panel 对于“点文本”,默认一行为一个段落。每按一次回车键,就多出一个段落。 对于“段落文本”,一段可能有多行,具体…

【Vite+Vue3+TS】基于Vite+Vue3+TypeScript+ESLint+Prettier+Stylelint搭建项目(亲测超详细)

目 录 项目搭建步骤确定node版本使用Vite创建Vue3项目规范目录结构配置环境修改Vite配置文件集成路由工具Vue Router集成状态管理工具Pinia集成CSS预编译器Sassvite-plugin-svg-icons图标组件集成UI框架Element Plus集成HTTP 请求工具 Axios 项目代码规范集成ESLint配置集成Pre…

动手学深度学习(一)深度学习介绍1

目录 一、引言 1.日常生活中的机器学习: 2.机器学习中的关键组件: 2.1 数据: 2.2 模型: 2.3 目标函数: 2.4 优化算法: 3. 各种机器学习问题: 3.1 监督学习: 3.1.1 回归&…

qemu + vscode图形化调试linux kernel

一、背景 使用命令行连接gdb 在调试时,虽然可以通过tui enable 显示源码,但还是存在设置断点麻烦(需要对着源码设置),terminal显示代码不方便,不利于我们学习;另外在gdb 下p命令显示结构体内容…

Vue Router 简介

聚沙成塔每天进步一点点 本文内容 ⭐ 专栏简介Vue Router 简介主要特性:安装和基本用法: ⭐ 写在最后 ⭐ 专栏简介 Vue学习之旅的奇妙世界 欢迎大家来到 Vue 技能树参考资料专栏!创建这个专栏的初衷是为了帮助大家更好地应对 Vue.js 技能树的…

CSRF靶场练习

简述:CSRF漏洞实际很少;条件限制很多;局限性很大;实验仅供参考,熟悉csrf概念和攻击原理即可 Pikachu靶场 CSRF GET 登录用户vince的账户可以看到用户的相关信息; 点击修改个人信息,发现数据包…

基于springboot+layui实现的旅游信息管理系统源码+数据库,可以查看旅游路线、飞机火车的班次

travel 介绍 旅游信息管理系统,系统架构:springbootlayui 系统截图 ) 技术选型 技术版本说明Spring Boot2.1.6MVC核心框架Spring Security oauth22.1.5认证和授权框架MyBatis3.5.0ORM框架MyBatisPlus3.1.0基于mybatis,使用lambda表达式的…