数据湖技术之发展现状篇

news2024/12/28 5:06:21

一. 大数据处理架构:

        大数据处理架构的发展过程具体可以分为三个主要阶段:批处理架构、混合处理架构(Lambda、Kappa架构)、湖仓一体。首先是随着Hadoop生态相关技术的大量应用,批处理架构应运而生,借助离线计算引擎的能力很好的满足了业务对大规模数据分析处理场景的需求。

        随着业务场景越来越多样化,对数据实效性方面有了更高的要求,诞生了一些新的架构模式,比如说Lambda、Kappa等,很好的解决了批处理架构的数据实效性瓶颈问题。但是这些架构本身也带来一些新的问题,比如说Lambda架构会有两条链路,增加业务维护以及资源成本,同时也会导致有口径不一致的风险问题。

        随着数据湖技术生态不断的发展与成熟,越来越多的公司选择了构建湖仓一体的这样一种较新的处理架构模式, 可以很好的解决原有架构的一些问题,同时也带来很多新的能力,比如说库表schema高效变更,支持mysql CDC等等,另外也在处理效率上有较大的提升效果,所以逐步推广应用湖仓一体会很好的帮忙业务们进行强本增效。整体阶段如下图:

二. 数据湖技术发展现状:

整体发展现状如下图所示:

        目前主流应用的数据湖技术主要有三种:Hudi、Iceberg、DeltaLake。国内各大厂应用较多的是Iceberg与Hudi, 两个技术发展的各有千秋,Hudi在CDC场景支持以及小文件压缩管理方面做的比较好一些,但是在与flink集成以及元数据变更能力等方面支持的不够完善, 而Iceberg在元数据变更等方面做的更完善,但是由于机制的不同,Iceberg在小文件压缩处理以及CDC场景支持的不够高效和稳定,所以可以根据业务场景选择应用不同的框架。

        湖仓一体(Lakehouse)作为大数据最前沿的技术,目前正在快速发展当中。如下图所示,根据Gartner在2023年发布技术成熟度曲,Lakehouse技术即将处于热门关注期,后期有较大的发展潜力。

在具体建设与应用过程中,也发现了数据湖技术面临的一些问题,主要有几个方面,如下图所示:

可以看到湖仓一体技术架构还需要逐步地完善与改进,某些方面存在一些问题,如果能更稳定和高效地支持业务去简化链路与提升收益,解决痛点问题,大面积推广新架构落地才会事半功倍。

 

三. 总结:

        虽然目前现状是数据湖仓的技术演进不是非常快,但是湖仓一体、流批一体等概念都已经被炒得火热,且流批一体已成为目前行业内公认数据湖仓最具价值的能力,引入数据湖的公司势必会越来越多。在未来,希望携手大家一起发展数据湖新技术,让数据湖生态更丰富、更完善,让业务可以构建更便捷、更高效、更稳定的数据链路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1415766.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QEMU源码全解析41 —— Machine(11)

接前一篇文章:QEMU源码全解析40 —— Machine(10) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM》源码解析与应用 —— 李强,机械工业出版社 特此致谢! 时间过去了几…

MCU启动文件小解一下

GD32启动文件分析 启动文件的一些指令.s启动文件分析栈空间分配堆空间管理中断向量表定义堆空间定义Reset_Handler复位程序HardFault_Handler_main文件分析用户堆栈初始化 GD32启动文件主要做了以下工作: 初始化SP_initial_sp , PCReset_Handler指针,设置…

眼底增强型疾病感知蒸馏模型 FDDM:无需配对,fundus 指导 OCT 分类

眼底增强型疾病感知蒸馏模型 FDDM:fundus 指导 OCT 分类 核心思想设计思路训练和推理 效果总结子问题: 疾病特定特征的提取与蒸馏子问题: 类间关系的理解与建模 核心思想 论文:https://arxiv.org/pdf/2308.00291.pdf 代码:https://github.c…

C#调用SqlSugar操作达梦数据库报错“无效的表或视图名”

安装达梦数据库后,使用SqlSugar连接测试数据库并基于DBFirst方式创建数据库表对应的类,主要代码如下: SqlSugarClient db new SqlSugarClient(new ConnectionConfig(){DbType DbType.Dm,ConnectionString "Serverlocalhost; User Id…

Redis3-秒杀活动

秒杀 准备工作 我是参照下面这位大佬的i骄傲成下载的 csdn友情链接 Jmeter模拟多线程的压力测试工具 秒杀代码: package com.aaa.controller;import io.netty.util.internal.StringUtil; import org.apache.commons.lang.StringUtils; import org.springfram…

YoloV8改进策略:BackBone改进|DCNv4最新实践|高效涨点|多种改进教程|完整论文翻译

摘要 涨点效果:在我自己的数据集上,mAP50 由0.986涨到了0.993,mAP50-95由0.737涨到0.77,涨点明显! DCNv4是可变形卷积的第四版,速度和v3相比有了大幅度的提升,但是环境搭建有一定的难度,对新手不太友好。如果在使用过程遇到编译的问题,请严格按照我写的环境配置。 …

【GitHub项目推荐--不错的 TypeScript 学习项目】【转载】

在线白板工具 Excalidraw 标星 33k,是一款非常轻量的在线白板工具,可以直接在浏览器打开,轻松绘制具有手绘风格的图形。 如下图所示,Excalidraw 支持最常用的图形元素:方框、圆、菱形、线,可以方便的使用…

51-17 视频理解串讲— MViT 论文精读

继TimeSformer模型之后,咱们再介绍两篇来自Facebook AI的论文,即Multiscale Vision Transformers以及改进版MViTv2: Improved Multiscale Vision Transformers for Classification and Detection。 由于本司大模型组最近组织阅读的论文较多,…

文献翻译 || Ubuntu安装zotero文献管理软件,提高文献阅读效率

文章目录 前言安装方式选择apt方式snap方式 zotero的简单使用文献导入中文翻译插件下载并安装使用体验 前言 虽然在win下有很多文献管理软件和好用的文献翻译软件,但是如果平常有使用Ubuntu进行开发的需求,实际上很不愿意为了好好看文献专门切到Windows…

HarmonyOS鸿蒙学习基础篇 - 通用事件

一、引言 HarmonyOS鸿蒙是华为推出的分布式操作系统,旨在为各种智能设备提供统一的操作系统。鸿蒙系统的一大特色是其强大的分布式能力,而通用事件则是实现这一能力的关键技术之一,本篇博客将介绍HarmonyOS鸿蒙中的通用事件。 二、 点击事件…

圈子论坛社交实名制系统---H5小程序APP,三端源码交付,允许二开!PHP系统uni书写!

圈子系统是一种社会化网络平台,它的核心是以用户为中心,围绕用户的兴趣、爱好、经历和职业等因素,将具有相同特质的个体聚集起来,形成具有共同话题和兴趣的社交圈子。这样的系统旨在帮助用户拓宽社交范围,提升社交效率…

Vue基知识六

一 vuex 1.1 简介 在Vue中实现集中式状态(数据)管理的一个Vue插件,对vue应用中多个组件的共享状态进行集中式的管理(读/写),也是一种组件间通信的方式,且适用于任意组件间通信。 1.2 何时使用…

【代码】使用预训练的语义分割网络

P274书上的代码,这里是从ipynb文件中按顺序复制来的: 使用到的图片如下: 代码: import numpy as np import pandas as pd import matplotlib.pyplot as plt import PIL import torch from torchvision import transforms impor…

华为机考入门python3--(4)牛客4-字符串分隔

分类:字符串 知识点: 复制符号* 复制3个0 0*3 000 字符串截取 截取第i位到j-1位 str[i:j] 题目来自【牛客】 input_str input().strip()# 先补齐 if len(input_str) % 8 ! 0: input_str 0 * (8 - len(input_str) % 8) # 每8个分 out…

嵌入式软件工程师面试题——2025校招社招通用(C/C++)(四十四)

说明: 面试群,群号: 228447240面试题来源于网络书籍,公司题目以及博主原创或修改(题目大部分来源于各种公司);文中很多题目,或许大家直接编译器写完,1分钟就出结果了。但…

win10通过ssh链接deepin23并开启x11转发

前提 主机环境:win10 lstc 虚拟机环境:deepin23beta2 终端:tabby x11服务器: vcxsrv 安装ssh sudo apt install ssh开启root登录(看你需求) 首先你要给root账号设置密码 sudo passwd root修改配置文件 sudo vim /etc/ssh/ss…

源聚达科技:抖店的专营店怎么开

在数字化浪潮的推动下,抖音平台不仅为人们提供了丰富的娱乐内容,也成为了电商的新战场。不少创业者和品牌商纷纷选择在抖音上开设自己的专营店,以此抓住流量红利,拓宽销售渠道。那么,如何在抖音平台上成功开设一家专营…

Redis实现多种限流算法

一 常见限流算法 1 固定窗口限流 每一个时间段计数器,当计数器达到阈值后拒绝,每过完这个时间段,计数器重置0,重新计数。 优点:实现简单,性能高; 缺点:明显的临界问题&#xff0c…

PBM模型学习(五)UDF生长模型

DEFINE_PB_GROWTH_RATE(name, cell, thread, d_i) 该UDF在每个时间步开始时执行,只有在时间步开始时,颗粒粒径才会更新,同时才会UDF才会向文件写入数据GR单位是m/sC_PHASE DIAMETER(c,ts):返回颗粒粒径???,ts为颗粒相的线程C_VOF(cell,thread):颗粒相总体积C_PB DISCI(c…

在DevEco开发工具中,使用Previewer预览界面中的UI组件

1、在DevEco工具中,点击并展开PreViewer预览器 2、在PreViewer预览器中,点击Tt按钮(Inspector)切换至组件查看模式 3、在组件查看模式下选择组件,代码呈现选中状态,右侧呈现组件树,右下方呈现组…