数据湖 Data Lake-概述

news2024/11/16 16:33:33

Data Lake

在这里插入图片描述

1. 数据湖的定义

数据湖是一种存储系统,用于集中存储大量的原始数据,可以按数据本来的原始格式进行存储,用户可以在需要时提取和分析这些数据。

在这里插入图片描述
A data lake is a centralized repository designed to hold vast volumes of data in its native, raw format — be it structured, semi-structured, or unstructured.

Data Lake不仅支持结构化数据(如关系数据库中的数据),还支持半结构化(如JSON、XML)和非结构化数据(如文本、图片、视频等)。
在这里插入图片描述


2. 数据湖的架构

(1)Data sources 数据源

在这里插入图片描述
In a data lake architecture, the data journey starts at the source.

  • 结构化数据:如关系数据库中的数据,通常以表格形式存储,便于处理和查询。常见的来源包括ERP系统、CRM系统等。

  • 半结构化数据:如JSON、XML等格式的数据,虽然没有严格的模式,但仍然包含一定的结构,便于解析。这类数据源通常来自于Web服务、社交媒体等。

  • 非结构化数据:如文本、图片、音频和视频文件等,这些数据没有固定格式,需要特定的技术进行处理和分析。来源包括文档管理系统、传感器数据等。

(2)Data ingestion 数据摄取

在这里插入图片描述
Data ingestion is the process of importing data into the data lake from various sources.数据摄取是将数据导入数据湖的过程。

  • 批处理:定期将数据从源系统批量导入数据湖,适用于数据变化频率较低的情况。这种方式可以在低峰时段进行,提高效率。

  • 实时摄取:通过流处理技术(如Apache Kafka)实时收集数据,适用于需要即时分析的场景,如金融交易监控或社交媒体实时分析。

  • 数据预处理:在摄取过程中,可能会应用一些轻量级的转换,但数据通常保持原始格式。


(3) Data storage and processing 数据存储和处理

在这里插入图片描述

原始数据存储区 Raw data store section

  • 数据以原始格式存放,未经过任何清理或转化。
  • 使用存储解决方案如Hadoop HDFS、Amazon S3或Azure Blob Storage。

转化区 Transformation section

  • 数据经过多种处理,提升其质量。
    • 数据清理:去除或修正不准确的记录。
    • 数据增强:增加额外信息以提升价值。
    • 规范化:统一数据格式,确保一致性。
    • 结构化:将非结构化数据转化为结构化格式。

处理数据区 Processed data section

  • 可信数据可移动到精细或一致数据区。
  • 进一步转化以适应特定业务需求,供分析师和数据科学家使用,便于分析和机器学习。

(4)分析沙箱 Analytical sandboxes

在这里插入图片描述
分析沙箱是隔离的环境,确保实验活动不会干扰主数据存储。

用于数据探索和分析,提供一个不影响主数据流的实验环境,促进假设测试和模型开发,推动数据驱动的创新和敏捷分析文化。

  • 数据摄取
    • 原始数据:保留数据的原始上下文,便于进行初步的探索性分析。
    • 处理数据:经过清洗和转换的数据,适合用于更复杂的分析和机器学习模型。
  • 数据发现
    • 分析师和数据科学家在此阶段探索数据的结构、质量和潜在价值,通常通过描述性统计和数据可视化工具进行。
  • 机器学习与预测建模
    • 在对数据有充分理解后,应用机器学习算法创建预测或分类模型,使用如TensorFlow、PyTorch或Scikit-learn等库。
  • 探索性数据分析(EDA)
    • 通过统计图形和信息表分析变量之间的关系、模式或异常,无需事先假设。

(5) 数据消费 Data Consumption

数据消费层是将所有前期努力的成果展示给最终用户的地方。
在这里插入图片描述

  • 数据展示

    • 打磨过的、可靠的数据通过商业智能工具(如Tableau或Power BI)对外展现,便于用户分析和决策。
  • 角色参与

    • 数据分析师、商业分析师和决策者在此阶段利用处理过的数据驱动业务决策,提供关键洞察。

(6) 交叉治理、安全和监控层(Crosscutting Governance, Security, and Monitoring Layer)

在这里插入图片描述
这一层贯穿整个数据流,是确保数据湖有效性和安全性的基础.

  • 治理

    • 确立并执行数据访问、质量和可用性的规则和政策,确保信息一致性和责任使用。工具如Apache Atlas和Collibra可用于实现数据治理。
  • 安全性

    • 实施安全协议防止未经授权的数据访问,确保遵守数据保护法规。可以集成如Varonis或McAfee等解决方案。
  • 监控和ELT流程

    • 负责监督数据从原始形式到可用格式的流转,使用Talend或Apache NiFi等工具来优化流程并维持性能标准。
  • 数据管理与监护

    • 由专门团队或指定的数据所有者进行,使用Alation或Waterline Data等平台追踪数据的增改删,管理元数据。

5. 数据湖与数据仓库的比较

在这里插入图片描述

  1. 数据处理
    • 数据湖:支持多种数据类型(结构化、半结构化、非结构化),存储原始数据。
    • 数据仓库:主要处理结构化数据,经过严格的清洗和处理。

在这里插入图片描述

  1. 存储

    • 数据湖:设计为低成本存储,适合处理海量数据。
    • 数据仓库:存储成本相对较高,适合经过处理的数据。
  2. 灵活性(敏捷性)

    • 数据湖:高度灵活,可随时配置和重新配置。
    • 数据仓库:较为固定,调整配置较为复杂。

在这里插入图片描述

  1. 安全性

    • 数据湖:安全机制仍在完善中,治理相对较新。
    • 数据仓库:安全性和治理措施较为成熟且规范。
  2. 用户

    • 数据湖:主要面向数据科学家和分析师,支持探索性分析。
    • 数据仓库:主要服务于业务专业人士,提供稳定的报表和分析。
  3. 模式

    • 数据湖:采用“读取时模式”(schema-on-read),在数据读取时定义结构。
    • 数据仓库:采用“写入时模式”(schema-on-write),在数据写入时定义结构。
      在这里插入图片描述

在这里插入图片描述

仅供学习使用哈~

整理不易,一键三连呀列位彦祖😂

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2154284.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python+selenium实现自动联网认证,并实现断网重连

pythonselenium实现自动联网认证,并实现断网重连 echo off python “E:\autoD\auto_login.py” 要使自动登录脚本在系统重启后自动运行,你可以使用Windows的任务计划程序来设置。以下是详细的步骤: 1. 保存脚本 首先,将你的Py…

Elasticsearch 检索优化:停用词的应用

Elasticsearch 检索优化:停用词的应用 场景描述 目前在 Elasticsearch 集群中存储约 1.5 亿篇文章数据,随着数据量的增加,检索性能问题逐渐显现。在列表检索和聚合操作中,CPU 消耗飙升至 100%,并且检索耗时较长&…

Java | Leetcode Java题解之第424题替换后的最长重复字符

题目&#xff1a; 题解&#xff1a; public class Solution {public int characterReplacement(String s, int k) {int len s.length();if (len < 2) {return len;}char[] charArray s.toCharArray();int left 0;int right 0;int res 0;int maxCount 0;int[] freq n…

时序预测|基于灰狼优化LightGBM的时间序列预测Matlab程序GWO-LightGBM 单变量和多变量 含基础模型

时序预测|基于灰狼优化LightGBM的时间序列预测Matlab程序GWO-LightGBM 单变量和多变量 含基础模型 文章目录 一、基本原理原理概述流程注意事项 二、实验结果三、核心代码四、代码获取五、总结 一、基本原理 时序预测中使用灰狼优化&#xff08;GWO&#xff09;结合LightGBM的…

【问题随记】在使用 AuthenticationManager 的时候,出现循环依赖问题 —— `java.lang.StackOverflowError`

问题随记 在使用 AuthenticationManager 的时候&#xff0c;出现循环依赖问题 —— java.lang.StackOverflowError&#xff0c;查资料查了两天半&#xff0c;终于找到原因。 2024-06-16T17:54:19.48708:00 ERROR 20672 --- [nio-8789-exec-1] o.a.c.c.C.[.[.[/].[dispatcherS…

猫咪检测系统源码分享

猫咪检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision …

AI健身之俯卧撑计数和姿态矫正-角度估计

在本项目中&#xff0c;实现了Yolov7-Pose用于人体姿态估计。以下是如何在Windows 11操作系统上设置和运行该项目的详细步骤。 环境准备 首先&#xff0c;确保您的计算机已经安装了Anaconda。Anaconda是一个开源的Python发行版本&#xff0c;它包含了conda、Python以及众多科…

静态链表:实现、操作与性能优势【算法 16】

静态链表&#xff1a;实现、操作与性能优势 在算法和数据结构的探索中&#xff0c;链表作为一种基础且灵活的数据结构&#xff0c;广泛应用于各种场景。然而&#xff0c;在算法竞赛或需要高效内存管理的环境中&#xff0c;传统的动态链表可能会因为内存分配和释放的开销而影响性…

完整版:NacosDocker 安装

第一步&#xff1a;先直接通过命令安装 Nacos docker run --name nacos2.2.3 -d -p 8848:8848 -e MODEstandalone f151dab7a111 第二步&#xff1a;创建 Docker 挂载目录 # 创建 log 目录 mkdir -p /root/nacos 第三步&#xff1a;将 Docker 容器的文件复制到挂载目录中 …

C++之Person类

首先设置头文件&#xff0c;将题目中的要求完成。 #include <iostream>using namespace std;class Person { public:Person();Person(string name, int id, string address);~Person();void setPerson(string name, int id, string address);void setName(string name);…

python新手的五个练习题

代码 # 1. 定义一个变量my_Number,将其设置为你的学号&#xff0c;然后输出到终端。 my_Number "20240001" # 假设你的学号是20240001 print("学号:", my_Number) # 2. 计算并输出到终端:两个数(例如3和5)的和、差、乘积和商。 num1 3 num2 5 print(&…

计算机的错误计算(一百)

摘要 探讨 与 的计算精度问题。 从计算机的错误计算&#xff08;九十九&#xff09;知&#xff0c;运算 与 均被列在IEEE754-2019中。然而&#xff0c;似乎并没有哪种语言实现内置了第二个运算。 例1. 计算 与 不妨在Python 3.12.5 下计算&#xff0c;则有 然而&#…

华为HarmonyOS地图服务 5 - 利用UI控件和手势进行地图交互

场景介绍 本章节将向您介绍如何使用地图的手势。 Map Kit提供了多种手势供用户与地图之间进行交互,如缩放、滚动、旋转和倾斜。这些手势默认开启,如果想要关闭某些手势,可以通过MapComponentController类提供的接口来控制手势的开关。 接口说明 以下是地图的控件和手势相…

设计模式之代理

一、代理设计模式概念 代理模式 (Proxy) 是一种结构型设计模式&#xff0c; 为其他对象提供一种代理以控制对这个对象的访问。 代理模式介绍了一种访问对象的间接等级。一个远程代理可以隐藏一个对象在不同地址空间的细节。一个虚拟代理可以根据需要最优化创建对象的开销。而安…

黄酮类化合物及其衍生物生物合成的进展:构建酵母细胞工厂的系统策略-

Advances in Flavonoid and Derivative Biosynthesis: Systematic Strategies for the Construction of Yeast Cell FactoriesCli 黄酮类化合物及其衍生物生物合成的进展&#xff1a;构建酵母细胞工厂的系统策略 摘要 黄酮类化合物是一类重要的天然多酚化合物&#xff0c;具有…

ESP32-WROOM-32 [创建AP站点-客户端-TCP透传]

简介 基于ESP32-WROOM-32 开篇(刚买)&#xff0c; 本篇讲的是基于固件 ESP32-WROOM-32-AT-V3.4.0.0&#xff08;内含用户指南, 有AT指令说明&#xff09;的TCP透传设置与使用 设备连接 TTL转USB线, 接ESP32 板 的 GND&#xff0c;RX2&#xff0c; TX2 指令介绍 注意,下面指…

【iOS】KVC的学习

【iOS】KVC的学习 文章目录 【iOS】KVC的学习前言KVC定义KVC设值KVC取值KVC使用keyPathKVC处理异常处理nil异常 KVC的一些应用修改动态的设置值实现高阶的消息传递 小结 前言 笔者简单学习了有关与KVC的相关内容&#xff0c;这里写一篇博客简单介绍一下相关内容。 KVC 定义 KV…

从零到一,监控网关上网设置教程

要让监控网关成功连接互联网&#xff0c;需要正确配置网络设置。监控网关通常位于本地局域网&#xff08;LAN&#xff09;或广域网&#xff08;WAN&#xff09;中&#xff0c;用于连接摄像头、传感器等监控设备&#xff0c;并通过网络上传数据到远程服务器或云平台。以下是监控…

计算机毕业设计 社区医疗服务系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

【GMNER】Grounded Multimodal Named Entity Recognition on Social Media

Grounded Multimodal Named Entity Recognition on Social Media 动机解决方法特征抽取多模态索引设计索引生成框架EncoderDecoder 实体定位、实体-类型-区域三元组重建 出处&#xff1a;ACL2023 论文链接&#xff1a;https://aclanthology.org/2023.acl-long.508.pdf code链接…