掌握数据利器:AWS Glue与数据基盘概览

news2024/11/15 21:42:14

引言

随着数字化进程的不断推进,企业现在能够积累并分析海量且多样化的数据。这一优势使得许多企业开始采用数据驱动型经营(即基于数据的经营策略)。通过基于数据的客观判断,企业及其管理者可以获得诸多好处。

然而,要充分利用所积累的数据,就需要建立一个坚实的数据基础设施。然而,这并不是一次性完成的任务。随着企业日常运营中数据量和种类的不断增加,需要持续优化性能、调整设计,并引入适合的工具和解决方案。

在本文中,我们将通过一系列文章介绍AWS Glue——一个在AWS上构建数据基础设施时至关重要的服务。希望这些内容能为您在Glue的应用过程中提供一些启发。

数据基础设施是什么?

数据基础设施指的是企业或组织用来收集、管理和分析数据的一系列系统。

数据基础设施通常承担以下四个主要功能:

  • 数据的收集
  • 数据的存储
  • 数据的加工
  • 数据的分析

通常情况下,数据基础设施由以下三层结构组成:

  • 数据湖
  • 数据仓库
  • 数据集市

虽然并没有硬性规定必须采用三层结构设计,但这一结构是数据基础设施中最基本的形式,因此非常值得掌握。

数据基础设施的四大功能

数据的收集
为了有效利用数据,首先需要收集各类数据。由于企业通常采用多个系统,数据往往分散在不同的地方进行管理。因此,必须将这些系统或数据库中孤立的数据集中起来。

注: “孤立数据”是指那些为单一目的保存且未与其他系统联通的数据,这些数据处于分割状态。

数据的存储
收集到的数据需要存储在数据基础设施中。通过利用数据湖,可以对结构化数据、半结构化数据和非结构化数据等各种数据进行集中管理,实现统一存储。

数据的加工
为了实现高效的数据分析,需要将数据加工成易于分析的状态。恰当地处理数据对分析的性能和精度有重要影响,因此这一环节至关重要。

数据的分析
最后,对数据进行分析。为了使处理后的数据更便于作为决策依据,通常需要对数据进行可视化分析。近年来,有许多便捷的可视化和分析工具以及BI工具可供选择,选择适合的工具也是关键的一步。此外,越来越多的企业开始将人工智能引入到数据分析过程中。

数据基础设施的三层结构

数据湖
数据湖是用于存储海量数据的场所,这些数据以原始形式存储,包括结构化数据、半结构化数据和非结构化数据等各种类型。数据湖的优势在于能够以其原始形式存储各种数据,从而拓展了数据的使用范围。数据湖中的数据并不像数据仓库或数据集市那样具备特定的目的,而是为了未来可能的需求进行储备。

数据仓库
数据仓库是用于存储经过处理后的数据的场所,这些数据源自数据湖中的原始数据。为了便于分析,数据仓库中的数据通常会经过结构化、格式转换、重复数据删除和字符编码转换等清理处理。这些操作使得数据仓库能够存储一致性强且便于跨领域分析的数据。这些处理通常通过ETL(提取、转换、加载)流程来实现,后面将对ETL进行详细解释。

数据集市
数据集市是根据具体的业务部门、用途或目的,从数据仓库中提取出所需数据,并将其加工为便于使用的形式后进行存储的场所。与全面覆盖信息的数据库仓库不同,数据集市根据不同的用途和需求对数据进行分类存储。这种方法有助于快速获取数据并优化分析过程。

ETL处理

ETL处理是指将数据提取(Extract)、转换(Transform)为适合数据仓库(DWH)使用的格式并进行加工处理,最后加载(Load)到数据仓库的一系列过程。ETL的名称即来源于这三个步骤的首字母缩写。

AWS Glue概述

AWS Glue是一种在AWS上提供的无服务器、可扩展的数据集成服务。通过使用Glue,用户可以从AWS内外的多个数据源中进行数据的发现、准备、移动和整合,从而大大简化了数据分析、机器学习以及其他基于数据的应用程序的开发。

AWS Glue所提供的功能非常广泛,因此很难用一句话来概括Glue的服务性质。

下图展示了AWS Glue环境的架构。

图片出自AWS Glue concepts - AWS Glue 

 

AWS Glue的主要功能包括以下几点:

  • Glue作业(Glue Job)
    Glue作业是AWS Glue中的核心功能之一,用于定义和执行数据的提取、转换和加载(ETL)流程。通过Glue作业,用户可以创建和管理一系列自动化的数据处理任务。

  • Glue数据目录(Glue Data Catalog)
    Glue数据目录是一个持久的元数据存储库,用于存储与数据存储位置和架构相关的元数据。它使得不同的数据源之间能够轻松共享和访问数据,并且可以作为多个AWS服务(如Amazon Athena、Amazon Redshift等)的共享数据元数据存储。

Glue作业

Glue作业是一个允许用户使用Python编写程序,以无服务器方式实现ETL处理的功能。尽管它与AWS Lambda有类似之处,但Glue作业在Apache Spark环境中运行,专门针对ETL处理提供内置功能和适合数据处理的资源。Glue作业还可以基于时间表或特定事件触发执行,灵活性极高。

Glue数据目录

Glue数据目录是一个用于存储数据元数据的集中式存储库。通过Glue数据目录,用户可以管理存储在S3上的结构化数据(如CSV和Parquet文件)的架构信息和文件位置等元数据。它还包含定义ETL作业所需的其他元数据,并可以保存数据的更改历史记录。虽然用户可以手动定义架构,但也可以利用Glue的爬虫(Crawler)功能自动从数据文件中检测并生成架构信息。

总结

本文概述了数据基础设施的基本概念和AWS Glue的关键功能。我们详细介绍了Glue作业的无服务器ETL处理能力,以及Glue数据目录在管理和存储数据元数据中的重要作用。通过理解这些核心功能,企业可以更高效地构建和优化其数据基础设施,为数据分析、机器学习等应用打下坚实基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2094055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DeepMind 机器人学习打乒乓球,朝着「专业运动员水平的速度和性能」发展

这几天全球各界最火热的话题非奥运会莫属,而其中乒乓球比赛更是引起了互联网的讨论热潮,无论是欢呼也好、争议也罢,在现实世界人类的乒乓球大赛风生水起的同时,AI已经偷偷在乒乓球上“出师”了—— ——DeepMind近日发布一项新工作…

机器学习 第7章 贝叶斯分类器

目录 7.1 贝叶斯决策论7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.5.1 结构7.5.2 学习7.5.3 推断 7.6 EM算法 7.1 贝叶斯决策论 对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误…

如何删除浏览器每次登录自动保存的密码,以防自动登录泄露自己的隐私

今天小编以 Microsoft edge 浏览器为例,如何在自己离职或毕业以后留给他人的电脑是干净的,不会在任何网页登录时显示已保存的密码,让他人自动登录。 ①在电脑上打开 Microsoft edge 浏览器后,点击“设置” ②进入设置界面后&…

基于SSM的咖啡馆管理系统

基于SSM的咖啡馆管理系统的设计与实现~ 开发语言:Java数据库:MySQL技术:SpringSpringMVCMyBatisJSP工具:IDEA/Ecilpse、Navicat、Maven 系统展示 前台界面 后台界面 摘要 在当前这个信息爆炸的时代,众多行业正经历着…

Python酷库之旅-第三方库Pandas(114)

目录 一、用法精讲 501、pandas.DataFrame.mode方法 501-1、语法 501-2、参数 501-3、功能 501-4、返回值 501-5、说明 501-6、用法 501-6-1、数据准备 501-6-2、代码示例 501-6-3、结果输出 502、pandas.DataFrame.pct_change方法 502-1、语法 502-2、参数 502…

[知识分享]华为铁三角工作法

在通信技术领域,尤其是无线通信和物联网领域,“华为铁三角”是华为公司内部的一种销售、交付和服务一体化的运作模式。这种模式强调的是以客户为中心,通过市场、销售、交付和服务三个关键环节的紧密协作,快速响应客户需求&#xf…

2.12 滑动条事件

目录 实验原理 实验代码 运行结果 实验原理 在 OpenCV 中,滑动条设计的主要目的是在视频播放帧中选择特定帧,而在调节图像参数时也会经常用到。在使用滑动条前,需要给滑动条赋予一个名字(通常是一个字符串)&#x…

Java | Leetcode Java题解之第388题文件的最长绝对路径

题目&#xff1a; 题解&#xff1a; class Solution {public int lengthLongestPath(String input) {int n input.length();int pos 0;int ans 0;int[] level new int[n 1];while (pos < n) {/* 检测当前文件的深度 */int depth 1;while (pos < n && inpu…

Mamba:超越Transformer的新一代神经网络架构

在过去的七年里&#xff0c;Transformer一直在语言建模领域占据着主导地位。然而&#xff0c;现在有一个新兴的神经网络架构Mamba&#xff0c;正在挑战Transformer的霸主地位。虽然目前Mamba仅在规模较小的模型上进行了测试&#xff08;参数量达到数十亿&#xff09;&#xff0…

华为OD机试真题 - 构成正方形的数量(Java/Python/JS/C/C++ 2024 B卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;E卷D卷A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加…

MySQL密码策略更改(临时+永久)

目录 1、查看数据库当前密码策略 2、查看密码插件&#xff1a; 3、官方文档策略定义 4、更改密码策略 临时修改 &#xff08;1&#xff09;更改密码策略为LOW&#xff0c;改为LOW或0 &#xff08;2&#xff09;更改密码长度 &#xff08;3&#xff09;设置大小写、数字…

【操作系统】操作系统运行环境——中断与异常

中断与异常 导读一、中断机制1.1 中断机制的重要性 二、中断与异常的基本概念2.1 中断与异常的个人理解2.2 内中断与外中断 三、中断与异常的分类四、中断与异常的处理过程结语 导读 大家好&#xff0c;很高兴又和大家见面啦&#xff01;&#xff01;&#xff01; 在上一篇内…

【C++ | 设计模式】简单工厂模式的详解与实现

1.简单工厂模式概述 简单工厂模式&#xff08;Simple Factory Pattern&#xff09;是一种创建型设计模式&#xff0c;它定义了一个工厂类&#xff0c;由这个类根据提供的参数决定创建哪种具体的产品对象。简单工厂模式将对象的创建逻辑集中到一个工厂类中&#xff0c;从而将对…

认知杂谈32

今天分享 有人说的一段争议性的话 I I 《恋爱中的价值难题》 咱就认识个31岁的哥们&#xff0c;事业有成&#xff0c;一年能挣35 万。他现在正为找对象的事儿犯愁呢。他想找个年轻漂亮的小姑娘谈对象&#xff0c;可又不想在感情上投入太多&#xff0c;就想一边乐呵着&#x…

Linux(CentOS)同步服务器时间之~ntpd

NTP 是 Network Time Protocol&#xff08;网络时间协议&#xff09;的缩写&#xff0c;它是一种用于在计算机系统之间同步时间的协议。NTP 允许网络中的设备通过与一个或多个时间服务器进行通信&#xff0c;来校正自身的系统时钟&#xff0c;确保所有设备上的时间保持高度一致…

演示:基于WPF的DrawingVisual和谷歌地图瓦片开发的地图(完全独立不依赖第三方库)

一、目的&#xff1a;基于WPF的DrawingVisual和谷歌地图瓦片开发的地图 二、预览 三、环境 VS2022&#xff0c;Net7,DrawingVisual&#xff0c;谷歌地图瓦片 四、主要功能 地图缩放&#xff0c;平移&#xff0c;定位 真实经纬度 显示瓦片信息 显示真实经纬度和经纬线 省市县…

[环境配置]Pycharm手动安装汉化插件

在Pycharm-file-setting-Plugins中&#xff0c;搜索chinese&#xff0c;就会出现汉化包 点击install后&#xff0c;在安装时出现这种报错&#xff1a;Plugin "Chinese (Simplified) Language Pack / 中文语言包" was not installed: Invalid filename returned by a …

用 jsPDF 让 PDF 生成触手可及

jsPDF &#xff1a;在浏览器中生成 PDF&#xff0c;从未如此简单- 精选真开源&#xff0c;释放新价值。 概览 jsPDF 是一个开源的 JavaScript 库&#xff0c;专为在浏览器端生成 PDF 文档而设计。它通过提供一个直观且易于使用的 API&#xff0c;使得开发者能够快速地将 PDF 生…

【Kubernetes】持久卷 PV

持久卷 PV 1.什么是持久卷2.创建一个持久卷3.持久卷的访问模式4.持久卷的回收策略 数据卷是在创建 Pod 时通过 挂载目录 来实现数据的共享和持久化的。但是在一个大型系统中&#xff0c;这种方式是非常不利于管理的&#xff0c;因为数据卷把数据的 持久存储 和 供应使用 封装在…

短时傅里叶变换(Short-Time Fourier Transform, STFT),语音识别

高能预警&#xff01;&#xff01;&#xff01; .wav文件为笔者亲自一展歌喉录制的噪声&#xff0c;在家中播放&#xff0c;可驱赶耗子&#xff0c;蟑螂 介绍 短时傅里叶变换&#xff08;Short-Time Fourier Transform, STFT&#xff09;是一种时频分析方法&#xff0c;用于…