一文了解 Amazon DataZone 使用指南

news2025/1/17 23:15:11

e0f47eb71e423f8bbc122b6d0a293795.gif

Amazon DataZone 现已正式发布。作为一项新的数据管理服务,它能够在组织中对数据生产者和消费者之间产生的数据进行编目、发现、分析、共享管理

通过 Amazon DataZone,数据生产者可使用 Amazon Glue 数据目录和 Amazon Redshift 表格中的结构化数据资产,填充业务数据目录。数据消费者可以在数据目录中搜索并订阅数据资产,并与其他业务用例合作者共享。消费者可以使用 Amazon Redshift 或 Amazon Athena 等查询编辑器等工具分析其订阅的数据资产,这些工具可以从 Amazon DataZone 门户网站直接下载。集成的发布及订阅工作流程可以提供跨项目访问审核功能。

Amazon DataZone 简介

Amazon DataZone 域代表了在组织内部,能够管理自己数据(包括自己的数据资产和数据定义、业务术语)的业务线(LOB)或业务领域清晰的边界,并且可能拥有自己的管理标准。该域包括所有核心组件,例如数据门户、业务数据目录、项目和环境以及内置工作流程。

1321f0d281e10bf5fe5355896a5fba38.jpeg

1. 数据门户(在亚马逊云科技管理控制台之外)

它是一个网络应用程序,不同的用户可以自选服务,对数据进行编目、发现、管理、共享和分析。数据门户使用 Amazon Identity and Access Manager (IAM) 凭证或通过您的身份提供商 Amazon IAM Identity Center 提供现有凭证对用户进行身份验证。

2. 业务数据目录

在目录中,您可以定义分类法或业务术语表。您可以使用此组件根据业务上下文对整个组织的数据进行编目,从而使组织中的每个人都能快速查找和理解数据。

3. 数据项目和环境

您可以创建基于业务用例的人员分组、数据资产分组和分析工具分组,以简化对亚马逊云科技分析的访问。Amazon DataZone 将为项目成员提供一个可以进行协作、交换数据和共享数据资产的空间。在项目中,您可以创建一个环境,为项目成员提供必要的基础架构,如分析工具和存储,以便项目成员可以轻松地生成新数据或使用他们有权访问的数据。

4. 治理和访问控制

您可以使用内置的工作流程来管理数据订阅请求,它允许整个组织的用户请求访问目录中的数据,并允许数据所有者审查和批准这些请求。在订阅请求获准后,Amazon DataZone 便可通过管理等基础数据存储(例如 Amazon Lake Formation 和 Amazon Redshift)的权限,自动授予访问权限。

扫描下方二维码,获取更多 Amazon DataZone 相关信息。

b641bdda970f42e89b1fc55365f05652.png

开始使用 Amazon DataZone

首先,我们可以设定这样一个需求场景:产品市场团队希望开展活动来推动营销,因此他们需要分析销售团队所拥有的产品销售数据。

在该场景中,销售团队作为数据生产者,在 Amazon DataZone 中发布销售数据;市场团队作为数据消费者,订阅销售数据并对其进行分析以制定营销策略。

1.创建域

在您首次使用 DataZone 时,首先要创建域,确保数据门户中的所有核心组成部分(如业务数据目录、项目和环境)都存在于该域中。转到 Amazon DataZone 控制台,选择“创建域”。

ba13d6b8fbba1b59b635c9014246b112.jpeg

输入“域名”和描述,所有其他值保留默认值。

e090f46fa3c6f91766279835f8ab13c4.jpeg

例如,在服务访问部分,如果您在默认情况下选择创建并使用新角色,Amazon DataZone 将自动创建一个具有必要权限的新角色,授权 DataZone 代表域内的用户进行 API 调用。选择快速设置选项,DataZone 可以处理所有设置步骤。

a0b9fc859be32e942ce23e46201f6791.jpeg

最后,选择“创建域”。Amazon DataZone 将创建必要的 IAM 角色,并使该域能够使用您帐户中的资源,如 Amazon Glue Data Catalog、Amazon Redshift 和 Amazon Athena。创建域可能需要花费几分钟。等待域的状态变为可用

2.在数据门户中创建项目和环境

成功创建域后选择它,然后在域的摘要页面上记下根域的数据门户 URL。您可以使用此 URL 访问您的 Amazon DataZone 数据门户。选择“打开数据门户”

85e0935cee26dfef8961bbebe9b38864.jpeg

如需创建一个新的数据项目作为销售团队发布销售数据,请选择“创建项目”

34344cb8b822308ad8c01b6ce4118eff.jpeg

在对话框中,输入“销售生产者项目”作为名称,然后输入项目说明并选择“创建”

a03d815589e45c39cfd43dff3afb0f3c.jpeg

在此项目创建成功后,您就需要在这个项目中创建一个使用数据和分析工具的环境,例如 Amazon Athena 或 Amazon Redshift。在概览页面中或在单击“环境”选项卡后,选择“创建环境”

ddc9d9033adbd3514ff00e68f051af1f.jpeg

输入“公共环境”作为名称,然后输入此环境的描述,选择“环境配置文件”。环境配置文件是一个预定义的模板,其中包含创建环境所需的技术详细信息,例如亚马逊云科技帐户、区域、VPC 的详细信息以及向项目中添加的资源和工具。

您可以选择几个默认的环境配置文件。选择“DataLakeProfile”,以便从基于 Amazon S3 和 Amazon Glue 的数据湖中发布数据。它还简化了您使用 Amazon Athena 访问的 Amazon Glue 表查询的流程。

c5281776c97d04454d1f4f87971cb348.jpeg

接下来,忽略所有可选参数,并选择“创建环境”。在您的亚马逊云科技帐户中创建某些资源环境大约需要一分钟的时间,例如 IAM 角色、Amazon S3 后缀、Amazon Glue 数据库和 Athena 工作组,确保项目成员更容易在数据湖中生成和使用数据。

6eb4a971adcb860c43376b0a442a47c6.jpeg

3.在数据门户中发布数据

您已经拥有了在 Amazon Glue 表中发布数据的环境。要在 Amazon Athena 中创建此表,请选择“环境”页面右侧的 Athena 链接“查询数据”

01fa43fbc980d3b9fe12b27db4ee590a.jpeg

您将在一个新选项卡中打开 Athena 查询编辑器。从数据库下拉列表中选择 publishenvironment_pub_db ,然后将以下查询粘贴到查询编辑器中。您将在环境下的 Amazon Glue 数据库中创建一个名为 catalog_sales 的表格。

CREATE TABLE catalog_sales AS
SELECT 146776932 AS order_number, 23 AS quantity, 23.4 AS wholesale_cost, 45.0 as list_price, 43.0 as sales_price, 2.0 as discount, 12 as ship_mode_sk,13 as warehouse_sk, 23 as item_sk, 34 as catalog_page_sk, 232 as ship_customer_sk, 4556 as bill_customer_sk
UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551
UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565
UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563
UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562
UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555
UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556
UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 455
UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563
UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557
UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

左滑查看更多

您可以在下拉菜单中看到这两个数据库。 Publishenvironment_pub_db 数据库将为您提供生成新数据的空间,并选择将其发布到 DataZone 目录中。另一个, publishenvironment_sub_db 数据库用于项目成员订阅或访问该项目目录中的数据。

e533102d64c623a6eac390a5885cd7b7.jpeg

确保已成功创建 catalog_sales 表。现在您拥有了一个可以发布到 Amazon DataZone 目录中的数据资产。

作为数据生产者,您现在可以返回到数据门户并将此表格发布到 DataZone 目录中。选择顶部菜单中的数据选项卡和左侧导航窗格中的数据源

54f8e97fc1f60074f81ce68fe59354cf.jpeg

您可以看到在您的环境中自动创建的默认数据源。当您打开此数据源时,您将看到您的环境发布的数据库,和我们刚刚在该数据库中创建的 catalog_sales 表。

ad155b449fa48f6b1c4e8e696c194232.jpeg

此数据源将把它在发布数据库中能够找到的所有表格导入 DataZone。默认情况下,自动元数据生成的启用,意味着数据源带入 DataZone 的任何资产都将自动生成该资产的表格和业务名称栏目。在此数据源中选择“运行”

数据源运行完成后,您可以在数据源运行中找到 catalog sales 表。

e2c6cef6b680eb98a7deb233e66c20e5.jpeg

您可以打开此资产,看到发布作业可以自动提取技术元数据,包括表格的模式和一些其他的技术细节,如亚马逊云科技帐户、区域和数据的物理位置。

ca971148a3b4395fba1c464f23517d62.jpeg

如果它们看起来都正确,您可以轻松接受这些建议,方法是点击每个推荐项目中的大脑图标,或者点击“全部接受”按钮接受所有推荐项目。准备好发布后,选择“发布资源”,并在对话框中再次确认。

9c3bcd38e9441eb5ae31418fdaa3fdc7.jpeg

4.以数据消费者身份订阅数据

现在,我们将角色切换到市场团队,看看如何订阅或请求访问此列表。重复上述步骤,创建一个名为“市场消费者项目”的新项目,并且重复相同步骤创建一个名为“订阅者环境”的新消费者数据环境。

在新创建的项目中,当您在搜索栏中输入“目录销售”时,您可以在搜索结果中看到已发布的表格。选择“目录销售数据”

26ef3f902e1b0ee048fbe7ebfa067805.jpeg

在目录中,选择“订阅”

a21a2da5873ff93a1a62424935377a8d.jpeg

“订阅目录销售数据”窗口中,选择市场消费者项目,提交订阅请求的原因,然后选择“订阅”

225460060840f85c04eb5837c654fc44.jpeg

当您作为数据生产者收到订阅请求时,它将以销售生产者项目中任务的形式通知您。由于您在这里同时充当订阅者和发布者,因此您将看到一条通知。

33edeb1b40ad139519763a2cdbe26163.jpeg

当您单击此通知时,它将打开订阅请求,包括请求访问的项目、请求者是谁以及需要访问的原因。选择“批准”,并提供批准理由。

现在订阅已经获得批准,您可以在市场消费者项目中查看目录销售数据。如需确认这一点,请选择顶部菜单中的“数据”选项卡和左侧导航窗格中的数据源

e31919c5b1dc83225eac47329a073312.jpeg

要分析订阅数据,请选择顶部菜单中的“环境”选项卡和您在市场消费者项目中创建的订阅环境。它在右侧窗格中显示了一个新数据查询链接。

ea61949c298d4e56b6bc09cce707acf1.jpeg

我们可以看到目录销售表格显示在订阅数据库下。


为了确定我们是否有权访问这个表格,可以先预览,之后能够看到查询执行成功。

在一个新选项卡中打开了 Athena 查询编辑器。从数据库下拉列表中选择 subscribeenvironment_sub_db ,然后在查询编辑器中输入您的查询。

81cf0623239d79c1da1bfadac6b44659.jpeg

现在,您作为消费者(市场团队)已经订阅了销售数据,可以对由生产者(销售团队)发布到业务数据目录中的销售数据表格运行任何查询。

正式发布后有哪些新增功能?

在预览期间,很多客户表达了喜爱,并提出了良好的反馈建议。在此快速回顾一下这些功能,并介绍亚马逊云科技做的一些改进:

企业级业务目录 — 为了添加业务内容并使组织中的每个人都能够发现数据,您可以使用自动元数据生成自定义目录,该目录使用机器学习来自动生成数据资产,以及这些资产中的业务名称栏目。我们还改进了元数据管理功能。您可以将多个业务词汇表术语附加到资产,并将词汇表术语添加到资产中的各个栏目。

数据用户自助服务 — 为用户提供发布和使用数据的数据自主权,您可以使用 API 自定义任何类型的资产并添加到目录中。数据发布者可以通过接收作业自动发现元数据,也可以通过 Amazon Simple Storage Service (Amazon S3) 手动发布文件。数据消费者可以使用分面搜索来快速查找和理解数据,通知用户系统中的更新或需要采取的操作。您还可以使用 Amazon EventBridge,将这些事件发送到客户的事件总线,从而自定义操作。

简化分析访问权限 — 项目将作为基于业务用例的逻辑容器。您可以创建一个项目,并基于人员、数据和分析工具进行特定业务用例分组相互协作。在项目中,您可以创建一个环境,为项目成员提供必要的基础架构,例如分析工具和存储,以便项目成员可以轻松地生成新数据或使用他们有权限访问的数据。用户可以根据自己的需求向同一项目添加多个功能和分析工具。

受控数据共享 — 数据生产者拥有并管理对数据的访问,通过订阅审批工作流程,消费者可以请求访问,数据所有者可以批准。现在,您可以设置在发布时附加到资产上的订阅条款,并通过使用 EventBridge 事件对其他来源进行自定义,自动执行亚马逊云科技管理的数据湖和 Amazon Redshift 的订阅授权。

立即使用

目前,Amazon DataZone 在11个亚马逊云科技地区广泛使用:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(斯德哥尔摩)和南美洲(圣保罗)。

您可以使用 Amazon DataZone 的免费试用版,包含 50 名用户,在使用的前 3 个日历月内无需支付额外费用。当您首次在亚马逊云科技帐户中创建 Amazon DataZone 域时,就可以开始免费试用。如果您在试用期间超过了每月用户数,将按标准价格向您收取费用。

如需了解更多信息,请访问产品页面(https://aws.amazon.com/datazone/)和用户指南(https://docs.aws.amazon.com/datazone/latest/userguide/what-is-datazone.html)。您可以将反馈意见发送至 Amazon re:Post for Amazon DataZone(https://repost.aws/tags/TAeDnijUDURuG0rz_JUCxy3Q/amazon-datazone),或发送给您常用的亚马逊云科技支持联系人。

本篇作者

6d995ff1ee66ade0a72176f86053b6e8.jpeg

Channy Yun 

亚马逊云科技首席开发者布道师,他热衷于帮助开发者在最新的亚马逊云科技服务上构建现代应用程序。作为一名务实的开发人员和博主,他热爱社区驱动技术的学习和分享,他认为这可以将开发人员聚集到全球亚马逊云科技用户群中。他的主要课题是开源、容器、存储、网络和安全以及物联网。请关注他的推特账号 @channyun。

939e1158daa0fad0f53e558477e415fa.gif

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

961736cea3d63bcd47058f24e3c5a518.gif

听说,点完下面4个按钮

就不会碰到bug了!

a3813a26e7a8c1cea96f34ae4c9d961b.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1104268.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何优化模型渲染性能

1、提高模型渲染性能的好处 优化模型渲染性能有以下几个好处: 提高用户体验:良好的模型渲染性能可以使图形应用程序更加流畅和响应快速。当模型以较高的帧率渲染时,用户可以获得更流畅、更真实的视觉效果,提升整体的用户体验。 …

Jmeter性能测试(压力测试)

1.先保存 2.添加请求(即添加一个线程组) 3.添加取样器(在线程组下面添加一个http请求) 场景1:模拟半小时之内1000个用户访问服务器资源,要求平均响应时间在3000毫秒内,且错误率为0&#xff0…

BI工具-DataEase(2) 基础使用

先讲下工具栏,分别是仪表盘,数据集,数据源,模板市场等等. 和大多数的BI工具一样,首先配置的就是数据源 1. 数据源:支持OLTP,OLAP,数仓/数据湖,我们这边还是使用的mysql 新建mysql数据源,填写配置信息 2. 数据集支持Excel,SQL,关联数据集等等,新建SQL数据集,输出SQL语句 点击运…

软考-面向对象技术

面向对象的基本概念 对象:属性(数据) 方法(操作) 对象ID类(实体类、控制类/边界类)继承与泛化:复用机制封装:隐藏对象的属性和实现细节,仅对外公开接口多态&…

【JavaEE】Callable 接口

Callable 是一个 interface . 相当于把线程封装了一个 “返回值”. 方便程序猿借助多线程的方式计算结果. 实现Callable也是创建线程的一种方法!!!! Callable的用法非常接近于Runnable,Runnable描述了一个任务&#…

C语言中static关键字用法

C语言中static关键字用法 2021年7月28日席锦 static关键字在c语言中比较常用,使用恰当能够大大提高程序的模块化特性,有利于扩展和维护。但是对于c语言初学者,static由于使用灵活,并不容易掌握。 变量 1.局部变量 普通局部变量是再…

智能手表上的音频(二):驱动

上一篇讲了智能手表上音频系统的架构和应用场景。从本篇开始讲具体的,首先讲音频相关的驱动,主要包括IPC(inter-processor communication,核间通信, 即AP/CP/ADSP之间的通信)的driver 和audio的driver。首先…

讯飞星火3.0版发布前瞻,生产力将大幅提升

AI头部企业科大讯飞宣布,即将在10月24日发布讯飞星火认知大模型3.0版。新版本将极大提升生产力,并开启大规模AI应用产业落地。 一、讯飞星火大模型3.0版即将升级发布 科大讯飞是AI人工智能技术、智能语音识别技术领域的全球领先企业,也是大…

垃圾回收器、垃圾回收算法、空间分配担保、JVM调优、GC回收对象的过程

文章目录 🍊 垃圾回收器、垃圾回收算法、空间分配担保🎉 Serial🎉 ParNew🎉 Parallel scavenge🎉 复制算法🎉 分代收集算法🎉 进入老年代的几种情况📝 空间分配担保 🎉 S…

PCI认证:为什么它对你的业务至关重要,以及如何成功获得认证?

PCI认证是保障你的业务安全和合规性的重要工具。它是一个由支付卡行业安全标准委员会(PCI SSC)提供的全球性标准,旨在保护持卡人信息和资金的安全。如果你的企业处理、存储或传输持卡人信息,那么PCI认证就对你的业务至关重要。 为什么PCI认证对你的业务至…

拼接屏新时代:了解OLED透明拼接屏的尺寸与定制选择

在当今科技迅速发展的时代,OLED透明拼接屏作为一项引人注目的创新技术,正在改变我们对于显示屏的认知。 它以其独特的透明性和高清晰度,为用户提供了前所未有的视觉体验。 一、OLED透明拼接屏原理 OLED(Organic Light Emitting …

基于 Servlet 的博客系统

基于 Servlet 的博客系统 一、准备工作1、创建项目2、创建包3、导入前端静态页面 二、数据库设计1、blog(博客表)2、user(用户表)3、建库建表的 SQL 语句 三、封装数据库操作1、为什么要封装数据库?2、封装数据库的连接…

最高频的五个面试题

目录 1.JavaSE阶段:谈谈啥是多态 2.数据结构阶段:谈谈哈希表 3.数据库阶段:谈谈事务 4.操作系统阶段:谈谈进程和线程的区别联系 5.网络阶段:TCP三次握手和四次挥手 1.JavaSE阶段:谈谈啥是多态 多态&a…

解决方案-LBS用户位置Redis-GEO附近人/店铺

附近人 windows安装附近人列表功能mysqlredis GEO CNNVD-201511-230 未授权访问python 多线程 redis大端模式与小端模式IP地址的不同表现形式1.字符串表现形式2. 整数表现形式3.大小端模式下的IP地址 0x01 进入python正题Python的socket库1.socket.socket(family,type)2.socket…

【前端学习】—多种方式实现数组拍平(十一)

【前端学习】—多种方式实现数组拍平(十一) 一、数组拍平 数组拍平也叫数组扁平化、数组拉平、数组降维,指的是把多维数组转化为一维数组。 二、使用场景 复杂场景下的数据处理(echarts做大屏数据展示) 三、如何实…

华硕U盘盘重装Win10系统步骤图解

重装操作系统是在电脑系统遇到问题或者需要清除所有数据时的一种常见解决方法。但是,很多使用华硕电脑的新手用户,不清楚具体的操作步骤,接下来小编就给介绍关于利用U盘给华硕电脑重装Win10系统的方法,帮助用户们更快地完成系统的…

Shader Graph25-UV移动旋转缩放(自定义函数)

我们将UV操作放入函数内,该函数的内容来自我之前的文章 Shader Graph24-摇晃树叶-CSDN博客 一、UE在Material中右键,新建Material Function。 增加输入 二、新建Material,命名为DemoUVRotationUseFunction Offset为偏移值,Rotat…

VMware虚拟机安装Linux系统的介绍

许多新手连 Windows 的安装都不太熟悉,更别提 Linux 的安装了;即使安装成功了,也有可能破坏现有的 Windows 系统,比如导致硬盘数据丢失、Windows 无法开机等。所以一直以来,安装 Linux 系统都是初学者的噩梦。 然而&a…

填充颜色游戏

无语死了这题。 题目描述 小明最近迷上下面一款游戏。游戏开始时, 系统将随机生成一个 N N 的 正方形棋盘, 棋盘的每个格子都由六种颜色中的一种绘制。在每个步骤中, 玩家选择一种颜色, 并将与左上角连接的所有网格更改为该特…

MSQL系列(四) Mysql实战-索引 Explain实战

Mysql实战-索引 Explain实战 前面我们讲解了索引的存储结构,我们知道了BTree的索引结构,也了解了索引最左侧匹配原则,到底最左侧匹配原则在我们的项目中有什么用?或者说有什么影响?今天我们来实战操作一下&#xff0c…