企业级数据共享规模化模式

news2025/1/14 0:53:24

f3638f244b4c0caa5bd4a7f2e15a2bf8.gif

数据共享正在成为企业数据战略的重要元素。对于公司而言,Amazon Data Exchange 这样的亚马逊云科技服务提供了与其他公司共享增值数据或从这些数据获利的途径。一些企业希望有一个数据共享平台,他们可以在该平台上建立协作和战略方法,在封闭、安全和排外的环境中,与有限的一组公司交换数据。例如,金融服务公司与其审计公司,或制造公司与其供应链合作伙伴。这可以促进新产品和服务的开发,并有助于提高其运营效率。

数据共享是一项团队工作,值得注意的是,在构建合适的基础设施之外,成功的数据共享还需要企业确保业务负责人支持数据共享计划。他们还需要确保提供高质量的数据。数据平台所有者和安全团队应鼓励正确使用数据,并修复任何隐私和保密问题。

本文讨论了各种数据共享选项以及常见架构模式,企业可以采用这些模式,基于亚马逊云服务可用性和数据合规性来设置其数据共享基础设施。

数据共享选项和数据分类类型

企业在运营时受各种安全合规要求的约束。一些企业可以使用像 Amazon Data Exchange 这样的亚马逊云科技服务。但是,一些机构在受严格监管的行业中开展工作,例如联邦机构或金融服务等,他们可能会受到限制,只能使用明示允许的亚马逊云科技服务选项。例如,如果某个企业被要求在 Fedramp Medium 或 Fedramp High 环境中运营,则他们共享数据的选项可能会限制为可用且已明示允许的亚马逊云科技服务。服务可用性基于亚马逊云科技的平台认证,允许列表则基于企业对其安全合规性架构和准则的定义。

企业要与其合作伙伴共享的数据类型,也可能会对用于数据共享的方法产生影响。遵守数据分类规则可能会进一步限制他们能够选择的数据共享选项。

以下是一些常规数据分类类型:

  • 公共数据 – 重要信息,但通常可供人们免费读取、研究、查看和存储。这些数据通常具有最低的数据分类和安全级别。

  • 私有数据– 您可能需要保密的信息,例如电子邮件收件箱、手机中的内容、员工识别号码或员工地址。私有数据如果被共享、销毁或更改,可能会对个人或企业构成轻微的风险。

  • 机密或受限数据– 有限的个人或团体可以访问的敏感信息,通常需要特别许可或特别授权。对机密或受限数据的访问可能涉及身份和授权管理等方面。机密数据的示例包括社会安全号码和车辆识别号。

以下是决策树示例,在根据服务可用性、分类类型和数据格式(结构化或非结构化)选择数据共享选项时,您可以参考该决策树。其他因素,例如可用性、多个合作伙伴可访问性、数据大小、使用模式(批量加载/API 访问)等,也可能会影响数据共享模式的选择。

25b81f6bcfb42398cd5b1ed23cafb842.png

在以下部分中,我们将详细地讨论每个模式。

模式 1:

使用 Amazon Data Exchange

Amazon Data Exchange 简化了数据交换过程,帮助企业降低成本、提高敏捷性并加快创新。企业可以选择使用 Amazon Data Exchange 与外部合作伙伴私密共享数据。Amazon Data Exchange 提供在身份和资源级别应用的边界控制。这些控制措施决定哪些外部身份有权访问特定的数据资源。Amazon Data Exchange 为外部各方访问数据提供了多种不同的模式,例如:

  • Amazon Data Exchange for Amazon Redshift

  • Amazon Data Exchange for Amazon Lake Formation(目前为预览版)

  • 适用于数据 API 的 Amazon Data Exchange

  • 适用于数据文件的 Amazon Data Exchange

  • Amazon Data Exchange for Amazon S3(目前为预览版)

下图展示了一个示例架构。

7fdab7bdc1ddacd1b8f3371890d90a52.png

借助 Amazon Data Exchange,在配置了要共享(或销售)的数据集后,Amazon Data Exchange 就会自动管理创建者和使用者之间的授权(和账单)。创建者不必管理政策、设置新的接入点或为每个使用者创建新的 Amazon Redshift 数据共享,在订阅结束时会自动撤销访问权限。这可以显著减少共享数据的操作开销。

模式 2:

使用 Amazon Lake Formation

进行集中访问管理

在创建者和使用者均使用亚马逊云科技服务,且具有可以使用 Aamazon Lake Formation 的亚马逊云科技账户时,您可以使用这种模式。这种模式提供了一种无需编写代码的数据共享方法。下图展示了一个示例架构。

46bf286f86aa67cef9449cc9c78f889d.png

在这种模式下,中央监管账户配置了 Lake Formation,用于管理创建者企业账户的访问权限。来自生产账户 Amazon Simple Storage Service(Amazon S3)存储桶中资源的链接在 Lake Formation 中创建。创建者将 Amazon Glue Data Catalog 资源上的 Lake Formation 权限授予外部账户,或者直接授予其他账户中的 Amazon Identity and Access Management(IAM)主体。Lake Formation 使用 Amazon Resource Access Manager(Amazon RAM)来共享资源。如果被授予者账户与授予者账户属于同一企业,则可立即向被授予者提供共享资源。如果被授予者账户不属于同一企业,则 Amazon RAM 会向被授予者账户发送邀请,以便其接受或拒绝资源授予。要使共享资源可供使用,被授权者账户中的使用者管理员必须使用 Amazon RAM 控制台或 Amazon 命令行界面(Amazon CLI)接受邀请。

获得授权的主体可以与外部账户中的 IAM 主体明确共享资源。当创建者想要控制外部账户中可以访问其资源的用户时,此功能很有用。IAM 主体获得的权限是直接授予的权限,加上与在账户级授予并向下传递到主体的权限。接收方账户的数据湖管理员可以查看直接的跨账户授权,但无法撤消权限。

模式 3:

从创建者外部共享账户中使用 

Amazon Lake Formation

创建者可能有严格的安全要求,任何外部使用者都不应访问其生产账户或其集中治理账户。他们也可能没有在其生产平台上启用 Lake Formation。在这种情况下,如下图所示,创建者的生产账户(账户 A)专用于其内部企业用户。创建者创建另一个账户,即创建者的外部共享账户(账户 B),专用于外部共享。这使得创建者有更大的自由度,可针对特定企业创建特定策略。

b31f214bd541fc3c93475e7e96371d5a.png

创建者实施了一个流程,在账户 B 中创建数据的异步副本。对于需要共享的对象,可以将存储桶配置为同区域复制(SRR,Same Region Replication)或跨区域复制(CRR,Cross Region Replication)。这可以帮助自动将数据刷新到外部账户的 External Published Datasets(外部已发布数据集)S3 存储桶,而无需编写任何代码。

通过创建数据的副本,创建者可以进一步隔离外部使用者与其生产数据。它还可以帮助满足任何合规性或数据主权要求。

Lake Formation 设置在账户 B 上,管理员为其账户中的 External Published Datasets(外部已发布数据集)S3 存储桶创建资源链接,用以授予访问权限。管理员按照前述的相同过程授予访问权限。

模式 4:

使用 Amazon Redshift 数据共享

这种模式非常适合主要在 Amazon Redshift 上发布数据产品的创建者。这种模式还要求创建者的外部共享账户(账户 B)和使用者账户(账户 C)均具有加密的 Amazon Redshift 集群或 Amazon Redshift Serverless 端点,并且它们满足 Amazon Redshift 数据共享先决条件。

以下架构图显示了模式概览。

f77dba286eccd439cbf6c78ed60ca34d.png

根据创建者的合规性限制,可以有两种选择:

  • 选项 A– 创建者直接在生产 Amazon Redshift 集群上启用共享数据。

  • 选项 B – 创建者可能会在共享生产集群方面进行限制。创建者创建一个简单的 Amazon Glue 作业,从生产账户 A 的 Amazon Redshift 集群中,将数据复制到外部账户 B 的 Amazon Redshift 集群。此 Amazon Glue 作业可以根据使用者的需要安排刷新数据。当账户 B 中有数据时,创建者可以根据需要创建多个视图和多个数据共享。

在这两个选项中,创建者可以完全控制共享哪些数据,而使用者管理员则完全控制其企业中的哪些用户可以访问数据。

在创建者和使用者管理员都批准了数据共享请求后,使用者用户可以访问这些数据,就好像这些数据存在于自己的账户中一样,无需编写任何额外的代码。

模式 5:

使用 API 安全私密地共享数据

当外部合作伙伴没有使用任何亚马逊云科技服务时,您可以采用这种模式。如果已发布的数据产品分布在多种服务上(例如,Amazon S3、Amazon Redshift、Amazon DynamoDB 和 Amazon OpenSearch Service),而创建者希望保持单一的数据共享接口时,您也可以使用此模式。

这种使用场景示例如下:A 公司希望与其合作伙伴公司 B 近乎实时地共享一些日志数据,B 公司使用这些数据为 A 公司生成预测洞察。A 公司将这些数据存储在 Amazon Redshift 中。A 公司希望首先遮蔽个人身份信息(PII),然后再与合作伙伴分享事务数据,以经济实惠且安全的方式来生成洞察。B 公司不使用亚马逊云科技服务。

A 公司使用 Amazon Lambda 函数或 Amazon Glue 建立小型批处理流程,该流程查询 Amazon Redshift 以获取增量日志数据,应用规则来遮蔽 PII,并将这些数据加载到 Published Datasets(已发布数据集)S3 存储桶。这将实例化 SRR/CRR 进程,该进程刷新 External Sharing(外部共享)S3 存储桶中的这些数据。

下图显示了使用者随后如何通过基于 API 的方法来访问这些数据。

c9d97cc5b3cb75178f01881c6b2fb1d8.png

该工作流包含以下步骤:

  1. API 使用者发送 HTTPS API 请求到 API 代理层。

  2. API 代理将 HTTPS API 请求转发到外部共享亚马逊云科技账户中的 Amazon API Gateway。

  3. Amazon API Gateway 调用请求接收方 Amazon Lambda 函数。

  4. 请求接收方函数将状态写入 DynamoDB 控制表。

  5. 第二个 Lambda 函数是轮询器,用于在 DynamoDB 表中检查结果的状态。

  6. 轮询器函数从 Amazon S3 提取结果。

  7. 轮询器函数通过 Amazon Simple Email Service(Amazon SES),向请求方发送预签名 URL,以便从 S3 存储桶中下载文件。

  8. 请求方使用该 URL 下载文件。

  9. 网络边界亚马逊云科技账户仅允许传出互联网连接。

  10. 在流量传出创建者的网络边界之前,API 代理层会强制执行传出安全控制和边界防火墙。

  11. Amazon Transit Gateway 安全传出 VPC 路由表仅允许从所需的创建者子网进行连接,同时防止互联网访问。

模式 6:

使用 Amazon S3 接入点。

数据科学家可能需要合作处理图像、视频和文本文档。法律和审计团队可能需要与审计机构共享报告和报表。本模式讨论了共享此类文档的方法。本模式假设外部合作伙伴也在使用亚马逊云科技。Amazon S3 接入点让创建者可以设置跨账户存取,从而与其使用者共享访问权限,而无需编辑存储桶策略。

接入点是附加到存储桶的指定网络端点,可用于执行 S3 对象操作,例如 GetObject 和 PutObject。每个接入点都有不同的权限和网络控制,Amazon S3 对通过该接入点执行的任意请求应用这些权限和网络控制。每个接入点都会强制执行自定义的接入点策略,该策略与附加到底层存储桶的存储桶策略结合在一起使用。

以下架构图显示了模式概览。

800c7719e8af49e87f49284f7232be46.png

创建者创建 S3 存储桶并启用访问点的使用。作为配置的一部分,创建者为使用者指定使用者、IAM 角色和权限。

在使用者账户中具有 IAM 角色的使用者用户可以通过互联网访问 S3 存储桶,也可以通过 VPC 端点和 Amazon PrivateLink,仅限通过 Amazon VPC 进行访问。

总结

每家企业都有一套独特的限制和要求,而建立有效的数据共享解决方案需要满足这些条件。在这篇文章中,我们展示了可供企业使用的各种选项和最佳实践。数据平台所有者和安全团队应携手合作,评测哪种方法最适合您的具体情况。亚马逊云科技账户团队也可以提供帮助。

相关资源

有关相关主题的更多信息,请参阅以下内容:

  • 亚马逊云科技上的数据边界

    https://aws.amazon.com/identity/data-perimeters-on-aws/

  • Amazon Data Exchange

    https://aws.amazon.com/data-exchange/

  • 使用 Amazon Lake Formation 在亚马逊云科技账户之间安全共享数据

    https://aws.amazon.com/blogs/big-data/securely-share-your-data-across-aws-accounts-using-aws-lake-formation/

  • 在 Amazon Redshift 中跨集群共享数据

    https://docs.aws.amazon.com/redshift/latest/dg/datashare-overview.html

  • 使用 S3 接入点设置跨账户 Amazon S3 访问

    https://aws.amazon.com/blogs/storage/setting-up-cross-account-amazon-s3-access-with-s3-access-points/

Original URL: 

https://aws.amazon.com/blogs/big-data/patterns-for-enterprise-data-sharing-at-scale/

本篇作者

361a34d40fc60569afb4a63af7bd5900.jpeg

Venkata Sistla

亚马逊云科技的云架构师,侧重于数据与分析。他擅长构建数据处理功能,帮助客户消除阻碍他们利用数据获得业务洞察的约束。

19c51187ca848936f258bb36884ecdaf.png

Santosh Chiplunkar

亚马逊云科技的首席驻场架构师。他在帮助客户解决数据挑战方面拥有20多年的经验。他帮助客户制定数据和分析策略,并为他们提供如何实现策略的指导。

5d05445f9f330146ed06f1602dea8c56.gif

37b46b6310eb8f58f0afe190ada9ba9a.gif

听说,点完下面4个按钮

就不会碰到bug了!

1fce74a7a78c0c51ed69592a2ae85d7a.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/944834.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

低功耗低成本BLE发射器

低功耗低成本BLE发射器MG223基于巨微薪火架构的蓝牙射频、基带和协议栈,根据自研蓝牙基带和蓝牙5.1广播的特点,做了面向无线传感器的简化和创新,使之更加适合广泛的轻量级蓝牙无线传感的应用。MG223符合蓝牙5.1广播发射规范,现已获…

44、基于51单片机的热敏电阻的数字温度计(AD1674)(程序+Proteus仿真)

编号:44 基于51单片机的热敏电阻的数字温度计(AD1674) 功能描述: 本设计由51单片机最小系统AD1674模块热敏电阻模块液晶1602显示模块 1、主控制器是89C82单片机 2、AD1674模块模数转换器进行A/D转换,读取热敏电阻值电…

【JavaWeb 专题】15个最经典的JavaWeb面试题

文章目录 HTTP长连接和短连接HTTP/1.1 与 HTTP/1.0 的区别可扩展性缓存带宽优化长连接消息传递Host 头域错误提示 AjaxAjax 的优势: JSP 和 servlet 有什么区别?定义区别 JSP 的9大内置对象及作用JSP 的 4 种作用域?session 和 cookie 有什么…

运营型CRM的五大特点

随着市场和需求的变化,CRM系统的形态也开始出现改变。为了更好地管理客户,运营型CRM应运而生,成为了一种新型的客户关系管理模式。那么,运营型CRM是什么?运营型CRM有什么特点? 运营型CRM的定义 例如Zoho …

聚集索引 VS 二级索引(非聚集索引) 原理图

一个表中有且只有一个聚集索引,可以有多个非聚集索引。 聚集索引存储记录是物理上连续存在,物理存储按照索引排序,聚集索引中的叶子节点就是数据节点。 聚集索引的叶子节点称为数据页(16KB) 而非聚集索引是逻辑上的连续…

芭比》拿下全美最高票房!TEMU、TIKTOK随之爆火!

据美国CNN报道,《芭比娃娃》现已成为今年国内票房最高的电影,取代了《超级马里奥兄弟》的桂冠。据电影公司估计,截至上周四,《芭比娃娃》美国票房收入为 5.754 亿美元,超过了《马里奥》的国内票房收入 5.742 亿美元。在…

idea2023远程调试

使用idea2023版远程调试springboot 1.添加remote jvm debug 2.填写远程ip, 选择要调试项目 3.将 参数附带到需要远程调试的jar 命令之前, 重启即可, 命令一定要在jar包之前 , -agentlib:jdwptransportdt_socket,servery,suspendn,address5005即 java -agentlib:jdwptranspor…

linux并发服务器 —— 多进程并发(四)

进程概述 程序是包含一系列信息的文件,描述了如何在运行时创建一个进程; 进程是正在运行的程序的实例,可以用一个程序来创建多个进程; 用户内存空间包含程序代码以及代码所使用的变量,内核数据结构用于维护进程状态…

大型医院影像信息系统(PACS)源码,自主研发,支持二开

影像信息系统(PACS)可接收和显示多种设备的不同影像,比如CT、DR、B超和彩超等,具有医学影像获取、存档、观片、处理、打印和多种管理功能。使资料保存更加完整,共享性更强。医生可以方便的对影像资料进行浏览、拷贝和光…

visual stdio 2015创建QDialog界面类

问题引入 在visual stdio 2015中创建的界面默认为QWidget,可手动修改为继承自QDialog界面类。操作方法 右键项目 -> 添加 -> Add Qt Class… 选择第二项,如下图

九、脉宽调制(pwm)与脉冲频率调制(pfm)

1、概述 pwm和pfm是两大类dc-dc转换器架构 每种类型的性能特征不一样 重载和轻载时的效率不一样 负载调节 设计复杂性能 EMI、噪声的考虑 集成式转换器解决方案可整合这两种操作 2、PWM控制架构 3、损耗部分 损耗组成部分: MOS管的开关损耗、栅极驱动器损耗&…

辉瑞乡村振兴战略下传统村落文化旅游设计小红书中美德少许

辉瑞乡村振兴战略下传统村落文化旅游设计小红书中美德少许

2021年06月 C/C++(五级)真题解析#中国电子学会#全国青少年软件编程等级考试

第1题:数字变换 给定一个包含5个数字(0-9)的字符串,例如 “02943”,请将“12345”变换到它。 你可以采取3种操作进行变换 (1)交换相邻的两个数字 (2)将一个数字加1。如果…

表面计量封闭型高斯滤波器(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

按照json文件的值复制图片

按照json文件的值复制图片 文件格式处理当前JSON代码封装增加批处理 文件格式 0是不挑选,1是挑选 处理当前JSON # coding: utf-8 from PIL import Image, ImageDraw, ImageFont import os import shutil import cv2 as cv import numpy as np import jsondef read…

TDesign在按钮上加入图标组件

在实际开发中 我们经常会遇到例如 添加或者查询 我们需要在按钮上加入图标的操作 TDesign自然也有预备这样的操作 首先我们打开文档看到图标 例如 我们先用某些图标 就可以点开下面的代码 可以看到 我们的图标大部分都是直接用tdesign-icons-vue 导入他的组件就可以了 而我…

【【萌新的STM32学习20--按键输入实验】】

萌新的STM32学习20–按键输入实验 在了解完蜂鸣器的实验之后我们又进行一个小实验 又是正点原子没有上课讲解的实验 对于这种不平滑的情况我们更多的也会去选择方法进行消除抖动 软件消抖:方法很多,我们例程中使用最简单的延时消抖。检测到按键按下后&…

矿业配电柜监测,真的如此难以克服?

当今工业和商业领域中,电力作为生产和运营的基石,无可替代。在这个背景下,配电柜监控的重要性日益凸显。 配电柜作为电力系统的核心组成部分,其稳定运行直接关系到生产的连续性、安全性以及能源的高效利用。通过配电柜监控&#x…

小红书爆款种草笔记拆解:如何打造吸引眼球的内容!

小红书作为一个生活方式平台和消费决策入口,已成为众多年轻人所喜爱的种草圣地。在这里,用户可以通过分享美妆、穿搭、美食等各类生活方式,吸引大量的关注和点赞。然而,如何在小红书上打造一篇吸引眼球、引发用户种草的爆款笔记呢…

每日一题 823. 带因子的二叉树

每日一题 823. 带因子的二叉树 难度:中等 思路: 取乘积,那么两个叶子节点相乘一定会得到一个更大的数,所以先排序以父节点为根节点的数的数量 以右节点为根节点的数的数量 * 以左节点为根节点的数的数量初始化列表,…