亚马逊云科技帮助BMW Financial Services设计和构建数据架构

news2024/11/24 0:44:36

10cde26573f64e0985a5501d360410a8.pngBMW Group和亚马逊云科技于2020年宣布达成全面战略合作。在re:Invent2019上,BMW和亚马逊云科技展示了新的云数据中心平台,先是大致介绍了不同的数据平台原型,然后介绍了构建BMW Group云数据中心的过程。Amazon Data Lab使用亚马逊云科技的云数据中心,帮助欧洲BMW市场之一构建监管报告应用程序。 

 

解决方案概览

在监管报告背景下,BMW Financial Services处理包含个人身份信息(PII)的关键金融服务数据。其需要每月向欧洲国家监管机构之一提供针对我们财务数据的深入分析,而且在处理PII数据时,还需要遵守Schrems II和GDPR法规。这要求在将PII加载到云数据中心时对其进行假名化,并且必须以假名的形式对其进行进一步处理。为了精确高效地满足这些要求,BMW Financial Services决定与Amazon Data Lab合作,Amazon Data Lab的Design Lab就能够提供帮助。

 

Design Lab

Design Lab是一项1到2天的活动,适用于需要真实架构建议但尚未准备好构建的客户,这些建议基于Amazon专业知识。在开始构建阶段之前,关键是让所有利益相关方聚集在一起,记录各方提出的可能影响数据平台的所有功能性和非功能性要求。在Design Lab的工作范围内,我们讨论了三个使用案例:

● 监管报告

BMW Financial Services最重要的任务是监管报告使用案例,这涉及到收集与计算向国家监管机构申报的数据和报告。

● 本地数据仓库

对于此使用案例,需要计算和存储项目期间将会定义的所有关键绩效指标(KPI)和关键价值指标(KVI)。需要存储历史数据,但需要遵守GDPR指令应用假名化流程。此外,每天都必须通过Tableau可视化工具访问历史数据。在应用程序中限制使用个人数据,但对于获得授权的使用模式,必须可以进行重新识别。

● 会计明细

此使用案例基于BMW的会计工具IFT,该工具在合同级别提供来自所有当地市场应用程序的会计余额。它必须每月至少进行一次。但是,如果在结算期间发现了IFT上的一些问题,必须能够重启并删除之前的结果。同时,所有会计余额版本都必须可供其他应用程序访问以进行查询,并且能够检索24个月内的信息。

基于这些要求,其在Design Lab期间开发了以下架构,此解决方案包含以下组件:

● 为三个使用案例提供数据的主数据来源已经在云数据中心中公布。云数据中心使用Amazon Lake Formation资源链接向使用者账户授予对数据集的访问权限。

● 对于标准的定期提取、转换和加载(ETL,Extract,Transform,and Load)作业,如果涉及到转换数据类型、根据数值数据创建标签或者根据标签创建布尔值标记等操作,使用Amazon GlueETL作业。

● 对于历史的ETL作业或更复杂的计算,例如账户详细信息使用案例(可能涉及与自定义配置和调整的大量关联),建议使用Amazon EMR。这可以在精细级别上控制集群配置。

● 要存储可以实现重新处理输入或重新运行失败作业等功能的作业元数据,建议构建数据注册表。数据注册表的目标是为提取到数据湖中的所有数据创建集中清单。可以触发基于计划的Amazon Lambda函数,在集中式元数据存储中云数据中心的语义层上注册数据登陆。建议为数据注册表使用Amazon DynamoDB。

● Amazon Simple Storage Service(Amazon S3)用作存储机制,支持使用数据管理框架Apache Hudi的监管报告使用案例。Apache Hudi对使用案例很有用,因为需要开发数据管道,满足对记录级别的插入、更新、更新插入和删除功能的需求。Amazon EMR和 Amazon Glue作业通过Hudi连接器以及Amazon Athena和Amazon Redshift Spectrum等查询引擎支持Hudi表。

● 在监管报告S3存储桶的数据存储过程中,可以在Amazon Glue Data Catalog中填充所需的元数据。

● Athena提供了一个临时查询环境,用于使用标准SQL对存储在Amazon S3中的数据进行交互式分析。它与Amazon Glue Data Catalog进行了集成,具备开箱即用的特点。

● 对于数据仓库使用案例,需要首先对数据进行反规范化,以创建支持优化分析查询的维度模型。为了进行这种转换,可以使用Amazon Glue ETL作业。

● Amazon Redshift中的维度数据集市可以支持控制面板和自助报告需求。Amazon Redshift中的数据根据业务需求划分为多个主题区域,通过维度模型可以进行跨主题区域分析。

● 作为创建Amazon Redshift集群的副产品,可以使用Redshift Spectrum访问该架构的监管报告存储桶中的数据。它充当了访问更精细数据的前端,而无需将其实际加载到Amazon Redshift集群中。

● 提供给云数据中心的数据包含假名化的个人数据。但是,在Tableau上可视化数据或者在生成CSV报告时,需要能够对假名化的列重新进行个性化设置。Athena和Amazon Redshift均支持Lambda UDF,它可用于访问云数据中心PII API,以便在将假名化的列呈现给最终用户之前对其重新进行个性化设置。

● Athena和Amazon Redshift均可通过JDBC(Java Database Connectivity,Java 数据库连接)进行访问,为数据使用者提供访问权限。

● 可以在Amazon Glue中使用Python shell作业,对任一分析解决方案运行查询,将结果转换为所需的CSV格式,然后将它们存储到BMW受保护的文件夹中。

● 在本地部署的任何商业智能(BI)工具都可以连接到Athena和Amazon Redshift,并可利用它们的查询引擎执行任何繁重的计算,然后再接收提供给控制面板的最终数据。

● 对于数据管道编排,建议使用Amazon Step Functions,因为它具有低代码开发体验,并且与讨论的所有其他组件全面集成。

以上述架构为长期目标状态,结束Design Lab,并返回Build Lab以加快解决方案的开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424776.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Volatile关键字的作用探究

前言 今天下午BOSS上投了个简历小试了一波水,结果被问到一个知识点volatile关键字的作用,我回答了线程的可见性,另一个死活想不起来是什么,当回到工位上看了眼笔记,才想起来。这种知识点其实平时使用的频率还是挺高的…

Phaser笔记-scene中的preload、create、update、player、键盘控制

一般phaser最简单的配置文件如下: let config {type: Phaser.AUTO,width: 800,height:600,scene: {preload: preload,create: create,update: update},physics:{default: arcade,arcade: {gravity: { y: 300},debug: false}}};其中scene有3个函数:prel…

CI570 3BSE001440R1适用于数字功能需求较多的设计

CI570 3BSE001440R1适用于数字功能需求较多的设计 尽管纯硅的CMOS 制程被认为仅适用于数字功能需求较多的设计,而不适用于以模拟电路为主的射频IC 设计,不过历经十几年的努力后,随着CMOS 性能的提升、晶圆代工厂在0.25mm 以下制程技术的配合、…

解决 Docker + selenium + chromedriver + chrome 会出现僵尸进程的问题

一、僵尸进程问题 在docker里,使用selenium爬虫, webdriver quit后,会产生很多僵尸进程。docker run -it -v /home/blackip:/home/blackips/ selenium:1.0python3 linux_black_ip.pytop查看僵尸进程:ps -ef | grep defunct查看…

微服务+springcloud+springcloud alibaba学习笔记【Ribbon的使用】(4/9)

Ribbon的使用 4/91、Ribbon负载均衡1.1 Ribbon简介1.2 Ribbon功能1.3 使用Ribbon:1.3.1 Ribbon常用负载均衡算法1.3.2 使用Ribbon1.3.3 ribbon的轮询算法原理1.3.4 手写一个负载均衡轮询算法1.3.5 启动服务,测试1、Ribbon负载均衡 1.1 Ribbon简介 Spring Cloud Ribbon是基于N…

Nestjs实战干货-概况-管道-Pipes

管道 带上装饰器 Injectable() 并实现了 PipeTransform 接口的类,就是管道。 管道有 2 个典型的应用场景: 数值转换:将输入的参数转换成目标类型,例如,string to number。 数值校验:对输入的参数进行校验…

记一次 MySQL 主从同步异常的排查记录,百转千回

本文主要内容如下: 一、现象 最近项目的测试环境遇到一个主备同步的问题: 备库的同步线程停止了,无法同步主库的数据更改。 备库报错如下: 完整的错误信息: Relay log read failure: Could not parse relay log even…

一文读懂【Git 工作流】

文章目录一、Git分支管理二、Git日志规范三、Git Flow工作流一、Git分支管理 我们在实际工作中会创建很多分支以便于不同场景下的开发,但是如果没有分支规范就会造成分支杂乱,大家往往也搞不清楚某一个分支是在做什么,下面我们就介绍一下我们…

车企围攻整车OS,这张“新王牌”怎么打?

今年2月23日,梅赛德斯--奔驰发布了打造自有操作系统MB.OS的具体计划,该操作系统将在本年代中期随全新梅赛德斯-奔驰模块化架构(MMA)平台推出,预计2025年用户将能体验到它的强大功能。 据悉,基于覆盖芯片到…

YOLOv8运行参数解读

整理来自yolov8官方文档常用的一些命令行参数,官方文档YOLOv8 Docs yolov8命令行的统一运行格式为: yolo TASK MODE ARGS其中主要是三部分传参: TASK(可选) 是[detect、segment、classification]中的一个。如果没有显式传递,YO…

智慧水务软件-科学系统架构-数字化管理

平台概述 柳林智慧水务软件是以物联感知技术、大数据、智能控制、云计算、人工智能、数字孪生、AI算法、虚拟现实技术为核心,以监测仪表、通讯网络、数据库系统、数据中台、模型软件、前台展示、智慧运维等产品体系为支撑,以城市水资源、水生态、水环境…

VGG论文翻译及复现

VGG网络实现:https://blog.csdn.net/weixin_43912621/article/details/127852595 论文地址:https://arxiv.org/abs/1409.1556 VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION 用于大规模图像识别的深度卷积网络 Abstract In t…

Salesforce Admin管理员中文学习教程,如何高效筛选出具有Admin权限的用户!

组织中最常见的错误之一就是拥有太多具有系统管理员简档的用户。不幸的是,这在某些行业中非常普遍。 实际上这存在着很大的潜在风险。拥有这些权限的用户可能会暴露、窃取或删除组织中的数据,甚至影响到其他用户。防止过多的管理员访问权限是保护Salesf…

基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用能力

目录 专题一、Python软件的安装及入门 专题二、气象常用科学计算库 专题三、气象海洋常用可视化库 专题四、爬虫和气象海洋数据 专题五、气象海洋常用插值方法 专题六、机器学习基础理论和实操 专题七、机器学习的应用实例 专题八、深度学习基础理论和实操 专题九、深…

摸鱼也可以效率翻倍:Python 统计 gitlab 代码量,定量统计发给领导

嗨害大家好鸭!我是爱摸鱼的芝士❤ 一、确定需求 需求是公司大领导想要了解每周研发提交的代码量。 因为研发人员比较多, 想着用 python 做个自动化, 定时统计代码量并发送邮件给领导。 二、统计gitlab代码 首先安装第三方库python-gitlab&…

如何提升智能文档处理识别精度?合合信息“版面分析”实现新突破

春季是繁忙的播种季,学生党迎来了开学季和紧张的研究生复试,职场人士也需要处理新签业务带来的大量不同类型的文件,比如合同、发票、档案等。这些文件在被拍照、扫描成电子文档的过程中,时常存在漏字、错位现象。究其原因&#xf…

kali的下载与安装(VM虚拟机)

目录 一、介绍 二、下载安装 (一)官网下载kali (二)官网下载VM虚拟机 (三)安装VM虚拟机 (三)VM虚拟机里面安装kali系统 一、介绍 (1)Kali Linux是一种基…

基于Chatbot UI 实现ChatGPT对话-V1.0

基于Chatbot UI 实现ChatGPT对话-V1.0 前端基于开源项目:chatbot-ui进行二次开发,感兴趣的小伙伴可以自行研究。 本项目搭建初衷:在无法科学上网的情况下,实现ChatGPT对话。还有规避官方聊天时,长时间无链接导致的问题…

“GPT全家桶”,喂不饱商汤科技

加码追风大模型,终究没能让商汤科技找回投资者们的信心。 4月10日,商汤发布了“日日新SenseNova”大模型体系,且一口气展示了多个产品,有类ChatGPT产品“商量”(SenseChat)、与Midjourney画风一致的秒画平台…

语句覆盖率\条件覆盖率\路径覆盖率\分支覆盖率的区别您知道吗

代码覆盖率 代码覆盖率是一种度量,它描述了程序源代码已经过测试的程度,它可以帮助我们评估测试执行的效率, 简单来理解代码覆盖率就是单元测试中代码执行量与代码总量之间的比率。代码覆盖率主要包括语句覆盖率、分支覆盖率、条件覆盖率和路…