亚马逊云科技Zero ETL数据库,助力企业走向数据驱动的业务增长之路

news2024/11/27 8:22:24

aa4303098ac74a38a74a390869a5a0c0.png据Forrester研究,相对于数据应用不够成熟的公司,那些有效获取业务洞察的公司,有高达8.5倍的可能性实现至少20%的收入增长。然而,要实现这一增长,需要简化一项流程——在数据分析前管理和准备好数据。这就是为什么亚马逊云科技正在构建“Zero ETL的未来”,如此一来,客户可以更多地专注于从数据中创造价值,而不是花精力在准备数据上。 

 

ETL的挑战

什么是ETL?ETL是提取(Extract)、转换清洗(Transform)、加载(Load)的过程,也是数据工程师用来整合来自不同来源的数据的过程。ETL过程可能伴随着挑战性高、耗时长和成本高的问题。首先,它需要数据工程师手动编写自定义代码;接下来,DevOps工程师必须部署和管理基础设施,以确保数据管道能够与工作负载一起扩展。如果数据源发生变化,数据工程师必须手动改代码并再次部署。这个过程可能需要几天的时间,然而与此同时,数据分析师无法进行交互式分析或构建可视化的界面看板,数据科学家无法构建机器学习(ML)模型或进行预测,导致最终用户无法做出基于数据的决策。

此外,构建或更改数据管道所需的时间,可能会导致数据不适用于近实时的场景,比如检测欺诈交易、发布在线广告和追踪乘客列车的时刻表。在这些情况下,改善客户体验、抓住新的业务机会或降低业务风险的机会可能就这样错过了。

反之,当企业可以快速、无缝地集成来自不同来源的数据时,他们对自己的客户和业务有了更好地理解,那么企业就可以更有信心地进行数据驱动的预测,改善客户体验,并在整个业务中推广数据驱动的洞察。

 

亚马逊云科技正在将

“Zero ETL”的愿景变为现实

亚马逊云科技一直在朝着实现“Zero ETL”的目标稳步前进。他们听到了客户的反馈,希望能够直接将流式数据接入他们的数据存储中进行分析,而无需去研究复杂的ETL过程。

通过Amazon Redshift流式数据摄入功能,企业可以配置Amazon Redshift直接接入来自流式服务Amazon MSK(Managed Streaming for Apache Kafka)或Amazon Kinesis的高吞吐量流式数据,并让它们在几秒钟内进行近实时分析。可以连接到多个数据流,并将数据直接注入Amazon Redshift,而无需在Amazon Simple Storage Service(Amazon S3)中进行暂存。运行分析后,可以通过云原生、无服务器的商业智能(BI)服务Amazon QuickSight,让整个企业从业务洞察中获益。通过Amazon QuickSight Q,用户可以轻松直观地获得业务洞察,这个功能能方便用户使用自然语言提出关于他们数据的业务问题,并通过数据可视化快速获得结果。

在实现Zero ETL的过程中,亚马逊云科技还提供了一项重要功能,即能够在无需移动数据的情况下查询各种数据源。通过使用Amazon Redshift和Amazon Athena中的联邦查询,企业可以对存储在他们的事务型数据库、数据仓库和数据湖中的数据进行查询,从而获取来自多个数据源的洞察,而无需移动数据。数据分析师和数据工程师可以使用他们熟悉的SQL命令来连接多个数据源,以便进行快速分析,并将结果存储在Amazon S3中以供日后使用。这种灵活的方法简化了数据摄入过程,避免了复杂的ETL流程。

在2022年亚马逊云科技re:Invent大会上,亚马逊云科技推出了Amazon Aurora与Amazon Redshift的Zero ETL集成。

亚马逊云科技从客户那里了解到,他们在构建和管理事务型数据库与数据仓库之间的ETL管道上花费了大量的时间和资源。举个例子,假设有一家全球制造公司,在十几个国家拥有工厂,并使用一系列Aurora数据库集群管理每个国家存储订单和库存数据。当公司高层想要查看所有订单和库存时,数据工程师必须为每个Aurora集群构建单独的数据管道,将数据整合到一个中心数据仓库中,以便数据分析师可以查询整合后的数据集。为了实现这一点,数据集成团队必须编写代码来连接到12个不同的集群,并分别管理和测试12个生产环境管道。团队部署代码后,还需要不断监控和调整该管道以优化性能,而且一旦有任何变化,就需要在12个不同的地方进行更新。这是一项非常重复冗长的工作。

 

Amazon Aurora和Amazon Redshift

之间不再需要定制的ETL管道

Aurora与Amazon Redshift的Zero ETL集成将Aurora的事务数据与Amazon Redshift的分析能力结合在一起。这样一来,构建和管理Aurora与Amazon Redshift之间的定制ETL管道的工作量大大减少。

和传统系统中的“数据孤岛”不同,用户必须在统一分析和性能之间做出权衡;而现在数据工程师可以将多个Aurora数据库集群中的数据复制到同一个或新的Amazon Redshift实例中,以获得跨多个应用程序或分区的全面洞察。Aurora中的更新会自动连续地复制到Amazon Redshift,这样数据工程师就可以几乎实时地获取最新的信息。整个系统是无服务器的,可以根据数据量的大小动态地上下扩展,因此,企业无需管理基础设施。现在,企业可以在Aurora中真正实现快速、规模化地事务分析以及Amazon Redshift中的可扩展分析,所有这些功能都集成在一个无缝的系统中。通过几乎实时访问事务数据,企业可以充分利用Amazon Redshift的分析能力,如机器学习、物化视图、数据共享,以及对多个数据存储和数据湖的联邦访问,从事务及其他数据中获取洞察。

持续提高Zero ETL的性能是亚马逊云科技的持续性目标,例如,亚马逊云科技的早期就使用Zero ETL预览版的客户观察到,他们的Amazon Aurora MySQL数据库每分钟产生数十万个事务,这些事务在不到10秒的时间内就能出现在他们的Amazon Redshift数据仓库中。在这之前,他们将数据从ETL管道移动到Amazon Redshift的过程需要超过2个小时的延迟时间。通过Aurora和Redshift之间的Zero ETL集成,他们现在可以实现几乎实时的分析。

Zero ETL使数据工程师能够在使用过程中直接集成服务并直接查询各种数据存储,从而使他们能够专注于从数据中创造价值,而不是花费时间和资源来构建数据管道。亚马逊云科技将继续致力于构建Zero ETL未来,助力企业走向数据驱动的业务增长之路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/722192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

16.电容触摸按键

1.电容触摸按键介绍: R是外接的充电电阻, Cs是没有触摸按下的触摸感应区和四周覆铜区域的一个杂散的电容;当使用手指去触摸感应区时,手指和感应区形成一个电容Cx,开关是电容放电的一个开关,在实际设计中是利…

Ubuntu 22.04.2 LTS LTS x86_64 安装 stable-diffusion-webui 【2】基本版本完结。

前篇 Ubuntu 20.04 LTS x86_64 安装 stable-diffusion-webui_hkNaruto的博客-CSDN博客 内容太多,分第二篇继续 中途重装了机器,20.04 ,apt upgrade后自动升级到22.04.2 现状:起来了,又没完全起来 启动日志 (stab…

如何在 Linux 中将本地网络 IP 设置为静态的

文章目录 对于普通的 Linux 操作系统对于 Red Hat Enterprise Linux 9 笔者的运行环境: CentOS 8 Red Hat Enterprise Linux 9 在 Linux 中将本地网络 IP 设置为静态的,只需要在那台 Linux 上设置即可。为了方便,这里笔者使用了 Xshell 来远…

手写操作系统--主引导扇区以及内核加载器

在CPU上电后,会自动将cs:ip置为f000:fff0,下图就是一个计算机刚上电的模拟: ffff00这里开始的代码是BIOS自检,检查计算机的硬件完备性,做完这一切后将第一个扇区的内容复制到0x7c00的位置,并从0x7c00位置执行代码&…

第五章 逻辑回归

第五章 逻辑回归 Logistic回归的⼀般过程 收集数据:采⽤任意⽅法收集数据。准备数据:由于需要进⾏距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。分析数据:采⽤任意⽅法对数据进⾏分析。训练算法&…

Golang每日一练(leetDay0118) 扁平化嵌套列表迭代器、整数拆分

目录 341. 扁平化嵌套列表迭代器 Flatten Nested List Iterator 🌟🌟 343. 整数拆分 Integer Break 🌟🌟 🌟 每日一练刷题专栏 🌟 Rust每日一练 专栏 Golang每日一练 专栏 Python每日一练 专栏 C/…

vscode工作区实现机制

工作区是编辑器的重要部分,它承载着编辑器和本地文件的连接,对文件增、删、改、查。下面我会介绍vscode工作区的创建。同样我们知道vscode软件打开的时候没有默认工作区,这里我对它进行了改造,软件启动时指向默认工作区。 工作区目…

提高腾讯QQ(电脑版)语音通话、视频聊天和远程协助的稳定性的方法

一、背景说明 腾讯QQ默认使用的通讯协议是UDP。但是各大运营商将UDP的优先级设置为最低,导致UDP数据包经常被丢弃。导致腾讯QQ在语音通话、视频聊天和远程协助的时候,会出现连接不上、卡顿和断线,非常不稳定。我们可以手动将通讯协议调整为TC…

用Python实现自动化交易:从趋势到收益

在现代金融市场中,自动化交易已经成为越来越流行的一种方式。相比于传统的手工交易方式,自动化交易更加高效、精准、快速且免除了人为因素的影响。而Python作为一种高级编程语言,凭借其简单易学、灵活性强的优势逐渐成为自动化交易中最受欢迎…

Ubuntu下Go语言TCP广播服务器实现

最近在学习Go语言网络编程,突然想到很久以前的用C语言写过的TCP广播聊天程序,然后就用Go尝试写了一遍,在此做个记录。 目录 1.广播结构 2.实现效果 3.源码 4.Go语言学习参考网站 1.广播结构 2.实现效果 服务器: 客户端1&…

小程序 web-view h5页面背景音乐自动播放

/*** 年度账单-登录首页*/ import React,{useEffect} from react import swiper/swiper-bundle.min.css import styles from ./styles.less import bgm from ./bgm2.mp3 // 主体 const annualAccountLoginIndex (props) > {const goAnnualAccount ()>{const {location: …

Java Web Tomcat 23.7.5

Tomcat 1, Tomcat 1.1 简介 1.1.1 什么是Web服务器 Web服务器是一个应用程序(软件),对HTTP协议的操作进行封装,使得程序员不必直接对协议进行操作,让Web开发更加便捷。主要功能是"提供网上信息浏览服务"…

[Python系列] Python虚拟环境Virtualenv

1. 什么是Virtualenv Python virtualenv 是一个用于创建和管理虚拟环境的工具。它可以帮助开发者在不同的项目中使用不同的 Python 版本和包,而不会相互干扰。使用 virtualenv,可以轻松地创建一个独立的 Python 环境,在其中安装所需的包和版本…

【网络】思科网络vlan配置+单臂路由

文章目录 前言一、vlan(虚拟局域网)二、配置vlan配置交换机0配置交换机1(和交换机0相同)配置计算机:测试联通性 三、单臂路由配置R0配置交换机1测试配置: 前言 VLAN(Virtual Local Area Networ…

力扣 491. 递增子序列

题目来源:https://leetcode.cn/problems/non-decreasing-subsequences/description/ 回溯三部曲(来源代码随想录): 递归函数参数:求子序列,很明显一个元素不能重复使用,所以需要startIndex&…

2023年 vue使用腾讯地图搜索、关键字输入提示、地点显示

先看结果 vue 在public文件下的index.html文件中引入&#xff1a; <script src"//map.qq.com/api/js?v2.exp&key你自己的key"></script><script src"https://map.qq.com/api/gljs?v1.exp&librariesservice&key你自己的key"&…

【保姆级教程】PyCharm通过SSH远程连接ModelArts

文章目录 一、创建Notebook二、配置SSH三、配置远程Python解释器四、成果展示 一、创建Notebook 首先&#xff0c;找到云资源下面的 ModelArts&#xff0c;然后点击并进入 ModelArts控制台。 在ModelArts控制台中&#xff0c;点击开发环境下的 Notebook 。然后点击创建&#x…

记录一次Nginx日志偶现499的排查

背景 查看到nginx日志在整点整分的时候频繁出现 499&#xff0c;因为配置了存活检查和就绪检查&#xff0c;担心业务会出现大面积重建导致现网故障&#xff0c;所以对出现499的原因进行排查&#xff0c;记录下排查思路&#xff0c;方便以后查看。 业务链路&#xff1a; 负载均…

B/S版手术麻醉系统源码,基于php、mysql和vue2开发

手术麻醉系统是一套以数字形式与医院信息系统&#xff08;如HIS、EMR、LIS、PACS等&#xff09;和医疗设备等软、硬件集成并获取围手术期相关信息的计算机系统&#xff0c;其核心是对围手术期患者信息自动采集、储存、分析并呈现。该系统通过整合围手术期中病人信息、人员信息、…

Packet Tracer – 研究 NAT 操作

Packet Tracer – 研究 NAT 操作 目标 第 1 部分&#xff1a;通过内联网研究 NAT 操作 第 2 部分&#xff1a;研究互联网中的 NAT 操作 第 3 部分&#xff1a;执行进一步研究 拓扑图 场景 帧通过网络时&#xff0c;MAC 地址可能更改。 当数据包由配置了 NAT 的设备转发时&…