此时此刻此景,“零”就代表着赢

news2025/2/6 6:44:37

30d9a6a1fcafef4cf5fa738d7c81f855.gif

编辑 | 阿冒    设计 | 沐由

2022卡塔尔世界杯,终于步入到最强、最美和最终的华章,阿根廷与法兰西共同上演了世界杯决赛史上的一幕奇迹,意想不到的转折和蹉跎而至的结局,让人不得不感慨全球第一运动的巨大魅力。

在这种世界顶级水准的足球竞技中,自然少不了强硬的身体对抗,因此队员的偶尔受伤也无法完全避免。某种程度上,伤痛本身就是体育竞技的一部分。

不过,正如那句老话所说的那样:轻伤不能下火线。我们经常看到,队医拿着一个瓶子对队员的受伤部位喷洒之后,之前动弹不得的球员立马变得生龙活虎,迅疾返场参加比赛了。

懂行的人知道,这是一种快速喷雾止疼剂,其主要成份是氯乙烷(C2H5Cl),机理是迅速降低受伤部位的温度,在神经被冷冻麻痹之后,疼痛也就迅速缓解了,属于是短期的应急之举。

有没有发现,这一幕与数据领域ETL(extract-提取, transform-转换, load-加载)所面临的普遍“伤情”格外相似?

自从传统数据仓库理论形成至今,提取、转换和加载始终是钳制数据应用的主要痼疾,企业也顶多通过找到一些类似氯乙烷效用的ETL辅助工具加以过渡,从来没有办法做到治标治本。

然而,在大数据应用越来越普及的当下,诸如以上的ETL工具们依然停留在初级阶段,这也就使得企业遭受的痛楚比以往的任何时候都更加强烈,愈发地难以承受。

吃力不讨好的工作

日前盛大举行的亚马逊云科技re:Invent 2022上,传来了令人振奋的好消息。雄心勃勃的亚马逊云科技发布了几项将数据管理推向未来的新服务,企业不再需要考虑ETL的问题。

正如亚马逊云科技首席执行官 Adam Selipsky所说的那样,“我们已经为此做了多年的准备,在各种服务之间构建集成,以便更轻松地利用数据进行分析和机器学习。”

04e93915a3aa8d2939b4e3fd4436fd10.jpeg

数据已成为全新的资产。通过挖掘出其中蕴藏的有价值信息,发现数据的规律,让它们“开口说话”,管理者就能够迅速做出理性和科学的决策,从而在激烈的市场竞争中占得先机。

在现代化应用的推动下,数据的价值正在被不断放大。就像是堆乐高积木一样,新的应用被迅速建立,需要注入来源不同的各种数据,假如继续沿用之前的理念,就势必少不了ETL的过程。

没有人能够否认,ETL是一份极其吃力不讨好的工作。

我们知道,现代化应用的特征之一,就是数据的不断复用。为此,企业和组织需要经常搬运与传输数据,以便在不同的模型和应用中加载,从而释放数据的多重价值。

当数据量并不是很大时,企业尚能勉强接受以上的繁复流程。然而,当数据量达到一定程度之后,这一过程就变得困难无比,而且需要消耗大量的资源和成本。

通常情况下,构建ETL会占用整个项目至少三分之一的时间,而对ETL的维护也同样不是一件轻省的工作,某些时候构建和维护ETL会占用到数据工程师70%的工作量。

是不是很惊人?更不要说,为了ETL的过程更加顺利,企业还需要考察和测试相应的ETL辅助工具,而这同样会占用企业的大量人力物力资源,以及不菲的预算。

1ec4c0440aff04b529cbb5ecb24081a0.png

显然,如果能有一种新的产品方案或者理念,极大地加速甚至是跳过ETL的过程,让数据就像水一样自由流动起来,那显然是所有数据驱动型企业的“福音”。

Zero ETL的未来

亚马逊云科技正在做的,就是这样的工作。实际上,早在几年前,亚马逊云科技就开始进行投入,并以Zero ETL的理念引导产品方案的研发与构建。

此前,其实也有公司试图进行类似的努力,譬如通过在云数据湖、数据仓库或数据湖里,来进行相应的提取、转换和加载动作,但是也和之前的辅助工具一样,并没有在本质上带来改变与提升。

通过持续不断的努力,亚马逊云科技希望真正引导客户迈向一个“Zero ETL的未来”,借助相关的Zero ETL方案,减少在不同服务之间手动迁移或转换数据的工作。

罗马不是一天建成的,“Zero ETL的未来”也同样不可能一蹴而就。不过,只要技术的理念和方向是正确的,那么无论道路是如何崎岖,跬步也终会千里。

本次re:Invent 2022的全球大会上,亚马逊云科技就迈出了Zero ETL的重要一步:通过两项全新的集成功能,客户可以连接和分析多地存储的数据,无需在不同服务间进行数据迁移。

0522b90eb98c448f96df684dce8e8abe.jpeg

首先是Amazon Aurora Zero-ETL与Amazon Redshift的集成,客户无需自定义数据通道,即可分析PB级的数据;然后是Amazon Redshift与Apache Spark的集成,让客户更加轻松地通过Apache Spark访问Amazon Redshift上的实时数据。

数据流通的最大敌人就是“孤岛”——无论是否有意为之。亚马逊云科技提供的新技术和新方案,使得平台之间的数据交换被极大简化,而且无需事先提取、转换与加载。

亚马逊云科技数据和机器学习副总裁Swami Sivasubramanian表示,“无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,我们将助力客户专注于分析数据,面向业务获取新的洞察。”

5f4606dfcbe4ad620e28b6ebcced4d41.png

全球领先软件公司Adobe和方案商Infor,已经是亚马逊云科技Zero ETL产品方案的受益者:借由亚马逊云服务提供的新服务与新功能,业务团队无需自己进行日常维护,就能够通过动态数据得到更好的分析。

一小步和一大步

其实在数据的集成,也就是数据一体化方面,亚马逊云科技此前已经有一系列的集成工具,譬如Data Exchange、Athena联邦查询等,它们均有Zero ETL的理念在其中,可以直接查询Aurora的数据。

不过从存储架构上来说,这些均属于是异构的访问,因此在性能上就不可避免地会受到一定的影响。属于无服务器服务的Amazon Athena也是同理,它使用标准SQL分析Amazon S3的数据同样属于异构的访问——好处是客户不需要搬迁数据了。

ba3f12457fde4dcbd672098c57d26b75.png

正如我们在前文所说的,亚马逊云科技在Zero ETL方面的探索由来已久,譬如2017年发布的Amazon Redshift Spectrum与联邦查询即是一个经典的特性,无需数据移动,用户即可使用Spectrum来访问数据湖Amazon S3中的数据。

在最新的Zero ETL演进中,亚马逊云科技所做的主要工作之一,就是TP(事务处理)与AP(分析处理)的融合——这也是目前被公认的趋势与方向,即让TP与AP有很好的负载资源隔离,相互之间也不受彼此影响,应该说这种做法有着巨大的现实和经济意义。

我们知道,TP与AP的存储方式是不一样的。如果进行高频的交易,行存会优先于列存,因为行存可以去用索引的方式快速对某一行的数据进行修改;在进行批量数据分析的时候,列存又会优先于行存……

于是,部分厂商的做法就带有了几分“取巧”的意味在里面,他们采用了两套存储系统完成HTAP(混合事务/分析处理)。从性能上来看,这种做法没有问题,但是客户却需要为之付出两套存储的成本,而且这也完全背离了Zero ETL的初衷。

亚马逊云科技则坚定认为,一个产品不可能满足所有的需求,因此在迈向Zero ETL时,亚马逊云科技采用的是更多相关产品服务之间的“联动”。

譬如在本次大会发布的Amazon Aurora Zero ETL to Amazon Redshift中,亚马逊云科技支持将交易数据在写入 Amazon Aurora 后的几秒钟内就可以自动连续复制,使其在Amazon Redshift中即时可用,客户可以立即开始分析数据,并利用数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。

e22e68859065abddfc4a7e917ae72ef0.png

这只是亚马逊云科技的一小步,却是Zero ETL领域的一大步。相信在接下来的时间里,我们会见证更多的产品方案发布,收获Zero ETL的美好未来。

欲了解关于更多Zero ETL的技术细节与内容,请点击左下阅读原文,即刻注册2022亚马逊云科技INNOVATE在线大会,深度解读re:Invent 2022。

0631256dc8ee9b119f8c617a83194267.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/102988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

统计学习方法 | 决策树

一.一棵有理想的树 分类决策树模型是一种描述对实例进行分类的树形结构 决策树是通过一系列规则对数据进行分类的过程 步骤 ①构建根节点 ②选择最优特征,以此分割训练数据集 ③若子集被基本正确分类,构建叶结点,否则,继续选…

java实验报告之模拟银行存取款业务

一个不知名大学生,江湖人称菜狗 original author: jacky Li Email : 3435673055qq.com Time of completion:2022.12.20 Last edited: 2022.12.20 目录 一、实验目的 二、实验内容 三、总体设计(设计原理、设计方案及流程等) 四…

医院导诊图怎么做,专业便捷、低成本的室内电子地图绘制平台!

目前的医院综合性强,面积大,科室多,布局复杂,病患在就医过程中,往往因为对医院各科室与区域分布不清晰而找不到方向,多走冤枉路,耗费时间,影响就医体验。上海懒图信息科技有限公司上…

轻量级网络模型MobileNet发展脉络(V1-V2-V3)

卷积神经网络发展 卷积神经网络被广泛应用在图像分类、目标检测等视觉任务中,并取得了巨大的成功。然而,卷积神经网络通常需要较大的运算量和内存占用,在移动端以及嵌入式设备等资源受限的环境中受到限制,因此需要进行网络压缩。从…

虹科案例 | 如何快速精准监测打桩机打桩深度?

想要精准测量打桩设备每个桩的测量深度,以正确设置多排电池板的太阳能农场?但是由于测量环境恶劣,导致普通传感器无法正常工作?那快了解一下我们的虹科Dimetix激光测距传感器吧,它可以完美解决上述问题! 一…

NFC技术的特点与应用

NFC技术能给我们的生活带来极大的便利,能够用于乘车、购物、交换信息、刷门禁卡,可以说它能够应用到我们生活的方方面面。 但是,NFC到底是谁发明的?什么时候发明的?我们就来了解一下。 NFC的中文全称为近场通信技术&…

85%的攻击现在使用加密通道

©网络研究院 加密攻击仍然是全球各国面临的一个重大问题,美国、印度和日本的攻击数量在过去12个月中增长最快。 此外,与2021年相比,南非的TLS/SSL攻击显著增加。 Zscaler的安全研究和运营副总裁表示:“随着组织网络防御的成熟&#x…

22-12-19 西安 vue-cli(01) vue-cli脚手架、组件化编程、vue-router路由

"对A,我还剩一张牌啦!" "呃。。。要不起" 周六(12-03),早上刷到印度的三相神。梵天,毗湿奴,湿婆,看来很多个相关的视频介绍,结果睡觉(不…

蓝桥杯题目类型总结

搜索类 BFS 大胖子走迷宫(简单)(2019国赛) 迷宫与陷阱:(中等2018国赛) 迷宫与陷阱:(中等2018国赛) 迷宫与陷阱:(中等2018国赛&…

安卓PorterDuffXfermode之正片叠底 PorterDuff.Mode.MULTIPLY

setXfermode Paint#setXfermode()接口是在绘制时设置画笔的图形混合模式的,下面是官网的介绍: public Xfermode setXfermode (Xfermode xfermode) Set or clear the transfer mode object. A transfer mode defines how source pixels (generate by a drawing com…

three.js之旋转成型(车削缓冲几何体)

文章目录简介例子解释专栏目录请点击 简介 一条曲线围绕空间中的某个轴进行旋转&#xff0c;会形成一个几何体这个在three.js中也是可以实现的&#xff0c;主要就是使用到了three.js中的LatheGeometry&#xff0c;官网 例子 <!DOCTYPE html> <html lang"en&qu…

SpringBoot2.X+Vue+UniAPP 全栈开发医疗小程序 中间件搭建

文章目录一、安装Docker环境1. 关闭SELINUX服务2. 更新yum程序3. 安装Docker4. 管理Docker二、搭建HBasePhoenix大数据平台2.1. 加载镜像2.2. 创建容器2.3. 创建逻辑库2.4. 创建数据表与导入数据2.5. 配置JDBC连接信息三、Redis服务3.1. 加载镜像3.2. 配置文件3.3. 创建Redis容…

专注性能的多端研发框架 - ice.js 3 正式发布!

ice.js 框架在之前的版本中&#xff0c;主要服务于中后台 / PC 的项目研发&#xff0c;而随着无线端以及多端能力的拓展&#xff0c;ice.js 3 将成为一套面向大淘宝技术的终端应用框架。因此在 ice.js 3 的版本中除了「开发者体验」之外&#xff0c;还围绕「用户体验」探索了大…

拥抱实体经济,可以说是当下互联网参与者的首要选择

拥抱实体经济&#xff0c;绝对是当下互联网玩家们的首要选择。无论是头部的互联网企业来讲&#xff0c;还是新生的互联网玩家而言&#xff0c;它们都不约而同地将关注的焦点聚焦在了这样一个方向上。   透过这一点&#xff0c;我们可以非常明显地感受到&#xff0c;一个全新的…

1574_AURIX_TC275_SCU中的杂项控制

全部学习汇总&#xff1a; GitHub - GreyZhang/g_TC275: happy hacking for TC275! 接下来的这一段算是SCU章节最后的一次内容梳理了&#xff0c;剩下的内容也不是很多了。杂项并不是英文的直接翻译&#xff0c;算是我自己选择的一个表达方式。 这里涉及到的功能有CCU6&#x…

基于机器学习算法与历史数据预测未来的站点关闭(Matlab代码实现)

目录 &#x1f4a5;1 概述 &#x1f4da;2 运行结果 &#x1f389;3 参考文献 &#x1f468;‍&#x1f4bb;4 Matlab代码 &#x1f4a5;1 概述 应用背景&#xff1a; 通过分析序列进行合理预测&#xff0c;做到提前掌握未来的发展趋势&#xff0c;为业务决策提供依据&am…

2023材料科学与工程国际会议(CoMSE 2023)

2023材料科学与工程国际会议&#xff08;CoMSE 2023&#xff09; 重要信息 会议网址&#xff1a;www.icomse.org 会议时间&#xff1a;2023年3月24-26日 召开地点&#xff1a;中国上海 截稿时间&#xff1a;2023年1月25日 录用通知&#xff1a;投稿后2周内 收录检索&…

手把手教你使用Appium进行IOS真机自动化测试

讲解方式&#xff1a; 课程内容条理清晰&#xff0c;目标明确&#xff0c;由浅入深&#xff0c;环环相扣。重点部分进行额外梳理和总结&#xff0c;更易理解和吸收。 教程推荐&#xff1a;使用Appium进行IOS真机自动化测试 课程亮点&#xff1a;1&#xff0c;讲解清晰&a…

VRRP多备份组+策略路由实现主备负载

上篇文章&#xff0c;我们介绍了VRRP单备份组和策略路由之间主备切换的差异&#xff08;&#xff09;&#xff0c;整体上看&#xff0c;单备份组VRRP的主备切换速度非常快&#xff0c;用过调整配置&#xff0c;可以轻轻松松将切换时间压缩到1秒钟以内&#xff1b;但是主备之间无…

【大数据技术Spark】DStream编程操作讲解实战(图文解释 附源码)

DStream编程 批处理引擎Spark Core把输入的数据按照一定的时间片&#xff08;如1s&#xff09;分成一段一段的数据&#xff0c;每一段数据都会转换成RDD输入到Spark Core中&#xff0c;然后将DStream操作转换为RDD算子的相关操作&#xff0c;即转换操作、窗口操作以及输出操作…