在2022亚马逊云科技re:Invent全球大会上,亚马逊云科技数据和机器学习副总裁Swami Sivasubramanian表示:“当前,客户管理的数据既庞大又复杂,这意味着他们不能只用单一技术或几个工具来分析和探索这些数据。在此次2022亚马逊云科技re:Invent全球大会上发布的新功能将帮助我们的客户迈向一个‘Zero ETL的未来’,借助Zero ETL减少在不同服务间手动迁移或转换数据的工作。无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,我们将助力客户专注于分析数据,面向业务获取新的洞察。”
亚马逊云科技一直在投入开发基于Zero ETL理念的功能,比如Amazon Athena的Federated Query联邦查询,可以对存储在关系数据源、非关系数据源、对象数据源和外部自定义数据源中的数据运行SQL查询,而无需移动数据。还有流式服务(如Amazon Kinesis和Amazon MSK)向数据存储服务(如Amazon S3)无缝注入数据,从而助力客户及时分析数据。同时,亚马逊云科技也发布了更多新的Zero ETL功能助力客户更快、更轻松、更经济地实践“数据一体化融合”。
Amazon Aurora Zero ETL to Amazon Redshift
助力PB级分析交易数据进行近实时分析
企业希望更好地了解核心业务驱动因素,制定战略以增加销售额、降低成本、获得竞争优势。因此近乎实时地从购买、预订和金融交易等交易数据中获得洞察的需求不断增加。
然而,数据管道构建成本高昂且难以管理,需要开发人员编写自定义代码并且持续管理基础设施以确保其按需扩展,一些公司甚至需要投入整个团队以完成这项工作。此外,用这种方式准备好数据可能需要几天的时间,而且间歇性地数据传输错误会影响客户获得稍纵即逝的洞察,甚至错失商机。
Amazon Aurora Zero ETL to Amazon Redshift(预览版)支持将交易数据在写入Amazon Aurora后的几秒钟内可以自动连续复制,使其在Amazon Redshift中即时可用。一旦数据在Amazon Redshift中可用,客户立即可以开始分析数据,并且利用数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。
客户可以将数据从多个Amazon Aurora数据库集群复制到同一个Amazon Redshift实例,跨多个应用程序获得洞察。这样一来,客户可以使用Amazon Aurora支持交易数据库需求、使用Amazon Redshift进行分析,无需构建或维护复杂的数据管道。
Amazon Redshift系列创新
均是Zero ETL的实践
发布于re:Invent 2012的首个云原生数据仓库Amazon Redshift在十年中不断演进迭代,Amazon Redshift Serverless作为升级版本也将于今年上线。在Zero ETL方面,2017年发布的Amazon Redshift Spectrum与联邦查询即是一个经典的特性,无需数据移动,用户即可使用Spectrum来访问数据湖Amazon S3中的数据,而今年Redshift的创新还在加速。
Amazon Redshift支持Amazon S3自动复制(预览版):借助这项新功能,Amazon Redshift会将到达您指定的Amazon S3的文件自动加载到您的数据仓库中,例如CSV、JSON、Parquet和Avro,无需手动或重复运行复制过程。Amazon Redshift可自动提取文件并负责幕后数据的加载步骤。
Amazon Redshift streaming ingestion流式数据接入功能:Amazon Redshift streaming ingestion流式数据接入功能已上线,直接让流式数据接入数据仓库,这是打造云原生实时数仓的必要功能,让用户可以轻松地探索实时分析场景,基于历史数据的实时预测、反欺诈等场景。
Amazon Redshift Integration for Apache Spark功能:帮助客户在使用亚马逊云科技的分析和机器学习服务时可以更快更轻松地通过Apache Spark应用程序访问到Redshift上的数据。开发人员可以快速而敏捷地实现分析与机器学习。
超百种外部数据连接
助力构建Zero ETL未来
纵观全局,亚马逊云科技数据服务已经可以连接超过100种外部数据源,像Adobe、Salesforce等各类SaaS应用,也包括各类on-premise数据源类型,因此您能更全面地利用所有数据的力量。
Amazon AppFlow在本地系统和应用程序、SaaS应用程序和亚马逊云服务之间提供双向数据集成。使用低代码或无代码、经济实惠的解决方案,只需单击几下,Amazon AppFlow即可在应用程序与“智能湖仓”之间安全地传输数据,帮助客户打破数据孤岛。
典型数据源包括了:
● 营销连接器(例如:Facebook广告、谷歌广告、Instagram广告、领英广告)。
● 用于客户服务和参与的连接器(例如:MailChimp、Sendgrid、Zendesk Sell或Chat等)。
● 业务运营(例如:Stripe、QuickBooks在线和GitHub)。
在2022亚马逊云科技re:Invent全球大会上亚马逊云科技发布了22个新的连接器,现在AppFlow已经支持超过50种连接器。