大约十年前,维克托·舍恩伯格在《大数据时代》一书中直言:世界的本质是数据,大数据将开启一次重大的时代转型。
十年之后,维克托·舍恩伯格的预言逐渐成真。全球数字经济近年来的蓬勃发展,推动了各行各业的加速转型。如今,数据已然成为最重要的生产要素,无论是产业数字化,还是企业数字化转型,均已离不开数据。
但如何把数据“用起来”始终是众多行业用户所面临的一大挑战。一方面,随着企业数字化转型进入深水期,在逐渐完成上云之后,“用数”自然而然就成为数字化转型的阶段性重点;另一方面,能否“用好数”又直接跟接来的“赋智”紧密相关,直接关系着企业未来数字化转型的成败。
因此,针对“用数”打造相应的策略、方案和产品就成为云服务商在当前的重中之重。在2022 re:Invent全球大会上,亚马逊云科技就正式推出了其端到端数据战略,为广大上云企业的用户带来了清晰的策略与方法论。
正如亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian博士所言:“端到端数据战略包括三个核心要素:一是面向未来的数据基础设施;二是跨组织的数据链接;三是数据普惠化。最终目标是帮助企业将数据转化为对业务有意义的见解和行动,驱动企业借助数据进行下一波创新。”
端到端数据战略解决了什么
数据爆炸性增长的年代,把数据“用起来”并非易事。
事实上,从最早的大数据平台,到后来的数据中台,再到现在的湖仓一体、数据编织(Data Fabric),与数据相关的各色概念层出不穷,用户们也是应接不暇、手足无措,但离真正把数据“用起来”尚有着不小差距。
究其原因,数据量、数据消费群体和数据驱动场景均已经发生了显著变化。这使得从数据收集、数据治理到数据分析、数据管理,再到数据价值的实现,涉及到了链路极其长且复杂,很少有用户能够完全驾驭。
所以,亚马逊云科技在积累多年与数据相关的产品、技术之后,开始打造端到端的数据战略,从数据全链路的视角帮助用户们把数据“用起来”。
具体来看,亚马逊云科技认为首先需要面向未来的数据基础设施。Swami Sivasubramanian博士介绍,面向未来的数据基础设施应具备四个要素:需要有正确的数据库工具来应对所有类型的工作负载;可以在大规模的情况下进行高性能的运行;不需要我们做非常多的重复工作;以及需要高可靠性和高伸缩性。
显然,相比于其他厂商,云服务商在构建面向未来的数据基础设施无疑是领先的。得益于云端各种大规模场景的不断验证,云服务商们最有条件为数据分析与应用构建起先进的数据基础设施。
其次,,亚马逊云科技认为需要实现安全高效的跨组织数据链接。Swami Sivasubramanian博士介绍:企业可以使用一个合作系统来连接孤立的团队,为重要资源创造快捷安全的访问途径,使用正确数据治理系统,借助高质量的工具和数据来推动未来的增长。
正所谓数据只有充分的流动、共享才能发挥价值。但数据的流动、共享既需要合规,还需要有安全保障,对于数据长链路而言,这是巨大挑战。所以,亚马逊云科技构建安全高效的跨组织数据链接,推动数据有效流动、共享是当前很多用户所渴望的。
最后,亚马逊云科技认为需要工具和教育实现数据普惠化。事实上,数据消费群体持续扩大是大势所趋,但数据消费者的技能也是把数据“用起来”的关键。亚马逊云科技预计到2029年,人工智能劳动力将增加100万个工作岗位,但培育合适的技能和人选来填补这些空缺将是一项重大挑战。
为此,亚马逊云科技正在帮助社区学院和 MSIs 加大教育力度,推出新的亚马逊云科技机器学习大学教育培训计划,提供动手培训课程,为培育新一代劳动力做好准备。
可以看出,在今年2022 re:Invent全球大会上,亚马逊云科技除了发布大量针对数据的产品与功能之外,也开始用端到端的视角推出数据战略,给予用户们更加清晰的数据“用起来”的思路。
让数据服务走向简单化
众所周知,数据服务与价值实现的链路很长,且具有相当的复杂性。因此,端到端的数据战略是大势所趋。但端到端的数据战略并不是简单的将众多数据服务、工具和产品进行拼凑与集成,而是需要深度整合、优化,实现使用体验与效率质的飞跃。
在亚马逊云科技看来,数据服务需要恰当的工具、有效的数据集成、规范数据治理以及深入的业务洞察力。因此,亚马逊云科技的思路是:
一方面是持续打造有竞争力的数据工具与服务,不断完善产品的功能;另一方面,则从使用者的角度出发,让数据服务走向深度集成化、简单化,让端到端的数据服务真正有效果。
“从本次re:Invent发布的特性看未来技术演进的方向,非常明显的一点就是数智融合,也就是如何打造一个端到端的数据服务战略。”亚马逊云科技大中华区产品部总经理陈晓建如是说。
例如,亚马逊云科技在今年2022 re:Invent全球大会上提出了 Amazon OpenSearch Serverless 版本、Amazon Aurora与 Amazon Redshift 的 Zero-ETL(提取、转换和加载)集成、Amazon Redshift 与 Apache Spark 集成、精细的数据管理产品 Amazon DataZone、Amzon Quicksight Q 预测服务等一系列与数据相关的服务。
以Zero-ETL为例,亚马逊云科技推出的Zero-ETL(提取、转换和加载)集成服务极具价值与意义。众所周知,过去的数据治理与应用体系严重依赖ETL。Gartner调研数据显示:分析师80%的时间用于发现和准备数据,知识型员工将50%的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上,数据科学家花60%的时间清理和组织数据。
当数据规模远胜以往之后,依赖ETL的方式就容易数据的供给侧与使用侧极大的效率问题,因此Zero-ETL成为大势所趋,通过Zero-ETL简化杂ETL链路,实现敏捷数据洞察和高效一致的数据协作。
例如,Amazon Aurora 将首次支持与 Amazon Redshift 的 Zero-ETL(提取、转换和加载)集成,将事务数据与分析功能结合在一起,消除了在 Aurora 和 Redshift 之间构建和管理自定义数据管道的所有工作。用户不必构建和维护复杂的数据管道来执行提取、转换和加载(ETL)操作。
又如,数据爆炸性增长为数据治理带来了前所未有的复杂度。数据治理涉及到不同的团队、应用和权限管理,使得细颗粒度的数据管理成为当前的强需求。因此,亚马逊云科技打造出 Amazon DataZone,用于分类、发现、共享和管理数据的数据管理服务,可以集成 Redshift、Athena 和 QuickSight,以及对第三方数据源提供 API 接口,可实现细粒度数据管理,其中包含由机器学习填充的数据目录,易于使用业务术语进行搜索。
在亚马逊云科技看来,DataZone可以使数据工程师、数据科学家、产品经理、分析师和其他业务用户能够轻松地发现、使用和协作数据。
亚马逊云科技在今年2022 re:Invent全球大会上推出与数据相关的系列服务都极具价值且意义重大。对于逐步完成上云阶段的众多用户而言,这些服务与工具的推出可谓是恰逢其时,能够很好地帮助用户把数据“用起来”,对于数字化转型有着极大的帮助。
从亚马逊云科技看数智未来
一直以来,业界都在积极提倡上云、用数和赋智,寄希望打造三者的价值闭环,从而真正让企业数字化转型步入良性发展的轨道。可以看来,亚马逊云科技近年来针对数据服务、机器学习平台等产品与服务的系列构建,已经率先在业界实践出“云、数、智”的闭环之路。
首先,亚马逊云科技正在把重要的工具与服务做深、做精,从而让产品与服务的累积效应得以显现。例如,亚马逊云科技机器学习平台Amazon SageMaker五年来增加了260项新功能,不断降低机器学习的技术门槛,简化机器学习的前期工作,加速为客户“赋智”。
在本次re:Invent全球大会上,亚马逊云科技还将机器学习的治理功能引入到Amazon SageMaker,通过角色管理器(Role Manager)、 模型卡片(Model Cards),以及模型仪表板(Model Dashboard)等涵盖端到端机器学习流程的管理与治理。
其次,亚马逊云科技正在持续打通数智之间的链路,优化产品与服务,形成产品与服务之间的叠加效应。这从亚马逊云科技推出Amazon Redshift 与 Apache Spark 集成等功能就能反应出。
事实上,随着亚马逊云科技不断优化不同服务之间的集成,将有利于进一步降低数智的门槛,有望为广大用户带来更加出色的服务体验。
最后,亚马逊云科技看中在各大行业之中的闭环实践。在今年re:Invent全球大会上,亚马逊云科技带来了供应链、广告营销、生物医疗、零售等一系列的数智新方案,为用户践行上云、用数和赋智提供了充分保障。
总体来看,“数据”是今年re:Invent全球大会上的绝对主角。随着企业逐步完成上云阶段,在云端的“用数”和“赋智”是所有企业数字化转型接下来的重中之重,这个过程将充满了挑战。无疑,亚马逊云科技带来了它的方法论、战略以及产品服务。面向未来,随着亚马逊云科技端到端数据战略不断在行业中践行,亚马逊云科技有望帮助更多用户在浩瀚的数据海洋中乘风破浪、驭数而行。