在2022亚马逊云科技re:Invent大会上,亚马逊云科技首席执行官Adam Selipsky说:“在今后的五年,我们创建了这些数据,可能会完全超过了数码时代一直到现在以来所有数据累加在一起的数量,这样同时也会告诉我们所有的组织都会面临着无限的机会。”
因为规模和分布式带来计算环境的变化,是驱动云计算重构基础设施的一个重要因素,而计算环境带来客户需求的变化,则又构成了驱动云计算技术继续演化的另一条主线,那就是数据。
云计算最初的刚需是弹性计算和存储,所以最初的用户更多来自零售和互联网等业务波动较大的行业,主要解决的是峰值期间算力不足的问题。但很快,大家发现数据在云上不但方便存储,而且更加方便分析和处理。于是数据湖的概念迅速流行起来,这个术语由Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的解释是:把你以前在磁带上拥有的东西导入到数据湖,然后开始探索。
数据湖也是个云计算时代的概念,与它对应的是传统IT时代的数据仓库、数据集市等概念。有趣的是,在数据仓库、数据集市等概念下,数据给人的印象是固体的货物,而在数据湖的概念里,数据变成了可以流动的液体。这其实也是云计算和传统IT观念最大的分野之一。
人类的大脑,最擅长处理三维空间和不超过7个变量,这样的思考能力显然无法应付云上指数增长的数据。亚马逊云科技数据与机器学习副总裁Swami Sivasubramanian在本次大会的发言中也谈到:“用在现在的数据处理并不是完美的想法。我们需要把数据集中在一起,它们之间会存在不一致性,所以我们需要把它进行自动化。而且数据不像我们的大脑一样会自动进入,它需要通过通道来进入系统,我们需要建立这样的机制,让这些数据能够为我们所用。最终数据也不是那么容易分析,把新的各种想法之间联系起来是很困难的,这是一个非常复杂的过程。”
也正是在这个背景下,为了更好地处理越来越多的数据,机器学习的春天也到来了。这门学问的流行需要三个因素,其中算法早已经成熟很多年,而云计算则赋予了它便宜的算力和海量的数据。
就这样,企业上云的最大动力从“弹性计算+存储”,很快变成“智能+数据”。人工智能迅速成为企业破解复杂问题,应对不确定时代的救命稻草,而云就成为交付人工智能的最佳载体。随着数据战略成为越来越多企业的核心战略,比如2020年,BMW数字化战略发布了“以客户为中心”、“用数据赋能”和“打造适应数字化进程的组织”的三大方向,“客户”、“数据”和“数字化”三大关键词赫然在列,他们将数据汇入CDH (Cloud Data Hub),并且使用这些数据来监控车辆运行状况指标,例如检查控制错误以识别整个车系的潜在问题,进而更好地解决问题,甚至将问题解决在萌芽之时。
据亚马逊云科技提供的数据,在全球他们已助力超过150万客户成为数据驱动型企业。Swami在发言中提到,亚马逊领导人意识到,数据经常是跟我们的直觉相反的,但是要完全依赖数据的分析,需要一整套数据策略,包括能够应对所有未来情况的技术策略,要考虑到未来数据种类、处理效率、可靠性和弹性;以及需要有组织把数据连接起来,第三,还需要好的工具来处理这些数据。
为了适应用户对于数据存储、分析,以及随后的机器学习等全新需求,云计算厂商必须要围绕着数据这个核心需求重构甚至创建出很多新的服务来。
也正是在这个大背景下,云计算中最受欢迎的也都是数据相关的服务,就像亚马逊云科技有史以来发展最快的服务第一是云原生关系数据库Amazon Aurora,第二是云原生数仓Amazon Redshift。
而机器学习的神奇效能和依然高高在上的使用门槛,也成为云计算技术创新的强大动力。在2017亚马逊云科技re:Invent全球大会上,托管式机器学习服务Amazon SageMaker面世,可以帮助开发者、数据科学家和业务分析师极大缩短准备数据,并大规模地构建、训练、部署高质量机器学习模型的时间。不意外的是,SageMaker也成为亚马逊云科技有史以来增长速度最快的服务之一,五年时间,已有数以万计的客户利用Amazon SageMaker创建了数百万个模型,参数规模可达千亿级别,每月生成数千亿的预测结果。2021年,为了进一步推动机器学习的民主化,让更多用户能够接触到机器学习,亚马逊云科技在re:Invent大会上发布了无代码机器学习工具Amazon SageMaker Canvas。在Amazon SageMaker的帮助下,客户可以通过优化的基础设施将训练模型所需时间由数小时缩短至数分钟。
本次大会,最值得关注的两个发布是端到端的数据治理工具——Amazon DataZone和Zero ETL技术。DataZone通过统一的数据分析门户提供所有数据的个性化视图,解决跨组织边界的数据大规模共享、搜索和发现问题。而Zero ETL主要解决的是在不同机器学习模型或不同应用之间提取、转换和加载(ETF是Extract、Transform、Load三个词的缩写)数据的速度问题,需要结合SageMaker以及亚马逊的云原生数据库使用。
在本届re:Invent上,亚马逊云科技首席执行官Adam Selipsky和亚马逊云科技数据产品掌门人Swami在最重要的发布时段,发布的技术和服务大部分都与数据和机器学习相关,这其实也代表了某种趋势——当对传统IT技术的替代接近尾声的时候,针对数据创新的技术需求井喷才刚刚开始。