15年磨一剑,亚马逊云科技数据产品掌门人 Swami 揭秘云原生数据战略的三大关键要素

news2024/11/15 13:32:02

2022亚马逊云科技 re:Invent 全球大会正在拉斯维加斯如火如荼进行中,亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士发表了“数据与机器学习如何助力企业构建端到端的数据战略”的主题演讲来开启第三天的日程。

Swami 博士重点介绍了亚马逊云科技在数据库、数据分析和机器学习领域的最新创新,以及这些创新如何帮助企业构建基于“面向未来的数据基础设施”、“跨组织的数据链接”和“数据普惠化”三个核心要素的端到端数据战略,从而帮助企业将数据转化为对业务有意义的见解和行动,驱动企业借助数据推动下一波创新。

Swami 博士首先通过人类大脑是如何通过数据分析产生创造性的想法做类比,企业数据分析与人脑数据分析有相似之处,但又有很大的不同。他指出,与人脑不同,企业数据处理和分析中往往会遇到一些挑战,主要包括:

  1. 没有一个集中的存储库来收集所有数据,这通常意味着它会导致跨整个组织的数据孤岛和数据不一致,清理海量数据并将其存储在可访问的位置需要花费大量的时间和精力;

  2. 企业数据并不是自动化处理的,企业必须在数据基础设施中建立自动化机制来减少手动重复性操作和成本高昂的更新;

  3. 企业数据也不会在应用间自由流动,不像大脑中神经传输路径一样,企业需要建立复杂的通道来将数据移动到正确的位置,并且保证需要访问的个人随时随地能访问到;

  4. 数据也不容易被分析或者可视化,企业很难快速找到数据之间的联系,从而激发创意和洞察力。

“我坚信数据是现代发明的起源,” Swami博士提到,“为了更好地利用数据来提升客户体验,推动业务创新,今天的组织需要构建合适的数据战略,以数据推动决策。”

亚马逊云科技以超过15年的数据创新经验赋能企业构建合适的数据战略

在探索适合企业的数据战略的道路上,企业并不孤单。亚马逊云科技有着超过15年的数据领域创新经验。我们一直在尝试通过创新的方法去改进数据存储和分析的过程:我们在云中提供了第一个可扩展存储服务 S3、发布了云上第一个专门构建的数据库 DynamoDB 和第一个完全托管的数据仓库服务 Redshift 以及更多持续发布的新功能和新服务,帮助客户更容易地创建、存储和分析数据。

今天,全世界有超过150万家公司来亚马逊云科技寻求数据服务上的帮助,包括数据库、数据分析和机器学习服务。像 Toyota(丰田)、Coca-Cola(可口可乐)、 Capital One 等等,这些知名公司都用我们的服务来建立完整的数据战略。还有 Bristol Myers Squibb 通过运用我们的数据服务,把单细胞数据应用在他们的诊断和开发里面。此外,Hyundai(现代)也用我们的平台来分析他们的机器学习模型,极大地降低了他们的机器学习时间。

Swami 博士指出,基于亚马逊云科技的经验,我们认为数据战略有三个关键核心要素

1. 建立面向未来的数据基础设施

面向未来的数据基础设施,应具备四个要素:

1.需要有正确的数据库工具来应对所有类型的工作负载;

2.可以在大规模的情况下进行高性能的运行;

3.不需要我们做非常多的重复工作;

4.需要高可靠性和高伸缩性。

2. 实现安全高效的跨组织数据链接

同样,企业可以使用一个合作系统来连接孤立的团队,为重要资源创造快捷安全的访问途径,使用正确数据治理系统,借助高质量的工具和数据来推动未来的增长。

3. 通过工具和教育实现数据普惠化

亚马逊云科技预计到2029年,人工智能劳动力将增加100万个工作岗位,但培育合适的技能和人选来填补这些空缺将是一项重大挑战。亚马逊云科技正在帮助社区学院和 MSIs 加大教育力度,推出新的亚马逊云科技机器学习大学教育培训计划,提供动手培训课程,为培育新一代劳动力做好准备。

此外,低代码和无代码工具对许多企业来说也是一个重要辅助工具,Amazon SageMaker Canvas 还为用户提供了一个无代码选项,可以帮助用户无需编写代码即可实现基于机器学习的预测。

基于以上端到端数据战略的三个核心要素,亚马逊云科技帮助企业将数据转化为对业务有意义的见解和行动,驱动企业借助数据推动下一波创新。Swami 博士在他的演讲中发布了多项亚马逊云科技数据库、数据分析和机器学习服务的功能升级与新特性。

一、强大的云原生数据能力,以帮助企业扩展其数据库和数据分析服务,并确保数据安全与数据质量

1. Amazon Athena for Apache Spark 更简易直观的数据分析服务

Swami 博士指出,亚马逊云科技推出的 Amazon Athena 服务以其易用性而广为流行,已有数以万计的客户注册。为了帮助用户以一种更直观的方式来运行复杂的数据分析,让用户将更多的时间用于洞察,而不是等待结果,我们推出 Amazon Athena for Apache Spark ,这项服务不到1秒钟的时间就可以运行交互式的 Spark 数据分析应用,它比其他类似的 Spark 解决方案快75倍。

2. Amazon DocumentDB Elastic Clusters 完全托管型解决方案

Swami 博士表示,亚马逊云科技为企业提供所需工具来帮助提供可扩展性和处理能力。接下来,他发布了 Amazon DocumentDB Elastic Clusters,这是一个完全托管的数据库扩展特性,可以帮助 DocumentDB 根据流量需求轻松实现上下扩展。它可以在几分钟内弹性扩展工作负载,甚至可以自动管理底层基础设施,降低运维的时间成本。

3. Amazon Redshift Multi-AZ 高可用性与高可靠性

Swami 博士指出,可靠性和安全性是各企业选取云服务商的关键考虑因素。“你需要采取适当的保障措施。”他强调了亚马逊云科技构建此类安全可靠服务的悠久历史。然而客户总是有着更多需求,尤其是在应用程序和数据库方面。因此,新的 Amazon Redshift Multi-AZ 功能将有助于为 Mission-critical 的分析任务工作负载提供高可用性和可靠性。

4. Tusted Language Extensions for PostgreSQL 快速集成数据

为了帮助提升 PostgreSQL 扩展程序的安全性,Swami 博士宣布推出 Trusted Language Extensions for PostgreSQL 服务,这是一个新的开源项目,支持 Amazon RDS 和 Aurora 上的 PostgreSQL 扩展程序。这些语言和延伸可以让你非常安全地把它加入到你数据的基础设施上,同时也可以得到亚马逊云科技的认证。有了这样的解决方案,我们的客户就可以非常快速地集成他们的数据,还可以基于他们核心的数据库来开发应用。亚马逊云科技将会不断地向开源社区做新贡献。

5. Amazon GuardDuty RDS Protection 智能化威胁检测,守护数据安全

为了保护 RDS 数据库的安全,亚马逊云科技还宣布推出 Amazon GuardDuty RDS 保护解决方案。只要一个点击,Amazon GuardDuty RDS Protection 就可以在 Amazon Aurora 上面运行基于机器学习的智能威胁检测来保护你的数据,这也为企业数据保护提供了基础,让你可以在不同的数据存储位置中把这些连接起来。

6. Amazon Glue Data Quality (Preview) 更好地管理数据湖质量

提到数据湖与数据质量,Swami 博士表示,保持数据质量需要各种手动创建的数据质量规则。为了更好地帮助客户来管理数据湖中的数据质量,Swami 博士宣布推出 Amazon Glue Data Quality 解决方案。

Amazon Glue Data Quality 可以进一步萃取数据价值,保证数据治理。每天从数据中自动建立数据质量规则,只需花几个小时的时间就可以产生新鲜的高质量数据,以便客户每天都能做出更明智的关键决策,这项服务可以将人工工作从几天减少到几小时。

7. Centralized Access Controls for Redshift Data Sharing 简易且安全的数据访问权限管理

为了简化 Redshift 数据访问权限管理,Swami 博士宣布推出 Centralized Access Control for Redshift Data Sharing 平台。基于这个平台,你可以非常容易地在内部运行一个集中的数据管理,通过这项服务你可以管理不同的查询,也可以管理获取某一种数据的权限,这也有助于维护数据安全。客户能够在运行权限管理的情况下进入各个不同的数据分布。

8. Amazon Redshift auto-copy from S3 简化数据分析与移动

Swami 博士指出,客户正在寻找更简单的方法来移动和分析大数据,亚马逊云科技希望做到这一点。Amazon Redshift auto-copy from S3 是一个新的自动复制功能,使创建和维护简单的数据接收管道变得更加容易。

二、增加了数据治理和地理空间工具的机器学习平台,助力机器学习普惠化

1. ML governance with Amazon SageMaker 三项新功能上线

现在越来越多的企业开始利用机器学习来进行数据管理,而机器学习技术又有着极高的技术门槛,因此很多客户都需要募集数据科学家和数据工程师,耗费人力与物力。此外机器学习模型也难与他人共享。如果有一项工具可以解决这些难题,将是客户的绝佳助力,因此我们推出 Amazon SageMaker。

Amazon SageMaker 推出五年来,亚马逊云科技一直稳步地实现 SageMaker 的产品升级,并使其成为企业最广泛使用的 ML 平台之一。Swami 博士宣布,Amazon SageMaker 将推出三个机器学习的新功能,来简化访问控制,增强端到端机器学习部署的透明度、模型治理和可审计性。

三个机器学习的新功能分别是:Role Manager、Model Cards 和 Model Dashboard。SageMaker Role Manager 通过自动策略创建工具帮助组织为用户定义关键权限;Model Cards 主要是为 ML 模型文档创建一个中心权威位置;Model Dashboard 为组织提供了 ML 模型性能的可见性和统一监控。Swami 博士表示:“这些是非常强大的治理功能,将帮助您构建 ML 治理责任,以解决权力权限共享问题。”

2. Geospatial ML with Amazon SageMaker (Preview) 模型预测实现在地图上的可视化

近年来,地理空间数据在许多行业中的普及率大幅增长。但是处理地理空间数据也同样会面临各种挑战,为了应对这些挑战,亚马逊云科技宣布 Amazon SageMaker 现在支持 Geospatial ML,只需单击几下即可访问各种不同的数据,根据模型生成的预测也可以在地图上可视化。

同时,新的地理空间功能将 SageMaker 的 ML 模型构建能力范围扩展到新兴的地理空间工程领域,用于灾害应对、城市规划、物流和运输等应用。Swami 博士说:“长期以来,我们一直致力于使 SageMaker 成为一个能够容纳多种数据类型的平台,而您在地理空间中看到的绝对是正确的方向。”

3. Provided40NewDataConnectorstoDataWrangle 更多的数据连接器上线

为了帮助用户更好的使用外部数据执行 ML 模型的构建与训练,Swami 博士宣布亚马逊 SageMaker 的几十个新数据连接器补充了为 LinkedIn 和 Google Ads 等平台以及 Snowflake、Salesforce 和 SAP 等其他应用程序推出的其他22个新连接器。Swami 博士说:“今天,Amazon SageMaker Data Wrangle 再次新增40多种新的数据源,可将汇总和准备机器学习 (ML)数据所需的时间从数周缩短至几分钟。”

4. Amazon Machine Learning University now provides educator training 长期践行数据普惠化

Swami 博士强调,让数据普及,这是一个非常重要的行动,我们最终的目的是将数据普惠化。亚马逊云科技正在帮助社区学院和 MSIs 加大教育力度,推出新的亚马逊云科技机器学习大学教育培训计划,提供动手培训课程,帮助下一代构建者做好准备。此外,低代码和无代码工具对许多企业来说也是一个重要的补充,Amazon SageMaker Canvas 还为用户提供了一个无代码选项,可以帮助用户无需编写代码即可实现基于机器学习的预测。

最后,Swami 博士指出:“所有的设计灵感、创新灵感都是从一个点子开始,然后大家一起努力,为下一步的创新再去做努力。”我们用16年来的云计算技术积淀,去激发一个点子、推动下一步创新,亚马逊云科技所有的数据服务都致力于帮助您的企业更好地利用数据发挥关键作用

阅读原文:亚马逊云科技开发者社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/64705.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

玉米脱粒机设计全套

目 录 摘要 I Abstract II 1引言 1 1.1 课题的来源与研究的目的和意义 1 1.2 本课题研究的内容 3 2玉米脱粒机总体结构的设计 5 2.1 玉米脱粒机工作方式的选择 7 2.2 玉米脱粒机的结构原理 10 2.3 机械传动部分的设计计算 11 2.3.1电机的选型计算 12 2.3.2 V带传动的设计计算 1…

C语言:文件操作(2)

文件的打开和关闭 文件在读写之前应该先打开文件,在使用结束之后应该关闭文件。 在编写程序的时候,在打开文件的同时,都会返回一个FILE*的指针变量指向该文件,也相当于建立了指针和文件的关系。 ANSIC规定使用fopen函数来打开文…

(十五) 共享模型之工具【线程池】

一、自定义线程池 1. 简易线程池 Slf4j(topic "c.TestPool") public class TestPool {public static void main(String[] args) {ThreadPool threadPool new ThreadPool(2,1000, TimeUnit.MILLISECONDS, 10);for (int i 0; i < 5; i) {int j i;threadPool.exe…

博球一看,记录疯狂!我与世界杯的那些二三事

文章目录 &#x1f525;关于世界杯 &#x1f525;关于2022卡塔尔世界杯 &#x1f525;我与足球 &#x1f525;我与世界杯 ⚽分享一颗足球 ⚽实现效果 &#x1f525;关于世界杯 大力神杯 国际足联世界杯&#xff08;FIFA World Cup&#xff09;&#xff0c;简称“世界杯”…

Vue中的数据代理与数据劫持

数据代理 数据代理字面上是通过一个对象代理对另一个对象属性的操作在vue中的数据代理&#xff0c;实际上是通过vm上的属性代理对_data中属性的操作 数据劫持 数据劫持也可称作数据代理&#xff0c;字面上是劫持到某个属性的变化&#xff0c;去做其他的操作在vue中的数据劫…

练习:查询学生新学期选课(python之str、dict、list试炼)

查询学生新学期选课(python之str、dict、list试炼)&#xff0c;数据用字典、列表存储。考验字符串的各种转换&#xff0c;字典、列表的读写。 (本文获得CSDN质量评分【88】)【学习的细节是欢悦的历程】Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免…

【Git 教程系列第 26 篇】Mac 升级系统到 Ventura 后,Git 公钥报 Permission denied 错误问题的解决方案

这是【Git 教程系列第 26 篇】&#xff0c;如果觉得有用的话&#xff0c;欢迎关注专栏。 注&#xff1a; 如果你是因为升级系统到 Ventura 后遇到的这个问题&#xff0c;可以直接看第三步的解决方案&#xff0c;前两步是我自己的写作习惯&#xff0c;只是记录一下这个过程&…

Qt OpenGL 图形字体的纹理映射

这次教程中&#xff0c;我们将在第14课的基础上创建带有纹理的字体&#xff0c;它真的很简单。也许你想知道如何才能给字体赋予纹理贴图&#xff1f;我们可以使用自动纹理坐标生成器&#xff0c;它会自动为字体上的每一个多边形生成纹理坐标。 这次课中我们还将使用Wingdings字…

BNext

又搬来了大神器啊 来自德国HassoPlattner计算机系统工程研究院的NianhuiGuo和HaojinYang等研究者提出了BNext模型&#xff0c;成为第一个在ImageNet数据集上top1分类准确率突破80%的BNN。 两年前&#xff0c;依靠早期 BNN 工作 XNOR-Net 起家的 XNOR.AI 被苹果公司收购&#…

redis基础5——redis的频道订阅和模式频道、redis主从复制、哨兵集群

文章目录一、发布订阅1.1 发布订阅过程1.2 发布订阅类型1.2.1 频道的发布订阅1.2.1.1 订阅频道* 实现原理1.2.1.2 发送消息* 实现原理1.2.1.3 退订频道* 实现原理1.2.2 模式的发布订阅1.2.2.1 订阅模式频道* 实现原理1.2.2.2 查询订阅与发布系统状态1.2.2.3 发送消息* 实现原理…

【c++基础】第三章 宏观部分:面向对象之类的层次结构与相互关系

第三章 宏观部分&#xff1a;面向对象之类的层次结构与相互关系关系has_a关系use_a关系&#xff08;友元关系&#xff09;is_a关系&#xff08;继承关系&#xff09;单继承多继承菱形继承多态&#xff08;polymorphic&#xff09;虚函数多态底层机制&#xff1a;虚函数、虚函数…

spring导入第三方资源

一、第三方资源配置管理 说明&#xff1a;以管理DataSource连接池对象为例讲解第三方资源配置管理 1 管理DataSource连接池对象 问题导入 配置数据库连接参数时&#xff0c;注入驱动类名是用driverClassName还是driver&#xff1f; 1.1 管理Druid连接池【重点】 数据库准备…

Android挂载系统分区执行mount和remount

第一种&#xff0c;通过adb挂载&#xff0c;需要root权限&#xff1b; adb root //adb 获取root权限&#xff1b; adb remount /system //从新挂载system目录或者说分区 第二种&#xff1a;通过Android下的Linux命令挂载&#xff0c;需要root权限&#xff1b; adb shell //…

【第八章 索引,索引结构,B-Tree,B+Tree,Hash,索引分类,聚集索引二级索引,索引语法】

第八章 索引&#xff0c;索引结构&#xff0c;B-Tree&#xff0c;BTree&#xff0c;Hash&#xff0c;索引分类&#xff0c;聚集索引&二级索引&#xff0c;索引语法 1.索引&#xff1a; ①索引&#xff08;index&#xff09;是帮助MySQL高效获取数据的数据结构(有序)。 ②特…

[附源码]Python计算机毕业设计Django社区人员信息管理系统设计与实现

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

Java学习笔记——StringBuilder

目录StringBuilder概述StringBuilder的构造方法StringBuilder常用的成员方法StringBuilder提高效率的原因String和StringBuilder之间的转换StringBuilder概述 StringBuilder是一个可变字符串类&#xff0c;我们可以把它看成一个容器。 作用&#xff1a;提高字符串的操作效率 …

HTML5期末作业:明星网站设计与实现——明星薛之谦介绍网页设计7个页面HTML+CSS+JavaScript

&#x1f389;精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

一文叫你使用trace查看函数调用关系|分析Linux性能

抓取函数调用流程关系 抓取函数耗时 抓取代码片耗时 抓取函数里每个子函数时间戳 抓取事件信息 trace是内核自带的工具&#xff0c;相比于perf工具&#xff0c;trace只管抓trace数据并没有分析&#xff0c;perf在trace数据分析方面做出了很多成果。 但是我们现在就想看一下…

java生产者 消费者模式概念讲解

首先我们要了解生成者和消费者的基本概念 我们举个小例子 图里是一个奶箱 但里面并没有牛奶 我们想喝也没用 然后 送奶的工人送来了几瓶牛奶 然后工人会把牛奶放进奶箱 然后 把箱子给你锁上 然后你就可以去奶箱里拿奶来喝 这里 我们就可以比喻成 奶箱是一个存储数据的容器…

nginx安装与使用(入门)

目录 安装 入门 1. 什么是nginx 2. Nginx的作用 部署静态资源到ngnix 配置文件 部署外部资源到nginx 多个虚拟主机配置与域名映射 配置多个虚拟主机 配置反向代理 安装 win下 前往这里下载 nginx: download 如果启动后报错&#xff1a; nginx: [emerg] bind() to 0.0…