【云栖 2023】张治国:MaxCompute 架构升级及开放性解读

news2024/9/22 13:34:00

云布道师

本文根据 2023 云栖大会演讲实录整理而成,演讲信息如下
演讲人:张治国|阿里云智能计算平台研究员、阿里云 MaxCompute 负责人
演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会

MaxCompute 发展经历了三个阶段:MaxCompute1.0,主旨是达到大规模的数据处理能力,在性能和规模上提供给用户一个分布式处理平台;MaxCompute2.0,主旨是 Serverless,强调弹性和性价比;MaxCompute3.0 阶段主旨一体化,包括湖仓一体、离线实时一体化等。
在这里插入图片描述
在整个 MaxCompute 发展过程中,可以从五个维度看一下数仓的发展趋势;

  1. 随着现代数据驱动各个不同业务的发展,数据规模越来越大; 在不同规模下,应用越来越多元化,其中包括数据结构化、半结构化和非结构化,应用随着
  2. AI 的兴起,AI 的应用也越来越多,对数仓的要求也会越来越高;
  3. 数据的实时性、时效性要求越来越高,我们需要更多做数据实时大批量的流式导入、实时数仓这方面的工作;
  4. 对数据的准确性要求也越来越高,我们需要大规模数据治理、质量控制这方面的工作;
  5. AI兴起,大家都围绕着数据来做业务决策,怎么从现有数据中产出更高的价值,这也是大家对数仓发展的一个越来越高的要求;

围绕这五个不同发展趋势,阿里云提出 MaxCompute4.0 开放一体架构,围绕近实时,开放性、性价比、Data+AI 一体化等多维度进行升级。在这里插入图片描述
MaxCompute4.0 开放一体架构,底层数据高并发、实时流式数据导入,数据同时可以选择导入到 MaxCompute 自己的盘古存储系统,也可以导入到 OSS 一些开放数据结构中,内置存储选用的是自己的AliORC。在这之上设计了统一的语言数据管理服务,可以纳管内置的存储数据,同时可以通过 DF 同时管理 OSS 和 HDFS 上面的开放数据结构。通过一个开放存储的服务,提供一个统一的接口给上层不同计算引擎做不同业务场景下的计算要求。再往上使用弹性计算资源调度,可以很容易调度不同的计算引擎在整个计算平台上去计算数据。最上层是对接不同的开发平台和数据应用。

MaxCompute 4.0 开放性升级:开放存储及计算架构

MaxCompute 4.0 的开放性升级有两方面,一个是开放存储,一个是开放计算架构。开放存储我们希望把内置的数据格式能够通过开源内存格式提供给不同计算引擎。开放计算架构希望内置计算引擎可以通过同样一个 API 可以高效访问数据湖上的数据。
开放结构最主要提供的价值因为现在用户的应用、计算各个不同场景需要不同的计算引擎和不同的计算方式,MaxCompute 提供灵活开放的开源大数据 AI 引擎的计算方式给不同应用。并且在这种开放场景下,我们也可以提供比较灵活的计算资源。在这里插入图片描述
如上图所示,左边是比较通用的一些场景,如果大家已经用了 MaxCompute 现代一些计算,同时需要一些 AI 计算或者一些其他计算,可以通过 Storage API 对接底下统一的数据源做不同的计算,这样可以提供一个数据零拷贝,不需要为了不同计算把数据拷贝出去放到不同地方然后做计算。另外我们希望能够提供统一的管理可以纳管不同的数据源,大家在云上或者别的地方有自己的计算资源也可以用自己的计算资源对接自己的数据做不同的计算。
现在数据的实时性方案很多在用的都是 Lambda 架构的模式,Lambda 架构全链路数据治理都有很多痛点,这中间会有一些数据融合、数据一致性问题。在MaxCompute4.0 升级的时候,做了近实时处理框架的发布,达到一份数据一份code,可以低成本低运维统一实施和批量处理链路。整个架构我们用一个统一的数据组织结构和数据管理,在这上面能够有统一的计算框架,大家不用在实时和离线框架上用不同计算引擎,最终实现所有数据不管实时还是离线都有统一的语言数据管理。

MaxCompute 4.0 开放性升级:开放存储及计算架构

随着 AI 的兴起,数据规模越来越大,用户对数据计算的性价比方面有更高的追求,MaxCompute4.0 在过去一年,一直致力于做全方面的性价比提升。
计算高性能方面,SQL 引擎方面在不断提高。在 HBO/HBS 根据历史查询数据,历史的统计信息我们能做更好的数据优化及查询优化,并且通过资源调度的优化提高性能。大家都知道大规模数据处理的时候,最主要的核心步骤是数据的 shuffling,我们做了很多工作来提高整个数据 shuffle 性能。除此之外,MaxCompute4.0 还尝试通过推荐能够帮助大家做一些物化视图的总结,根据物化视图消除重复性的计算。
在低成本方面,根据数据的冷热,访问的不同频率做到了分层存储。通过 JSON 半结构化数据的列存,实现更好的压缩。
在性价比方面,MaxCompute 通过弹性资源调度、自适应 SQL 引擎、存储优化、智能数仓四个方面技术优化,实现了弹性 CU 最终降价 50%。在这里插入图片描述

  • 弹性资源调度:当用户根据包年包月处理会有很多空闲时候,虽然没有用计算资源但是这个计算资源还是会算到里面去,如果有弹性资源就可以比较贴切计算的模型,根据不同时间段给不同的
    quota,从而达到降本增效。后面我们根据你的历史,比如过去三个月使用情况做一些不同的资源变配的推荐,满足资源降低成本的能力。
  • 自适应的 SQL 引擎:我们做了更多的工作,可以分成 stage 和 stage 之间的自适应优化。在同一个 stage
    不同算子之间我们也可以做到不同自适应算法。
  • 存储优化:我们自研内部的数据格式 AliORC,跟一些比较通用的 parquet 和 ORC 格式对比,测试结果显示读写性能是其 2-6
    倍,压缩比我们比他们高大概 30%。我们会根据你数据的访问频次能够自动推荐你在哪些数据可以做冷存数据,提供更高性价比的存储优化。
  • 智能数仓:自研大数据对比开源大数据最大的区别就是我们是一个自闭环,能够做自动优化,将历史数据统一放到我们的原仓数据里,根据原仓信息,可以自动做一些存储方面和计算方面不同的优化。

MaxCompute 4.0 Data+AI:One Env+One Data+One Code

AI 是一个新的浪潮,过去一年我们对数仓和AI如何结合做了很多思考。AI 整个应用的生命周期是数据收集、数据清洗、数据预处理、数据训练、数据推理。有数据表明,大家认为 80% 的时间花在数据的处理上,数据处理有很多痛点:
大数据开发和 AI 开发是两个割裂的环境;大数据开发很多时候大家用 SQL,但是 AI 现在更多的用 Python 开发环境。
AI 更关注 AI 计算引擎;对数据的大规模并发处理和分布式处理的能力有所欠缺,很多时候用户要在自己本地做数据清理,或者找数据开发师去做数据处理。
数据来源比较多样化;很多数据大家会放在数据湖上,没有一个统一的数据管理的平台能够帮忙做数据管理,今天你处理了数据,而另外一个人需要产生非常相近的数据,但他不知道你这已经处理了这份数据他有可能重新跑一遍,不光花了时间也花了资源。
开发迭代效率低;因为两套系统,导致整个开发链路都比较长,效率低下。在这里插入图片描述
我们希望能够从数仓方面帮助用户解决那些痛点。MaxCompute 4.0 主旨实现,One Env+One Data+One Code,这背后核心就是提供一个 Python 的开发环境,一个 Notebook 的开发体验。在 Data For AI 方面,MaxCompute 全面升级DataFrame 能力,发布分布式计算框架 MaxFrame,100% 兼容 Pandas 等数据处理接口,通过一行代码即可将原生 Pandas 自动转为 MaxFrame 分布式计算,打通数据管理、大规模数据分析、处理到 ML 开发全流程,打破大数据及 AI 开发使用边界,实现大数据 AI 开发一体化,大大提高开发效率。
另外在 AI For Data 方面,我们提供一个 Python 大数据处理,这样我们更容易使用一些丰富的 AI 和 ML 一些模型来做更好的数据挖掘和分析。
回头看整个 MaxCompute4.0,我们希望做到数据的开放,计算引擎的包容,能够满足各种不同的数据计算场景的需求,以及根据数据实时性会增加增量计算的能力,满足大家对数据实时性的要求。后续 MaxCompute 也会持续在开放架构、增量处理、Data+AI 三个方向持续发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1230600.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Semi-Supervised Multi-Modal Learning with Balanced Spectral Decomposition

Y是所有模态的表征矩阵, ∑ i 1 d h ( λ i ) \sum_{i1}^dh(\lambda_i) ∑i1d​h(λi​) is the proposed eigenvalue-based objective function,the final similarity matrix W for the multimodal data as a block matrix 辅助信息 作者未提供代码

【C++百宝箱】语法总结:引用 | 内联函数 | auto | 范围for循环

🚩纸上得来终觉浅, 绝知此事要躬行。 🌟主页:June-Frost 🚀专栏:C入门宝典 🔥本文主要探讨C的语法,并深入了解C如何针对C语言中存在的不合理之处进行优化改进。 目录: ⌛…

LED植物生长灯怎么做更有效?聚光和散热不能少!

如何选择一款更有效的植物生长灯呢?相信这是很多朋友关心的问题。 其实方法很简单,以主流的LED植物生长灯为例,想要植物灯更有效、更好用,需要关注其是否有光学透镜和散热技术。 光学透镜对植物生长灯有什么样的作用&#xff1f…

OpenHarmony Ohpm安装历程(个人踩坑,最后安装成功)

大家好,我是【八戒,你又涨价了哎】 以下是我个人在学习OpenHarmony过程中的分享,请大家多多指教 目录 问题描述: 尝试解决 尝试一、 尝试二、 尝试三、 最终解决方案 问题描述: 当我学习到使用OpenHarmony的三方…

儿童家居服 I 童年很短不留遗憾,尽情打扮

厚实细腻的双面北极绒面料 软糯亲肤,上身效果极佳 经典宽松版型,对身材的包容性很强 帽子上的小熊刺绣精致又可 袖口处还有小熊掌的刺绣哦 松紧裤腰和束脚设计,防风保暖做到实处 这么好看又保暖的家居服喜不喜欢呢

中间件安全:Apache Tomcat 弱口令.(反弹 shell 拿到服务器的最高控制权.)

中间件安全:Apache Tomcat 弱口令. Tomcat 是 Apache 软件基金会(Apache Software Foundation)的 Jakarta 项目中的一个核心项目,由 Apache、Sun 和其他一些公司及个人共同开发而成。 通过弱口令登录后台,部署 war 包…

TDengine TSZ 压缩算法优化背后的故事,要从一篇学术论文说起

TSZ 压缩算法是 TDengine 提供的一种可选压缩算法,专门用于浮点数据类型。它具有出色的压缩性能,能够在有损和无损状态下都提供更高的压缩率,甚至比默认压缩算法高出一倍,满足更高的数据存储需求。利用数据预测技术,TS…

Idea 2023.2.5配置(插件、Maven等)

IDEA2023.2.5配置 一. 插件Alibaba Java Coding Guidelines plugin supportMaven HelperMyBatisXSonarLintTranslationVuesion Theme 二. 自定义创建live template,快速写代码三. 修改全局配置3.1 Maven配置3.1.1 安装MavenStep1. 下载Step2. 安装Step3. 创建系统环…

百度爬虫的工作原理解析

百度作为中国最大的搜索引擎,其工作原理备受关注。本文将深入探讨百度爬虫的工作原理,介绍其基本流程以及关键技术,帮助读者更好地理解搜索引擎背后的技术核心。 百度爬虫是百度搜索引擎的重要基石,它们被广泛用于收集互联网上的网…

桶装水订水小程序开发搭建;

水厂订水送水小程序是一款便捷的水产品订购与配送应用,基于小程序平台,用户可以轻松浏览、选购各类水产品,如矿泉水、纯净水、桶装水等,并享受送货上门服务。下面我们详细介绍它的主要功能。 一、丰富的商品展示 订水送水小程序汇…

多表查询内连接、外连接、子查询、笛卡尔积

1.1 多表查询:从多张表中进行查询 仅仅使用select * from tb_emp,tb_dept查询语句会显示如下结果(笛卡尔积:两个表的所有的组合情况)其中很大部分数据是冗余的。 1.2内连接:相当于查询A,B表交集部分的数据&#xff08…

stable-diffusion-webui之webui.py

主要就是webui的启动这块,需要初始化的地方,东西还是挺多的。

如何从零开始制作一本企业宣传画册?

最近公司领导要求为公司制作一本企业宣传画册,用来展示我们的产品和服务,增加品牌影响力。可是,像我这种零基础的小白,完全不知道如何制作啊?对此我感到很焦虑,怕做不好影响公司形象,也怕耽误时…

MIUI查看当前手机电池容量

MIUI查看当前手机电池容量 1. 按如下步骤操作生成bug报告 2. 按如下操作解压bug报告 Last learned battery capacity

深入理解 synchronized 原理

目录 一. 前言 二. Java对象的内存布局 2.1. 对象头 2.2. Mark Word 2.3. Class Metadata Pointer 2.4. Length 三. 偏向锁 3.1. 偏向锁的工作流程 3.2. 偏向失效 3.2.1. 误区一 3.3. 偏向撤销 3.3.1. 误区一 3.4. 偏向撤销的底层实现 3.5. HashCode与偏向撤销 …

[Kettle] 获取系统信息

系统信息是指Kettle系统环境的信息,包括了计算机系统的日期、星期等时间类型信息,计算机名称、IP地址等设备信息,Kettle系统转换过程中的信息等 需求:为方便读取计算机上的本月最后一天的交易数据文件,需要通过获取系…

词向量笔记

一、词向量的世界排名比赛MTEB MTEB: Massive Text Embedding Benchmark 二、词向量的维数 词向量的维数d1一般取20~500之间

不标年份的葡萄酒质量好吗?

我们在葡萄酒标上经常看到生产年份,也就是指全部葡萄采摘的年份。旧世界葡萄酒产国认为葡萄酒年份对他们的影响较大,而新世界葡萄酒,年份的意义就稍微小些。甚至有一部分葡萄酒酒标上没有年份。在酒标上没有标注年份的葡萄酒,被称…

ELK企业级日志分析平台

目录 一、elasticsearch 1、集群部署 2、cerebro部署 3、elasticsearch-head插件部署 4、elasticsearch集群角色分类 二、logstash 1、部署 2、elasticsearch输出插件 3、file输入插件 4、file输出插件 5、syslog 插件 6、多行过滤插件 7、grok过滤 三、kibana数…

网络工程师-HCIA网课视频学习

这里是速成的,只积累下,自己未曾学习到的东西。通过书本补充知识点。 视频:hcia17-链路聚合_哔哩哔哩_bilibili hcia16-路由高级特性: hcia17-链路聚合: 由于如果根据视频来学习的话,感觉视频的总结并不…