MaxCompute 发布智能物化视图,CU 算力节省 14%

news2024/11/18 18:45:34

作者:夏俊伟(阿里云高级产品专家)、郑君正(阿里云高级技术专家)

什么是物化视图

MaxCompute 物化视图是一种预先计算和存储结果数据的数据对象,也可以称之为“实体化视图”。物化视图可以作为一张虚拟表存在于 MaxCompute 项目中,它的内容是一个或多个表的聚合,过滤以及 Join 组合计算结果。物化视图可以大幅度减少查询处理时间以及节省作业计算资源,基于 MaxCompute 优化器强大的自动查询改写能力,当作业可以复用物化视图结果时,优化器自动把一些复杂的操作替换成读取物化视图操作,从而提升作业执行速度、节省作业计算资源。

什么是智能物化视图

物化视图的使用,不但需要对物化视图的工作原理比较了解,同时需要了解业务数据行为与业务数据的使用场景,给普通用户使用物化视图带来一定困难。

MaxCompute 智能物化视图实现了用户无感知的流程化使用物化视图能力。用户开启智能物化视图后,MaxCompute 可以为用户自动分析业务数据使用场景,自动推荐物化视图,并且可以可视化展现物化视图的使用效果。为物化视图使用大大降低了门槛,同时也带来更多的物化视图使用场景。

智能物化视图的特点

简单易用,用户不需要了解物化视图各个底层工作细节,只需选择自己的 Project 开启自动智能分析。

智能,MaxCompute 自动对用户历史作业进行分析,自动识别周期性作业,并智能提取作业集合中的公共计算逻辑作为物化视图计算逻辑,并最终转换成用户友好的 SQL 文本形式,按照推荐程度排序展示给用户。

便于管理,MaxCompute 控制台提供一站式的功能开通、物化视图管理以及物化视图使用效果展示。

智能物化视图的使用场景

数据治理

随着企业业务发展,公司的业务数据会越来越多,各部门对数据都存在各种数据分析需求,在日常使用过程中,各个部门对数据的使用会存在一定的交叉使用,难免会有大量的相同逻辑的重复计算。

日常用户或者大数据平台管理人员很难发现重复计算,因为重复计算部分可能只是整个计算逻辑中一部分。在发现有重复计算时想修改也比较困难,如果重新抽象一个重复计算的表,下游的依赖作业都需要更改,然后测试上线。会带来额外的工作量,从而导致数据治理很难推动。

使用智能物化视图功能后,MaxCompute 会自动分析 Project 中存在哪些公共的计算逻辑,并且推荐出来,让用户去创建物化视图,有了物化视图后,通过强大的优化器改写能力,能够让作业自动应用上物化视图的计算结果,不需要用户修改原来的逻辑。

示例,在没有物化视图的情况(如下图),Tab4 跟 Tab5 的计算中存在棱形跟圆形部分逻辑是重复计算的,在下图中计算了两遍。

在这里插入图片描述

创建物化视图 MV1 后,菱形跟圆形部分逻辑只计算了一遍,可以节省计算资源的同时提高计算速度。

在这里插入图片描述

智能数据建模

传统大数据处理,第一步就是既懂技术又懂业务的数据分析专家搭建数据仓库,对数据仓库进行分层,正常模型都分贴源层,明细层,汇总层,应用层等;传统建模方式有以下弊端:

1)模型建的好坏,直接影响到计算的有效性,严重依赖建模的专家;

2)同时随着业务发展,数据越来越多后,难免有模型建的不是很合适的情况,如果再改模型对整个现有任务都有影响;

3)资源浪费,部分模型建好后,但是使用的人很少或者没有使用,导致整个模型白白浪费计算资源和存储资源。
在这里插入图片描述

有了智能物化视图后,用户不需要依赖专家来预先建模。可以做到智能的自动化建模。当用户使用数据后,后端自动分析,分析出重复计算逻辑,MaxCompute 自动推荐创建物化视图,实现真正的灵活,快捷的自动化建模。让用户不用担心数据存储情况,计算资源使用效率等问题;用户可以把更多精力放在业务发展上。特别对中小型公司来说,不需要额外要招聘数据建模同学,全部交给 MaxCompute 智能物化视图即可。
在这里插入图片描述

数据报表/看板

智能物化视图也可以为用户的BI智能报表/看板提供加速能力。MaxCompute会为用户自动分析重复刷新的数据,推荐创建物化视图,有了物化视图后可以预先计算好报表/看板需要的数据,在报表/看板需要用的时候直接会自动改写路由去查物化视图,可以大大降低报表/看板的响应时间。

如何使用智能物化视图

智能物化视图使用非常简单,只需以下几个步骤:

1、登录 MaxCompute 控制台,点击左边菜单“物化视图”;

2、选择 Tab 页“设置”,开启智能分析,并且添加需要分析的项目名称;

3、T+1 天后,查看 Tab 页“物化视图推荐”,查看系统根据用户使用行为,推荐出来的公共子查询;

4、选择对应的子查询创建物化视图;

5、T+1 天后,查看 Tab 页“物化视图管理”,可以看到目前哪些查询计算调用了该物化视图以及调用物化视图前后效果对比。

智能物化视图示例

阿里集团数据中台团队负责建设整个阿里的数仓“公共层”,试图将重复计算的逻辑进行收敛,让多个下游业务访问同一个结果表,从而达到节省计算和存储的目的。随着数据量和业务复杂度的几何增长,传统的“公共层”已经很难达到原本设想的状态,主要原因有:

  • 找数难
  • 逻辑存在相似性但是结果表不完全可用
  • 人工发现公共逻辑难度大

MaxCompute 推出的智能物化视图功能,恰好能很好的解决上述问题。数据中台团队通过将 MaxCompute 智能推荐结果转变为物化视图,大大降低了下游作业之间的重复计算,节省了大量计算资源。

一期智能物化视图功能覆盖了 4 个 BU 共 20 个 project,命中物化视图的作业,其平均计算资源节省率为 14%。后续我们会有更加详细的实际使用案例来展开介绍。

智能物化视图使用说明

物化视图并不能解决所有问题,在绝大部分情况下,总体上看都是可以为用户带来正向收益,包括可以减少计算资源,提高计算速度,并降低计算成本。但是针对某个查询计算,在小概率下会给用户带来负收益,用户需要关注以下几点:

1、公共子查询被物化成物化视图后的数据是否发生数据膨胀,如果发生几倍或者更高的膨胀时,不建议使用物化视图。

2、使用后付费的用户,需要注意目前物化视图节省的是计算资源和计算复杂度,但并不一定会减少数据扫描量,因为在数据物化过程中如果发生数据膨胀后,可能扫描量会增加。

【MaxCompute 已发布免费试用计划,为数仓建设提速】新用户可 0 元领取 5000CU*小时计算资源与 100GB 存储,有效期 3 个月。

点击“阅读原文”立即领取。

MaxCompute 发布智能物化视图,CU 算力节省 14%

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/563156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

输电线路测温工作要求

输电线路导线温度监测系统 一、产品描述: 在我国当前发展趋势下,电力的使用越来越庞大,对于供电系统的稳定性可靠性的考验越发严峻,智能化管理的推进必不可少,输电线路导线温度监测系统作为我司在线监测数据类产品&…

开源赋能 普惠未来|XuperCore诚邀您参与2023开放原子全球开源峰会

XuperCore(待更名)是百度自主研发,拥有完整知识产权的区块链底层技术XuperChain的内核,拥有620多篇区块链核心技术专利,以“高性能”、“开源”为主要设计目标,致力于创建“更快、更通用、更好用”的区块链…

JavaEE(系列13) -- 多线程(CAS)

目录 1. 什么是 CAS 2. CAS伪代码 3. CAS 的应用 3.1 实现原子类 3.2 实现自旋锁 4. CAS的ABA问题(面试常问) 4.1 ABA 问题 4.2 ABA问题解决方案 1. 什么是 CAS CAS: 全称Compare and swap,字面意思:”比较并交换“. 一个 CAS 涉及到以下操作: 我们假…

速卖通、阿里国际、shopee618盛典!提升订单销量的秘密武器—测评补单技术!

随着电子商务的迅速发展,网络购物已成为现代人生活中不可或缺的一部分。而在众多购物平台中,速卖通凭借其丰富多样的商品选择和优惠的价格政策,成为了全球消费者的首选之一。尤其是每年的618盛典,更是吸引了大量消费者的目光。然而…

【CH32】| 01——新建工程 | 下载 | 运行 |调试

系列文章目录 【CH32】| 00——开发环境搭建 【CH32】| 01——新建工程 | 下载 | 运行 |调试 失败了也挺可爱,成功了就超帅。 文章目录 1. 新建工程1.1 基于官方IDE [MounRiver Studio]1.1.1 使用官方内置的工程模板新建1.1.2 使用自定义工程模板新建1.1.2.1 新建自…

会声会影2023最新版本剪辑视频的方法和步骤

想要学剪辑,剪辑软件是基础。如果大家是零基础的话,建议大家选择一款入门级的剪辑软件,比如说会声会影。这款软件功能强大、操作简单,而且会声会影中文网站首页有很多剪辑教程供大家学习参考。会声会影在用户的陪伴下走过23余载&a…

计算机图形学 | 实验十二:混合(透明物体处理)

计算机图形学 | 实验十二:混合(透明物体处理) 计算机图形学 | 实验十二:混合(透明物体处理)混合(Blending)开启混合和设置混合模式绘制顺序排序透明物体绘制实验结果 华中科技大学《…

IPO观察丨德尔玛上市,“极致单品”模式的一场胜利

近日,创新电器品牌德尔玛(广东德尔玛科技股份有限公司,代码“301332”),正式登陆深圳证券交易所创业板,发行价格为14.81元/股。上市前,德尔玛已完成了5亿元A轮融资及3.3亿元A轮融资,…

Linux Ubuntu配置CPU与GPU版本tensorflow库的方法

本文介绍在Linux操作系统的发行版本Ubuntu中,配置可以用CPU或GPU运行的Python新版本深度学习库tensorflow的方法。 在文章Anaconda配置Python新版本tensorflow库(CPU、GPU通用)的方法(https://blog.csdn.net/zhebushibiaoshifu/ar…

Elasticsearch 7.x 基本操作 (CRUD)

1.概述 Elasticsearch 是一个流行的开源搜索引擎,用于存储、搜索和分析数据。下面是 Elasticsearch 7.x 版本的基本操作(CRUD): 1、创建索引: PUT /index_name {"settings": {"number_of_shards"…

最近公司招了一个华为拿30K出来的,真是砂纸擦屁股,给我露了一手....

今年的金三银四已经结束,很多小伙伴收获不错,拿到了心仪的 offer。 各大论坛和社区里也看见不少小伙伴慷慨地分享了常见的面试题和八股文,为此咱这里也统一做一次大整理和大归类,这也算是划重点了。 俗话说得好,他山…

【C++】位图(海量数据处理)

文章目录 抛出问题:引入位图位图解决 位图的概念位图的实现结构构造函数设置位清空位判断这个数是否存在反转位size与count打印函数 位图的应用 抛出问题:引入位图 问题:给40亿个不重复的无符号整数,没排序,给一个无符号整数,如何…

基于 MapReduce 的分布式计算系统

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 本文以 MapReduce 为基础,实现了一套基于浏览器实现的分布式系统。加之如今 Chrome 对各个平台近乎完美的兼容性,实现了一次编写,处处运行的目标。同时得力于个人移动设备的普及&#xff0c…

java云HIS系统源码 医院HIS管理系统源码 Java医院系统源码 SaaS医院his系统源码

技术框架: 1、前端:AngularNginx 2、后台:JavaSpring,SpringBoot,SpringMVC,SpringSecurity,MyBatisPlus,等 3、数据库:MySQL MyCat 4、缓存:RedisJ2Cac…

day6 - 使用图像运算进行图像美化

本期将了解图像的基础运算,包含算数运算和位运算等。我们所使用的图像处理技术其实都是靠一些简单的基础运算来完成的,例如加法运算、位运算等,这些简单运算是我们后续研究更复杂的图像处理的基础。 完成本期内容,你可以&#xf…

HiveSQL基础练习题

HiveSQL基础练习题 1.环境准备1.1建表语句1.2数据准备1.3插入数据 2.查询2.1 查询姓名中带“华”的学生名单2.2 查询姓“王”老师的个数2.3 检索课程编号为“04”且分数小于60的学生学号&#xff0c;结果按分数降序排列2.4 查询语文成绩 < 90分的学生和其对应的成绩&#xf…

day16 Servlet交互作用域ELJSTL

转发和重定向 **作用:**为了让jsp和servlet做到责任分离,用于web组件的跳转 **web组件:**jspservlet 转发的方法 request.getRequestDispatcher("跳转的地址").forward(request,response)**跳转的位置:**在服务端进行跳转 重定向的方法 response.sendRedirect(…

2.9 playwright之python实现

1、目录结构如下 2、main.py import os import shutilfrom playwright.sync_api import sync_playwright from config.setting import config from utils.template import Template from utils.md5 import Md5 from utils.delete import del_files import pytest from utils.d…

面试被问麻了...

前几天组了一个软件测试面试的群&#xff0c;没想到效果直接拉满&#xff0c;看来大家对面试这块的需求还是挺迫切的。昨天我就看到群友们发的一些面经&#xff0c;感觉非常有参考价值&#xff0c;于是我就问他还有没有。 结果他给我整理了一份非常硬核的面筋&#xff0c;打开…

全网最全性能测试总结,分析性能测试问题+性能调优方案...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 性能分析和优化一…