云栖实录 | MaxCompute 迈向下一代的智能云数仓

news2024/10/11 17:13:34

本文根据2024云栖大会实录整理而成,演讲信息如下:

演讲人:

张治国 | 阿里云智能集团研究员、阿里云 MaxCompute 负责人

谢德军|阿里云智能集团资深技术专家

于得水|阿里云智能集团资深技术专家

谌鹏飞|绝味集团首席数智增长官

活动:

2024 云栖大会 - 大数据:商用大数据计算与分析平台专场

2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。

一、MaxCompute:迈向下一代智能云数仓

阿里云智能集团研究员,MaxCompute 负责人张治国对新一代 MaxCompute 智能云数仓进行全面与深度的产品技术阐述与解读。从数仓的经典定义四大维度 Value / Variety / Velocity / Volume 切入,分享了 MaxCompute 在云数据仓库领域上围绕上述四个维度重新构建的全新技术创新与产品突破。

  • Value - Data+AI 一体化:MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化;

  • Variety - 湖仓一体2.0:汇聚高价值数据,在湖仓融合架构之上的多模态结构化/半结构化/非结构化数据的高效处理与分析;

  • Velocity - 近实时数仓:基于 DeltaTable、增量计算&增量物化视图、MCQA2.0 查询加速引擎三层架构实现从离线到近实时架构全面升级;

  • Volume - 企业级能力:在安全稳定方面,同城&跨 Region 灾备、数据脱敏。为客户数据安全保驾护航。在可观测性与 AI 智能化上,提供 IntelligentTuning 与智能物化视图创新能力。

MaxCompute 通过经典数据仓库能力定义与云数据架构的深刻理解,构建出面向下一代智能云数仓。其四个核心产品理念包括但不限于:Data+AI - 数据价值的不断深化, 开放湖仓架构衍生出的多样数据融合处理与分析,近实时数仓-从离线到近实时的系统性能优化,企业级服务能力- Serverless 智能云数仓的企业终极差异优势。

1. Data+AI 价值化

MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化

随着 AI 应用浪潮的逐步深入,MaxCompute 为用户提供了 Data + AI 一体化开发体验。

MaxFrame 可以基于 External Project + Object Table 的方案对 AI 开发中使用的多模态非结构化数据统一管理,通过 Notebook 的交互式数据处理和 Python SDK 统一开发体验,一份 code 同时包含数据处理及模型训练、推理。MaxFrame 自动分布式 python数据处理框架,兼容 Pandas DataFrame,内置可扩展 AI function,使用通义大模型能力在分布式数据处理中进行智能分析和内容生成,支持灵活易用的 Python 依赖打包及镜像管理能力。为企业构建 AI 时代的大数据基础设施。

阿里云资深技术专家于得水表示,MaxFrame 是由阿里云自研的分布式计算框架,支持Python 编程接口,并直接使用 MaxCompute 的计算资源和数据接口,MaxFrame 不仅兼容 Pandas、Xgboost 接口,还自动实现分布式处理,使得 Python 开发者可以更加高效、便捷地在 MaxCompute 上完成大规模数据处理及 ML/AI 数据预处理等工作。

MaxFrame 已于9月27日商业化发布,欢迎感兴趣的朋友测试。

(地址:2024年MaxCompute公告_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心)

2. 开放多样化

湖仓一体2.0 & OpenLake 协同,汇聚高价值数据。湖仓融合计算性能已达内表性能的70%

湖仓一体2.0 汇聚高价值数据:通过三层模式更广泛的兼容数据源层析模式;通过自动打通网络、自动映射数据源元数据和数据存储服务、兼容开源文件格式等方法,直接挂载外部数据源数据对象,省去建表和更新;将内表性能优化逐步带到湖上,目前湖上计算性能已达内表性能的 70%;融合数据湖之外,MaxCompute 也正在逐步对接 Hadoop 实例、MPP 数据库、RDS 数据库等多种联邦数据源;在读取外部数据的计算价格上也极具竞争力。

湖仓一体2.0 已于9月进入商业化公测阶段,欢迎感兴趣的朋友试用体验。

(地址:如何使用MaxCompute湖仓一体2.0_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心)

随着基于开放湖仓架构的应用,越来越多面向非结构化数据的需求变得越发重要。建立在开放架构之上 MaxCompute 4.0 也迅速推出具备在湖仓之上多模态非结构数据的数据分析与应用的产品特性 ObjectTable。其功能特性是以结构表的方式描述非结构化数据,简化用户对复杂非结构化数据的使用门槛,并提供完备且高效的数据处理分析能力。

3. 极致性能化

MaxCompute 近实时数仓升级,MCQA2.0 查询加速全新升级,28亿行数据查询1秒返回

云数仓发展到当前阶段,越来越多的客户对延时敏感的近实时链路有广泛且强烈需求。MaxCompute 通过近实时数仓架构不断迭代升级。实现支持实时数据分钟级导入,分析秒级返回。全新推出的 Delta Table 增量表格式。其对上游数据对接方式灵活,支持 Flink Streaming Tunnel 实时写入,支持 FlinkCDC 数据同步,及 DataWorks 实时数据集成等方式。Delta Table 具有全量增量数据统一处理与管理能力,依赖 Primary Key 主键设置,在实现 Upsert 语义的同时又有很好的读写性能, StorageService 管理服务在后台能够提供自动化的增量数据 AutoClustering / AutoCompaction / AutoClean 等操作,可有效降低存储成本,优化对增量数据处理效率。基于 Delta Table 格式之上的异步构建 CDC 能力,增量物化视图(增量 MV )新特性能够提供增量/全量刷新模式。增量物化视图(增量 MV )同时支持多层 Pipeline 构建,级联查询,支持分区增量 MV 等功能,数据新鲜度提升同时,极大简化增量计算 Pipeline 构建流程。

而 MCQA2.0 查询加速引擎全新升级,在基于类似 Virtual Warehouse 强资源隔离模式创建,全链路 Cache 优化,在兼顾大规模数据处理 Throughput 的前提下,扩展支持多种基于 Latency 的 E2E 性能优化。通过 MCQA2.0 将 MaxCompute 的性能提升新的高度。阿里云智能集团资深技术专家谢德军表示,MCQA2.0 查询性能在标准 Benchmark中表现非常出色,MCQA2.0 性能是 MCQA1.0 1.9X,开源版本 Spark 2.7X。28亿行数据查询1秒返回。

同时,MCQA2.0 查询加速引擎在 TPC-DS 测试中,面对复杂 Query 查询与大 Query 多并发提交等复杂场景下其查询表现上无论是性能还是稳定性都更具优势。使用MaxCompute 512CU 对 TPC-DS 的1TB 数据量进行测试,其 Query 平均 E2E 所需时间为 4.7s。

近实时数仓系列特性 ( DeltaTable/ 增量物化视图/ MCQA2.0) ,已在云栖大会期间进入面向企业用户的邀测阶段,欢迎感兴趣的朋友试用体验。

(地址:MaxCompute近实时数仓_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心)

4. 企业级服务化

安全稳定,提供数据的保密性、完整性、可用性保障。支持 AI 智能化在企业级场景下应用等。

MaxCompute 数据脱敏在最靠近数据的从存储中读取的环节实现,具备高性能和高安全性,确保数据在查询、下载、关联、UDF 计算时已经处于脱敏状态,避免敏感数据泄露风险。

脱敏策略支持掩码、散列、字符替换、数值取整、日期取整等脱敏策略,支持与数据保护伞的数据分类分级功能联动,满足用户对身份信息、银行卡号、地址、电话等数据的脱敏需求。

MaxCompute 以数据保护三要素保密性、完整性和可用性为基础,构建全面的数据安全保护屏障,并提供完善的数据访问控制能力和安全可信的计算环境。通过集群高可用和容灾方案确保业务的连续性,系统详细记录用户操作日志和任务运行日志,供事中运维监测和事后安全审计。MaxCompute 服务建立在阿里云 IaaS 服务之上,利用云基础设施的安全能力,同时能够与云平台相关的安全产品进行联动,如 RAM 访问控制、DataWorks 安全中心、数据保护伞,以实现更加丰富的安全管控场景。

在企业级服务方面,MaxCompute 以其多年在阿里巴巴体系系统优化经验,发布智能数仓产品新能力。其最新发布的智能物化视图 与 Intelligent Tuning 新特性,可帮助用户智能简化查询与系统运维工作。智能物化视图通过智能分析周期性 Pipeline 作业等方式,实现物化视图推荐,简化物化视图生成方式,明显提升查询分析效率。而 Intelligent Tuning 特性更多的是帮助用户自助实现数仓运维优化管理的能力。

5. 总结

毫无疑问,在 2024 年云栖大会上 MaxCompute 所展示的全新四大产品理念与多项技术创新突破,是 MaxCompute4.0 发布以来的产品能力的一次整体展示,是技术产品阶段沉淀后的厚积薄发。在迈向下一代智能云数仓的道路上,MaxCompute 在 Data+AI / 湖仓一体 / 近实时数仓 / 企业级能力四大方向,又走出坚定且扎实一大步。

希望广泛用户在云栖大会上了解 MaxCompute 全新发布后,积极尝试与应用 MaxCompute 新一代智能云产品,为行业与用户提供最优秀的云数仓产品。

二、绝味集团基于阿里云大数据产品构建全域数智增长底座

同时,在云栖大会-商用大数据计算与分析平台专场,绝味集团首席数智增长官谌鹏飞先生也分享了基于阿里云 MaxCompute、Hologres、DataWorks 及实时计算 Flink 版等产品的大数据链路,构建支撑全域数智增长的稳固底座,推动了绝味集团的数字化转型。主要应用在以下几个方面,并取得显著效果:

  • 绝知:大数据+知识库+ AI 赋能店长创新应用,累计使用超过4.1万人,经营效率提升20%;

  • 智能选址:大数据+算法结合,定位黄金商机,选址业绩准确率80.8%;

  • 产品创新:大数据+ AI 洞察产品脉搏,用户画像精准分析;

  • 物流监控:大数据全链路品质管控,促进客户满意度提升了10%以上。


MaxCompute 从2009年诞生至今,作为阿里云最核心的核心战略级云数仓产品之一,一直在进化。现在我们已经发展成一个 EB 级的企业级数仓。阿里集团、蚂蚁集团,还有数万个企业用户像绝味集团一样,都在使用 MaxCompute,构建大数据平台底座推动业务增长,欢迎大家后续关注与使用,谢谢大家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2205325.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringMVC源码-@ControllerAdvice和 @InitBinder注解源码讲解

1.ControllerAdvice修饰的类何时被加载扫描 被ControllerAdvice修饰的类是作用于全局的 initStrategies 初始化springmvc的9大组件 initStrategies:531, DispatcherServlet (org.springframework.web.servlet) onRefresh:514, DispatcherServlet (org.springframework.web.se…

在线答题系统怎么做?一文为您揭秘!

在线答题系统是一种利用网络技术实现的答题平台,具有高效、便捷、灵活等特点,被广泛应用于教育、培训、考试、竞赛等场景。以下是其详细介绍: 一、 基本功能: 题目录入:支持多种方式录入题目,如手动输入、…

Android15之解决:Dex checksum does not match for dex:services.jar问题(二百三十五)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…

前端接收到的日期格式为 2021-12-07T16:44:53.298+00:00 怎么办?

在写项目的时候,给前端发送了一个 Date 类型的数据,发现格式不对: 可以通过在application 配置文件中进行如下配置: spring:jackson:date-format: yyyy-MM-dd HH:mm:sstime-zone: GMT8 前端在获取就发现格式正确

登高赏菊迎重阳,与家人共乐同度佳节。

在金风送爽的重阳佳节,让我们登高远望,与亲人共赏菊花,共享团圆时光。愿清风明月,带来幸福与好运,让我们心怀感恩,笑对人生,共度这个美好的重阳节日!

中安未来 OCR:合同抽取的高效利器

在数字化办公的时代,高效处理文档成为了众多企业的迫切需求。中安未来 OCR 技术以其强大的功能脱颖而出。 中安未来的 OCR 技术能够准确识别各种文档中的文字信息,其中合同抽取功能尤为实用。对于企业来说,合同管理至关重要。传统的合同处理方…

如何设置 GitLab 密码过期时间?

GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料: 极狐GitLab 60天专业…

CLIP——多模态预训练模型介绍

CLIP: Contrastive Language-Image Pre-training CLIP: 对比语言-图像预训练 CLIP的是由 OpenAI 2021年在 Learning Transferable Visual Models From Natural Language Supervision【利用文本的监督信号训练一个迁移能力强的视觉模型】中提出的一种多模态预训练模型&#xff…

AI荣耀时刻!2024诺贝尔物理奖、化学奖双双归属AI界

全球科学界迎来了2024最为瞩目的时刻——诺贝尔奖揭晓!当诺贝尔物理奖和化学奖这两大科学殿堂的最高荣誉同时聚焦在人工智能(AI)领域时,AI技术无疑再次被推向了神坛,成为全球瞩目的焦点!这一历史性的时刻&a…

2024年【焊工(初级)】最新解析及焊工(初级)模拟试题

题库来源:安全生产模拟考试一点通公众号小程序 焊工(初级)最新解析根据新焊工(初级)考试大纲要求,安全生产模拟考试一点通将焊工(初级)模拟考试试题进行汇编,组成一套焊…

来势汹汹,Eva Gamaiun超现实版权画时隔一年连发两案再次维权

案件基本情况起诉时间:2024-9-23、2024-9-24案件号:2024-cv-08763、2024-cv-08804原告:Eva Gamaiun原告律所:keith起诉地:伊利诺伊州北部法院品牌介绍Eva Gamayun,1990年出生,是一位自学成才的混…

vue项目 子组件在打开时调用父组件传过来的props里的数据

1 分析: 父组件在加载时就会加载子组件,所以此时调不到数据, 我们可以利用父组件内子组件的ref属性,获取子组件的方法, 在父组件的触发方法中调用直接传值 例: 父组件: //父组件事件AttributesRelations(row){this.dialogForm rowthis.$refs.AttributesRelationsRef.Attribu…

华为 HCIP-Datacom H12-821 题库 (35)

🐣博客最下方微信公众号回复题库,领取题库和教学资源 🐤诚挚欢迎IT交流有兴趣的公众号回复交流群 🦘公众号会持续更新网络小知识😼 1.一个 Route-Policy 下可以有多个节点,设备在调用Route-Policy时按顺序开始匹配 …

【最新华为OD机试E卷-支持在线评测】智能成绩表(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 💻 ACM金牌🏅️团队 | 大厂实习经历 | 多年算法竞赛经历 ✨ 本系列打算持续跟新华为OD-E/D卷的多语言AC题解 🧩 大部分包含 Python / C / Javascript / Java / Cpp 多语言代码 👏 感谢大家的订阅➕ 和 喜欢�…

如何才能使绩效管理和薪酬管理完美结合?

如何才能使绩效管理和薪酬管理完美结合? 企业内部管理中,绩效考核与薪酬设计是人力资源管理的两大核心支柱。薪酬设计不仅是工资分配的基石,更是激发员工潜能的关键工具;绩效考核则作为评估标尺,衡量如销售额、服务满…

temu自养号测评采购系统搭建技巧与技术要求

TEMU自养号测评采购系统的搭建是一个细致且需关注多个环节的过程,以下是一些关键的搭建技巧: 一、基础环境搭建 1. 硬件参数隔离: 2. 利用国外服务器在云端设立安全终端,确保每个账号拥有独立的硬件底层参数,如安全…

MySQL C/C++ 的 API

MySQL 提供了一个用于 C/C 的 API,称为 MySQL Connector/C。该 API 允许通过 C/C 程序与 MySQL 数据库进行交互。 函数名称参数返回值描述mysql_initMYSQL *mysqlMYSQL *初始化一个 MySQL 对象,用于连接 MySQL 服务器。mysql_real_connectMYSQL *mysql,…

视频里的声音怎么单独提取出来?简单又实用的10种提取声音方法!

视频里的声音怎么单独提取出来?在当今这个数字化飞速发展的时代,视频已经成为信息传播的中流砥柱,而音频元素则是这个过程中一个举足轻重的组成部分,音频不仅扮演着声音背景的角色,更通过多种形式如旁白解说、背景音乐…

设备树pinctrl子系统

1.pinctrl子系统 大多数 SOC 的 pin 都是支持复用的,比如 IMX6ULL 的 GPIO1_IO03 既可以作为普通的GPIO 使用,也可以作为 I2C1 的 SDA 等等。此外我们还需要配置 pin 的电气特性,比如上/下拉、速度、驱动能力等等。传统的配置 pin 的方式就是…

一个月学会Java 第9天 构造器与访问修饰符

Day9 构造器与访问修饰符 本来其实是想在Day8里面把这个构造器给讲掉的,但是发现篇幅有点长的,后面的内容也是稍微有一点点超纲了,所以就先把这个留着,现在再讲。 第一章 构造器 构造器,我们之前在讲类的时候其实是说过…