云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

news2024/11/18 22:24:57

本文根据2024云栖大会实录整理而成,演讲信息如下:

演讲人:

王 峰 | 阿里云智能集团研究员、开源大数据平台负责人

李 钰|阿里云智能集团资深技术专家

范 振|阿里云智能集团高级技术专家

李劲松|阿里云智能集团高级技术专家

蒋 乾|七猫免费小说数仓负责人

活动:

2024 云栖大会 - 开源大数据专场

基于向量化的大数据计算技术在近几年呈现爆发趋势,Databricks 推出了向量化 Spark 引擎-Photon,Facebook 开源了 Velox 向量化批计算引擎。向量化计算推动离线批计算能力大幅提升,与此同时业务时效性的提升也让企业对于实时流计算有了更多的需求。

在这样的背景之下,9月20日2024年云栖大会之上,阿里云阿里云智能集团研究员、开源大数据平台负责人王峰宣布阿里云实时计算 Flink 产品推出业界首款向量化流计算引擎-Flash,100%兼容 Apache Flink 业界流计算标准,且相对开源 Flink 具备5-10倍性能优势,助力企业在大数据实时化升级的道路上降本增效。

实时计算Flink版的 Flash 流计算引擎已开启邀测,欢迎用户通过工单和业务团队联系开通试用。

王峰表示:“我们对这项技术充满信心,计划通过阿里云向公有云领域推广,旨在服务于更多中小型客户。特别是那些已采用 Flink 的中小企业,或是云环境中的云原生企业,我们将使它们能够在无需修改代码的前提下,利用新的向量化兼容 Flash 引擎,达到降低成本并提升效率的目的。”

目前凭借在阿里巴巴内部生产环境中的超过10个业务部分,10万以上的 CU 规模进行了实际应用和业务测试,Flash 已成功助力业务方节省52%的平均成本,并展现出广泛的应用潜力。阿里云计划采取分阶段策略推广 Flash,以确保产品的稳定性和可靠性,同时也鼓励感兴趣的开发者和企业参与测试,共同探索向量化计算在大数据处理领域的更多可能。

一、开源大数据平台实现全面 Serverless 产品化

近年来随着大数据业务的快速发展和云原生技术的普及,计算服务 Serverless 化已经成为刚需,在本次云栖大会上,阿里云智能集团资深技术专家、EMR 团队负责人李钰宣布 EMR Serverless Spark 产品正式启动商业化。阿里云开源大数据平台已全面实现了 Serverless 产品化,包括 EMR Serverless Spark、EMR Serverless StarRocks、Serverless 实时计算 Flink 版等。

EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品自研向量化 Fusion 引擎,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供交互式 Notebook 以及嵌入式 SQL Editor 开发环境、并提供版本管理、工作流调度、监控诊断等一站式平台能力;支持弹性伸缩、按量付费,进一步降低计算成本。结合 DLF 新一代湖仓数据管理平台,助力阿里云客户构建兼容开源和全面开放的数据湖仓解决方案。

今年是 EMR Serverless StarRocks 存算一体版本正式商业化一周年,自发布以来已在超过 500+ 生产客户,覆盖 20+ 行业落地,为企业提供稳定高效,开箱即用的全托管企业级数据平台的同时,也面临一些技术场景的挑战,在云栖大会上 EMR Serverless StarRocks 正式宣布推出商业化生产可用的 2.0 存算分离架构,提供了 StarOS 升级、Multi-Warehouse、弹性伸缩、内表优化、湖表优化等能力。

近年来,通过对大数据业务和在线业务进行离在线负载混部实现降本增效,逐渐成为客户的通用诉求。2024云栖大会上 EMR 管控平台的全面升级:EMR on ACS 引入了与 ACS 的无缝集成、资源队列和定额(Quota)管理、作业监控及诊断分析功能,并新增对多计算引擎的支持;而在 EMR on ECS 产品形态中,全新推出了自动化弹性伸缩与智能化诊断分析能力。这些增强的能力都将助力客户智能化的实现在离线混部和降本增效。

二、阿里云湖仓架构全面升级

随着数据湖和数据仓库技术的不断演进,湖仓架构开始在数据基础设施中发挥关键作用,可帮助企业快速构建一体化数据分析平台,加速获取 AI 赋能的业务洞察,有效降低数据基础设施与管理成本。在这样的行业趋势之下,Apache Paimon 作为一种高性能、高扩展性的存储层,正成为构建实时湖仓架构的关键技术之一。

阿里云智能集团高级技术专家李劲松在2024云栖大会上介绍到了 Paimon 的发展历史以及 Apache Paimon 在 Streaming+实时场景的优势。Apache Paimon 作为一种高性能、高扩展性的存储层为用户提供了数据湖实时流式处理、湖上 OLAP 加速、数据湖非结构化处理等技术方案。

Paimon 自2022年从Flink社区开始孵化以来,短短两年,已在越来越多的公司及场景落地,帮助业务更实时、更开放、成本更低的构建湖仓架构。结合在2024云栖大会正式对外发布的阿里云 OpenLake 解决方案,企业可构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,基于数据资产构筑竞争力。

三、七猫免费小说云上数仓实践

在2024年云栖大会的开源大数据专场上,七猫免费小说的数据仓库负责人蒋乾分享了关于云上数据仓库数据治理的最佳实践。借助阿里云 EMR 的强大技术支持,七猫免费小说成功实现了数据仓库架构与数据治理的规范化和流程化演进,核心体现在如下三个方面:

  • 存算分离架构的升级:为数据处理提供了更高的灵活性和扩展性。

  • 元数据和数据血缘的构建:为数据的追踪和管理奠定了坚实的基础。

  • 数据治理实践:在数据治理的过程中逐步形成了规范的体系。

四、活动预告

Flink Forward Asia 2024 是一场大数据行业的盛会,将于11月29日至30日在上海举行。这是了解 Flink 社区最新动态和发展计划的绝佳机会,也是与国内外一线厂商分享生产实践经验、交流技术成果的重要平台。参与者可通过官网提交议题或报名参会。现在报名不仅可享受早鸟优惠,参会更有机会获得活动精美周边相送。无论您是开发者还是数据领域的从业者,都不可错过这场汇聚行业精英的盛会!

点击下方链接或扫描二维码立即报名并参与议题征集:

Flink Forward Asia 2024 - Apache Flink 官方峰会

欢迎各位踊跃报名,一起分享和学习现下流行新技术!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2172680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vulnhub靶机:DerpNStink: 1

0x01 项目地址 DerpNStink: 1 0x02 靶机描述 Your goal is to remotely attack the VM and find all 4 flags eventually leading you to full root access. Dont forget to #tryharder 您的目标是远程攻击虚拟机并找到所有 4 个 flag ,最终让您获得完全 root 访…

Updates were rejected because the tip of your current branch is behind 的解决方法

1. 问题描述 当我们使用 git push 推送代码出现以下问题时: 2. 原因分析 这个错误提示表明当前本地分支落后于远程分支,因此需要先拉取远程的更改。 3. 解决方法 1、拉取远程更改 在终端中执行以下命令,拉取远程分支的更新并合并到本地…

SpringBoot学习笔记(1)

1.Web技术基础 BS:(Browser/Server,浏览器/服务器架构模式)。C/S架构主要特点是交互性强,具有安全访问模式,网络流量低,响应速度快,因为客户端负责大多数业务逻辑和UI演示,所以也被称为胖客户端,C/S结构的软…

【含文档】基于Springboot+微信小程序 的中心医院用户移动端(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

学习之什么是生成器

什么是生成器(Generator) 1、是一种数据类型能源源不断地生成数据 2、"惰性"特点:一次生成一个值,而不是生成一个序列 3、生成器一定是迭代器比迭代器更简洁使用生成器表达式创建生成器 from typing import Generator, Iterator,…

【hot100-java】【柱状图中最大的矩形】

R9-栈篇 面积最大矩形的高度一定是 heights 中的元素 简单解释,就是说,最大高度必然是heights中的一个元素,我们假设是h,然后我们基于h,左右拓展,尽量拓展到h越来越高(符合单调栈)&a…

7.6透视变换

基本概念 在计算机视觉和图像处理领域中,透视变换(Perspective Transformation)是一种重要的几何变换,用于模拟从一个视角到另一个视角的变换,比如从鸟瞰视角到正面视角的变换。透视变换通常用于图像配准、增强现实、…

ubuntu报错you don‘t have enough free space in /var/cache/apt/archivers.

使用df -h命令查看; 扩充前,dev/sda2的大小: 使用gparted工具对dev/sda2进行扩容

Steam黑神话悟空禁止更新进入游戏的解决方案

首先打开该网站:https://steamdb.info/app/2358720/ 2358720即为游戏ID 网页下翻,找到更新历史:https://steamdb.info/app/2358720/history/ 然后在Steam的steamapps下,找到后缀为2358720的文件,右击记事本打开 将St…

老照片修复工具有哪些?怎么让老照片焕发新光彩?

在那些泛黄的相框中,珍藏着我们最珍贵的记忆。 岁月流转,照片上的影像逐渐模糊,但那份情感却愈发深刻。 如何让这些老照片恢复往日的光彩,让那些珍贵的瞬间再次清晰呈现? 本文将带你探索老照片修复高清的技巧&#…

SpringMVC源码-SpringMVC框架中Spring父容器和SpringMVC子容器加载的流程以及SpringMVC九大内置组件的初始

一、Spring父容器启动 SpringMVC 的项目结构如下: applicationContext.xml spring的配置文件 <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.springframework.org/schema/beans"xmlns:xsi"http://www.w3.o…

Spring Boot 进阶-如何自定义SpringBoot日志配置?

在之前的文章中我们介绍了Spring Boot中的日志框架,并且也介绍了SpringBoot日志框架中日志级别的调整。这篇文章我们主要来介绍关于如何让日志框架更加符合我们自己的需求。那么首先我们就来看一下日志文件输出路径的配置。 如何指定日志文件的输出位置 在Spring Boot中日志是…

Keepalived+MySQL 高可用集群

基础架构如下 准备干净的实验环境 [rootmysql1 ~]# systemctl stop firewalld [rootmysql1 ~]# cat /etc/sysconfig/selinux |grep "SELINUXdisabled" SELINUXdisabled [rootmysql1 ~]# setenforce 0 setenforce: SELinux is disabled [rootmysql1 ~…

动静态库(Linux)

文章目录 前言一、静态库二、动态库三、深入理解动态库总结 前言 我们之前用过c语言的库.Linux中默认的都是使用动态库&#xff0c;如果想要使用静态库&#xff0c;就必须加上-static选项。默认都是安装的动态库&#xff0c;系统中一般没有静态库&#xff0c;如果要使用&#…

算法复杂度之时间复杂度

一 . 数据结构前言 1.1 数据结构 数据结构(Data structure) 是计算机存储&#xff0c;组织数据的方式&#xff0c;指互相之间存在一种或多种特定关系的数据元素的集合。没有一种单一的数据结构对所有用途都有用&#xff0c;所以要学习各式各样的数据结构&#xff0c;如&#…

使用kaggle命令下载数据集

目录 报错 解决方案 报错 使用kaggle命令下载数据集报错了&#xff0c; 解决方案 &#xff08;1&#xff09;首先&#xff0c;确保已经安装 Python 和包管理器 pip。 运行以下命令以使用命令行访问 Kaggle API&#xff1a; pip install kaggle 可能需要在 Mac/Linux 上执行…

【BurpSuite】SQL注入 | SQL injection(1-2)

&#x1f3d8;️个人主页&#xff1a; 点燃银河尽头的篝火(●’◡’●) 如果文章有帮到你的话记得点赞&#x1f44d;收藏&#x1f497;支持一下哦 【BurpSuite】SQL注入 | SQL injection&#xff08;1-2&#xff09; 实验一 Lab: SQL injection vulnerability in WHERE clause…

Maven项目常见各类 QA

一、pom.xml文件 1.1 there is no POM in this directory [ERROR] The goal you specified requires a project to execute but there is no POM in this directory (/home/cys/SEtesting/example/smartut-report). Please verify you invoked Maven from the correct directo…

如何实现工业设备联网?天拓四方

一、引言 随着信息技术的快速发展&#xff0c;工业设备联网已成为推动工业4.0和智能制造的核心技术之一。工业设备联网通过将传统的工业设备与互联网、云计算、大数据等技术相结合&#xff0c;实现了设备之间的互联互通&#xff0c;数据共享与智能分析&#xff0c;极大地提高了…

【计算机网络 - 基础问题】每日 3 题(二十七)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏&…