快手自研Spark向量化引擎正式发布,性能提升200%

news2024/9/30 5:29:39

Blaze 是快手自研的基于Rust语言和DataFusion框架开发的Spark向量化执行引擎,旨在通过本机矢量化执行技术来加速Spark SQL的查询处理。Blaze在快手内部上线的数仓生产作业也观测到了平均30%的算力提升,实现了较大的降本增效。本文将深入剖析blaze的技术原理、实现细节及在快手实际生产环境中的真实表现。 

一、研究背景

当下,Spark 的重要发展方向之一是通过向量化执行进一步提升性能。向量化执行的思想是将算子的执行粒度从每次处理一行变成每次处理一个行组,以此来避免大量的函数调用。通过对行组内部处理按列进行计算,同时利用编译技术减少分支判断检查以及更多的 SIMD 优化执行计划。

Blaze 是快手自研的基于Rust语言和DataFusion框架开发的Spark向量化执行引擎,旨在通过本机矢量化执行技术来加速Spark SQL的查询处理。在性能方面,Blaze展现出显著的优势:在TPC-DS 1TB的测试中,Blaze相较于Spark 3.3版本减少了60%的计算时间、Spark 3.5版本减少了40%的计算时间,并大幅降低了集群资源的消耗;此外,Blaze在快手内部上线的数仓生产作业也观测到了平均30%的算力提升,实现了较大幅度的降本增效。

如今,Blaze已开源,拥抱更广阔的开发者社区。开源版本全面兼容Spark 3.0~3.5,用户能够轻松集成Blaze至现有Spark环境中,仅需简单添加Jar包,即可解锁Blaze带来的极致性能优化,享受前所未有的数据处理速度与资源效率。

Github地址: https://github.com/kwai/blaze

二、Blaze的整体架构及核心

Spark on Blaze架构的整体流向

Spark+Blaze 的架构设计原理如下图:

图片

对比Spark原生的执行流程,引入Blaze Session Extension组件所带来的作用是显著的,特别是在提升数据处理效率和性能方面。

Spark原生执行流程主要依赖于Java虚拟机(JVM)进行任务的执行,尽管JVM在提供跨平台、内存管理等方面有着卓越的表现,但在大数据处理场景下,尤其是涉及大规模数据计算和复杂查询时,JVM的性能开销可能会成为瓶颈。

Blaze Session Extension组件的引入,巧妙地解决了这一问题。该组件在Spark生成物理执行计划之后介入,通过其翻译逻辑将这一计划转换为等效的、native向量化引擎可以识别的形式,随后提交到Executor端由native引擎执行计算,从而实现了数据处理效率的飞跃

图片

而这一切的背后,离不开Native向量化引擎这一核心模块的支持。该引擎由Rust语言实现,凭借其卓越的性能、安全性和并发处理能力,成功实现了Spark中大多数关键算子的等效替代,包括但不限于Project、Filter、Sort等。这些经过优化的算子在执行过程中,通过向量化技术显著提升了计算效率,使得数据处理过程更加流畅、快速

四大核心组件

Blaze 架构中的核心模块有四个,共同驱动着大数据性能的显著提升。这些模块分别为:

  • Native Engine:基于 Datafusion 框架实现的与 Spark 功能一致的 Native 算子,以及相关内存管理、FFI 交互等功能。

  • ProtoBuf:定义用于 JVM 和 native 之间的算子描述协议,对 Datafusion 执行计划进行序列化和反序列化。

  • JNI Bridge:实现 Spark Extension 和 Native Engine 之间的互相调用。

  • Spark Extension:Spark 插件,实现 Spark 算子到 Native 算子之间的翻译。

具体的执行过程中,遵循以下步骤:

  • 物理执行计划的转换:首先,Spark Extension将 Spark 生成的物理执行计划转换为对应的 Native Plan;

  • 生成和提交Native Plan:转换完成后,Native Plan通过JNI Bridge被提交给Native Engine进行进一步的处理。

  • Native 执行层:最后,Native Engine利用其高效的内存管理机制和向量化处理技术,对Native Plan进行真正的执行。执行结果通过JNI Bridge返回给Spark,从而完成整个数据处理流程。

三、Blaze的技术优势:面向生产的深度优化

在跑通 tpch 和 tpcds 测试集并取得预期性能提升后,我们面向线上生产环境进一步做了系列深度优化,包括性能和稳定性等方面工作:

细粒度的FailBack机制

我们针对Spark执行效率的提升,设计并实现了演进式向量化执行方案。这一方案旨在逐步优化算子与表达式的向量化覆盖,同时解决Java UDF无法直接转化为Native执行的问题。通过引入细粒度的FailBack机制,Blaze在翻译过程中遇到暂无Native实现的算子、单个表达式或UDF时,支持算子/单个表达式粒度的回退,能够灵活回退到Spark原生执行。此机制首先确定算子/表达式的依赖参数列,利用Arrow FFI技术将这些参数列作为行传递给Spark进行处理,然后将结果以列的形式回传至Blaze,从而在JVM与Native执行之间构建了一座桥梁。

此方案不仅加速了向量化执行的全面部署,还确保了即便在用户SQL中有少量UDF等不支持的场景,细粒度回退单个表达式开销较小,作业整体依然可以得到优化。

图片

更高效的向量化数据传输格式

在Spark中,Shuffle操作因其复杂的数据流转过程成为性能瓶颈,涉及编码、压缩、网络传输、解压及解码等多个环节。原生Spark采用基于行的序列化与压缩方式,而业界向量化数据则倾向于Arrow格式传输,但实践中发现Arrow与主流轻量压缩算法适配不佳,导致压缩率低下且存在冗余信息。针对此问题,Blaze定制了优化的数据传输格式,不仅去除了列名、数据类型等冗余数据,还使用了byte-transpose列式数据序列化技术,通过重组整型/浮点型数据的字节顺序,显著提升数据压缩效率。这一改进大幅减少了Shuffle过程中的数据传输量,并在实际测试与TPC-DS基准测试中展现出显著的性能提升与资源消耗降低,有效解决了原有问题并优化了系统整体性能。

图片

线上2000多个作业的真实数据,上线后输入数据量小幅上涨的情况下,Shuffle数据量相比spark降近30%

减少用户成本的多级内容管理策略

面对Spark与Native执行模式在内存管理上的差异,我们设计了跨堆内堆外的自适应内存管理机制。该机制根据任务的向量化覆盖情况智能调整内存分配,确保资源高效利用。同时,我们构建了堆外内存、堆内内存与磁盘文件之间的多级管理体系,有效防止了内存不足及频繁数据溢写的问题。这些措施不仅保障了向量化引擎上线后任务的稳定运行,无需用户手动调整内存参数,大幅降低了用户操作成本,提升了整体系统的易用性与可靠性。

图片

复杂度更优的聚合算法实现

为深度适配Spark的复杂需求,Blaze在aggregate、sort、shuffle等关键算子的实现上并未直接采用DataFusion的现成方案,而是进行了定制化开发。以HashAggregate为例,当面对大规模group-by聚合且内存不足时,Spark会转而采用基于排序的聚合,这涉及高复杂度的排序与归并过程。而在Blaze中,我们采用了基于分桶的归并方式,利用基数排序在spill时进行分桶、溢写,并在合并阶段通过hash 表快速合并,整个流程保持O(n)的复杂度,显著提升了聚合算子的执行效率与资源利用率

图片

向量化计算场景的表达式重复计算优化

针对SQL执行中算子间常见的重复表达式计算问题,Blaze借鉴了Spark的Whole-stage codegen技术,应用了这一项优化策略。该策略能够智能识别并合并包含重复表达式的算子,如下图中的Project与Filter合并为一个大算子,并在其中对表达式计算结果进行缓存、复用,达到了减少重复计算、提高执行效率的目的。这一优化在应对复杂计算逻辑(如JSON解析多个字段、UDF调用)时尤为显著,能将执行效率提升一倍以上。特别是在内部业务场景中,对于高频调用的重负载UDF,该优化成功减少了约40%的计算开销,显著增强了系统的整体性能与响应速度。

图片

四、当前进展及未来规划

当前进展

Blaze 作为一款高性能数据处理引擎,已取得了显著进展,全面支持多项核心功能,展现出强大的技术实力与广泛的应用潜力。具体而言,Blaze 目前已具备以下关键能力:

  • Parquet向量化读写能力:实现了对Parquet格式数据的高效向量化读写,极大地提升了数据处理的速度与效率。

  • 全面算子与表达式支持:覆盖了线上常用的所有算子与表达式,少量不支持的表达式和UDF也可以细粒度回退,确保用户能够无缝迁移并享受向量化处理带来的性能提升。

  • Remote Shuffle Service集成:内部集成了自研的Remote Shuffle Service,同时我们也在和阿里合作,增加对Apache Celeborn 的支持,预计9月份可以提交到社区。

  • TPC-H/TPC-DS测试优异表现:在业界权威的TPC-H/TPC-DS基准测试中,Blaze成功通过全部测试场景,并以TPC-H平均3倍以上、TPC-DS 2.5倍的性能提升展示了其在复杂查询处理上的卓越能力。

图片

在真实的生产环境中,向量化引擎大规模上线应用,算力平均提升 30%+,成本节约年化数千万元。

未来规划

1. 持续迭代优化,内部线上推全:通过不断收集用户反馈与性能数据,我们将精准定位并修复潜在问题,同时引入更多先进的算法与优化策略,以进一步提升Blaze的性能与稳定性。

2. 支持更多引擎或场景,例如数据湖等:为了满足用户日益多样化的数据处理需求,我们将不断拓展Blaze的应用场景,支持更多类型的数据处理引擎与场景,如数据湖等。通过加强与业界主流技术的兼容性,我们将为用户提供更加灵活、便捷的数据处理方案,助力用户解锁数据价值,推动业务创新与发展。

3. 加强开源社区运营建设,共建生态繁荣:我们深知开源社区对于技术发展与生态繁荣的重要性。因此,我们将在之后加强Blaze开源社区的运营建设,积极构建一个开放、包容、协作的社区环境。当前我们已经与阿里、B站、携程、联通云等公司达成合作。

如果您对该项目感兴趣,欢迎您为项目点个star。

项目地址:https://github.com/kwai/blaze

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2136702.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

见刊丨“GPU池化”术语发布

中国计算机学会(CCF)日前与趋动科技联合发布了“GPU池化”这一术语,并在《中国计算机学会通讯》总第198期刊中发表。 期刊第90/91页 目前,人工智能通过数据、算力、算法和场景的融合深入到各行各业,促进和赋能数智化转型。其中,强…

无人机在战争方面的应用!!!

01 侦察与监视 无人机能够进行长时间的侦察和监视,为指挥官提供实时的战场情报,是现代战争中不可或缺的“眼睛”。它们可以飞越敌方领空,收集情报,为军事决策提供关键信息。 02 精确打击 携带精确制导武器的无人机能够对敌方的…

OpenHarmony(鸿蒙南向开发)——标准系统移植指南(一)

往期知识点记录: 鸿蒙(HarmonyOS)应用层开发(北向)知识点汇总 鸿蒙(OpenHarmony)南向开发保姆级知识点汇总~ OpenHarmony(鸿蒙南向开发)——轻量系统芯片移植指南(一) Op…

Acwing 区间合并

区间合并 主要思想:给定很多区间。若两个区间有交集,将二者合并成一个区间。 具体做法: 先按照区间的左端点进行排序然后遍历每个区间,根据不同的情况进行合并,有一下几种情况: 第一种情况,区间不变&…

VMware中安装win7和kail等虚拟机

主要内容 第一部分:安装win 7第二部分 安装kali第三部分 安装UbuntuUbuntu22.04上安装PwntoolsUbuntu上安装vim 第一部分:安装win 7 1.打开安装好的虚拟机 参考链接:虚拟机VMware安装windows7 64位操作系统(图文版详解版&…

TDengine 与飞腾腾锐 D2000 完成兼容互认证,推动国产软硬件深度融合

在国家信息安全和自主可控技术日益受到重视的背景下,国产软硬件的发展已成为推动数字经济的重要力量。随着全球科技竞争加剧,企业在选择技术解决方案时,越来越倾向于采用国产产品以降低对外部技术的依赖。这一趋势不仅是为了确保数据安全与隐…

VUE下拉选择分页,远程搜索

实现效果 实现思路 初始化加载第一页;监听下拉框的滚动事件,当滚动到底部的时候加载下一页;输入搜索时,重置为第一页加载;关闭下拉选择框时,判断如果存在搜索值,要清空搜索值、并加载第一页。 …

【运维方案】某系统运维需求方案参考(doc全原件2024)

系统运维需求方案 1服务目标 2服务人力需求、服务资源需求 3信息资产统计服务需求 4业务应用软件服务需求 5网络、安全系统运维服务需求 6主机、存储系统运维服务需求 7数据库系统运维服务需求 8终端运维服务需求 9综合布线系统服务需求 10大屏幕显示系统的维护需求 11视频会议…

2024年最新会声会影2025旗舰版新功能介绍及安装图文激活教程

会声会影2025是一款超级受欢迎的视频播放软件,用于剪辑和编辑各种类型的视频素材。软件具有直观的用户界面,使得即使对于初学者来说也能轻松上手。该软件提供了各种创意工具,可以帮助用户实现他们的创意想法。用户可以裁剪、合并和重新排列视…

SpringBootAdmin源码修改编译002_踩坑记录一堆坑_记录过程_没有成功---VUE工作笔记0027

当前版本是18.19.0 我本地安装的node npm install 执行的时候报错了.上面的错误 说node-ipc@9.2.2的版本 需要使用node 8 10 12 14 16 17的版本,而我安装的是 18.19.0的版本. 这个时候的解决方案是提升node-ipc组件的版本. 可以看到在npmjs网站上找到,对应的组件node-ipc 可…

Hazel 2024

不喜欢游戏的人也可以做引擎,比如 cherno 引擎的作用主要是有两点: 将数据可视化交互 当然有些引擎的功能也包含有制作数据文件,称之为资产 assets 不做窗口类的应用栈,可能要花一年才能做一个能实际使用的应用,只需…

Axure RP 11 Beta 测试版 发布了,目前是免费试用阶段

Axure RP 11 Beta 已经发布上线了!各位产品同学可以从下面的链接下载测试版,体验新功能。目前RP11处于免费试用阶段,没有授权的用户也可以免费使用试用版。 与 Axure RP 的以往版本一样,在 RP11 中保存文件后,无法在低…

redis有序集合写入和求交集的速度

背景 团队小伙伴做了一个需求。大概的需求是有很多的图片作品,图片作品有一些类别,每个人进入到每个类别的作品业,根据权重优先查看权重最高的的作品,权重大概是基于每个人对该作品的浏览计算,浏览过的作品放在最后展…

IDEA 通义灵码 插件使用体验

目录 前言 主要功能 演示代码 解释代码 生成单元测试 生成代码注释 生成优化建议 代码片段补全 总结 前言 自从 AI 技术开始大规模应用,老板就想让下面的牛马借助 AI 工具来提高编码效率,由于团队都没有在实际编码中深度使用过 AI 工具&#x…

消息中间件有哪些常见类型

消息中间件根据其设计理念和用途,可以大致分为以下几种常见类型: 点对点消息队列(Point-to-Point Messaging Queues): 在这种模型中,消息被发送到特定的队列中,消费者从队列中取出并处理消息。队…

【LeetCode每日一题】——LCR 078.合并 K 个升序链表

文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目注意】六【题目示例】七【题目提示】八【解题思路】九【时间频度】十【代码实现】十一【提交结果】 一【题目类别】 优先队列 二【题目难度】 困难 三【题目编号】 LCR 078.合并 K 个升序链表 …

Linux入门——“Linux基本指令”上

在刚开始学习Linux时,首先需要掌握一些基本指令,以便我们能更好地使用Linux操作系统,以下指令在Ubuntu 22上执行。以下内容不过多介绍选项内容。 1.ls指令 ls指令用来查看当前目录下的文件,显示的信息是很有限的一般只显示文件名&…

二进制部署ETCD单机版

文章目录 一、签发etcd证书二、搭建etcd单机版三、测试ETCD服务 一、签发etcd证书 注意:在操作签发证书操作时一定要检查服务器时间、时区是否一致,会导致证书不可用!! 1、创建etcd目录 mkdir /etc/etcd/{ssl,data} -p2、安装签…

【vue-media-upload】一个好用的上传图片的组件,注意事项

一、问题 media 的saved 数组中的图片使用的是location 相对路径&#xff0c;但是我的业务需要直接根据图片链接展示图片&#xff0c;而且用的也不是location 相关源代码 <div v-for"(image, index) in savedMedia" :key"index" class"mu-image-…

基于SpringBoot的社区宠物管理与推荐系统的设计与实现

文未可获取一份本项目的java源码和数据库参考。 1.课题的基本内容&#xff0c;可能遇到的困难&#xff0c;提出解决问题的方法和措施 2.1课题的基本内容 本课题主要研究基于SpringBoot的社区宠物管理与推荐系统的设计与实现。用户注册登录系统前端后可以可以实现对宠物信息的…