Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

news2024/11/15 7:13:51

2010年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以Hadoop为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动整个行业开启了数字化变革之路。

* 2010-2025年全球数据规模量,来源IDC

近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“替换”中得到发展。

经过十余年发展,曾经的一些老牌开源项目已风光不在,大数据三驾马车(分布式文件系统GFS、计算引擎MapReduce、分布式数据库BigTable),其中的计算引擎MapReduce 逐渐发展到 Spark 时代,对于大数据调度新星 Apache DolphinScheduler 来说,集成大数据领域优秀的开源项目之后,如何打破数据孤岛,如何降本增效,如何应对大规模的数据离线调度也成为了新的挑战!

众所周知,由于各种原因, 遇到 Apache Spark 应用程序的失败是不可避免的。

最常见的故障之一是 OOM(驱动程序或执行程序级别的内存不足)。

我们可以通过**管理(调度、重试、警报等)**Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务,也不需要 Apache DolphinScheduler 生态系统之外的任何代码,并且还支持拖拉拽 Spark 任务解决其他的一些问题。

Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具,它提供了 Java、Python、Scala 和 R 的高级 API,以及一个优化的引擎,支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力,您可以放心,在出现资源故障的情况下,您的部署可以保持一致。

为了让两个社区的共同用户既有地方反馈,还有地方学习,我们联合 Apache Spark 社区推出了这个主题活动:洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup,如果你也是接触开源“计算引擎+调度”的用户,想了解最新 Spark 迷人的特性,那这次的分享你一定不要错过了,我们还特地邀请了 EMR 数据开发平台团队负责人孙一凡、BIGO大数据研发工程师许名勇、EMR Spark 引擎负责人周克勇 ,通过他们的分享让你能更快更好更便捷的使用Apahce DolphinScheduler+Spark。

无论你是热衷于钻研开源技术的开发者,还是关注大数据最新技术动态的小伙伴,我都建议你来听听,从中获得全新的灵感。

我相信社区花费精力筹备的活动,你一定能听到一手的分享,得到一手的收获!

Apache DolphinScheduler & Spark 联合 Meetup | 1月线上直播报名通道已开启,赶快预约吧!

**时间:**2023-1-11 14:00-16:20

**形式:**线上直播

议程介绍

孙一凡

阿里云高级技术专家

EMR 数据开发平台技术团队负责人

**演讲时间:**14:00-14:40

**演讲题目:**Aliyun EMR x DolphinScheduler - 云与开源的合作共生

**演讲概要:**目前,阿里云EMR团队有多位成员活跃在Apache DolphinScheduler社区,为社区的发展做出了积极的贡献。在这次meetup中,我们将为大家分享选择参与和贡献DS社区的原因,并向大家介绍阿里云EMR基于DS提供的产品和服务能力。

14:40-14:50 直播间抽奖环节

许名勇

BIGO大数据研发工程师

**演讲时间:**14:50-15:30

**演讲题目:**Apache DolphinScheduler X Spark 在 BIGO 的应用和改进

**演讲概要:**介绍了 BIGO 如何使用 DophinScheduler 来调度以 SPARK 为主的多种类型的离线任务,以及为了满足业务需求、提升用户使用体验,在DophinScheduler 和 Spark 上所做的各种改进。

周克勇(一锤)

阿里云高级技术专家

EMR Spark 引擎负责人

**演讲时间:**15:30-16:20

**演讲题目:**Spark + Celeborn:更稳,更快,更弹性

**演讲概要:**Shuffle是以Spark为代表的大数据计算引擎最重要的算子,但主流的Shuffle设计存在随机读、依赖本地盘等缺陷,导致大数据量场景作业稳定性差、性能降低,并且限制了存算分离架构,无法充分利用弹性。Apache Celeborn (incubating)是阿里捐献给Apache基金会的Remote Shuffle Service,它采用Push Shuffle,数据重组,多层存储等设计消除了传统Shuffle的缺陷,有效提升了稳定性和性能,使得存算分离架构得以应用从而让作业更加弹性。此外,Celeborn通过高可用,滚动升级,负载均衡等特性提升了自身服务的可靠性。

福利环节

参与本期更多直播互动即有机会获得社区小礼品

欢迎大家参加1月11日 Apache DolphinScheduler 联合Apache Spark 举办的Meetup活动,下午14:00,我们不见不散。

参与贡献

随着国内开源的迅猛崛起,Apache DolphinScheduler 社区迎来蓬勃发展,为了做更好用、易用的调度,真诚欢迎热爱开源的伙伴加入到开源社区中来,为中国开源崛起献上一份自己的力量,让本土开源走向全球。

参与 DolphinScheduler 社区有非常多的参与贡献的方式,包括:

贡献第一个PR(文档、代码) 我们也希望是简单的,第一个PR用于熟悉提交的流程和社区协作以及感受社区的友好度。

社区汇总了以下适合新手的问题列表:https://github.com/apache/dolphinscheduler/issues/5689

非新手问题列表:https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A%22volunteer+wanted%22

如何参与贡献链接:https://dolphinscheduler.apache.org/zh-cn/community/development/contribute.html

来吧,DolphinScheduler开源社区需要您的参与,为中国开源崛起添砖加瓦吧,哪怕只是小小的一块瓦,汇聚起来的力量也是巨大的。

参与开源可以近距离与各路高手切磋,迅速提升自己的技能,如果您想参与贡献,我们有个贡献者种子孵化群,可以添加社区小助手Leonard-ds ,手把手教会您( 贡献者不分水平高低,有问必答,关键是有一颗愿意贡献的心 )。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/151217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis---初入

MyBatis快速入门 文章目录MyBatis快速入门MyBatisMyBatis开发步骤添加MyBatis的坐标创建user数据表编写user实体类编写映射文件UserMapper.xml编写核心文件SqlMapConfig.xml编写测试类MyBatis Mybatis是一个优秀的基于java的持久层框架,它内部封装了jdbc,使开发者只…

疫情放开后,如何保护居家员工的办公安全?

随着疫情的放开,大多数企业的员工因“阳”不得不在家办公。据当前的趋势来看,一线城市的大小企业已经出现高比例的员工感染,不少工作人员或出于安全的考虑选择居家办公。但无论是被迫居家隔离,还是主动远程办公,大多数…

Redis缓存何以一枝独秀?——从百变应用场景与热门面试题中感受下Redis的核心特性与使用注意点

大家好,又见面了。 本文是笔者作为掘金技术社区签约作者的身份输出的缓存专栏系列内容,将会通过系列专题,讲清楚缓存的方方面面。如果感兴趣,欢迎关注以获取后续更新。 作为《深入理解缓存原理与实战设计》系列专栏,在…

国产高清卫星影像时代来了,打造中国版“谷歌地球”!

随着国家数字化战略转型进程不断加快,卫星遥感影像作为基础数据,应用越来越广泛。目前已经成为资源环境调查、监测、评价和管理等不可或缺的技术手段。 不止于此,在推动行业发展、提高生产力以及节约成本等方面,卫星遥感影像都实…

【半监督医学图像分割 2022 CVPR】S4CVnet 论文翻译

【半监督医学图像分割 2022 CVPR】S4CVnet论文翻译 论文题目:When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation 中文题目:当CNN与ViT相遇:面向多类医学图像语义分割的半监督学习 论文链接…

kotlin必备基础一

kotlin 必备基础方法的声明成员方法类方法(静态方法)单表达式方法局部方法方法高级特性高阶函数函数作为参数函数作为返回值闭包(Cloure)闭包的特性闭包的好处解构申明匿名方法kotlin 方法字面值方法参数默认参数可变数量参数Lamb…

【机器学习】K近邻算法(K-NearestNeighbors , KNN)详解 + Java代码实现

文章目录一、KNN 基本介绍二、KNN 核心思想三、KNN 算法流程四、KNN 优缺点五、Java 代码实现 KNN六、KNN 改进策略一、KNN 基本介绍 邻近算法,或者说K最邻近(KNN,K-NearestNeighbors)分类算法是分类方法中最简单的方法之一。所谓…

Cadence PCB仿真使用Allegro PCB SI为分立元件创建统一的模型并赋值方法图文教程

⏪《上一篇》   🏡《总目录》   ⏩《下一篇》 目录 1,概述2,配置方法3,总结1,概述 本文简单介绍使用Allegro PCB SI软件配置电压地网络电压的方法。 2,配置方法 第1步:打开待仿真的PCB文件,并确认软件为Allegro PCB SI 如果,打开软件不是Allegro PCB SI则可这样…

[ 数据结构 ] 背包问题(动态规划)

0 背包问题 有一个背包,容量为4磅,现有如下物品 物品重量价格吉他(G)11500音响(S)43000电脑(L)32000 1)要求达到的目标为装入的背包的总价值最大,并且重量不超出 2)要求装入的物品不能重复(01背包) 1 动态规划 动态规划(Dynamic Programming)算法的核心思想是&…

从0到1完成一个Vue后台管理项目(十一、前端分页实现)

往期 从0到1完成一个Vue后台管理项目(一、创建项目) 从0到1完成一个Vue后台管理项目(二、使用element-ui) 从0到1完成一个Vue后台管理项目(三、使用SCSS/LESS,安装图标库) 从0到1完成一个Vu…

测试分析--精准分析

测试分析的概念 测试分析是建立在对「需求本身」、「用户使用场景」以及对应的「系统架构」和「实现细节」的充分了解的基础上,通过对数据流、状态变化、逻辑时序、功能/性能/兼容性等方面的分析,得出测试点的过程; 在现阶段敏捷开发模式普遍…

【部分真题】2022年12月QMS质量管理体系试题(1-5题)尚大解析版

注1:由于是机考,题目顺序随机变化,但题目内容所有考生一致。 注2:选择题的选项顺序会随机改变,但选项的内容不变。 注3:为了方便学员学习与复习,已经按教程&考试大纲进行全面优化排序。 注4…

4644. 求和

4644. 求和 https://www.acwing.com/problem/content/description/4647/ 第十三届蓝桥杯省赛CA/C组 , 第十三届蓝桥杯省赛JAVAA组 算法标签:推公式;前缀和 思路 推公式做法: (a1a2a3...an)2a12a22a32...an22a1a22a1a3...2a1an2a2a3...2an−…

【模板】最小生成树(C++)

题目描述 如题,给出一个无向图,求出最小生成树,如果该图不连通,则输出 orz。 输入格式 第一行包含两个整数 N,MN,MN,M,表示该图共有 NNN 个结点和 MMM 条无向边。 接下来 MMM 行每行包含三个整数 Xi,Yi,ZiX_i,Y_i,…

设计师必备的免费样机素材

很多设计师会用样机模型来展示自己的作品,让设计图案、应用界面等作品应用到实物效果图中,能体现作品的最终效果,更加形象逼真。哪里能下载到样机模板呢?今天我就推荐6个网站帮你解决,赶紧收藏! 1、菜鸟图库…

20230109测试ToyBrick的RK3588开发板运行Buildroot的V0.02版本(20220312)

20230109测试ToyBrick的RK3588开发板运行Buildroot的V0.02版本(20220312) 2023/1/9 18:03 https://wiki.t-firefly.com/zh_CN/Firefly-Linux-Guide/manual_buildroot.html 1. Buildroot 使用手册 1.1. 桌面应用 官方发布的 Buildroot 固件,默…

RabbitMQ学习一【尚硅谷】

一、消息队列 1、MQ的相关概念 2、RabbitMQ 2.1 四大核心概念 生产者: 交换机:交换机是 RabbitMQ非常重要的一个部件,一方面它接收来自生产者的消息,另一方面它将消息 推送到队列中。交换机必须确切知道如何处理它接收到的消息…

一文详解Linux Python3安装

在公司申请了一台CentOS 7的Linux版本虚拟机,需要安装一个Python3的环境,定期进行特定任务处理。这里对CentOS 7配置Python3环境的步骤进行了记录,供大家参考。 本文基于如下Linux系统版本: 一、默认Python版本 默认情况下&am…

Excelize 2.7.0 发布, 2023 年首个更新

Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库,基于 ECMA-376,ISO/IEC 29500 国际标准。可以使用它来读取、写入由 Microsoft Excel™ 2007 及以上版本创建的电子表格文档。支持 XLAM / XLSM / XLSX / XLTM / XLTX 等多种文档格式&#xf…

C 程序设计教程(13)—— 顺序结构程序设计练习题

C 程序设计教程(13)—— 顺序结构程序设计练习题 该专栏主要介绍 C 语言的基本语法,作为《程序设计语言》课程的课件与参考资料,用于《程序设计语言》课程的教学,供入门级用户阅读。 目录C 程序设计教程(1…