Spark---SparkCore(三)

news2024/11/18 1:40:03

一、Spark广播变量和累加器

1、广播变量

1)、广播变量理解图

2)、广播变量使用

val conf = new SparkConf()
conf.setMaster("local").setAppName("brocast")
val sc = new SparkContext(conf)
val broadCast = sc.broadcast(list)
val lineRDD = sc.textFile("./words.txt")
lineRDD.filter { x => broadCast.value.contains(x) }.foreach { println }
sc.stop()

3)、注意事项

能不能将一个RDD使用广播变量广播出去?

不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。

广播变量只能在Driver端定义,不能在Executor端定义。

在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。

2、累加器

1)、累加器理解图

2)、累加器的使用

val conf = new SparkConf()
conf.setMaster("local").setAppName("accumulator")
val sc = new SparkContext(conf)
val accumulator = sc.accumulator(0)
sc.textFile("./words.txt").foreach { x => {accumulator.add(1) } }
println(accumulator.value)
sc.stop()

3)、注意事项

累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在Excutor端更新。

二、Spark weibui界面

1、SparkUI界面介绍

可以指定提交Application的名称

./spark-shell --master  spark://node1:7077 --name myapp

2、配置historyServer

1)、临时配置,对本次提交的应用程序起作用

./spark-shell --master spark://node1:7077 
--name myapp1
--conf spark.eventLog.enabled=true
 --conf spark.eventLog.dir=hdfs://node1:9000/spark/test

停止程序,在Web Ui中Completed Applications对应的ApplicationID中能查看history。

2)、spark-default.conf配置文件中配置HistoryServer,对所有提交的Application都起作用

在客户端节点,进入../spark-1.6.0/conf/ spark-defaults.conf最后加入:

//开启记录事件日志的功能
spark.eventLog.enabled           true
//设置事件日志存储的目录
spark.eventLog.dir                    hdfs://node1:9000/spark/test
//设置HistoryServer加载事件日志的位置
spark.history.fs.logDirectory   hdfs://node1:9000/spark/test
//日志优化选项,压缩日志
spark.eventLog.compress         true

启动HistoryServer:

./start-history-server.sh

访问HistoryServer:node4:18080,之后所有提交的应用程序运行状况都会被记录。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1261736.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ilya Sutskever:师从Hinton,“驱逐”奥特曼,一个改变AI世界的天才科学

ChatGPT 已经在全球爆火,但大众在两周之前似乎更熟悉Sam Altman,而对另一位创始人 Ilya Sutskever 却了解不多。 直到前几天因为OpenA眼花缭乱的政权争夺大戏,OpenAI 的首席科学家Ilya Sutskever的名字逐渐被世人所知。 Ilya Sutskever在科…

利略版本的发布标志着EndeavourOS从Xfce转向KDE Plasma

导读EndeavourOS,一个基于 Arch Linux 的滚动发行版,今日发布了其最新版本——伽利略(Galileo)。这次更新带来了一些重大变革,令其用户群体充满期待。 伽利略版本除了采用最新、优质的 Linux 6.6 LTS 内核系列外&…

什么是企业数字化转型?如何利用数字化工具加快转型速度?

企业数字化转型是指将数字技术整合到所有业务领域,从根本上改变业务运作和为客户提供价值的方式。它包括采用新的工具、过程和策略来提高效率、创新和客户满意度。数字化转型可以帮助公司在基础层面上规划、实施和管理业务流程。它提供了员工和客户所期望的先进体验…

企业内部社区在促进员工之间的合作与共建

企业内部社区作为一种新兴的企业管理工具,在企业管理中展现出了巨大的价值和作用。它为企业内部员工提供了一个良好的交流互动平台,促进了信息共享、知识传递和团队协作,提升了企业的创新能力和竞争力。 企业内部社区通过问卷收集功能&#…

DjiTello + YoloV5的无人机的抽烟检测

一、效果展示 注:此项目纯作者自己原创,创作不易,不经同意不给予搬运权限,转发前请联系我,源码较大需要者评论获取,谢谢配合! 1、未启动飞行模型无人机的目标检测。 DjiTello YOLOV5抽烟检测 …

“职场中的‘特色人物’:与‘个性’领导和同事的碰撞与成长“

文章目录 每日一句正能量前言程序员是怎么和产品经理battle的?科班程序员非科班程序员 程序员的团队合作密码:协作与领导的艺术职场人际关系的技巧后记 每日一句正能量 乌云的背后是阳光,阳光的背后是彩虹。 前言 在职场中,我们都…

护眼灯什么价位的好?好用又实惠的护眼台灯推荐

我国8~12岁的小学生中,约有47个儿童就有一个近视眼,近视发病率约为23%,中学生约为55%,大学生约为76%,全国近视眼约为3亿人,其中青少年约为2亿人。全国近视眼发病人数位居世界首位,发…

PostgreSQL 数据脱敏方式盘点

数据脱敏是一种广泛采用的保护敏感数据(如信用卡,社保卡,地址等信息)的方法。脱敏数据不仅仅是为了保护你和客户的数据安全,在一些情况下,法律也有相应要求,最著名的例子就是 GDPR。 市面上也有…

docker-compose部署zabbix+grafana

1.引言 1.1目的 zabbixgrafana实现图形化监控 2.部署环境 服务器ip服务版本192.168.5.137zabbix-server6.0.21192.168.5.137grafana10.2.2192.168.5.152zabbix-client6.0.21 3.部署zabbix-server 3.1 创建zabbix目录 mkdir zabbix3.2 编写docker-compose文件 cd zabbix…

医学影像PACS源码:PACS系统的基础知识(DICOM、HL7、SWF)

1、PACS PACS是Picture Archiving and Communication Systems首字母缩写,全称为影像储存和传输系统,涉及放射医学、计算机技术、通讯技术及数字图像技术等,是医院信息系统的重要组成部分,是将数字医疗设备(如X线、CT、MRI、超声、…

P8A110-A120经典赛题

Web应用程序SQL Inject安全攻防 任务环境说明: 服务器场景:WebServ2003(用户名:administrator;密码:空)服务器场景操作系统:Microsoft Windows2003 Server 服务器场景安装服务/工…

matlab配置

matlab配置 windowslinux windows 按照这里一步步配置就行( 移动硬盘中软件备份中自取) linux linux配置步骤

【C/PTA —— 12.指针1(课外实践)】

C/PTA —— 12.指针1(课外实践) 一.函数题6-1 删除字符串中数字字符6-2 找最大值及其下标6-3 求两数平方根之和6-4 求一组数中的最大值、最小值和平均值6-5 两个4位正整数的后两位互换6-6 判断回文字符串 二.程序题7-1 求矩阵每行元素的和 一.函数题 6-…

在 C# 中复制 Word、Excel、PDF 和 PPT 文档

在 C# 中复制文档可能是各种软件应用程序中的一项基本任务。无论您是构建文件管理系统、创建备份实用程序,还是出于任何原因仅需要复制文档,都需要高效的文件处理和复制机制。在这篇博文中,我们将引导您逐步完成在 C# 中复制文档的过程。在代…

IDEA懒人必备插件:自动生成单元测试!

IDEA懒人必备插件:自动生成单元测试! 前言1、打开设置 File-->settings-->Plugins, 搜索 Squaretest2、安装完成后重启idea ,你会发现,导航栏位置已经多了一个选项3、接着就在你想要测试的类中 用快捷键 altInse…

值得收藏的 6 个顶级 Mac 数据恢复软件榜单

对于 Mac 用户来说,丢失重要数据可能是一场真正的噩梦。无论是意外删除、系统崩溃还是狡猾的恶意软件,后果都可能是毁灭性的。幸运的是,Mac 数据恢复软件带来了一线希望。这些工具旨在帮助您轻松恢复珍贵的文件,无论是什么原因导致…

使用Moment.js中获取上周的开始日期和结束日期(可自定义)

前言 有时候需求是这样的,想要获取上周的开始日期和结束日期,或者前几周的时间范围 比如今天是2023.11.28号,我想获取上周的周一到周日,也就是,上周的开始日期: 2023-11-20,上周的结束日期: 2023-11-26 1.…

Digicert OV 代码签名介绍

Digicert OV 代码签名证书是一种数字证书,用于对软件代码进行数字签名。数字签名是一种验证软件来源和完整性的技术,通过使用私有密钥对代码进行签名,并在签名后使用公共密钥验证签名。 可基于更多平台,最大限度地提高分发量和收…

Proto3语法详解02

目录 1.默认值 2.更新消息 2.1更新规则 2.2保留字段reserved 2.2.1创建通讯录3.0版本---验证错误删除字段造成的数据损坏 2.3未知字段 2.3.1未知字段从哪获取 3.3.2升级通讯录3.1版本--验证未知字段 2.4前后兼容性 3.选项option 3.1选项分类 3.2常用选项列举 1.默认值…

Valentina Studio Pro:引领数据库管理软件新潮流

你是否正在寻找一款强大且易用的数据库管理软件?Valentina Studio Pro可能就是你的不二之选。这款软件是由Valentina Team开发的一款综合性数据库管理和编辑工具,它支持多种数据库系统,包括MySQL、PostgreSQL、SQLite等。 Valentina Studio …