2024-02-20(DataX,Spark)

news2025/1/2 4:06:19

1.Oracle利用DataX工具导出数据到Mysql。Oracle利用DataX工具导出数据到HDFS。

只是根据导入导出的目的地不同,DataX的Json文件书写内容有所不同。万变不离其宗。

书写的Json格式的导入导出规则文件存放再Job目录下的。

2.Spark概念

Apache Spark是用于大规模数据处理的统一分析引擎

Spark对任意的数据类型都能进行自定义的计算,Spark可以计算结构化,半结构化,非结构化等各种类型的数据结构,同时,还支持Python,Java,Scala,R以及SQL语言去开发应用程序计算数据。

3.Spark和Hadoop比较

Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。

Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。

Spark是由于Hadoop中MR效率低下而产生的高效率快速计算引擎

Spark和Hadoop的区别和比较-CSDN博客

尽管Spark相对于Hadoop而言具有较大的优势,但是Spark并不能完全替代Hadoop

在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR架构,比如非常成熟的Hive。

Spark仅作计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构。

4.三大分布式计算系统

Hadoop适合处理离线的静态的大数据;

Spark适合处理离线的流式的大数据;

Storm/Flink适合处理在线的实时的大数据。

5.Spark和MR处理数据相比有两个不同点

其一,Spark处理数据时,可以将中间处理数据结果存储到内存中(MR是通过磁盘来保存和读取处理数据的结果的)

其二,Spark提供了非常丰富的算子(API),可以做到复杂任务也能在一个Spark程序中完成。

6.Spark的架构角色

左边是YARM的架构角色,右边是Spark的架构角色

资源层面:

Master角色:集群资源管理

Worker角色:单机资源管理

任务运行层面:

Driver:单个任务的管理

Executor角色:单个任务的计算(给worker干活的)

7.Spark解决什么问题

海量数据的计算,可以进行离线批处理以及实时流计算

8.Spark有哪些模块

核心SparkCore,SQL计算(SparkSQL),流计算(SparkStreaming),图计算(GraphX),机器学习(MLlib)

9.Spark特点有哪些

速度快,使用简单,通用性强,多种模式运行

10.Spark的运行模式

本地模式

集群模式(StandAlone,YARN,K8S)

云模式

11.Spark的运行角色(对比YARN)

Master:集群资源管理(类比ResourceManager)

Worker:单机资源管理(类比NodeManager)

Driver:单任务管理者(类比ApplicationMaster)

Executor:单任务执行者(类比YARN容器内的Task)

12.Spark中Local模式的运行原理

Local模式原理就是以一个独立进程配合其内部的线程们来提供完成Spark运行时的环境,Local模式可以通过spark-shell/pyspark/spark-submit等来开启

13.bin目录下的pyspark是什么程序

是一个交互式的解释器执行环境,环境启动后就得到了一个Local Spark环境,可以运行python代码去进行spark计算

14.Spark的4040端口是什么

Spark的任务在运行后,会在Driver所在的机器绑定到4040端口,提供当前任务的监控页面以供查看。

15.Spark的StandAlone架构

StandAlone模式是Spark自带的一种集群模式,不同于Local本地模式启动多个进程来模拟集群环境,StandAlone模式真实的在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于真实的大数据处理。

StandAlone是完整的Spark运行环境,其中:

Master角色是以Master进程存在,Worker角色是以Worker进程存在。

Driver角色在运行时存在于Master进程内,Executor运行与Worker进程内

进一步阐述

StandAlone集群上主要有三类进程:

1.主节点Master进程:

Master角色,管理整个集群资源,并托管运行各个任务的Driver

2.从节点Workers:

Worker角色,管理每个机器的资源,分配对应的资源来运行Executor(Task).。

每个从节点分配资源信息给Worker管理,资源信息包含内存Memory和CPU Cores核心数

3.历史服务器HistoryServer(可选):

Spark Application运行完成后,保存事件日志数据至HDFS,启动HistoryServer可以查看应用运行相关信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1460278.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

将yolov8权重文件转为onnx格式并在c#中使用

yolo模型转ONNX 在yolov8中,我们将训练结果的.pt权重文件转换为onnx格式只需要使用ultralytics库中的YOLO类,使用pip安装ultralytics库,然后执行下面python代码 from ultralytics import YOLO# 加载YOLOv8模型 model YOLO("best.pt&q…

智能家居界面:移动、pad端、电脑端、HMI端都有,比较多。

Hi,大家好,我是大千UI工场,本篇纯分享智能家居的各类终端界面,关注本头条号,每天带你看一样的UI作品。 智能家居界面可以通过手机应用程序、智能音箱的语音助手、智能电视等设备上的应用程序来实现。通过智能家居界面…

Java - @JSONField和@JsonProperty注解

JSONField注解是阿里巴巴的fastjson框架中的注解,用于指定JSON字符串中的属性名和Java对象中的属性名之间的映射关系 JsonProperty注解是Jackson框架中的注解,用法类似于JSONField,也是指定JSON字符串中的属性名和Java对象中的属性名之间的映…

爬虫知识--02

免费代理池搭建 # 代理有免费和收费代理 # 代理有http代理和https代理 # 匿名度: 高匿:隐藏访问者ip 透明:服务端能拿到访问者ip 作为后端,如何拿到使用代理人的ip 请求头中:x-forwor…

【Python爬虫】requests库get和post方法使用

requests库是一个常用于http请求的模块,性质是和urllib,urllib2是一样的,作用就是向指定目标网站的后台服务器发起请求,并接收服务器返回的响应内容。 1. 安装requests库 使用pip install requests安装 如果再使用pip安装python…

Fiddler工具 — 18.Fiddler抓包HTTPS请求(一)

1、Fiddler抓取HTTPS过程 第一步:Fiddler截获客户端发送给服务器的HTTPS请求,Fiddler伪装成客户端向服务器发送请求进行握手 。 第二步:服务器发回相应,Fiddler获取到服务器的CA证书, 用根证书(这里的根证…

Android 浅色皮肤阴影开发

前言:项目中要进行浅色皮肤开发,然后要求要有阴影效果,下面是UI觉得可行的中立方案效果 尝试一、使用elevation添加阴影发现效果一般 尝试二、使用带阴影的UI切图后续发现成本太大,对后续多个皮肤适配要求太大 尝试三、使用elevat…

oppo手机如何录屏?解锁录屏新功能!

“最近换了一款oppo手机,感觉它的拍照功能真的很强大。但除此之外,我发现oppo还有许多隐藏功能,比如录屏。但我尝试了很久,都没找到录屏的开关在哪里。有没有哪位oppo用户知道怎么打开这个功能呢?” 随着科技的不断发…

【小样本命名实体识别】COPNER论文源码详解

COPNER: Contrastive Learning with Prompt Guiding for Few-shot Named Entity Recognition 原文与代码链接: https://github.com/AndrewHYC/COPNER 一、项目结构 二、代码分析 1.定义参数 配置训练环境 parser.add_argument(--gpu, default0,helpthe gpu num…

Spring最新核心高频面试题(持续更新)

1 什么是Spring框架 Spring框架是一个开源的Java应用程序开发框架,它提供了很多工具和功能,可以帮助开发者更快地构建企业级应用程序。通过使用Spring框架,开发者可以更加轻松地开发Java应用程序,并且可以更加灵活地组织和管理应…

js设计模式:原型模式

作用: 使用js特有的原型链机制,可以通过Object.create方法创建新对象,将一个对象作为另外一个对象的原型 也可以通过修改原型链上的属性,影响新对象的行为 可以更方便的创建一些对象 示例: let obj {getName: function(){return this.name},getAge:function(){return this…

Python学习-用Python设计第一个游戏

三、用Python设计第一个游戏 1、新建文件 使用IDLE的编辑器模式,新建一个文件,点击File—>New File 2、将下面的游戏代码敲入进去 """用Python设计第一个游戏"""temp input("不妨猜一下小甲鱼现在心里想的是…

Excel练习:双层图表

Excel练习:双层图表 学习视频Excel制作双层图表,很多人都不会,其实只需1步操作就够了!_哔哩哔哩_bilibili ​​ 通过调整两个图形的显示范围实现 增加折现图的负数显示范围,使折现图仅出现在整体图形的上方增加柱形…

ABAQUS应用04——集中质量的添加方法

文章目录 0. 背景1. 集中质量的编辑2. 约束的设置3. 总结 0. 背景 混塔ABAQUS模型中,机头、法兰等集中质量的设置是模型建立过程中的一部分,需要研究集中质量的添加。 1. 集中质量的编辑 集中质量本身的编辑没什么难度,我已经用Python代码…

快速上手Spring Boot整合,开发出优雅可靠的Web应用!

SpringBoot 1,SpringBoot简介1.1 SpringBoot快速入门1.1.1 开发步骤1.1.1.1 创建新模块1.1.1.2 创建 Controller1.1.1.3 启动服务器1.1.1.4 进行测试 1.1.2 对比1.1.3 官网构建工程1.1.3.1 进入SpringBoot官网1.1.3.2 选择依赖1.1.3.3 生成工程 1.1.4 SpringBoot工程…

7款自媒体写作神器:让内容创作更高效! #经验分享#人工智能#媒体

这些宝藏AI 写作神器,我不允许你还不知道~国内外免费付费都有,还有AI写作小程序分享,大幅度提高写文章、写报告的效率,快来一起试试吧! 1.飞鸟写作 这是一个微信公众号 面向专业写作领域的ai写作工具,写作…

Qt的跨平台开发

自从最初发布以来,Qt就以其跨平台的能力而闻名——这是创建这个框架背后的主要愿景。您可以在自己喜欢的桌面平台(如Windows、Linux和mac OS)上使用Qt Creator,并使用相同的代码库或稍加修改,创建流畅、现代、触摸友好的图形用户界面(GUI)和桌…

Maxwell安装部署

1 Maxwell输出格式 database:变更数据所属的数据库table:变更数据所属的表type:数据变更类型ts:数据变更发生的时间xid:事务idcommit:事务提交标志,可用于重新组装事务data:对于inse…

Mysql 两个日期相减得到指定的格式数据

首先避坑: Mysql 中两个日期直接相减,若在同一天则得到的是秒,否则相减得到的并不是秒,一定要注意。 函数 TIMESTAMPDIFF(unit,begin,end); 函数返回 begin - end 的结果。 其中 begin 和 end 是 DATE 或 DATETIME 表达式。 …

Lightfm学习记录

推荐参考资料 官方文档仓库地址论文地址LightFM推荐系统框架学习笔记LightFM推荐模型库(利于入门)how-i-would-explain-building-lightfm-hybrid-recommenders-to-a-5-year-old(用处不大)协同推荐 lightfm 根据用户已读诗词推荐(可能有用)Recommendation System in Python: L…