MOOC 大数据Note

news2024/9/21 12:33:58

MOOC 大数据Note

Spark

Spark 一个软件栈满足不同交互场景

在这里插入图片描述

Lineage 血缘关系

创建 转换 动作

ShuffleMapStage

在这里插入图片描述

Spark的部署和应用方式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:count

Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN

RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算

在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm

基于实时数据流的数据处理:Storm

复杂的批量数据处理:MapReduce

基于历史数据的交互式查询:Impala

Apache软件基金会最重要的三大分布式计算系统开源项目包括:Storm、Spark、Hadoop

Spark的主要特点包括:运行模式多样、通用性好、容易使用、运行速度快

Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

Scala具备强大的并发性,支持函数式编程

Scala是一种多范式编程语言

Scala运行于Java平台,兼容现有的Java程序

Spark的运行架构包括:每个应用的任务控制节点 Driver、集群资源管理器 Cluster Manager、运行作业任务的工作节点 Worker Node、每个工作节点上负责具体任务的执行进程 Executor

常见的动作(Action)和转换(Transformation)操作的API count():返回数据集中的元素个数,map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集,filter(func):筛选出满足函数func的元素,并返回一个新的数据集

HBase是一种列式数据库

HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳

每个HBase表都由若干行组成,每个行由行键(row key)来标识

HBase列族支持动态扩展,可以很轻松地添加一个列族或列

Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等

HBase三层结构的顺序是:Zookeeper文件,-ROOT-表,.MEATA.表

客户端是通过三级寻址来定位Region

访问HBase表中的行,有哪些方式:通过一个行健的区间来访问,通过单个行键来访问、全表扫描

HBase和传统关系型数据库的区别在于哪些方面:数据操作、数据模型、存储模式、数据索引

下列对HBase的理解正确的是:HBase多用于存储非结构化和半结构化的松散数据,HBase是针对谷歌BigTable的开源实现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/60306.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开发工具——gcc/g++

开发工具gcc/g 完成代码的编写完后,要形成可执行程序,需要编译工具进行对代码的编译。 C语言的编译工具是gcc,c的编译工具是g。 如果g没有的话,可以切换到root执行命令yum install -y gcc-c C语言和C的编译: gc…

「点燃我,温暖你」用Python制作一个动态爱心效果

最近「点燃我,温暖你」这部剧非常火,讲述的是程序员的爱情故事。 其中陈飞宇饰演的男主李峋,在剧中用程序做出的爱心跳动效果,非常炫。 网上各个大佬也是纷纷给出看法,综合就是不太可能用C语言来实现的。 大概率是AE…

Reg注册表读写

在Windows 95及其后继版本中,采用了一种叫做“注册表”的数据库来统一进行管理,将各种信息资源集中起来并存储各种配置信息。按照这一原则,Windows各版本中都采用了将应用程序和计算机系统全部配置信息容纳在一起的注册表,用来管理…

Java内存溢出故障案例及Linux内存机制探究

文章目录Java内存溢出故障案例及Linux内存机制探究OOM Killer触发机制分析如何避免系统触发OOM Killer这部分内容属于demo案例分享,解决线上运维问题,思路是最重要的 Java内存溢出故障案例及Linux内存机制探究 这是一个线上数据分析应用故障案例&#…

Java—反射

文章目录什么是反射反射定义java创建对象的三个阶段反射过程反射第一步:获取类对象获取类对象的三种方式反射第二步:获取类信息如何获取类信息?1、获取成员变量:2、获取方法:3、获取构造器反射第三步:使用反…

vue学习笔记——简单入门总结(四)

文章目录1.Vue3的特性和变化1.1.创建vue3项目1.2.分析main.js变化:1.3.setup--组合式api的开端1.4.ref函数和reactive函数:1.5.watch监视属性1.5.watchEffect函数1.6.vue3生命周期:1.Vue3的特性和变化 1.1.创建vue3项目 1.这里我们使用脚手架…

RegAD-Registration based Few-Shot Anomaly Detection论文学习

摘要 本文为少样本异常检测(FSAD),这是一种实用但尚未被研究的异常检测(AD),少样本意味着在训练中只为每个类别提供有限数量的正常图像。 现有的少样本异常检测的研究主要使用的是 一类别一模型 学习范式…

李宏毅《DLHLP》学习笔记7 - Voice Conversion

视频链接:https://www.youtube.com/watch?vJj6blc8UijY&listPLJV_el3uVTsO07RpBYFsXg-bN5Lu0nhdG&index9&ab_channelHung-yiLee 课件链接:https://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/Voice%20Conversion%20(v3).pdf 1. 语音转…

JAVA+MySQL 图书馆借阅信息管理系统

图书馆是当下很多大学生和有志青年学习和借阅图书的场所,图书馆每天都有大量的人员需要接待,如何能够更好的对用户的这些借阅信息进行信息化的管理是当下大多数图书馆管理人员所关心的问题 本系统是通过JAVA和MYSQL来进行开发的,通过本系统可以对图书馆内的图书信息,用户信息以…

基于PCIe的NVMe协议在FPGA中实现方法

NVMe协议是工作在PCIE的最上层协议层的,故需要先搞清楚PCIE。本文基于Xilinx的UltraScale,开发工具为Vivado2021.2。学习中以spec为主,其它资料辅助参考(重点介绍学习方法及资料,有时间再加细节)。请勿转载! 1 PCIe学…

基于PHP+MySQL青年志愿者服务管理系统的设计与实现

志愿者管理系统能够通过互联网得到广泛的、全面的宣传,让尽可能多的人积极的参加到志愿者行列中来,不仅为需要的人提供了服务,而且锻炼了自己,志愿者是一个对社会和自己以及需要帮助的人都有很多好处的事情 PHP青年志愿者服务网站是一个公益类型的网站,系统通过PHp:…

HK1 BOX刷入 Armbian系统作为服务器

HK1 BOX刷入 Armbian系统作为服务器 1 安装Armbian到EMMC 硬件 HK1 BOX s905 x3 固件版本选择 Armbian_23.02.0_Aml_s905x3_bullseye_5.15.80_server_2022.12.01用usb启动,tf/sd有的设备不行,有干扰,有可能从TF卡无法启动系统。 用usb启…

Grid 布局实现九宫格图片动画

前言 👏Grid 布局实现九宫格,background-position设置背景图像起始位置,速速来Get吧~ 🥇文末分享源代码。记得点赞关注收藏! 1.实现效果 2.实现步骤 定义css变量:九宫格中每个宫格的长/宽为w&#xff0c…

Kafka - 14 Kafka消费者 | 分区的分配策略及再平衡 | Range | RoundRobin | Sticky | CooperativeSticky

文章目录1. 分区的分配以及再平衡2. Range 分区分配以及再平衡3. RoundRobin 分区分配以及再平衡4. Sticky 分区分配以及再平衡1. 分区的分配以及再平衡 一个consumer group中有多个consumer组成,一个 topic有多个partition组成,现在的问题是&#xff0…

【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)

需要源码和字典集请点赞关注收藏后评论区留言私信~~~ 一、规则分词 规则分词核心内容是建立人工专家词典库,通过将语句切分出的单词串与专家词典库中的所有词语进行逐一匹配,匹配成功则进行对象词语切分,否则通过增加或者减少一个字继续比较…

文件或者文件夹的忽略

文件或者文件夹的忽略 编辑项目的时候,将一些临时文件或者插件可以忽略上传到项目库中去。 追踪中的文件,不能被忽略。 首先的创建.gitignore文件,并且该文件需要放到项目的根目录下 接着,打开.gitignore文件 windows中 open d…

软件测试——分类

测试分类 一、按照测试对象划分 1、界面 界面测试UI测试 (1)测试软件界面元素完整性,正确性,一致性 (2)软件界面排版布局合理、字体、颜色 (3)测试界面的自适应性,界面…

1549_AURIX_TC275_SCU系统中的CCU模块

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 从这一份笔记开始看一下SCU系统,其实这个是一个功能组合,其中的一个小模块又叫做SCU。因此,在名称上可能会有一点点绕。近段时间看相关的资料比较多&…

数据结构与算法—数组栈和链表栈

数据结构与算法—数组栈和链表栈 🌈一览众山小数据结构与算法—数组栈和链表栈栈介绍栈图解栈实现数组实现栈实现思路实现代码单链表实现栈实现思路(图解)实现代码栈总结栈力扣栈介绍 栈,存储货物或供旅客住宿的地方,可引申为仓库、中转站,所以引入到计算…

Java—泛型、内部类、多继承

文章目录泛型1.泛型是什么,使用泛型的好处2.泛型中的限定通配符和非限定通配符3.泛型擦除内部类多继承多继承使用:———————————————————————————泛型 1.泛型是什么,使用泛型的好处 ​ 泛型就是把类型参数化&…