【scau大数据原理】期末复习——堂测题

news2025/1/11 5:52:04

一、集群安装知识

启动集群的命令start-all.sh位于    Hadoop安装目录的sbin文件夹    目录下。
    bin文件夹下包含常见的Hadoop,yarn命令;sbin命令下包含集群的启动、停止命令。

启动集群的命令start-all.sh包含    同时启动start-dfs.sh和start-yarn.sh 功能。
    先启动文件系统start-dfs.sh,然后启动计算相关start-yarn.sh。

集群完全启动(dfs和yarn)后,master端包括    NameNode、SecondaryNameNode、ResourceManager    进程
        文件系统相关:NameNode、SecondaryNameNode;

        计算相关的资源管理进程:ResourceManager
集群完全启动后,salve工作节点包含进程DataNode、NodeManager
        文件存储进程:DataNode;节点计算进程:NodeManager

集群启动dfs后,master端包含        NameNode、SecondaryNameNode        进程与dfs相关。

集群启动yarn后,工作节点包含        NodeManager        进程与yarn相关。

假设集群的安装目录是/home/zkpk/hadoop-3.1.3,则集群的配置文件子目录是     /home/zkpk/hadoop-3.1.3/etc/hadoop   

配置文件在HADOOP_HOME的etc/hadoop子目录下

linux的系统环境配置文件是        /etc/profile      

系统环境文件为/etc/profile,通常JAVA_HOME在此设置

Linux中记录主机Ip地址与主机名称的文件是        /etc/hosts        

文件名为/etc/hosts;文件内容:每一行包含IP地址 主机名

Linux中:~表示用户的HOME目录;修改/etc/profile需要root用户操作;

                语句cd和cd~相同,都是表示返回当前用户的HOME目录;cd..表示返回上一级目录。

二、HADOOP知识

大数据的4V理论:数据量大(Volume);数据类型繁多(Variety);

                                处理速度快(Velocity);价值密度低(Value)。

4V+特征
数据量大(Volume)
数据类型繁多(Variety)
数据价值密度低(Value)
数据速度快时效高(Velocity)
可变性(Variability)、真实性(Veracity)

大数据计量单位:GB-TB-PB-EB-ZB(其中ZB是容量最大的单位)

大数据的四种计算模式:批处理;流计算;图计算;查询分析计算。

关于Hadoop的说法:高可靠性;可容错性;高可扩展性;低成本

HADOOP生态系统组件:YARN、SPARK、MapReduce、Hive、Hbase......

安装HADOOP集训需要用到ssh面密码登录:

        需要配置master到所有slave主机,slave相互之间的免密登录。

Hadoop 3.X的WebUI浏览端口是9870

查看/打印集群上的根目录下abc文件夹的文件:hadoop fs -ls /abc;hadoop fs -cat /abc/*

上传一个Linux当前目录下的test.a文件到集群根目录下,应该使用命令:hadoop fs -put test.a /

关于MapReduce的说法:核心思想是“分而治之”;Map阶段的输出作为Reduce阶段的输入;

                                        Map任务全部完成后,才能进行Reduce任务;

                                        不同Map/Reduce任务之间不会进行通信。

关于MR的说法:Map端的结果要写入本次磁盘;

                                一个Reduce任务处理一个分区数据;

                                Shuffle-就是从map端输出到reduce端输入之间的过程;

                                Map端输出时,要进行分区、排序、合并、归并等操作

一个文件大小是800M,集群block大小为256,Split分片大小为150M,则启动Map任务的数量是6

在Hadoop中,Map任务的数量通常是由输入文件被切分成的Split数量决定的。每个Split会对应一个Map任务。文件大小/split分片大小=800/150=6个

HADOOP序列化类型中与JAVA数据类型的描述中,

                hadoop的Text类型与java的String对应;

                hadoop的IntWritable类型与java的int 对应;

                hadoop的LongWritable类型与java的long 对应;

                hadoop的NullWritable空类型与Java的null对应

Yarn的说法中:yarn是一个通用的资源管理调度框架;

                        yarn的目标是“一个集群多个框架”;

                        yarn支持strom计算框架;

                        yarn把集群中的资源以容器(Container)方式分配给提出申请的应用程序。   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1876021.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型ReAct:思考与工具协同完成复杂任务推理

ReAct: Synergizing Reasoning and Acting in Language Models Github:https://github.com/ysymyth/ReAct 一、动机 人类的认知通常具备一定的自我调节(self-regulation)和策略制定(strategization)的能力&#xff0…

ONLYOFFICE8.1版本桌面编辑器——功能测评

一、编辑DOCX 相信大家都有写word文档的经历,不知道大家是不是跟我一样,感觉做一个word不难,但想做好一个word却很麻烦,功能太多,看的人眼花缭乱,有时候一个功能要找很久,甚至有的功能用一辈子都…

mybatis核心配置介绍

mybatis核心配置 【mybatis全局配置介绍】 ​ mybatis-config.xml,是MyBatis的全局配置文件,包含全局配置信息,如数据库连接参数、插件等。整个框架中只需要一个即可。 1、mybatis全局配置文件是mybatis框架的核心配置,整个框架…

Unity | Shader基础知识(第十五集:透明效果)

目录 一、前言 二、素材准备 三、准备基础代码 四、准备基础场景 五、SurfaceOutput结构体 六、透明度 七、渲染顺序 八、选错的后果 九、Tags之渲染顺序 十、Cull(正面和反面渲染) 十一、代码汇总 十二、作者的碎碎念 一、前言 因为shader…

python-斐波那契数列

[题目描述] 斐波那契数列是指这样的数列:数列的第一个和第二个数都为 1,接下来每个数都等于前面 2个数之和。 给出一个正整数 a,要求斐波那契数列中第 a 个数是多少。输入: 第 1 行是测试数据的组数 n,后面跟着 n 行输…

UnityShader SDF有向距离场简单实现

UnityShader SDF有向距离场简单实现 前言项目场景布置连连看画一个圆复制一个圆计算修改shader参数 鸣谢 前言 突然看到B站的一个教程,还不错,记录一下 项目 场景布置 使用ASE连连看,所以先要导入Amplify Shader Editor 连连看 画一个…

有人问周鸿祎: 学历不重要,为什么360只要985和211?

关注、星标公众号,直达精彩内容 有人问周鸿祎:你说学历不重要,为什么360招聘的人才只要985和211?他说这个事情,我专门问了我们的人力资源,我们的干品分为校园招聘和社会招聘 校园招聘的话会看文凭 社会招聘的话&#x…

性能优化:Java垃圾回收机制深度解析 - 让你的应用飞起来!

文章目录 一、什么是垃圾回收二、Java 内存区域划分三、垃圾回收算法1. 标记-清除(Mark-Sweep)算法2. 复制(Copying)算法3. 标记-整理(Mark-Compact)算法4. 分代收集(Generational Collecting&a…

光储充一体化解决方案

慧哥充电桩开源平台V2.5.2_ 【源码下载】 https://liwenhui.blog.csdn.net/article/details/134773779?spm1001.2014.3001.5502 本文从光储充的原理以及总体系统等角度,全方位介绍光储充一体化解决方案实例。 一、典型应用场景 针对整县区域光伏项目,在…

综合评价类模型——突变级数法

含义 首先:对评价目标进行多层次矛盾分解其次:利用突变理论和模糊数学相结合产生突变模糊隶属函数再次:由归一公式进行综合量化运算最终:归一为一个参数,即求出总的隶属函数,从而对评价目标进行排序分析特点…

c++指针和引用之高难度(二)习题讲解

1.【单选题】 int a[4] { 1001,1002,1003,1004 }; int* p{ &a[1] }; p[1] ? A 1001 B 1002 C 1003 解析:这道题考察了指针和数组可以混用。p 指向了 数组 a[0] 的地址,也就是 1002 的地址,此时 *p p[0]…

DDPM pytorch 代码复现

本次只分享代码以及效果,后续更新原理 代码参考 deep_thought 先看动图效果 1.选择一个数据集 %matplotlib inline import matplotlib.pyplot as plt import numpy as np from sklearn.datasets import make_s_curve import torchs_curve, _ make_s_curve(10 **…

零基础STM32单片机编程入门(四)ADC详解及实战含源码视频

文章目录 一.概要二.STM32F103C8T6单片机ADC外设特点三.STM32单片机ADC内部结构图1.ADC相关引脚说明2.ADC通道分类3.触发源4.转换周期5.电压转换计算6.更精确电压转换计算 四.规则通道ADC采集信号流向1.单次转换模式2.连续转换模式 五.CubeMX配置一个ADC采集例程六.CubeMX工程源…

通天星CMSV6车载监控平台CompanyList信息泄露漏洞

1 漏洞描述 通天星CMSV6车载视频监控平台是东莞市通天星软件科技有限公司研发的监控平台,通天星CMSV6产品覆盖车载录像机、单兵录像机、网络监控摄像机、行驶记录仪等产品的视频综合平台。通天星科技应用于公交车车载、校车车载、大巴车车载、物流车载、油品运输车载、警车车…

风控图算法之中心性算法(小数据集Python版)

风控图算法之中心性算法(小数据集Python版) 图算法在金融风控领域的应用已经超越了传统的社区发现技术,这些技术曾被主要用于识别和分析欺诈性行为模式,例如黑产团伙。当前,一系列图统计算法,包括介数中心…

笔记本重装系统怎么操作? windows电脑重装系统,超实用的四种方法

重新安装操作系统是维护计算机性能和确保系统稳定运行的重要步骤。对于 Windows 笔记本用户而言,熟悉重装系统的方法可以帮助他们解决各种问题,从提高系统速度到修复软件故障。然而具体来讲,笔记本重装系统怎么操作呢?接下来&…

【01】Java代码如何运行

JRE: 包含Java虚拟机以及核心类库 JDK: 同样包含了JRE,并且附带了一系列开发、诊断工具 一、为什么Java要在虚拟机中运行 一、 Java语言特性:高级、语法复杂、抽象 Java语言-- 【编译器】 --> Java字节码 --【虚拟机】–> 实现 二、 托管环境 自…

正点原子rk3588编译sdk

1、编译SDK 1.1 安装 RK3588 Linux SDK .repo/repo/repo sync -l -j101.2 SDK 工程目录介绍 app:存放上层应用 app,包括 Qt 应用程序,以及其它的 C/C应用程序。 buildroot:基于 buildroot 开发的根文件系统。 debian&#xff1…

AIGC对图片行业的影响分析!

前言 自从去年生成式AI火起来之后,不论是文字领域还是图片领域受到的冲击都非常大。比如说SD和Midjourney的爆火,不止是创作者,还有交易平台和使用方,都在发生变化。 AIGC自2023年全面进入大家视野,对各行各业造成了或…

论证型大语言模型:促进可解释性与可质疑的决策制定

Argumentative Large Language Models for Explainable and Contestable Decision-Making 论文地址: https://arxiv.org/abs/2405.02079https://arxiv.org/abs/2405.02079 1.概述 在探讨大型语言模型(LLMs)在决策支持系统中的应用时,我们需正视其面临的核心问题。这些问题…