大数据相关组件

大数据相关组件

news2026/2/8 5:41:21

一、 HDFS

HDFS是hadoop的核心组件，HDFS上的文件被分成块进行存储，默认块的大小是64M，块是文件存储处理的逻辑单元。

HDFS是Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。

NameNode：是Master节点，管理数据块映射，处理客户端的读写请求，配置副本策略，管理HDFS的名称空间；

SecondaryNameNode：是NameNode的冷备份，分担NameNode的工作量，合并fsimage和fsedits然后再发给NameNode，定期同步元数据映像文件和修改日志，当NameNode发生故障时，备份转正。

DataNode：是Slave节点，负责存储client发来的数据块block，执行数据块的读写操作，定期向NameNode发送心跳信息。

特点：

数据冗余，硬件容错，每个数据块有三个备份；

流式的数据访问，数据写入不易修改；

适合存储大文件，小文件会增加NameNode的压力。

适合数据批量读写，吞吐量高；

不适合做交互式应用，低延迟很难满足；

适合一次写入多次读取，顺序读写；

不支持多用户并发写相同文件。

二、 MapReduce

MapReduce的工作原理用一句话概括就是，分而治之，然后归约，即将一个大任务分解为多个小任务（map），并行执行后，合并结果（reduce）。

整个MapReduce的过程大致分为Map-->Shuffle（排序）-->Combine（组合）-->Reduce。

三、 YARN

YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：

全局的资源管理器ResourceManager，负责整个系统的资源管理和分配

每个应用程序特有的ApplicationMaster，负责单个应用程序的管理。

四、 Hive

Hive是构建在Hadoop HDFS上的一个数据仓库，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，其本质是将SQL转换为MapReduce程序。

Hive的表其实就是HDFS的目录/文件。

五、Hbase

是一个领先的No-SQL数据库，它在HDFS上存储数据，是面向列的数据库

六、Spark

是一个快速、通用的大规模数据处理引擎 (基于scala开发)

1、spark rdd：弹性分布式数据集

2、spark sql：Spark中结构化数据处理模块。使用Spark SQL提供的接口

3、spark streaming：spark实时计算引擎

4、spark graphx： spark图形数据库

5、spark mLlib：spark机器学习

七、Flink

Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/180761.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

springcloud3 Sentinel的搭建以及案例操作

springcloud3 Sentinel的搭建以及案例操作

一 sentinel的概念 1.1 sentinel Sentinel是分布式系统流量控制的哨兵，阿里开源的一套服务容错的综合性解决方案。主要用来处理： 服务降级服务熔断超时处理流量控制 sentinel 的使用可以分为两个部分: 核心库（Java 客户端&#…

阅读更多...

基于nodejs+vue的留学服务管理平台的设计与开发

基于nodejs+vue的留学服务管理平台的设计与开发

目录摘要 I Abstract I 第一章绪论 1 1.1系统开发的背景 1 1.2系统开发的意义 1 1.3本文研究内容 2 第二章系统开发技术 3 第三章系统分析 6 3.1用户需求分析 6 3.1.1 老师用户 6 3.1.2 学生用户 6 3.1.3 管理员用户 6 3.2 系统…

阅读更多...

6--总线

6--总线

文章目录一.总线概述（一）总线特性（二）总线分类1.按功能分/按连接的部件分（1）片内总线/CPU内部总线（2）系统总线（3）通信总线/外部总线2.按数据传输格式分&#…

阅读更多...

7、关系运算符与关系表达式

7、关系运算符与关系表达式

目录一、关系运算符二、关系表达式三、优先级与结合性一、关系运算符关系运算符包括大于、大于等于、小于、小于等于、等于和不等于注意：符号“>”（大于等于）与“<”（小于等于）的意思分别是大于或等于…

阅读更多...

向QAbstractItemView子类如:QTreeView、QTableView等子项单元格插入窗体小部件的功能实现(第3种方法)

向QAbstractItemView子类如:QTreeView、QTableView等子项单元格插入窗体小部件的功能实现(第3种方法)

1.前言工作中经常会遇到这样的需求：向QAbstractItemView子类如QTreeView、QTableView单元格插入窗体小部件，如：进度条、按钮、单行编辑框等。下面链接的系列博文就是讲解如何实现该功能的。《向QAbstractItemView子类如:QTreeView、QTableVie…

阅读更多...

Java 23种设计模式（9.结构型模式-外观模式）

Java 23种设计模式（9.结构型模式-外观模式）

结构型模式-外观模式代码详解类图代码 public class SubOne {public void method1(){System.out.println("method1");} }public class SubTwo {public void method2(){System.out.println("method2");} }public class SubThree {public void method3(…

阅读更多...

VSCode配置C/C++环境

VSCode配置C/C++环境

(1).配置编译器接下来配置编译器路径，按快捷键CtrlShiftP调出命令面板，输入C/C，选择“Edit Configurations(UI)”进入配置。这里配置两个选项： - 编译器路径：D:/mingw-w64/x86_64-8.1.0-win32-seh-rt_v6-rev0/mingw64…

阅读更多...

3D创作元素将入住下一代Windows 10和HoloLens中

3D创作元素将入住下一代Windows 10和HoloLens中

新 Windows 10 将会带来崭新的 3D 特性，任何用户都可以通过内置的工具来制作发布有关「3D、增强现实 AR 和混合现实 (mixed reality) 的游戏和素材」。北京时间 10 月 26 号晚 10 点，微软在纽约召开的新品发布会如期而至。会上微软发布了大家期待已久的…

阅读更多...

【Linux】进程的概念 | 进程控制块 PCB | task_struct

【Linux】进程的概念 | 进程控制块 PCB | task_struct

🤣 爆笑教程 👉 《看表情包学Linux》👈 猛戳订阅 🔥 💭 写在前面：本章我们将带着大家深入理解 "进程" 的概念，"进程" 这个概念其实使我们一直在接触的东西，只不…

阅读更多...

浅谈操作系统

浅谈操作系统

操作系统是一组主管并控制计算机操作、运用和运行硬件、软件资源和提供公共服务来组织用户交互的相互关联的系统软件程序。根据运行的环境，操作系统可以分为桌面操作系统，手机操作系统，服务器操作系统，嵌入式操作系统等。通俗来…

阅读更多...

Three.js坐标系与变换矩阵快速入门

Three.js坐标系与变换矩阵快速入门

很多东西汇集在一起构成一个美丽的 3D 场景，例如光照、材质、模型、纹理、相机设置、后期处理、粒子效果、交互性等等，但无论我们创建什么样的场景，没有比这更多的了比组成它的乐曲的排列和运动更重要。要创建建筑效果图，我们必…

阅读更多...

CDH数仓项目(一) —— CDH安装部署搭建详细流程

CDH数仓项目(一) —— CDH安装部署搭建详细流程

0 说明本文以CDH搭建数据仓库，基于三台阿里云服务器从零开始搭建CDH集群，节点配置信息如下： 节点内存安装服务角色chen10216Gcloudera-scm-serverchen1038Gcloudera-scm-agentchen1048Gcloudera-scm-agent 上传需要用到的安装包&#xff1…

阅读更多...

[NPUCTF2020]ezinclude

[NPUCTF2020]ezinclude

目录前提知识信息收集解题思路前提知识 PHP LFI 利用临时文件 Getshell 姿势-安全客 - 安全资讯平台 PHP LFI 利用临时文件Get shell php7 Segment Fault（7.0.0 < PHP Version < 7.0.28） PHPINFO特性信息收集查看源码 <!--md5($secr…

阅读更多...

【进阶】Spring MVC程序开发

【进阶】Spring MVC程序开发

努力经营当下，直至未来明朗！ 文章目录一、Spring MVC概述1. MVC定义2. MVC和Spring MVC的关系二、为什么要学Spring MVC三、如何学Spring MVC一） 实现用户和程序的映射方法1：路由RequestMapping(“/xxx”)方法2： 使用P…

阅读更多...

Python纯手动搭建BP神经网络（手写数字识别）

Python纯手动搭建BP神经网络（手写数字识别）

来源：投稿作者：张宇编辑：学姐实验介绍实验要求： 实现一个手写数字识别程序，如下图所示，要求神经网络包含一个隐层，隐层的神经元个数为15。整体思路： 主要参考西瓜书第五章神…

阅读更多...

一款超赞的算法可视化工具，让算法过程动态展示出来

一款超赞的算法可视化工具，让算法过程动态展示出来

从文字或者图片中学习算法还是一件很无聊的事。当然，现在有许多很棒的网站可以查看各种算法的动画。然而，对于开发人员来说，如果能将实现算法的代码的实际执行操作通过可视化展现出来，那就是最好不过了。推荐一款开源工具&#xf…

阅读更多...

深度学习——编码器

深度学习——编码器

1.复习CNN 在CNN中，输入一张图片，经过多层的卷积层，最后输出层判别图片中的物体的类别。 CNN使用卷积层做特征提取（编码），使用Softmax回归做预测（解码） ①编码器：将输入…

阅读更多...

ArrayList扩容机制~

ArrayList扩容机制~

ArrayList()//会使用长度为零的数组 ArrayList(int initialCapacity)//会使用指定容量的数组 public ArrayList(Collection<?extends E>c>//会使用c的大小作为数组容量假设我们设置一个列表的最初容量为10，如下所示： ArrayList<Integer>…

阅读更多...

【Python从入门到进阶】5、变量的定义及数据类型

【Python从入门到进阶】5、变量的定义及数据类型

接上篇《4、pycharm的安装及使用》上一篇我们学习了python编程工具pycharm的安装及基本使用。后续篇章我们正式来学习Python语言的语法和特性，本篇我们主要学习Python变量的定义及数据类型。一、注释 1、注释介绍在工作编码的过程中，如果一段代码的…

阅读更多...

（深度学习快速入门）第三章第三节4：深度学习必备组件之TensorBoard和标准化技术

（深度学习快速入门）第三章第三节4：深度学习必备组件之TensorBoard和标准化技术

文章目录一：TensorBoard（1）TensorBoard介绍（2）Pytorch安装TensorBoard（3）TensorBoard使用（4）服务器tensorboard本地显示（5）AutoDL等算力平台tenso…

阅读更多...

推荐文章

最新文章