【大数据】第一章：了解Hadoop生态圈

news2026/2/14 20:28:07

大数据特点（4V）

Volume(大量)

非常非常多，大企业数据接近1EB
在这里插入图片描述

Velocity(高速)

比如在双十一，数据爆增

Variety(多样)

很多样子的数据，比如，代码，图片，视频，JSON，等等。

Value(低价值密度)

很多数据都是没用的，需要人为去掉无效数据

Hadoop的四大优势

高可靠性

每一个文件服务器，都会备份其他服务器的数据。这样，即使一台服务器的数据丢失，也不会导致数据丢失。

高扩展性

想加一台服务器就加，想减一台服务器就减。

高效性

每一台服务器都是并行操作的，效率很高。

高容错性

一台服务器任务中途停止，会将任务转移到其他服务器上。

Hadoop的组成

Hadoop1.0时代

MapReduce 负责计算和资源调度
HDFS 负责数据的存储
Common负责辅助

Hadoop2.0时代

MapReduce 单纯负责计算
Yarn 负责资源调度
HDFS 负责数据的存储
Common负责辅助

HDFS架构概述

HDFS的英文全称为（Hadoop Distributed File System）意为
Hadoop 分布式文件系统，这就很好理解为什么HDFS这几个字母负责数据的存储了。

Hadoop当中，

DataNode

DataNode负责存储具体的数据和数据的校验工作，可以理解为子节点

NameNode

NameNode 负责存储具体的数据存在哪个子节点当中，也就是DataNode的文件名，文件路径等等。可以理解为父节点

Second NameNode(2NN)

每隔一段时间备份NameNode的数据，防止NameNode数据丢失造成的全盘皆失。

YARN架构概述

在这里插入图片描述

MapReduce架构概述

MapReduce的计算过程，分为Map过程和Reduce过程
1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总
在这里插入图片描述

HDFS、YARN、MapReduce三者关系

在这里插入图片描述

大数据的生态体系

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/157864.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【C++】八大排序

【C++】八大排序

文章目录前言1. 插入排序2. 希尔排序3. 选择排序4. 堆排序5. 冒泡排序6. 快速排序(重点)6.1 快速排序(hoare版本)6.2 快速排序(挖坑法)6.3 快速排序(前后指针法)6.4 快速排序(非递归)6.5 快速排序(优化)7. 归并排序7.1 归并排序(递归实现)7.2 归并排序非递归实现8. 计数排序排序…

阅读更多...

Docker搭建PHP运行环境

Docker搭建PHP运行环境

目录 Docker 安装 PHP Docker 安装 Nginx 编辑运行nginx容器 nginx安装成功 Nginx PHP 部署PHP项目启动 PHP： 启动 nginx： 查看正在运行的容器: 访问域名测试搭建结果 Docker相关命令描述 Docker 安装 PHP 这里我们拉取官方的镜像,标签…

阅读更多...

代码随想录算法训练营第8天 344.反转字符串、541. 反转字符串II、剑指Offer58-II.左旋转字符串

代码随想录算法训练营第8天 344.反转字符串、541. 反转字符串II、剑指Offer58-II.左旋转字符串

代码随想录算法训练营第8天 344.反转字符串、541. 反转字符串II、剑指Offer58-II.左旋转字符串反转字符串力扣题目链接(opens new window) 编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。对于字符串，我…

阅读更多...

Linux驱动开发基础__Linux 系统对中断处理的演进

Linux驱动开发基础__Linux 系统对中断处理的演进

目录 1 Linux 对中断的扩展：硬件中断、软件中断 2 中断处理原则 1：不能嵌套 3 中断处理原则 2：越快越好 4 要处理的事情实在太多，拆分为：上半部、下半部 5 下半部要做的事情耗时不是太长：tasklet…

阅读更多...

154. 滑动窗口

154. 滑动窗口

文章目录QuestionIdeasCodeQuestion 给定一个大小为 n≤106 的数组。有一个大小为 k 的滑动窗口，它从数组的最左边移动到最右边。你只能在窗口中看到 k 个数字。每次滑动窗口向右移动一个位置。以下是一个例子： 该数组为 [1 3 -1 -3 5 3 6 7]&…

阅读更多...

知识点滴 - 数据库视图概念

知识点滴 - 数据库视图概念

视图是数据库中一个非常简单的概念，写过SQL的人几乎大致了解视图。本文除了在回顾视图的本质及相关操作知识时，会重点阐述它蕴含的分层思想在数据分析工作中的作用。 1，视图的本质与作用视图是一个数据库中的虚拟表，它的本质是S…

阅读更多...

模板特化与static成员初始化

模板特化与static成员初始化

我们知道在 c 的类中，如果有static成员数据，则需要在类外进行定义，而类内那只是声明。这个在类模板中也是一样的，需要在类外进行定义。普通类模板的 static 数据的初始化，如下代码： template <class T&…

阅读更多...

SpringBoot在Controller层接收参数的常用方法（超详细）

SpringBoot在Controller层接收参数的常用方法（超详细）

前言在工作中，比如要实现一个功能，前端传什么参数，后端的controller层中怎么接收参数 ，封装成了什么实体对象，有些参数是在URL上使用，有些参数是在body上使用，service层中做了什么逻辑&#xf…

阅读更多...

数据结构（根据王道整理）

数据结构（根据王道整理）

数据结构文章目录数据结构线性结构与非线性结构链表kmp算法栈二叉树完全二叉树二叉树的存储结构二叉树的访问树的深度二叉树的层次遍历由遍历序列构造二叉树已知后序跟中序建立二叉树线索二叉树序言（土办法解决找前驱）线索二叉树存储结构中序线索二叉树…

阅读更多...

几道基础的二叉树、树的题

几道基础的二叉树、树的题

几道基础的二叉树、树的题LeetCode144.二叉树的前序遍历思路及实现方法一：递归方法二：迭代LeetCode145.二叉树的后序遍历思路及实现方法一：递归方法二：迭代LeetCode94.二叉树的中序遍历思路及实现方法一：递归方法二&am…

阅读更多...

数据结构（2）树状数组

数据结构（2）树状数组

活动 - AcWing 参考：《算法竞赛进阶指南》-lyd 目录一、概念 1.主要功能 2.实现方式 3. 二、例题 1.树状数组和逆序对 2.树状数组和差分 3. 两层差分 4. 结合二分一、概念 1.主要功能树状数组可以完成的功能主要有： 维护序列的前缀和单…

阅读更多...

pytest-pytest插件之测试覆盖率pytest-cov

pytest-pytest插件之测试覆盖率pytest-cov

简介测试覆盖率是指项目代码被测试用例覆盖的百分比，使用pytest-cov插件可以统计测试覆盖率添加链接描述安装插件pytest-cov pip install pytest-cov用法基本用法 –cov的参数是要统计代码覆盖率的源码，我将源码放在mysrc中，test_s…

阅读更多...

qiankun微应用加载第三方js跨域报错

qiankun微应用加载第三方js跨域报错

当我们在qiankun微应用，引入第三方js脚本时会产生跨域问题并报错，看qiankun的解释：常见问题 - qiankunqiankun会把静态资源的加载拦截，改用fetch方式获取资源，所以要求这些资源支持跨域。虽然qiankun也提供了解决方案&…

阅读更多...

react面试题--react入门小案例案例

react面试题--react入门小案例案例

React入门应该是这样的源码：https://github.com/dansoncut/React-beginner-tutorial-TeacherEgg.git 视频地址：https://www.bilibili.com/video/BV1be411w7iF/?spm_id_from333.337.search-card.all.click&vd_sourceae42119b44d398cd8fe181740c3e…

阅读更多...

Java线程的六种状态

Java线程的六种状态

前言：其实线程的状态在操作系统的PCB中就对其进行了描述，但是Java中觉得自带的状态并不是特别好，于是引入了线程在Java中的六种状态。 (1) NEW 安排了工作还未行动，即：Thread对象创建出来了，但是内核的PCB…

阅读更多...

开源工具 tomcat

开源工具 tomcat

Tomcat 封装了很多HTTP的操作：负责解析 HTTP 协议，解析请求数据，并发送响应数据。官网 download下的which version： Apache Tomcat - Which Version Do I Want? 可以看tomcat对jdk的版本要求。启动启动：双击…

阅读更多...

【redis6】第六章（新数据类型）

【redis6】第六章（新数据类型）

Bitmaps 简介现代计算机用二进制（位）作为信息的基础单位， 1个字节等于8位， 例如“abc”字符串是由3个字节组成， 但实际在计算机存储时将其用二进制表示， “abc”分别对应的ASCII码分别是97、 98、 99&am…

阅读更多...

SEO优化收徒站外引蜘蛛软件方法

SEO优化收徒站外引蜘蛛软件方法

SEO优化收徒站外引蜘蛛软件方法今天我们讲解站外引蜘蛛的方法，站外引蜘蛛的方法无非就是五个大点。第一个是搜索引擎的提交，我们通过是百度资源站展或者 360 或者神马头条，搜狗 bin 等等这样的一个搜索引擎去提交我们的链接。里面主要是…

阅读更多...

【css】结构选择器

【css】结构选择器

结构选择器，也称之为组合器选择器，根据它们之间的特定关系来选取元素。CSS 中有四种不同的组合器：后代选择器 (空格)子选择器 (>)相邻兄弟选择器 ()通用兄弟选择器 (~)选择器示例描述element elementdiv p选择 div 元素内部的所有 p 元素e…

阅读更多...

仗剑走天涯是梦想，仗键走天涯是坚持

仗剑走天涯是梦想，仗键走天涯是坚持

在这信息化、数字化浪潮发展中，人们办公、娱乐、学习、生活都离不开了手机电脑平板等一系列电子设备，互联网行业工作者更是不可避免的需要频繁接触到电脑、键盘、鼠标等设备，今天给大家推荐一款性价比极高的键盘Keychron K3 Pro 一、keychron…

阅读更多...

推荐文章

最新文章