Apache Hadoop概述

news2025/2/12 17:44:21

Hadoop是一个开源的分布式计算框架,它可以处理大规模的数据集。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce编程模型。HDFS是一个高度容错性的系统,可以在数百台服务器上存储PB级别的数据。MapReduce是一种编程模型,它可以将大型数据集分割成小块,并在集群中的每个节点上并行处理这些小块。
官网:Apache Hadoop :https://hadoop.apache.org/

Hadoop核心组件

Hadoop HDFS(分布式文件存储系统):解决海量数据存储
Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度
Hadoop MapReduce(分布式计算框架):解决海量数据计算。

Hadoop优点

  1. 可扩展性:Hadoop可以轻松地扩展到数千台服务器,以处理大规模的数据集。这使得它成为处理大数据的理想选择。
  2. 高容错性:HDFS具有高容错性,可以在多个节点上存储数据,并且在某个节点出现故障时可以从其他节点恢复数据。
  3. 低成本:Hadoop是开源的,因此它的成本非常低。此外,由于它是分布式的,因此不需要昂贵的硬件来运行。
  4. 高性能:MapReduce编程模型允许在集群中的每个节点上并行处理数据,从而提高了处理速度。
  5. 灵活性:Hadoop支持多种编程语言,包括Java、Python和Ruby等。这使得开发人员可以根据自己的需求选择最适合自己的语言进行开发。

Hadoop生态圈

当下的Hadoop已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多

框架用途
HDFS分布式文件系统
MapReduce分布式运算程序开发框架
ZooKeeper分布式协调服务基础组件
HIVE基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作
FLUME日志数据采集框架
oozie工作流调度框架
Sqoop数据导入导出工具(比如用于mysql和HDFS之间)
Impala基于hive的实时sql查询分析
Mahout基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Hadoop起源

Hadoop之父:Doug Cutting
在这里插入图片描述
开始是谷歌的三篇论文:
《The Google file system》:谷歌分布式文件系统GFS
《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架
《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
感兴趣的朋友可以去看看。

Hadoop集群

HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
1. 逻辑上分离:两个集群互相之间没有依赖、互不影响
2. 物理上在一起:某些角色进程往往部署在同一台物理服务器上
HDFS集群负责海量数据的存储,集群中的角色主要有:
NameNode、DataNode、SecondaryNameNode
YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:
ResourceManager、NodeManager

英文名称简称中文名称描述
NameNodeNN名称节点作为 HDFS 的管理者,接收并处理 Client 向 Hadoop 集群发送请求以及接收来自DataNode 节点周期性的上报信息。 具体职责如下: 1、配置副本策略。 2、处理客户端读写请求。 3、管理数据块(Block)映射信息,以元数据的形式存储于 Fsimage 镜像文件中。 4、管理 HDFS 的名称空间。
DataNodeDN数据节点接收 NameNode 下达的命令,DataNode 执行实际的操作。 具体职责如下: 1、存储实际的数据块。 2、执行数据块的读/写操作。
SecondaryNameNodeSNN主角色辅助角色并非 NameNode 的热备。当 NameNode 宕机或是无效时,它并不能马上替换NameNode 并提供服务,仅当 NameNode 重启或是热备的 NamenNode 激活时将宕机前所保留集群的快照发送给 NameNode,便于恢复此前集群的状态。 具体功能如下: 1、存辅 NameNode,分担其工作量。 2、定期合并 Fsimage 和 Edits,并推送给 NameNode。 3、在紧急情况下,可辅助恢复 NameNode。
ResourceManagerRM资源在Yarn框架设计中其采用了Master/Slave结构,其中Master实现为ResourceManager,负责整个集群资源的管理与调度;Slave实现为NodeManager,负责单个节点的资源管理与任务启动。ResourceManager是整个Yarn集群中最重要的组件之一,其主要的功能包括ApplicationMaster的管理(启动、停止等)、NodeManager管理、Application管理、状态机管理等;并且ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序;
NodeManagerNM调度NodeManager是运行在单个节点上的代理,它管理Hadoop集群中单个计算节点,功能包括与ResourceManager保持通信,管理Container的生命周期、监控每个Container的资源使用(内存、CPU等)情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务等。

集群部署方式

Hadoop部署方式分三种:

  1. standalone mode(独立模式)
    独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
  2. Pseudo-Distributed mode(伪分布式模式)
    伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
  3. Cluster mode(群集模式)
    集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/639777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

css基础知识二:CSS选择器有哪些?优先级?哪些属性可以继承?

一、选择器 CSS选择器是CSS规则的第一部分 它是元素和其他部分组合起来告诉浏览器哪个HTML元素应当是被选为应用规则中的CSS属性值的方式 选择器所选择的元素&#xff0c;叫做“选择器的对象” 我们从一个Html结构开始 <div id"box"><div class"o…

k8s 探针

1.前言 Kubernetes探针(Probe)是用于检查容器运行状况的一种机制。探针可以检查容器是否正在运行&#xff0c;容器是否能够正常响应请求&#xff0c;以及容器内部的应用程序是否正常运行等。在Kubernetes中&#xff0c;探针可以用于确定容器的健康状态&#xff0c;如果容器的健…

Prometheus+Grafana安装极简教程

目录 初始化监控主机 安装go环境 安装Prometheus 安装Grafana 初始化被监控主机 监控主机配置监控被监控主机 课后 初始化监控主机 安装go环境 下载对应的go版本&#xff0c;解压&#xff0c;设置环境变量 export GOROOT/usr/local/go export PATH$PATH:$GOROOT/bin 执…

alist与Raidrive配置开机自动启动,开机就可以拥有网盘硬盘!

目录 1. alist配置为开机自动启动服务1.1 制作一个alist启动命令行1.2 将VBS添加到开机启动项 2. Raidrive设置开机启动2.1 进入设置2.2 添加到启动项 总结 欢迎关注 『发现你走远了』 博客&#xff0c;持续更新中 欢迎关注 『发现你走远了』 博客&#xff0c;持续更新中 1. al…

大数据治理入门系列:数据质量

无论您是数据领域的专业人员&#xff0c;还是其他领域的非专业人士&#xff0c;也许都曾遇到过数据不完整、数据过时、数据不一致、数据不准确等问题。这些低质量的数据不仅没能解决最初的疑问&#xff0c;甚至还可能衍生出了其他问题。质量低劣的数据会影响数据分析结果&#…

代码随想录刷题第52天|LeetCode300最长递增子序列、 LeetCode674最长连续递增序列、LeetCode718最长重复子数组

1、LeetCode300最长递增子序列 题目链接&#xff1a;300最长递增子序列 1、dp[i]表示i之前包括i的以nums[i]结尾的最长递增子序列的长度。 2、递推公式&#xff1a; if (nums[i] > nums[j]) dp[i] max(dp[i], dp[j] 1); 注意这里不是要dp[i] 与 dp[j] 1进行比较&…

Rust X DatenLord l Rust China Conf 2023 倒计时!

Rust语言作为一种强调性能、安全和并发性的新的编程语言&#xff0c;吸引了越来越多的程序员想要尝试学习和使用Rust。达坦科技&#xff08;DatenLord&#xff09;旗下的开源项目Xline &#xff08;用于元数据管理的分布式KV存储&#xff09;就是用Rust写就的&#xff0c;我们也…

android remount 工作原理简介

android remount 在调试android 系统的时候是个非常有用的调试手段&#xff0c; 有remount 的帮助&#xff0c; 可以轻松的修改系统分区的某些文件&#xff0c;或者在系统分区添加删除文件。但有时候remount 也会因为一些verity&#xff0c; checkpoint &#xff0c;和remount …

【python数据可视化】Matplotlib绘图练习(一)

目录 Matplotlib &#x1f947;Summary 获取源码&#xff1f;私信&#xff1f;关注&#xff1f;点赞&#xff1f;收藏&#xff1f; Python数据可视化的由来主要是因为数据可视化在数据分析领域扮演了至关重要的角色。这是因为&#xff0c;数据可视化能够更好地向人们展示大量…

电脑老是自动更新怎么办?教你一招彻底解决

前言 这两天有粉丝留言问我&#xff1a;电脑老是提示自动更新&#xff0c;而且关也关不掉&#xff0c;这该怎么办&#xff1f; 今天就教大家如何彻底关掉电脑的系统自动更新功能&#xff0c;以后永远不再自动更新。 一、关闭更新服务 1. 同时按下键盘winR键&#xff0c;打开运…

SQL 知识你知道吗:公共表表达式(CTE)

一、概念 公共表表达式&#xff08;CTE&#xff09;是一种临时命名查询结果集的方式&#xff0c;可以在一个查询语句中多次引用。CTE在查询语句中定义&#xff0c;可以在查询语句中的任何位置使用&#xff0c;并且只在查询语句执行期间存在。CTE通常用于简化复杂的查询&#x…

1个暑假能学会多少网络安全技能?

现在可以看到很多标题都声称三个月内就可以转行网络安全领域&#xff0c;并且成为月入15K的网络工程师。那么&#xff0c;这个暑假的时间能学多少网络安全知识&#xff1f;是否能入门网络安全工程师呢&#xff1f; 答案是肯定的。 虽然网络完全知识是一门广泛的学科&#xff…

微信授权登录

网站应用微信登录是基于OAuth2.0协议标准构建的微信OAuth2.0授权登录系统。 在进行微信OAuth2.0授权登录接入之前&#xff0c;在微信开放平台注册开发者帐号&#xff0c;并拥有一个已审核通过的网站应用&#xff0c;并获得相应的AppID和AppSecret&#xff0c;申请微信登录且通过…

ConcurrentHashMap简单了解

早期ConcurrentHashMap&#xff1a; 通过分段锁Segment实现&#xff0c;将锁一段一段存储&#xff0c;默认会分配16个segment&#xff0c;当一个线程占用一把锁segment访问其中一段数据的时候&#xff0c;位于其它segment的数据也能被其它线程同时访问&#xff0c;每个segment分…

面板安全能力持续增强,新增日志审计功能,1Panel开源面板v1.3.0发布

2023年6月12日&#xff0c;现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.3.0版本。 在这一版本中&#xff0c;1Panel进一步增强了安全方面的能力&#xff0c;包括新增SSH配置管理、域名绑定和IP授权支持&#xff0c;以及启用网站防盗链功能。此外&#xff0c;该版本…

【C#】并行编程实战:序章

前言 本文主要是基于这本书学习的&#xff1a; 《并行编程实战&#xff1a;基于C#8和.NET Core 3》&#xff0c;我当时买的实体书&#xff0c;长下面这个样子。我买了大概浏览了一下&#xff0c;感觉内容还行&#xff08;基本都是没见过的新东西&#xff09;&#xff0c;所以打…

计算机提示由于找不到VCRUNTIME140.dll,无法继续执行代码,重新安装程序可能会解决

vcruntime140.dll文件是一个动态链接库&#xff0c;是Windows操作系统中非常重要的一个动态链接库文件&#xff0c;用于支持使用Microsoft Visual C编译器创建的应用程序的运行。当我们运行的软件是有C编译器创建的程序&#xff0c;就需要到系统的vcruntime140.dll&#xff0c;…

数学模型:Python实现微分方程

文章摘要&#xff1a;微分方程的Python实现。 参考书籍&#xff1a;数学建模算法与应用(第3版)司守奎 孙玺菁。 PS1&#xff1a;只涉及了具体实现并不涉及底层理论。没有给出底层理论参考书籍的原因是不想做这个方向吧。所以对我只要掌握基本模型有个概念那就好了。 PS2&#x…

年度创新企业奖!移远通信成推动AIoT融合落地关键力量

6月8日&#xff0c;由ASPENCORE主办的2023国际AIoT生态发展大会在深圳召开&#xff0c;移远通信受邀出席大会并发表演讲&#xff0c;同时凭借在5G、AIoT等领域的持续创新荣获“年度创新企业”奖&#xff01; 5GAIoT“双引擎” 重塑物联产业 近些年&#xff0c;从互联网、物联网…

汽车仪表中控开发中视频相关的一些知识点

前言: 做汽车仪表/IVI中控,尤其是IVI信息娱乐部分,都要涉及到视频这个知识点,各种概念很多,首先需要明确一条主线,那就是SDTV标清电视->HDTV高清电视->UHDTV超高清电视的一个发展脉络,BT601/656是SDTV标清电视接口,BT1120则对应HDTV高清电视接口。ITU-R BT.601/6…