大数据学习（1）-Hadoop

大数据学习（1）-Hadoop

news2025/12/22 19:03:08

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博>主哦🤞

Hadoop是一个开源的分布式计算平台，用于处理大规模数据集。Hadoop的核心组件包括：

HDFS（Hadoop Distributed File System）

MapReduce和Yarn。

Hadoop的运行机制基于分布式计算的概念，即将大规模的计算任务分解为多个小任务，并在多台计算机上并行处理。Hadoop集群由多个节点组成，包括一个NameNode和若干个DataNode。NameNode负责管理文件系统的元数据，而DataNode负责存储实际的数据。

Hadoop的运行过程包括以下几个步骤：

数据准备：将待处理的数据上传到HDFS中，可以使用Flume、Sqoop等工具将数据从其他系统导入到HDFS。
编写MapReduce程序：使用Java语言编写MapReduce程序，将计算任务划分为Map阶段和Reduce阶段。
提交任务：将编写好的MapReduce程序提交到Yarn中，Yarn负责资源的分配和管理。
任务执行：Yarn将MapReduce任务分解为多个小任务，并在集群中的不同节点上并行执行。在Map阶段，数据被划分为若干个小块，并在不同节点上进行处理；在Reduce阶段，Map阶段的输出被收集和汇总，以生成最终的结果。
结果输出：处理完成后，结果将输出到HDFS中，可以使用Hive、HBase等工具进行结果查询和分析。

在运行过程中，Hadoop涉及到了多个技术栈，包括：

HDFS：Hadoop分布式文件系统，用于存储大规模数据。
MapReduce：Hadoop的核心计算模型，用于处理大规模数据集。
Yarn：Hadoop的资源管理器，用于管理和分配集群中的计算资源。
Hive：基于Hadoop的数据仓库工具，提供了类似于SQL的查询语言。
HBase：基于Hadoop的分布式数据库，用于存储非结构化和半结构化数据。
Flume：Hadoop的数据采集工具，用于将数据从不同的数据源导入到HDFS中。
Sqoop：Hadoop的数据导入导出工具，用于在关系型数据库和Hadoop之间进行数据迁移。

Hdfs存储：

HDFS中每个数据节点可以存储的数据量取决于节点的硬盘大小。对于单个节点，其存储容量为磁盘容量减去配置文件（hdfs-site.xml）中的参数值dfs.datanode.du.reserved。对于一个集群，其总容量取决于所有DataNode节点的硬盘大小之和。但是需要注意的是，还需要考虑集群的备份数量。例如，如果备份数量为3，集群总容量为3TB，则实际可以存储的文件容量为1TB。

大数据技术栈非常多，但是并不需要全部都懂，了解即可，我也是刚刚开始学习不久，欢迎大家的批评指正。之后会持续更新大数据了！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1072488.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Agilent安捷伦3458A八位半万用表

Agilent安捷伦3458A八位半万用表

Agilent 3458A突破了生产测试，科研与开发及校准实验室在速度与精度上长时期的性能壁垒，是惠普公司提供的快速，灵活且精确的多用表。在你的系统中或工作台上， 3458A以空前的测试系统吞吐量和精度、七种功能的测量灵活性&#xff0…

阅读更多...

Ubuntu 18.04 OpenCV3.4.5 + OpenCV3.4.5 Contrib 编译

Ubuntu 18.04 OpenCV3.4.5 + OpenCV3.4.5 Contrib 编译

目录 1 依赖安装 2 下载opencv3.4.5及opencv3.4.5 contrib版本 3 编译opencv3.4.5 opencv3.4.5_contrib及遇到的问题 1 依赖安装首先安装编译工具CMake，命令安装即可： sudo apt install cmake 安装Eigen： sudo apt-get install libeigen3-…

阅读更多...

解决Mysql8.0不存在mysql.proc表

解决Mysql8.0不存在mysql.proc表

摘自MySQL8.0官方文档： The parameters and routines data dictionary tables together supersede the proc table from before MySQL 8.0. 大概意思说，在mysql database中parameters表和routines数据字典表一起取代了MySQL 8.0之前的proc表。 MySQL 8.0…

阅读更多...

前端uniapp生成海报并保存相册

前端uniapp生成海报并保存相册

uiapp插件目录图片qrcode.vue源码完整版封装源码qrcodeSwiper.vue最后图片 qrcode.vue源码完整版 <template><view class"qrcode"><div class"qrcode_swiper SourceHanSansSC-Normal"><!-- <cc-scroolCard :dataInfo"dat…

阅读更多...

巧用excel实现试卷向表格的转换

巧用excel实现试卷向表格的转换

MID($E$10,FIND(D14,$E$10,1),FIND(D15,$E$10,1)-FIND(D14,$E$10,1)) MID($E$10,FIND(D15,$E$10,1),FIND(D16,$E$10,1)-FIND(D15,$E$10,1)) 中华人民共和国司法部

阅读更多...

1130 - Host ‘192.168.10.10‘ is not allowed to connect to this MysOL server

1130 - Host ‘192.168.10.10‘ is not allowed to connect to this MysOL server

mysql 远程登录报错误信息：1130 - Host 124.114.155.70 is not allowed to connect to this MysOL server //需要在mysql 数据库目录下修改 use mysql; //更改用户的登录主机为所有主机，%代表所有主机 update user set host% where userroot; //刷新权…

阅读更多...

nginx与tomcat绑定联合工作配置实例（内容来自网上，学习笔记，仅供交流学习使用无商业目的，如有侵权，通知我立马删除)

nginx与tomcat绑定联合工作配置实例（内容来自网上，学习笔记，仅供交流学习使用无商业目的，如有侵权，通知我立马删除)

阅读更多...

uni-app 实现考勤打卡功能

uni-app 实现考勤打卡功能

一、在页面中引入地图组件 <map id"map" style"width: 100%; height: 100%" :latitude"myLatitude" :longitude"myLongitude" :circles"circles" :markers"markers"> </map>属性名类型说明longitudeN…

阅读更多...

IDEA自定义代码快捷指令

IDEA自定义代码快捷指令

在IDEA中，有很多默认的代码快捷指令，例如输出（sout）、main方法（psvm）等，有时候，我们也需要自定义一些常用的代码片段，例如执行时间打印等，这时候，…

阅读更多...

阿桂天山的技术小结:Flask对Ztree树节点搜索定位

阿桂天山的技术小结:Flask对Ztree树节点搜索定位

话不多说,上图上源码 1.先看效果图 2.前端页面部分: 1)页面 <!DOCTYPE html> <HTML><HEAD><TITLE>Ewangda 阿桂天山的Ztree实战</TITLE><meta http-equiv"content-type" content"text/html; charsetUTF-8"><link…

阅读更多...

vue脚手架项目创建及整理

vue脚手架项目创建及整理

环境准备首先安装node,如果项目需要指定node版本可以按装nvm控制版本创建vue vue create 项目名选择对应版本这边我是选的自定义，就是第三个选项，可以提前给我下好 router vuex什么的（空格） 选项如图标注等待下载所需的…

阅读更多...

什么是Spring

什么是Spring

一、前言参与java项目开发的工作，没有人可以离开Spring，但是什么是Spring呢？我们平时可以说对于这个概念早已经是熟视无睹。今天我还特意查看了官网的介绍，但是上面竟然没有说明Spring是什么，之说了Spring的特征和能…

阅读更多...

这道面试题工作中经常碰到，但 99% 的程序员都答不上来

这道面试题工作中经常碰到，但 99% 的程序员都答不上来

小时候都被问过一个脑筋急转弯，把大象放进冰箱有几个步骤？我们一开始都会抓耳挠腮，去想着该如何把大象塞进冰箱。最终揭晓的答案却根本不关心具体的操作方法，只是提供了 3 个步骤组成的流程，「把冰箱打开，把…

阅读更多...

MQTT服务器源码解析

MQTT服务器源码解析

目录 1、关于header问题 2、MQTT 连接参数的使用 2.1连接地址 2.2 基于 TCP 的 MQTT 连接 2.3 基于 WebSocket 的连接 3、订阅topic 4、推送消息给订阅者 5、QOS 机制 5.1 QOS是什么 5.2 QOS的实现原理 5.3 发送流程 6、reatain机制总结：给还没上线的…

阅读更多...

节日灯饰灯串灯出口欧洲CE认证检测

节日灯饰灯串灯出口欧洲CE认证检测

灯串（灯带），这个产品的形状就象一根带子一样，再加上产品的主要原件就是LED，因此叫做灯串或者灯带。2022年，我国灯具及相关配件产品出口总额超过460亿美元。其中北美是最大的出口市场。其次是欧洲市场&#…

阅读更多...

传奇开服教程GOM传奇引擎外网全套架设教程

传奇开服教程GOM传奇引擎外网全套架设教程

传奇开服教程：GOM引擎外网架设教程准备工具：版本，DBC数据库，传奇客户端，服务器，备案域名架设传奇外网GOM引擎版本之前我们连接登录服务器，我们把版本，DBC数据库，传奇…

阅读更多...

会议邀请 | 思腾合力邀您共赴PRCV 2023第六届中国模式识别与计算机视觉大会

会议邀请 | 思腾合力邀您共赴PRCV 2023第六届中国模式识别与计算机视觉大会

第六届中国模式识别与计算机视觉大会（The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023）将于2023年10月13日至15日在厦门举办。PRCV 2023由中国计算机学会（CCF）、中国自动化学会（CA…

阅读更多...

Java8实战-总结38

Java8实战-总结38

Java8实战-总结38 默认方法概述默认方法默认方法的使用模式可选方法行为的多继承默认方法概述默认方法默认方法是Java 8中引入的一个新特性，希望能借此以兼容的方式改进API。现在，接口包含的方法签名在它的实现类中也可以不提供实现。缺失的方法实现…

阅读更多...

静电除尘器的工作原理及使用说明

静电除尘器的工作原理及使用说明

静电除尘器是一种通过静电场将空气中的颗粒物带电并吸附到电极上，再利用机械振打或气流将颗粒物从电极上清除的空气净化设备。以下是静电除尘器的工作原理及使用说明： 工作原理： 静电除尘器主要由电极系统、电源系统、收尘系统、清灰系统等…

阅读更多...

计算机的分类

计算机的分类

文章目录前言一、超级计算机二、大型计算机三、迷你计算机（服务器）四、工作站五、微型计算机前言世界上所有的计算机总共分为五类：超级计算机、大型计算机、迷你计算机、工作站、微型计算机。今天就简单介绍下各自特点和用途。一、超级计…

阅读更多...

推荐文章

最新文章