1. Hadoop 入门

news2026/2/13 1:42:48

在这里插入图片描述

1. Hadoop 入门

1. 大数据概述

1. 大数据相关说明

大数据由来： 传统数据处理应用软件不足以处理（存储和计算）它们大而复杂的数据集

大数据面临的两大问题： 针对海量数据的 存储、计算

大数据的特性：容量大、种类多、速度快、价值高

大数据部门的一般业务流程：

项目经理提出需求，例如统计日活、周活、月活、年度账单等
大数据部门的大数据平台或系统，分析一些需求指标
数据可视化

大数据部门的一般组织架构：

2. Hadoop 及大数据生态圈

Hadoop 是 Apache 旗下的一套开源软件平台，利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理。即 存储 + 计算

Hadoop 三大发行版本：Apache、Clouddera、Hortonworks

3. Hadoop 核心组件

HDFS（Hadoop Distributed File System）：分布式文件系统，解决存储问题

YARN（Yet Another Resource Negotiator）：运算资源调度系统

MapReduce（Map和Reduce）：分布式远程运算框架

Common：以上三大组件的底层支撑组件（基础功能组件），主要提供基础工具包和 RPC 框架等

4. Hadoop 生态圈

Ambari：基于 web 的工具配置

Avro：数据系列化系统

Cassandra：没有单点故障的可伸缩的多主机数据库

Chukwa：可管理大型分布式系统的数据采集系统

HBase：可扩展的分布式的数据库，支持大型表的结构化数据存储，是一种浓缩型数据库

Hive：数据仓库的基础设施，提供数据的总结和特别查询

Mahout：可扩展的机器学习和数据挖掘的库

Pig：一种高级的数据流语言

Spark：Hadoop 快速通用的计算引擎，提供了简单和丰富的编程模型，支持广泛的应用程序

Tez：一个广义的数据流的编程框架，基于 Hadoop 的 YARN，提供功能强大且灵活的引擎，来执行 DAG

Zookeeper：高性能的分布式应用程序的协调服务（只要有协调的就看 Zookeeper）

5. 集群安装模式

单机模式
伪分布式模式
分布式模式
高可用模式
联邦模式

6. HDFS 和 YARN 的服务种类

1. HDFS 服务（进程）

NameNode：主节点
DataNode：从节点
SecondaryNameNode：主节点的辅助节点（协助 NameNode 合并元数据信息）

2. YARN 服务（进程）

ResourceManager（主节点）
NodeManager（从节点）

7. 知识点

Hadoop 计算和存储在一起，因为移动计算比移动数据成本低
Hadoop 上传文件指定用户（如 root）时不需要其密码
Hadoop fs 在 Linux 系统中的文件位置，是在指定的 data 目录下
集群中发现某个表有一千多万个小文件，想办法怎么合并一下？
- 答：把小文件拉取下来，使用命令行合并，不要直接操作服务器上的那些小文件

2. Hadoop（HDFS/YARN）启动

注意：在启动 Hadoop 服务之前先启动 Zookeeper

1. 第一次启动 Hadoop 服务前先在三台机器上格式化 nodeman

hdfs namenode -format

2. 启动方式

方式一：一次性把 hdfs 和 yarn 都启动

start-all.sh		# 启动服务
stop-all.sh			# 停止服务

方式二：一个一个启动

start-hdfs.sh		# 启动hdfs
start-yarn.sh		# 启动yarn

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/618221.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

1. Hadoop 入门

1. Hadoop 入门

1. 大数据概述

1. 大数据相关说明

2. Hadoop 及大数据生态圈

3. Hadoop 核心组件

4. Hadoop 生态圈

5. 集群安装模式

6. HDFS 和 YARN 的服务种类

7. 知识点

2. Hadoop（HDFS/YARN）启动

相关文章

VFP使用BLOB字段存取图片到SQL2000，显示出来也EASY

c++11 标准模板（STL）（std::bitset）（六）

港科夜闻｜海南省教育厅党委书记曹献坤到访香港科大(广州)开展实地调研

C盘爆了怎么办

被吐槽，苹果挤牙膏式发布会，跟微信产品迭代如出一辙

ISO21434 产品开发网络安全（七）

Yakit: 集成化单兵安全能力平台使用教程·反连管理篇

直播抽奖功能（互动功能接收端JS-SDK）

Shell脚本：for循环

Vue+springboot美发美容化妆品产品商城系统

C++递推基本概念和基础知识

MIT 6.824 lab distributed system 分布式系统（1）----lab1 MapReduce

【观察】金融行业决策智能化“换挡提速” 华为全球智慧金融峰会2023值得期待...

某公司招了一个大专生，候选人要一万月薪，HR给申请一万二，HR领导说：给一万三！...

用于分析脉冲类信号的二阶瞬态提取变换研究（Matlab代码实现）

【TCP/IP】基于TCP的服务器端/客户端 II - 迭代服务器/客户端的概念与实现

干货 | 郭晓雷：数智安全监管机制研究与思考

【U8+】用友U8查询出库汇总表没有“计量单位”列

可再生能源的不确定性和储能系统的时间耦合的鲁棒性和非预期性区域微电网的运行可行性研究（Matlab代码实现）

4.Python高频函数—数据分割split()