【大数据之路1】Hadoop 入门

news2024/11/6 23:36:40

在这里插入图片描述

1. Hadoop 入门

    • 1. 大数据概述
      • 1. 大数据相关说明
      • 2. Hadoop 及大数据生态圈
      • 3. Hadoop 核心组件
      • 4. Hadoop 生态圈
      • 5. 集群安装模式
      • 6. Hadoop 运行模式
      • 7. Hadoop 工作流程
      • 8. Hadoop 的推行策略
      • 9. 知识点
    • 2. Hadoop 启动与服务名
      • 1. Hadoop(HDFS/YARN)启动
      • 2. HDFS 和 YARN 的服务种类

1. 大数据概述

1. 大数据相关说明

大数据由来: 传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集

大数据面临的两大问题: 针对海量数据的 存储、计算

大数据的特性:容量大、种类多、速度快、价值高

大数据部门的一般业务流程:

  1. 项目经理提出需求,例如统计日活、周活、月活、年度账单等
  2. 大数据部门的大数据平台或系统,分析一些需求指标
  3. 数据可视化

大数据部门的一般组织架构:

2. Hadoop 及大数据生态圈

​ Hadoop 是 Apache 旗下的一套开源软件平台,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。即 存储 + 计算

​ Hadoop 三大发行版本:Apache、Clouddera、Hortonworks

3. Hadoop 核心组件

HDFS(Hadoop Distributed File System):分布式文件系统,解决 存储 问题

YARN(Yet Another Resource Negotiator):运算资源 调度 系统

MapReduce(Map和Reduce):分布式远程 运算 框架

Common:以上三大组件的底层支撑组件(基础功能组件),主要提供基础工具包和 RPC 框架等

4. Hadoop 生态圈

Ambari: 基于 web 的工具配置

Avro:数据系列化系统

Cassandra:没有单点故障的可伸缩的多主机数据库

Chukwa:可管理大型分布式系统的数据采集系统

HBase:可扩展的分布式的数据库,支持大型表的结构化数据存储,是一种浓缩型数据库

Hive:数据仓库的基础设施,提供数据的总结和特别查询

Mahout:可扩展的机器学习和数据挖掘的库

Pig:一种高级的数据流语言

Spark:Hadoop 快速通用的计算引擎,提供了简单和丰富的编程模型,支持广泛的应用程序

Tez:一个广义的数据流的编程框架,基于 Hadoop 的 YARN,提供功能强大且灵活的引擎,来执行 DAG

Zookeeper:高性能的分布式应用程序的协调服务(只要有协调的就看 Zookeeper)

5. 集群安装模式

  • 单机模式
  • 伪分布式模式
  • 分布式模式
  • 高可用模式
  • 联邦模式

6. Hadoop 运行模式

  1. 独立模式(默认):不配置任何东西,Hadoop 所有组件都作为一个 Java 进程运行,这使用 本地文件系统
  2. 伪分布式模式:单节点 Hadoop 部署运行,所有 Hadoop 服务(包括主服务和从服务)都在单个计算节点上执行
  3. 完全分布式模式:Hadoop 主从服务运行在不同节点上的 Hadoop 部署

7. Hadoop 工作流程

Hadoop 是一个开源的分布式计算框架,它能够处理大规模数据集并行计算。Hadoop 的工作流程可以分为数据存储、数据处理和数据输出三个部分:

  1. 数据存储。Hadoop 通过分布式文件系统 HDFS 实现数据存储。HDFS 将数据分成多个块,并将这些块存储在不同的节点上,每个块都有多个副本,以保证数据的可靠性和高可用性。当一个节点出现故障时,HDFS 会自动将该节点上的块复制到其他节点上,以保证数据不会丢失
  2. 数据处理。Hadoop 通过分布式计算模型 MapReduce 实现数据处理。MapReduce 将数据分成多个小块,并将这些小块分配给不同的节点处理,每个节点都会执行 Map 和 Reduce 两个操作,Map 操作将输入数据转换成键值对,Reduce 操作将相同键的值进行合并。最终结果被写入 HDFS 中
  3. 数据输出。Hadoop 通过自身的输出格式实现数据输出,Hadoop 支持多种输出格式,如文本、序列化、Avro、Parquet 等。用户可根据需求选择不同的方式。输出的数据可以存入 HDFS,也可导出到其他系统中

8. Hadoop 的推行策略

如果某个节点似乎执行任务的速度较慢,则主节点可以在另一个节点上冗余的执行同一任务的另一个实例。然后,首先完成的任务将被接受,另一个被杀死。这个过程称为 ”推测执行“

9. 知识点

  • Hadoop 计算和存储在一起,因为移动计算比移动数据成本低
  • Hadoop 上传文件指定用户(如 root)时不需要其密码
  • Hadoop fs 在 Linux 系统中的文件位置,是在指定的 data 目录下
  • 集群中发现某个表有一千多万个小文件,想办法怎么合并一下?
    • 答:把小文件拉取下来,使用命令行合并,不要直接操作服务器上的那些小文件

2. Hadoop 启动与服务名

1. Hadoop(HDFS/YARN)启动

注意:在启动 Hadoop 服务之前先启动 Zookeeper

1. 第一次启动 Hadoop 服务前先在三台机器上格式化 nodeman

hdfs namenode -format

2. 启动方式

方式一:一次性把 hdfs 和 yarn 都启动

start-all.sh		# 启动服务
stop-all.sh			# 停止服务

方式二:一个一个启动

start-hdfs.sh		# 启动hdfs
start-yarn.sh		# 启动yarn

2. HDFS 和 YARN 的服务种类

1. HDFS 服务(进程)

  • NameNode:主节点
  • DataNode:从节点
  • SecondaryNameNode:主节点的辅助节点(协助 NameNode 合并元数据信息)

2. YARN 服务(进程)

  • ResourceManager(主节点)
  • NodeManager(从节点)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/624997.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

区间预测 | MATLAB实现基于QRCNN-BiGRU卷积双向门控循环单元多变量时间序列区间预测

区间预测 | MATLAB实现基于QRCNN-BiGRU卷积双向门控循环单元多变量时间序列区间预测 目录 区间预测 | MATLAB实现基于QRCNN-BiGRU卷积双向门控循环单元多变量时间序列区间预测效果一览基本介绍模型描述程序设计参考资料 效果一览 基本介绍 1.Matlab实现基于QRCNN-BiGRU卷积神经…

数据结构4:二叉树

目录 1.树概念及结构 1.1树的概念 1.3树的表示 1.4树在实际中的运用(表示文件系统的目录结构) 2.二叉树的概念及结构 2.1概念 2.2现实中的二叉树: 2.3特殊的二叉树: 2.4 二叉树的性质 2.5二叉树的存储结构 1.顺序结构 …

如何用 10 种策略改进 ChatGPT 的人工智能

你是否曾有过和AI机器人交互无果的经历?或许只是因为提示语的问题!想要ChatGPT/Bard/Bing Chat等AI机器人更智能、回应更高效? 必须学会AI提示语技巧!本文将深入解析如何用精准的语言编写提示,让您的AI聊天机器人更进一步。 为什…

从买卖股票入手谈谈DP Table

动态规划问题主要就是要明确dp函数定义、搞清楚状态以及状态转移方程 构建DP思路解析 状态 188. 买卖股票的最佳时机 IV - 力扣(LeetCode) 对于股票,我们每天有三种选择 > buy, sell, hold 限制条件有 > 天数限制(n&…

Java关键字abstract详解

abstract 1.可以用来修饰:类、方法 2.具体的: abstract修饰类:抽象类 抽象类不能实例化 抽象类中一定有构造器,便于子类实例化时调用(涉及:子类对象实例化的全过程)。 开发中,都会提…

(转载)基于蚁群算法的旅行商问题(TSP)求解(matlab实现)

蚁群算法(ant colony algorithm,ACA)是由意大利学者M.Dorigo等人于20世纪90年代初提出的一种新的模拟进化算法,其真实地模拟了自然界蚂蚁群体的觅食行为。M.Dorigo等人将其用于解决旅行商问题(traveling salesman problem,TSP),并取得了较好的实验结果。 近年来&am…

论文精读 —— Invisible Backdoor Attack with Sample-Specific Triggers

文章目录 带有样本特定触发器的隐形后门攻击论文信息论文贡献理解性翻译摘要1. 引言2. 相关工作2.1. 后门攻击2.2. 后门防御 3. 深入了解现有防御4. 样本特定的后门攻击(SSBA)4.1. 威胁模型4.2. 提出的攻击如何生成样本特定的触发器样本特定的后门攻击流…

linux学习之top命令详解

参考文章 https://blog.csdn.net/langzi6/article/details/124805024 top ​ 第一行:运行时长,负载 top - 10:04:54 up 474 days, 22:16, 2 users, load average: 2.07, 1.60, 0.94 top - 10:04:54:当前时间。 up 474 days, 22:16&#…

redis与分布式锁浅谈

redis与分布式锁浅谈 1.高并发下缓存失效问题 1.1 缓存穿透: 缓存穿透:指查询一个一定不存在的数据,由于缓存是不命中,将去查询数据库,但是数据库也无此记录,我们没有将这次查询的null写入缓存&#xff0…

windows禁用输入法

Rime 呼出菜单的快捷键 ctrl grave 跟 vs code 呼出底部命令行的快捷键冲突了,每次用 vs code 时都会用 ctrl space 将输入法禁用,让它变成一个圈叉: 由 [1],这个快捷键是 windows 系统禁用输入法的快捷键,在 Setti…

实战干货——教你用Fiddler捕获HTTPS请求

目录 安装Fiddler 配置Fiddler 配置手机 iOS机安装证书 安全思考? 总结: 安装Fiddler 这里不特别说明了,网上搜索一大把,根据安装引导一步步安装即可。(这里采用的是fiddler v4.6) fiddler抓包视频教…

深入理解Linux虚拟内存管理(六)

系列文章目录 Linux 内核设计与实现 深入理解 Linux 内核(一) 深入理解 Linux 内核(二) Linux 设备驱动程序(一) Linux 设备驱动程序(二) Linux 设备驱动程序(三&#xf…

奇安信应急响应-Windows

处置思路方法和Linux是一致的, 系统命令, 有一些整蛊的就会锁定你,不让你用鼠标点击,就通过命令其打开就好 findstr命令跟linux一样查找关键字,图中就是hello关键字,然后.txt的文件, 我们可以…

(1)HTTP与RPC区别

定义 HTTP接口使用基于HTTP协议的URL传参调用RPC接口则基于远程过程调用 http是一种协议 ,rpc是一种方法 RPC RPC服务基本架构包含了四个核心的组件,分别是Client、Server、Clent Stub以及Server Stub。 Client (客户端)&am…

【数据可视化】2D/3D动画

## 2D动画 - transform ◼ CSS3 transform属性允许你旋转,缩放,倾斜或平移给定元素。 ◼ Transform是形变的意思(通常也叫变换),transformer就是变形金刚 ◼ 常见的函数transform function有: ---- 平移:translate(x, y) ---- 缩放:scale…

600万用户在用,中国版Access上市,Excel和WPS用户直呼:太棒了

中国版的Access到底有没有? 大家都知道微软的Access功能很强大,作为office里的一款数据库软件,不仅能帮助我们进行数据的分析和处理,而且再深入一点,还可以用VBA实现一些高级的用法。不仅国外有很多用户,就…

【C++】deque的用法

目录 一、容器适配器二、deque的介绍三、deque的使用及缺陷1、deque的构造函数2、deque的元素访问接口3、deque的 iterator的使用4、deque的增删查改4、deque的缺陷5、为什么选择deque作为stack和queue的底层默认容器 一、容器适配器 在了解deque前,我们先讲一讲什…

2023年,我被迫裸辞....

作为IT行业的大热岗位——软件测试,只要你付出了,就会有回报。说它作为IT热门岗位之一是完全不虚的。可能很多人回说软件测试是吃青春饭的,但放眼望去,哪个工作不是这样的呢?会有哪家公司愿意养一些闲人呢?…

STM32F4_RS485、RS232

目录 1. 485简介 2. 串口UART存在的问题 3. RS232协议 4. RS485协议 6. 硬件分析 7. 实验程序 7.1 main.c 7.2 RS485.c 7.3 RS485.h RS232的高电平1的逻辑为-5V~-15V,低电平0的逻辑为5V~15V。高电平和TTL的0~5V不兼容,传输的距离也不够长。 1. …

SpringCloud Eureka 的详细讲解及示意图-下

SpringCloud Eureka 服务注册与发现-下 搭建EurekaServer 集群- 实现负载均衡&故障容错 为什么需要集群Eureka Server 示意图 说明 1. 微服务RPC 远程服务调用最核心的是实现高可用 2. 如果注册中心只有1 个,它出故障,会导致整个服务环境不可用…