CDH数仓项目(一) —— CDH安装部署搭建详细流程

news2025/1/11 11:50:31

0 说明

本文以CDH搭建数据仓库,基于三台阿里云服务器从零开始搭建CDH集群,节点配置信息如下:

节点内存安装服务角色
chen10216Gcloudera-scm-server
chen1038Gcloudera-scm-agent
chen1048Gcloudera-scm-agent

上传需要用到的安装包:
① CDH安装包,百度云分享如下:

链接:https://pan.baidu.com/s/1N9QBYxpgGOKtEeaw7Y3bpQ 提取码:o73t

② JDK(JDK8+),百度云连接

链接:https://pan.baidu.com/s/1BGw-y2sDLeqtA8ZSlf1JZw
提取码:08c8

1 前期准备

1.1 配置集群hosts文件

配置集群hosts文件,并将集群节点和ip映射配置到hosts文件中。
在这里插入图片描述

1.2 打通免密

  1. 生成私钥和公钥
ssh-keygen -t rsa

2)将公钥拷贝到要免密登录的目标机器上

ssh-copy-id chen102
ssh-copy-id chen103
ssh-copy-id chen104

在其他节点重复上面操作,即可

1.3 安装JDK并配置环境变量

注:CDH只能识别/usr目录下的java,这里需要将java安装在/usr目录下,这里不再赘述

1.4 安装Mysql

只需在chen102节点上安装
1)卸载mariadb

rpm -qa | grep mariadb | xargs rpm -e --nodeps

2)下载msql5.7 yum源

wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm

3)安装yum源

rpm -ivh mysql57-community-release-el7-9.noarch.rpm

在这里插入图片描述

4)安装mysql

yum -y install mysql-server

5)启动mysql

service mysqld start

6)查看root用户密码

grep 'temporary password' /var/log/mysqld.log    d9V,K1..6e.Q

7)执行mysql初始化脚本

mysql_secure_installation

8)输入新密码(至少12个字符,至少包含一个大写字母有,一个小写字母,一个数字,一个特殊字符)
9)配置root用户远程访问权限

mysql> grant all privileges on *.* to 'root' @'%' identified by 'Chen.123456';
mysql> flush privileges;

10)为CM安装mysql驱动
将mysql-connector-java-5.1.27-bin.jar拷贝到/usr/share/java路径下,并重命名

2 安装CM

2.1 搭建离线yum源

(1)将压缩包cloudera-repos.tar.gz拷贝到集群中的一台节点,解压到/var/www/html路径下

[root@chen102 ~]# tar -zxvf cloudera-repos.tar.gz -C /var/www/html

(2)进入/var/www/html/路径,并开启http服务

[root@chen102 ~]# cd /var/www/html/
[root@chen102 html]# python -m SimpleHTTPServer 8900

(3)浏览器访问该节点的8900端口,查看http服务是否正常开启
在这里插入图片描述
(4)编辑本地yum源配置文件

vim /etc/yum.repos.d/cloudera-manager.repo

文件内容如下

[cloudera-manager]
name=cloudera-manager
baseurl=http://chen102:8900/cloudera-repos/cm6/6.2.1/redhat7/yum/
enabled=1
gpgcheck=0

(5)分发该配置文件

2.2 安装CM server及agent

[root@chen102 ~]# yum -y install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server
[root@chen103 ~]# yum -y install cloudera-manager-agent cloudera-manager-daemons
[root@chen104 ~]# yum -y install cloudera-manager-agent cloudera-manager-daemons

2.3 修改CM配置文件

vim /etc/cloudera-scm-agent/config.ini

在这里插入图片描述

2.3 在Mysql中建库

mysql> CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE hive DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

为CM配置数据库(自带脚本)

/opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm root Chen.123456

2.4 启动CM服务

chen102执行

systemctl start cloudera-scm-server

chen102-104执行

systemctl start cloudera-scm-agent

查看Server启动日志

tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

看见Started Jetty server即说明启动成功
访问http://hadoop102:7180(初始用户名、密码均为admin)

3 部署CDH集群

欢迎页面
在这里插入图片描述
选择免费版
在这里插入图片描述

3.1 填写安装部署集群名

在这里插入图片描述

3.2 选择物理机节点

在这里插入图片描述

3.3 添加本地parcel库

选择更多选型,添加本地parcel库配置
在这里插入图片描述

3.4 选择CDH版本

在这里插入图片描述

3.5 等待parcel的下载、分配、解压和激活

在这里插入图片描述

3.6 检查集群网络环境

在这里插入图片描述

3.7 群集设置

选择自定义服务,然后选择你想要安装的组件,点击继续即可
在这里插入图片描述

3.8 分配角色实例

在这里插入图片描述

3.9 数据库设置

测试mysql连接是否正常,输入之前安装部署mysql进行连接测试,确保连接成功
在这里插入图片描述

3.10 确认配置

按默认配置即可,点击继续
在这里插入图片描述

3.11 等待安装

等待全部安装完成,点击继续
在这里插入图片描述

3.12 安装完成

在这里插入图片描述
CDH安装完成页面总览
在这里插入图片描述

4 CDH停止规范

4.1 停止集群

在这里插入图片描述
等待所有服务停止完成
在这里插入图片描述

4.2 Cloudera Management Service

在这里插入图片描述
等待成功关闭
在这里插入图片描述

4.3 停止agent

所有节点执行

systemctl stop cloudera-scm-agent

4.4 停止server

chen102节点执行

 systemctl stop cloudera-scm-server

4.4 关闭阿里云主机

选择停机不收费方式,关闭阿里云主机
在这里插入图片描述
接下来是CDH-业务数仓和用户行为数仓搭建,详见《CDH数仓项目(二) —— 用户行为数仓和业务数仓搭建》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/180746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[NPUCTF2020]ezinclude

目录 前提知识 信息收集 解题思路 前提知识 PHP LFI 利用临时文件 Getshell 姿势-安全客 - 安全资讯平台 PHP LFI 利用临时文件Get shell php7 Segment Fault&#xff08;7.0.0 < PHP Version < 7.0.28&#xff09; PHPINFO特性 信息收集 查看源码 <!--md5($secr…

【进阶】Spring MVC程序开发

努力经营当下&#xff0c;直至未来明朗&#xff01; 文章目录一、Spring MVC概述1. MVC定义2. MVC和Spring MVC的关系二、为什么要学Spring MVC三、如何学Spring MVC一&#xff09; 实现用户和程序的映射方法1&#xff1a;路由RequestMapping(“/xxx”)方法2&#xff1a; 使用P…

Python纯手动搭建BP神经网络(手写数字识别)

来源&#xff1a;投稿 作者&#xff1a;张宇 编辑&#xff1a;学姐 实验介绍 实验要求&#xff1a; 实现一个手写数字识别程序&#xff0c;如下图所示&#xff0c;要求神经网络包含一个隐层&#xff0c;隐层的神经元个数为15。 整体思路&#xff1a; 主要参考西瓜书第五章神…

一款超赞的算法可视化工具,让算法过程动态展示出来

从文字或者图片中学习算法还是一件很无聊的事。当然&#xff0c;现在有许多很棒的网站可以查看各种算法的动画。然而&#xff0c;对于开发人员来说&#xff0c;如果能将实现算法的代码的实际执行操作通过可视化展现出来&#xff0c;那就是最好不过了。推荐一款开源工具&#xf…

深度学习——编码器

1.复习CNN 在CNN中&#xff0c;输入一张图片&#xff0c;经过多层的卷积层&#xff0c;最后输出层判别图片中的物体的类别。 CNN使用卷积层做特征提取&#xff08;编码&#xff09;&#xff0c;使用Softmax回归做预测&#xff08;解码&#xff09; ①编码器&#xff1a;将输入…

ArrayList扩容机制~

ArrayList()//会使用长度为零的数组 ArrayList(int initialCapacity)//会使用指定容量的数组 public ArrayList(Collection<?extends E>c>//会使用c的大小作为数组容量假设我们设置一个列表的最初容量为10&#xff0c;如下所示&#xff1a; ArrayList<Integer>…

【Python从入门到进阶】5、变量的定义及数据类型

接上篇《4、pycharm的安装及使用》 上一篇我们学习了python编程工具pycharm的安装及基本使用。后续篇章我们正式来学习Python语言的语法和特性&#xff0c;本篇我们主要学习Python变量的定义及数据类型。 一、注释 1、注释介绍 在工作编码的过程中&#xff0c;如果一段代码的…

(深度学习快速入门)第三章第三节4:深度学习必备组件之TensorBoard和标准化技术

文章目录一&#xff1a;TensorBoard&#xff08;1&#xff09;TensorBoard介绍&#xff08;2&#xff09;Pytorch安装TensorBoard&#xff08;3&#xff09;TensorBoard使用&#xff08;4&#xff09;服务器tensorboard本地显示&#xff08;5&#xff09;AutoDL等算力平台tenso…

07技术太卷我学APEX-动态菜单+URL传参数给页面

07技术太卷我学APEX-动态菜单URL传参数给页面 0 应用场景 《技术太卷我学APEX》收集的项目越来越多&#xff0c;我想把【类】【子类】加到导航菜单栏&#xff0c;点击不同的分类菜单栏&#xff0c;对列表进行过滤&#xff0c;也可以全部浏览&#xff0c;如下图&#xff1a; …

JAVA SE复习(第1章 Java概述)

本文笔记来自硅谷柴林燕老师的笔记 只为自己看笔记方便使用 不做他用 目录 第1章 Java概述 1.1 Java语言发展历史&#xff08;记关键点&#xff09; 1.2 Java语言特点&#xff08;后面需要关注和体会&#xff09; 1.3 Java语言跨平台原理&#xff08;理解&#xff09; 1…

4. 网络编程之TCP编程

1. 《计算机网络编程》 我们接触网络编程&#xff0c;肯定是要对网络编程的一些专业术语及基本理论知识是要有所认知的。python网络编程无非是在这些基础理论知识之上给我们提供了一些方便实用的网络库来供我们使用。尽管做了非常底层的封装&#xff0c;并且给我们暴露了上层的…

java IO流之缓冲流详解

缓冲流概述 缓冲流也称为高效流或者高级流。之前我们学习的字节流、字符流可以成为基本流。 作用&#xff1a;缓冲流自带缓冲区、可以提高基本字节流、字符流读写数据的性能。 分类&#xff1a; BufferedInputStream -->字节缓冲输入流 BufferedOutputStream–>字节缓冲输…

ch1_1计算机系统概论

1. 内容安排 1.1 概论 1.2 计算机系统的硬件结构 存储器&#xff0c;I/O 输入与输出&#xff1b;系统总线&#xff1b;CPU 1.3 第三篇 CPU 中央处理器中&#xff0c;所包含的内容&#xff1a; ALU&#xff0c; CUCPU 内部互连寄存器 1.4 CU CU &#xff1a; control uni…

最新虚幻5引擎(UE5)游戏性能的影响详解

Unreal Engine 5 是由 Unreal Engine 公司开发的一款游戏引擎。5 代表引擎的主要版本号。它专为创建多人在线游戏、手机游戏、高端游戏和虚幻应用程序而设计。从图中可以看出&#xff0c;随着场景复杂度的增加&#xff0c;UE5的内存占用会逐渐增加。当然&#xff0c;这并不意味…

Redis简介、数据类型和命令

1 Redis 简介Redis 是一个高性能的 key/value 数据库。它是完全开源免费的&#xff0c;并且遵守 BSD 协议。1.1 Redis 特点不仅支持 key/value 类型的数据&#xff0c;也支持 list,hash,set,zset 等等数据结构。支持持久化&#xff0c;可以把内存数据保存到磁盘上&#xff0c;重…

高并发异步多线程处理例子

用户请求流程 问题点 tomcat 线程资源占满&#xff0c;由于tomcat线程资源有限&#xff0c;每个请求都会经由tomcat线程处理&#xff0c;阻塞至web层处理完才能回收再利用。web层分发至后端服务可能会扩大几倍甚至数百倍的&#xff0c;譬如用户发起请求1w/s&#xff0c;到后端…

JavaEE10-Spring Boot配置文件

目录 1.配置文件作用 2.配置文件的格式 为配置文件安装提示插件 2.1. .properties&#xff08;旧版&#xff0c;默认的&#xff09; 2.1.1.基本语法 PS:配置文件中使用"#"来添加注释信息&#xff0c;2种添加方式&#xff1a; 2.1.2.缺点分析 2.2. .yml&#…

阿里“云开发“小程序(uniCloud)

博主ps&#xff1a; 网上资料少的可怜&#xff0c;哎&#xff0c;腾讯云涨价了&#xff0c;论服务器&#xff0c;我肯定选的阿里&#xff0c;再着你们对比下uniCloud的报价就知道了&#xff0c;如果有钱就另当别论了。 所以这片博文&#xff0c;博主试过之后&#xff0c;先抛出…

Git速成指南

文章目录版本管理工具概念版本管理工具介绍版本管理发展简史SVN(SubVersion)GitGit工作流程图Git安装基本配置为常用指令配置别名&#xff08;可选&#xff09;解决GitBash乱码问题Git常用命令获取本地仓库基础操作指令查看修改的状态&#xff08;status&#xff09;添加工作区…

[翻译]PostgreSQL中的WAL压缩以及版本15中的改进

[翻译]PostgreSQL中的WAL压缩以及版本15中的改进从以开始就一直在尝试对WAL进行不同级别的压缩。自2016年以来内置功能&#xff08;wal_compression&#xff09;就一直存在&#xff0c;几乎所有备份工具都会在传递到备机前对WAL进行压缩。但现在是时候再看看内置的wal_compress…