企业级数据仓库-数仓实战

news2024/11/26 10:13:17

数仓实战

安装包大小

在这里插入图片描述

安装清单

在这里插入图片描述

环境搭建

在这里插入图片描述

一、环境搭建01(机器准备)

准备好三台虚拟机,并进行修改hostname、在hosts文件增加ip地址和主机名映射 。

1、设置每个虚拟机的hostname
vi /etc/sysconfig/network 
修改HOSTNAME=node02

修改hostname
hostnamectl set-hostname node02
2、设置每个虚拟机的ip地址和主机名映射

cat >>/etc/hosts<<EOF
192.168.77.130   node01
EOF

cat >>/etc/hosts<<EOF
192.168.77.131   node02
EOF

cat >>/etc/hosts<<EOF
192.168.77.132   node03
EOF

检查结果 
ping `cat /etc/hostname`

在这里插入图片描述

二、环境搭建02(脚本准备)

在node01上操作:
mkdir -p /home/hadoop
unzip  automaticDeploy.zip -d /home/hadoop/

cd /home/hadoop/automaticDeploy/
vi host_ip.txt
vi frames.txt
上传frame.zip
unzip frames.zip  -d /home/hadoop/automaticDeploy/

chmod +x /home/hadoop/automaticDeploy/hadoop/*  /home/hadoop/automaticDeploy/systems/*

ssh root@192.168.77.131 "mkdir -p /home/hadoop"
ssh root@192.168.77.132 "mkdir -p /home/hadoop"

scp -r /home/hadoop/automaticDeploy/ root@192.168.77.131:/home/hadoop/
scp -r /home/hadoop/automaticDeploy/ root@192.168.77.132:/home/hadoop/

三、环境搭建03(集群安装)

在三台节点中执行
cd /home/hadoop/automaticDeploy/systems/
./batchOperate.sh 

安装Hadoop集群
在三台节点中执行
/home/hadoop/automaticDeploy/hadoop/installHadoop.sh 
source /etc/profile

安装下载失败的两个包
scp -r /home/software/*.rpm root@192.168.77.131:/home/software/
scp -r /home/software/*.rpm root@192.168.77.132:/home/software/
rpm -ivh *.rpm

三台都执行
ssh-copy-id node01
ssh-copy-id node02
ssh-copy-id node03

在node01上操作:初始化节点
hadoop namenode -format
#启动hadoop
start-all.sh

检查node01、node02、node03的jps(具体jps见下面截图)
在node01上操作:
curl http://node01:50070
curl http://192.168.77.130:50070/

在node02上执行
/home/hadoop/automaticDeploy/hadoop/installMysql.sh
测试MySQL
mysql -uroot -p
DBa2020*
show databases;

在node03执行
/home/hadoop/automaticDeploy/hadoop/installHive.sh 

/home/hadoop/automaticDeploy/hadoop/installSqoop.sh 
source /etc/profile

在三台节点中执行
/home/hadoop/automaticDeploy/hadoop/installPresto.sh 

在node03执行
/home/hadoop/automaticDeploy/hadoop/installYanagishima.sh 
 
所有节点都执行:
source /etc/profile

Hadoop log位置: /opt/app/hadoop-2.7.7/logs/

在这里插入图片描述

四、项目流程&数据生成

Node02上执行:
export MYSQL_PWD=DBa2020*
mysql -uroot -e "create database mall;"

mkdir -p /opt/app/scripts
cd /opt/app/scripts/

上传\数据生成脚本\*.sql到 /opt/app/scripts
mysql -uroot mall <1建表脚本.sql 
mysql -uroot mall <2商品分类数据插入脚本.sql 
mysql -uroot mall <3函数脚本.sql 
mysql -uroot mall <4存储过程脚本.sql 

检查MySQL以上脚本执行结果:
mysql

use mall;
#存储过程
CALL init_data('2023-06-28',300,200,300,FALSE);
select count(1) from user_info;
show tables;

在这里插入图片描述

在这里插入图片描述

五、ETL数据导入

node03上操作:
mkdir -p  /home/warehouse/shell
#文件路径:E:\1.后端培训\部署脚本\WarehouseScript
vi /home/warehouse/shell/sqoop_import.sh
cd /home/warehouse/shell
chmod +x sqoop_import.sh
#如果导入数据有问题,可以执行start-all.sh重启下hadoop集群重试
./sqoop_import.sh  all 2023-06-28

在这里插入图片描述

删除HDFS中文件夹
hadoop fs -rm -r -skipTrash /origin_data/mall

六、ODS层创建&数据接入

node03上操作:
hive --service hiveserver2  &
hive --service metastore &
在Hive中创建表
mkdir -p  /home/warehouse/sql
cd /home/warehouse/sql
vi ods_ddl.sql
hive -f  /home/warehouse/sql/ods_ddl.sql
Hive如果有问题:jps找runjar kill -9 进程
执行成功后从hive查看结果:
hive
show databases;
use mall;
show tables;
cd /home/warehouse/shell
chmod +x ods_db.sh 
./ods_db.sh  2023-06-28

执行成功后到Hive查看结果:
hive
use mall;
select count(1) from ods_user_info;
结果为200条记录

在这里插入图片描述
在这里插入图片描述

七、DWD层创建&数据接入

在Hive中创建表
vi /home/warehouse/sql/dwd_ddl.sql

hive -f  /home/warehouse/sql/dwd_ddl.sql 

将数据导入到Hive
cd /home/warehouse/shell
chmod +x dwd_db.sh
./dwd_db.sh  2023-06-28

执行成功后到Hive查看结果:
hive
use mall;
select * from dwd_sku_info where dt='2023-06-28' limit 2;

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

八、DWS层创建&数据接入

在Hive中创建表(node03操作)
vi /home/warehouse/sql/dws_ddl.sql 
hive -f  /home/warehouse/sql/dws_ddl.sql 
cd /home/warehouse/shell
chmod +x dws_db.sh
./dws_db.sh  2023-06-28
执行成功后到Hive查看结果
hive
use mall;
select * from dws_user_action where dt='2023-06-28' limit 2;
执行结果:
1       1       189     1       189     2023-06-28
100     1       85      1       85      2023-06-28

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

九、ADS层复购率统计

在Hive中创建表(node03操作)
vi /home/warehouse/sql/ads_sale_ddl.sql
hive -f  /home/warehouse/sql/ads_sale_ddl.sql

cd /home/warehouse/shell
chmod +x ads_sale.sh
./ads_sale.sh  2023-06-28
执行成功后到Hive查看结果
hive
use mall;
select * from ads_sale_tm_category1_stat_mn limit 2;
执行结果:
NULL    NULL    NULL    152     140     0.92    100     0.78    2023-06 2023-06-28

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十、ADS层数据导出

node02上执行操作:
mkdir -p /home/warehouse/sql
cd /home/warehouse/sql

export MYSQL_PWD=DBa2020*
mysql -uroot mall </home/warehouse/sql/mysql_sale_ddl.sql

node03上执行操作:
cd /home/warehouse/shell
chmod +x sqoop_export.sh
./sqoop_export.sh  all

到mysql查看执行结果(node02上执行操作):
export MYSQL_PWD=DBa2020*
mysql
use mall;
select * from ads_sale_tm_category1_stat_mn;

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十一、Azkaban自动化调度

在三台节点中执行
/home/hadoop/automaticDeploy/hadoop/installAzkaban.sh
source /etc/profile

node02上执行操作:
mysql
use mall;
CALL init_data('2023-09-09',300,300,300,FALSE);
select count(1) from user_info WHERE create_time >= '2023-09-09' AND create_time < '2023-09-10';

在三台节点中执行
azkaban-executor-start.sh  &

Node03上执行
azkaban-web-start.sh  &
使用Node03的IP地址
在浏览器地址栏输入:https://192.168.77.132:8443
用户名、密码都是:admin

Flow Property Override
dt  2023-09-09
useExecutor  node03

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

重起集群

需要先启动三台的hadoop

#1、启动hadoop
start-all.sh
#2、启动hive
node03上操作:
hive --service hiveserver2  &
hive --service metastore &
#3、启动azkaban
在三台节点中执行
azkaban-executor-start.sh  &
Node03上执行
azkaban-web-start.sh  &

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1015827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PY32F003F18之输入捕获

输入捕获是定时器的功能之一&#xff0c;配合外部引脚&#xff0c;捕获脉宽时间或采集周期。 CPU中的定时器最基本的功能就是计数功能&#xff0c;其次是输入捕获(IC)&#xff0c;再次就是比较输出(OC)&#xff0c;还有就是使用引脚对外部时钟进行计数&#xff0c;触发信号捕捉…

6- 华为云查看容器日志

1 查看位置 二 进入容器查看 ls cat main.py # 退出命令是 exit() 或者 quit() cat main.py 在docker使用该命令进入文件后的退出命令

Mapbox gl HTML经纬度点渲染,动态轨迹播放,自定义图形以及轨迹上显示箭头方向

Mapbox gl HTML经纬度点渲染&#xff0c;动态轨迹播放&#xff0c;自定义图形以及轨迹上显示箭头方向 1. 效果图2. 源码2.1 line.html2.2line_arrow.html 参考 今天要排查个问题&#xff0c;需要显示多个经纬度点连接成线段的方向&#xff0c;于是尝试下展示。 1. mapbox渲染经…

element plus封装el-select添加后缀图标并添加远程搜索和对话框功能

当提交的表单Form需要填某个实体的外键ID时&#xff0c;当然不可能使用el-input组件&#xff0c;这个适合提交字符串&#xff0c;然后用户又不可能记住某个引用的外键ID&#xff0c;这时候使用el-select还是必要的。 el-select组件一般都作为下拉选择框使用&#xff0c;但仅在…

Java实现通过文字生成图片

一、前言 在实际应用中&#xff0c;我们可能需要将用户姓名作为头像显示&#xff0c;那么我们可以通过Java来实现。 二、如何实现 1.定义一个工具类&#xff0c;代码如下&#xff1a; import org.slf4j.Logger; import org.slf4j.LoggerFactory;import javax.imageio.ImageIO…

三分钟使用ngrok实现内网穿透

1.官网注册 官网地址&#xff1a;https://ngrok.com/ tips:若使用邮箱注册自行认证 2.下载对应部署电脑 压缩包&#xff08;此处笔者使用自己电脑因此以Windows11作为案例&#xff09; 解压下载的ngrok压缩包&#xff0c;在对应目录进入命令提示符装口&#xff08;也可直接…

竞赛 基于机器视觉的银行卡识别系统 - opencv python

1 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于深度学习的银行卡识别算法设计 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f9ff; 更多资料, 项目分享&#xff1a; https://gitee.com/dancheng…

基于 I2C 协议的 AD实验(附代码)

目录 1. 理论学习 1.1 AD介绍 1.2 I2C 简介 1.2.1 I2C物理层 1.2.2 I2C协议层 1.3 PCF8591芯片简介 1.3.1 引脚信息 1.3.2 功能描述 2. 实验 2.1 硬件资源 2.2 模块框图 2.3 程序设计 2.3.1 工程整体框图 2.3.2 I2C驱动模块 1. 模块框图 2. 波形图分析&#xf…

来看看Python MetaClass元类详解

MetaClass元类&#xff0c;本质也是一个类&#xff0c;但和普通类的用法不同&#xff0c;它可以对类内部的定义&#xff08;包括类属性和类方法&#xff09;进行动态的修改。可以这么说&#xff0c;使用元类的主要目的就是为了实现在创建类时&#xff0c;能够动态地改变类中定义…

Docker网络学习

文章目录 Docker容器网络1.Docker为什么需要网络管理2. Docker网络简介3. 常见的网络类型4. docker 网络管理命令5.两种网络加入差异6.网络讲解docker Bridge 网络docker Host 网络docker Container 网络docker none 网络 Docker容器网络 1.Docker为什么需要网络管理 容器的网…

Linux启动速度优化方法总结

文章目录 一、启动耗时统计printk timeinitcall_debugbootgraphbootchartgpio示波器 二、内核优化方法kernel压缩方式加载位置内核裁剪预设置lpj数值initcall优化内核initcall_module并行减少pty/tty个数内核module 三、其他优化ubootXIP 四、总结 要对Linux系统启动速度进行优…

Discuz论坛网站标题栏Powered by Discuz!版权信息如何去除或是修改?

当我们搭建好DZ论坛网站后&#xff0c;为了美化网站&#xff0c;想把标题栏的Powered by Discuz&#xff01;去除或是修改&#xff0c;应该如何操作呢&#xff1f;今天飞飞和你分享&#xff0c;在操作前务必把网站源码和数据库都备份到本地或是网盘。 Discuz的版权信息存在两处…

七、安卓手机环境检测软件分享

系列文章目录 第一章 安卓aosp源码编译环境搭建 第二章 手机硬件参数介绍和校验算法 第三章 修改安卓aosp代码更改硬件参数 第四章 编译定制rom并刷机实现硬改(一) 第五章 编译定制rom并刷机实现硬改(二) 第六章 不root不magisk不xposed lsposed frida原生修改定位 第七章 安卓…

生信教程|最大似然系统发育推断

动动发财的小手&#xff0c;点个赞吧&#xff01; 简介 顾名思义&#xff0c;最大似然系统发育推断旨在找到进化模型的参数&#xff0c;以最大化观察手头数据集的可能性。模型参数包括树的拓扑结构及其分支长度&#xff0c;还包括推理中假设的替代模型&#xff08;例如HKY或GTR…

09MyBatisX插件

MyBatisX插件 在真正开发过程中对于一些复杂的SQL和多表联查就需要我们自己去编写代码和SQL语句,这个时候可以使用MyBatisX插件帮助我们简化开发 安装MyBatisX插件: File -> Settings -> Plugins -> 搜索MyBatisx插件搜索安装然后重启IDEA 跳转文件功能 由于一个项…

Linux用户和用户组信息管理

文章目录 用户管理用户密码信息/etc/shadow详解 ⽤户组的管理(切换到root)/etc/group 内容详解用户组的添加用户组的删除用户组的查看用户组的修改 ⽤户组和⽤户的关联 用户管理 ⽤户的管理(/etc/passwd) ⽤户的添加&#xff08;useradd&#xff09; ⽤户的删除&#xff08;us…

Spring boot原理

起步依赖 Maven的传递依赖 自动配置 Springboot的自动配置就是当spring容器启动后&#xff0c;一些配置类、bean对象就自动存入到IOC容器中&#xff0c;不需要我们手动去声明&#xff0c;从而简化了开发&#xff0c;省去了繁琐的配置操作。 自动配置原理&#xff1a; 方案一…

MySQL——一、安装以及配置

MySQL 一、windows下的安装以及配置常规方法二、windows下的安装以及配置简单方法三、Linux下的数据库安装以及配置 一、windows下的安装以及配置常规方法 准备工具&#xff1a; 链接&#xff1a;https://pan.xunlei.com/s/VNeRbKScnTd6MbgZ-jwubY6-A1?pwdtaxz# 这里我准备的…

sync.Once-保证运行期间的某段代码只会执行一次

初入门径 sync.Once提供了保证某个操作只被执行一次的功能,其最常应用于单例模式之下,例如初始化系统配置、保持数据库唯一连接,以及并发访问只需要初始化一次的共享资源。 单例模式有懒汉模式和饿汉模式两种 饿汉模式 顾名思义就是比较饥饿&#xff0c;所以一上来(服务启动时)…

【看好了】如何使用fiddler实现手机抓包,Filters过滤器!

一、Fiddler与其他抓包工具的区别  1、Firebug虽然可以抓包&#xff0c;但是对于分析http请求的详细信息&#xff0c;不够强大。模拟http请求的功能也不够&#xff0c;且firebug常常是需要“无刷新修改”&#xff0c;如果刷新了页面&#xff0c;所有的修改都不会保存&#xff…