本次我们项目采用阿里云服务器,采用以下技术及框架协议,进行数据分析:
- HDFS
- Hive
- Spark SQL
- Zeppelin
当然我们也可以利用数据库清洗好的数据,采用
1.Tableau
2.Python+echarts+web前端
3.腾讯云、阿里云BI报表
4.当然我们也可以采用Excel的数据透视表、数据透视图来制作
一、云服务器中虚拟机的配置
1.Hadoop的配置
参考以下博客,将阿里云服务器centos7.2下搭建hadoop伪分布式环境进行配置。
阿里云服务器centos7.2下搭建hadoop伪分布式环境_云服务器分布式环境_feng_zhiyu的博客-CSDN博客https://www.cnblogs.com/ztca/p/8679056.htmlhttps://blog.csdn.net/feng_zhiyu/article/details/81018869?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168397280916800192226753%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168397280916800192226753&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-3-81018869-null-null.142%5Ev87%5Econtrol_2,239%5Ev2%5Einsert_chatgpt&utm_term=%E4%BA%91%E6%9C%8D%E5%8A%A1%E5%99%A8centos7%E5%AE%89%E8%A3%85hadoop&spm=1018.2226.3001.4187遇到问题:
零基础也能学会!Hadoop伪分布式集群安装与配置实践_mb634aa19ba764f的技术博客_51CTO博客零基础也能学会!Hadoop伪分布式集群安装与配置实践,零基础也能学会!Hadoop伪分布式集群安装与配置实践。本文旨在通过实践演示,教授零基础小白如何搭建Hadoop伪分布式集群。文章首先介绍了Hadoop的概念和工作原理,并详细阐述了Hadoop集群的组成结构和功能。接着,文章详细介绍了Hadoop伪分布式集群的安装与配置方法,包括操作系统的安装、Java环境变量的配置、Hadoop文件系统的初始化等步骤。通过本文的学习,读者不仅可以轻松掌握Hadoop伪分布式集群的搭建和配置方法。https://blog.51cto.com/u_15831056/6237232
一定要注意:java的配置环境!!!
防止hadoop找不到java!
2.数据库MySQL的配置
参考以下博客
Centos7安装MySQL详细步骤_在centos7上安装mysql_緑水長流*z的博客-CSDN博客Centos7 安装MySQL详细步骤首先在虚拟机中安装一个Centos7(VM虚拟机安装Centos7)1.1 MySQL安装1.1.1 下载wget命令yum -y install wget1.1.2 在线下载mysql安装包wget https://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm1.1.3 安装MySQLrpm -ivh mysql57-community-release-el7-8.noarhttps://blog.csdn.net/Bb15070047748/article/details/106245223?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168399621816800182715943%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168399621816800182715943&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-2-106245223-null-null.142^v87^control_2,239^v2^insert_chatgpt&utm_term=centos%E5%AE%89%E8%A3%85mysql&spm=1018.2226.3001.4187
使用Navicat连接阿里云服务器上的MySQL数据库_navicat连接阿里云mysql_君兮月影的博客-CSDN博客使用Navicat连接阿里云服务器上的MySQL数据库https://blog.csdn.net/wangws_sb/article/details/127234913?ops_request_misc=&request_id=&biz_id=102&utm_term=%E4%BA%91%E6%9C%8D%E5%8A%A1%E5%99%A8%E4%B8%AD%E7%9A%84MySQL%E9%80%9A%E8%BF%87Navicat%E8%BF%9E%E6%8E%A5&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-127234913.142^v87^control_2,239^v2^insert_chatgpt&spm=1018.2226.3001.4187
3.安装hive的配置
CentOS7安装Hive3.1.2+MySQL5.7_安装hive客户端_筝湘湘的博客-CSDN博客文章目录1.安装Hive1.1 解压hive安装包1.2 配置环境变量1.3 解决日志Jar包冲突1.4 初始化元数据库2 启动hive2.1 启动 HDFS,Yarn,historyserver2.2 启动hive2.3 查看hive启动日志3 安装MySQL3.1 退出hive客户端3.2 拷贝JDBC驱动1.安装Hive1.1 解压hive安装包解压hive安装包到指定目录 tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/module/修改名字为https://blog.csdn.net/qq_51490070/article/details/123718952?ops_request_misc=&request_id=&biz_id=102&utm_term=centos%E5%AE%89%E8%A3%85hive&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-3-123718952.nonecase&spm=1018.2226.3001.4187因为每一个人的文件配置不一样,大家一定要清楚自己的文件!!!在哪里配置的
在local的目录下
wget https://mirrors.aliyun.com/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
将 tar 包解压缩到 /usr/local/
目录下,并重命名为 hive
:
tar -zxvf apache-hive-x.y.z-bin.tar.gz
mv apache-hive-x.y.z-bin hive
配置环境变量
在 ~/.bashrc
或者 /etc/bashrc
中添加以下内容:
export HADOOP_HOME=/usr/local/hadoop
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HADOOP_HOME/bin:$HIVE_HOME/bin
使修改立即生效:
source ~/.bashrc
至此,Hive 的安装和配置完成了。
配置环境变量:可以在 /etc/profile
文件中添加以下环境变量:
export HADOOP_HOME=/usr/local/hadoop
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HADOOP_HOME/bin:$HIVE_HOME/bin
-
source /etc/profile
然后初始化元数据库
-
配置 Hive 元数据库:Hive 使用一个元数据库来存储元数据信息。可以使用如下命令创建 MySQL 数据库,并授权 Hive 用户使用该数据库:
-
mysql -u root -p create database metastore; grant all privileges on metastore.* to 'hive'@'localhost' identified by 'your_password';
然后,需要将 Hive 配置文件
hive-site.xml
中的javax.jdo.option.ConnectionURL
、javax.jdo.option.ConnectionUserName
和javax.jdo.option.ConnectionPassword
等属性设置为 MySQL 连接信息。 -
启动 Hive:可以使用以下命令启动 Hive:
hive
如果一切顺利,你应该能够看到 Hive 的命令行界面,并可以执行 Hive SQL 命令了。
4.hive连接数据库