hive:
启动hadoop
启动本地连接,连接外网
主机就是外网IP
1.修改云主机host文件,添加内网ip,对应映射名为hadoop000,实现云主机自身使用root用户ssh访问hadoop000免密登录
改host文件 vim/etc/hosts
比赛时会提供内网IP,修改后如下
:wq 保存
发现未对主机名进行修改
修改主机名 hostnamectl set-hostname hadoop000
完成之后 bash
修改成功
ssh免密操作已经完成了,直接进行免密登录即可
ssh 免密登录 ssh hadoop000
2.格式化HDFS文件系统
格式化命令 hadoop namenade -format
回车
出现successful字样,代表格式化成功
3.启动Hadoop集群
使用脚本命令一键启动 start-all.sh
启动完成后,我们可以用 jps 看一下
5个节点都已启动,代表启动完毕
4.开启mysql服务
他这里的环境是已经安装好了的,只需要开启对应的服务即可
开启服务 systemctl start mysqld.service
5.初始化Hive元数据库(数据库类型为mysql),进入Hive客户端,创建hive数据库
schematool -dbType mysql -initSchema 回车
安装完成后跟上面图示一样 证明hive元数据库格式化完成
进入hive 客户端 hive 回车
创建hive对应数据库 create database hive;
创建成功
1.创建project数据库
进入hive的终端
创建 create database if not exsits project;
创建成功
2.project数据库下创建theft数据表,字段见任务说明,分割字符为‘,’
依旧是在终端中使用
创建 create table if not exists project.theft(
id string,
case_type string,
case_subtype string,
casename string,
loss string,
case_source string,
time_toplimit string,accept
time_lowerlimit string,
address string,
accept_time string,
report_time string)
row format delimited fields terminated by ',';
上述最后一句代码就是设置分割字符的代码
回车即可 创建成功
3.使用load data 子句加载云主机数据/root/college/theft.csv据至管理表theft
load data local inpath '/root/college/theft.csv' into table project.theft;
4.统计2021年5月份发生的案件总数(以报案时间为准),结果写入云主机/root/theft/result/000000_0文件中
覆盖写入 insert overwrite local directory '/root/theft/result01'
设置的字段分隔符 row format delimited fields terminated by '\t'
数据来源 select count(report_time) num from project.theft
切分2021年05月的数据 where substr(report_time,1,8)='2021年05月';
回车 运行
查看 cat/root/theft/result01/000000_0
5.统计2021年4月份经济损失总额(以报案时间为准),结果写入云主机/root/theft/result02/000000_0文件中
分割元前面的字符串,就是金额
查看
windows下所需安装的java,eclipse
1.本地安装jdk
由于比赛视频讲解介绍的环境变量,我无法查看,于是我就自己找方式安装了一个
jdk1.8下载安装教程_jdk1.8安装教程_沐恩_的博客-CSDN博客
提示以下即为安装成功
2.安装eclipse
3.解压hadoop
hadoop.dll和winutils.exe拷贝到C:\Windows\System32
将winutils.exe拷贝到Hadoop安装包bin下
4.安装eclipse上hadoop插件
这个时候hadoop插件已经安装成功
5.开启相关属性和视图
有黄色小象,此时相关配置已打开,相关工具及插件安装完成
6.创建项目,连接hadoop集群并运行程序
注意此时在windows中是添加的外网ip和主机名
检查集群是否开启
名字可以随意取
host改成外网IP
DFS Master PORT改成9000
程序开发
后续就运行程序即可
SQL数据分析
终端连接
开启mysql服务
连接数据库
-p 后是密码
创建数据库
使用数据库,创建表
找一下数据文件路径
上传数据文件
首先再次连接一下mysql
用数据库,导入数据文件,路径一定不能出错
用navicat连接
点击连接mysql,host外网ip,root,密码题目会给
新建查询,做题
对三张表熟悉明确哪里,是哪里
第6题
第7个题
第8题
第9题
第10题