基于Hive的河北新冠确诊人数分析系统的设计与实现

news2024/11/13 12:01:54

项目描述

临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下,你想解决的问题,今天给大家介绍一篇基于Hive的河北新冠确诊人数分析系统的设计与实现。

功能需求

首先要采集数据,采用脚本定时采集的那种,用java程序,先转化为用tab键分割的文本数据,然后导入hive中;
其次是在hive中对导进来的数据进行处理过滤,再建几个表,把处理结果存到新建的表里,然后把hive处理结果的数据表导入mysql中;这样做完一次后,开始写脚本,每隔一天采集一次数据,hive处理数据一次,mysql统计数据一次;
接着就是编程,用ssm框架连接到mysql,对数据用javaBean进行封装,用mvc模式将部分数据显示到前台页面;
最后用echarts对封装的数据进行数据可视化,可以做成条形图,折线图,饼图,气泡图,地图等可视化图标。

数据清理流程:
  1. 首先执行GetData.jar写好的程序获取数据,会自动生成txt数据文件在/home/kt/devHive/data文件夹里面
  2. 然后执行导入数据到建好的hive表里面的脚本
  3. 接着执行sql,sql会执行clean.sql里面的加工数据的hql语句,会将清理好的数据导入Ed的清洁hive表中
  4. 接着执行hiveToMySql.sh,将Ed表里面的清洁数据用sqoop导入对应的MySQL表中(会清空 *Ed 的所有数据)
  5. 最后可以用远程连接获取MySQL里的数据
部分效果图

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据库设计

hive对数据处理筛选,导入MySQL

1. 河北疫情分布地图

确诊病例
死亡病例
治愈病例

create table provinceEd(
provinceName string,
confirmedNum int,
deathsNum int,
curesNum int
)
row format delimited fields terminated by ‘\t’;

2. 各个地区的疫情分布地图

确诊病例
死亡病例
治愈病例

create table areaEd(
provinceName string,
cityName string,
confirmedCount int,
deadCount int,
curedCount int
)
row format delimited fields terminated by ‘\t’;

3. 国内疫情趋势

确诊病例
死亡病例
治愈病例

create table historyEd(
date string,
confirmedNum int,
deathsNum int,
curesNum int
)
row format delimited fields terminated by ‘\t’;

4. 各市地区疫情的表格

(用historyEd,带有全国数据的最新数据totlaed)

#建表语句
CREATE TABLE totalEd(
date string,
diagnosed int,
death int,
cured int
)
row format delimited fields terminated by ‘\t’;

5. 一个新闻的专栏

pubData 具体时间
title 新闻标题
summary 新闻详情
infoSource 新闻来源
sourceUrl 新闻正文链接传送

CREATE TABLE newsEd(
pubDate string,
title string,
summary string,
infoSource string,
sourceUrl string,
provinceName string
)
row format delimited fields terminated by ‘\t’;
脚本

1. 导入数据的hql语句(load.sql)

set hive.exec.mode.local.auto=true;
set hive.support.sql11.reserved.keywords=false;
use kongtao;

load data local inpath ‘/home/kt/devHive/data/history.txt’ overwrite into table history;

load data local inpath ‘/home/kt/devHive/data/total.txt’ overwrite into table total;

load data local inpath ‘/home/kt/devHive/data/province.txt’ overwrite into table province;

load data local inpath ‘/home/kt/devHive/data/area.txt’ overwrite into table area;

load data local inpath ‘/home/kt/devHive/data/news.txt’ overwrite into table news;

2. 获取数据的脚本 getData.sh

#!/bin/bash
. /etc/profile
HIVE_HOME=/app/hive/
yesterday=date -d -0days '+%Y%m%d'
hour=date -d -0hour '+%H'
echo $yesterday
H I V E H O M E / b i n / h i v e − − h i v e c o n f d a i l y p a r a m = {HIVE_HOME}/bin/hive --hiveconf daily_param= HIVEHOME/bin/hivehiveconfdailyparam={yesterday}
–hiveconf hour_param=${hour}
-f /home/kt/devHive/0425/loa.sql
date >> /var/log/httpd/hivetToMysql.log
echo y e s t e r d a y {yesterday} yesterday{hour} >> /home/kt/devHive/log/hivetToMysql.log

3. clean.sql语句脚本

set hive.exec.mode.local.auto=true;
set hive.support.sql11.reserved.keywords=false;

insert into table kongtao.provinceEd
select provinceName,confirmedNum,deathsNum,curesNum from province;

insert into table kongtao.areaEd
select provinceName, cityName, confirmedCount,deadCount,curedCount from area;

insert into table kongtao.historyEd
select date, confirmedNum, deathsNum,curesNum from history;

insert into table kongtao.totalEd
select date, diagnosed, death,cured from total;

insert into table kongtao.newsEd
select pubDate, title, summary,infoSource,sourceUrl,provinceName from news;

4. 定时执行clean.sql的语句 sql.sh

#!/bin/bash

. /etc/profile
HIVE_HOME=/app/hive/
yesterday=`date -d -0days '+%Y%m%d'`
hour=`date -d -0hour '+%H'`
echo $yesterday
${HIVE_HOME}/bin/hive --hiveconf daily_param=${yesterday} \
--hiveconf hour_param=${hour} \
 -f /home/kt/devHive/0425/clean.sql
date >> /var/log/httpd/hivetToMysql.log
echo ${yesterday}${hour} >> /home/kt/devHive/log/hivetToMysql.log
hive -e "use ${kongtao};select * from province;"
chmod +x sql.sh
  1. 定时执行hive导入MySQL的语句
    注意:MySQL建表的时候要设置字符编码,否则会字符不匹配导不进去
    ENGINE=InnoDB DEFAULT CHARSET=utf8

sqoop导入hive数据到MySql碰到hive表中列的值如果为null的情况,hive中为null的是以\N代替的,所以你在导入到MySql时,需要加上两个参数:–input-null-string ‘\N’ --input-null-non-string ‘\N’,多加一个’',是为转义

#!/bin/bash

. /etc/profile
先清楚表中的所有数据
host="kt01"
port="3306"
userName="root"
password="123456"
dbname="kongtao"
dbset="--default-character-set=utf8 -A"
先清空所有的表,保证数据不重复
cmd="
truncate table areaEd;
truncate table historyEd;
truncate table totalEd;
truncate table provinceEd;
"

mysql -h${host} -u${userName} -p${password} ${dbname} -P${port}      -e  "${cmd}" 
导入areaed表

sqoop export
–connect “jdbc:mysql://kt01:3306/kongtao?useUnicode=true&characterEncoding=utf-8”
–username root
–password 123456
–table areaEd
–num-mappers 1
–input-fields-terminated-by “\t”
–export-dir /user/hive/warehouse/kongtao.db/areaed

导入historyed表

sqoop export
–connect “jdbc:mysql://kt01:3306/kongtao?useUnicode=true&characterEncoding=utf-8”
–username root
–password 123456
–table historyEd
–num-mappers 1
–input-fields-terminated-by “\t”
–export-dir /user/hive/warehouse/kongtao.db/historyed
#导入totaled表
sqoop export
–connect “jdbc:mysql://kt01:3306/kongtao?useUnicode=true&characterEncoding=utf-8”
–username root
–password 123456
–table totalEd
–num-mappers 1
–input-fields-terminated-by “\t”
–export-dir /user/hive/warehouse/kongtao.db/totaled

导入provinceed表
sqoop export \
--connect "jdbc:mysql://kt01:3306/kongtao?useUnicode=true&characterEncoding=utf-8" \
--username root \
--password 123456 \
--table provinceEd \
--num-mappers 1 \
--input-fields-terminated-by "\t" \
--export-dir /user/hive/warehouse/kongtao.db/provinceed

/app/hadoop/bin/hdfs dfs -rm -r /user/hive/warehouse/kongtao.db/*ed

date >> /home/kt/devHive/log/hivetToMysql.log
chmod +x hiveToMySql.sh
数据清理流程

首先执行GetData.jar写好的程序获取数据,会自动生成txt数据文件在/home/kt/devHive/data文件夹里面
然后执行导入数据到建好的hive表里面的脚本
接着执行sql,sql会执行clean.sql里面的加工数据的hql语句,会将清理好的数据导入*Ed的清洁hive表中
接着执行hiveToMySql.sh,将Ed表里面的清洁数据用sqoop导入对应的MySQL表中(会清空 Ed 的所有数据)
最后可以用远程连接获取MySQL里的数据

给脚本设置定时器

crontab -e

30 8 * * * /home/kt/devHive/0425/getData.sh
32 8 * * * /home/kt/devHive/0425/sql.sh
34 8 * * * /home/kt/devHive/0425/hiveToMySql.sh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/358711.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过官网怎么查找联盟申请链接

欢迎关注勤于奋每天12点准时更新国外LEAD相关技术今天还是来聊聊这个问题吧,很多人问我这个问题,我觉得这个都不是啥多难的技术,用点心就能找到。最简单的办法就是通过浏览器去搜索,比如通过google 搜索,就能找到一些信息&#xf…

第三届无线通信AI大赛分享交流会暨颁奖典礼顺利举办,大赛圆满收官

2月16日,第三届无线通信AI大赛分享交流会暨颁奖典礼在北京顺利举行,宣告大赛圆满收官。 分享交流会暨颁奖典礼以线上线下结合的形式展开,邀请无线通信领域的多位专家、学者与「基于AI的信道估计与信道状态信息反馈联合设计」、「基于AI的高精…

将二进制文件作为目标文件中的一个段

将二进制文件作为目标文件中的一个段 python 生成2进制文件 import sysdef testFile(fileName):# --with open(fileName, modewb) as hexFile:bBuf bytes.fromhex("0123456789abcdef")print("bBuf:",bBuf.hex())len hexFile.write(bBuf)print ("l…

Vue3搭建记录

一、初始化项目:项目名称vue3-element-admin npm init vitelatest vue3-element-admin --template vue-ts 二、整合Element-Plus 1.本地安装Element Plus和图标组件 npm install element-plus npm install element-plus/icons-vue 2.全局注册组件 // main.ts imp…

【C#】async关键字修饰后有无await的影响

文章目录测试总结拓展:js的async await问题参考测试 来自微软官网的说法: 异步方法通常包含 await 运算符的一个或多个匹配项,但缺少 await 表达式不会导致编译器错误。 如果异步方法未使用 await 运算符标记悬挂点,则该方法将作…

RK3568工业开发板工控板说明

说明HW356X-GKA是采用中高端的通用型 SOC,一款基于Rockchip公司RK3568处理器的工控主板。主板标配处理器为Cortex-A55四核,最高主频2GHz的RK3568处理器,内置4GB DDR4内存(最大8GB),32GB eMMC存储。集成4核 arm架构 A55 处理器和Ma…

记录使用ROS驱动USB相机

参考https://blog.csdn.net/weixin_48657767/article/details/126054121?spm1001.2014.3001.5502cmake编译时有bug,缺包,安装对应的包sudo apt-get install ros-melodic(对应ros版本)-****(对应包名,下划线…

OpenGL学习日记之光照计算

引言 现实生活中的光照极其复杂,而且会收到很多因素的影响,是我们当前计算机的算力无法模拟的。因此我们会根据一些简化的模型来模拟现实光照,这样在可以模拟出近似的光照感受,但是又没有那么复杂的计算。 常用的光照模型有&…

27 pandas 数据透视

文章目录pivot_table 函数1、index需要聚合的列名,默认情况下聚合所有数据值的列2、values在结果透视的行上进行分组的列名或其它分组键【就是透视表里显示的列】3、columns在结果透视表的列上进行分组的列名或其它分组键4、Aggfunc聚合函数或函数列表(默…

【1】linux命令每日分享——mkdir

大家好,这里是sdust-vrlab,Linux是一种免费使用和自由传播的类UNIX操作系统,Linux的基本思想有两点:一切都是文件;每个文件都有确定的用途;linux涉及到IT行业的方方面面,在我们日常的学习中&…

【Spring】难理解的Aop编程 | 入门?

作者:狮子也疯狂 专栏:《spring开发》 坚持做好每一步,幸运之神自然会驾凌在你的身上 目录一. 🦁 前言二. 🦁 常见概念2.1 常见术语2.2 AOP入门Ⅰ. 🐇 功能场景Ⅱ. 🐇 实现过程2.3 通知类型Ⅰ.…

XXL-JOB分布式任务调度框架(三)-集群部署

文章目录 1.引言2.集群服务启动3.反向代理4.总结1.引言 XXL-JOB有中心化的思想,一旦调度中心挂机会导致整体不可使用,所以要引入集群。 需要考虑点: db配置保持一致登录账号配置保持一致集群机器时钟保持一致(单机集群可忽视)2.集群服务启动 在是在同一台机器中,并且在…

wav2vec 2.0:一种自监督的语音识别方法

总体框架: 主要分为2个大模块:1:语音特征提取模块 2:语音特征向量融合模块 1:特征提取模块 输入:音频 输出:音频特征向量 过程: 1)跟具体采样率有关,如果一段1S的音频,采样率是1…

踔厉奋发·勇毅前行 | 2023广和通中国区代理商大会成功召开

2月16日,以“踔厉奋发 勇毅前行”为主题的2023广和通中国区代理商大会暨颁奖晚宴于深圳盛大开启并顺利落幕。广和通CEO应凌鹏、中国区销售部副总裁陈绮华等高层领导出席本次会议并发表演讲,与来自全国各地的代理商合作伙伴齐聚一堂,共话商机。…

云原生周刊 | 2023 年热门:云 IDE、Web Assembly 和 SBOM | 2023-02-20

在 CloudNative SecurityCon 上,云原生计算基金会的首席技术官 Chris Aniszczyk 在 The New Stack Makers 播客的这一集中强调了 2023 年正在形成几个趋势: 随着 GitHub 的 Codespaces 平台通过集成到 GitHub 服务中获得认可,云 IDE&#xf…

【SQL】MySQL秘籍

chihiro-notes 千寻简笔记 v0.1 内测版 📔 笔记介绍 大家好,千寻简笔记是一套全部开源的企业开发问题记录,毫无保留给个人及企业免费使用,我是作者星辰,笔记内容整理并发布,内容有误请指出,笔…

用户行为分析项目MySQL+Tableau

文章目录1. 项目背景及目的1.1 项目背景1.2 项目目的2. 理解数据3. 数据预处理3.1 字段调整3.2 数据清洗3.2.1 空值3.2.2 重复值3.2.3 异常值4. 数据分析4.1 人4.1.1 获客情况(PV、UV、PV/UV)4.1.2 留存情况(留存率、跳失率)4.1.3 行为情况&a…

数据在内存中的存储【上篇】

文章目录⚙️1.数据类型的详细介绍🔩1.1.类型的基本归类⚙️2.整型在内存中的存储🔩2.1.原码、反码、补码🔩2.2.大小端的介绍⚙️1.数据类型的详细介绍 🥳基本的内置类型 : 💡char ---------- 字符数据类型…

kubeadmin安装k8s集群

目录 一 、环境部署 1、服务器规划 2、环境准备 二、所有节点安装docker 1、配置yum源,安装docker 2、配置daemon.json文件 三、所有节点安装kubeadm、kubelet 和kubectl 四、部署k8s集群 1、查看初始化需要的镜像 2、导入镜像 3、初始化kubeadm 3.1 方…

【gt+】RS485详解

这里写目录标题RS232与RS485TTL和RS485电平转换平衡传输收发控制主机轮询手动带隔离的RS485电路自动切换电路RS485收发器发送器接收器网络安装电阻匹配接地问题网络失效保护RS232与RS485 RS232接口标准出现较早。 接口的电平值较高,易损坏接口电路的芯片&#xff…