Hive,FineBI-30W聊天数据分析及可视化-B站黑马学习记录

news2024/11/28 2:43:03

2023B站黑马Hadoop、Hive、云平台实战项目

目录

1. 清洗数据

2. 计算各指标,并创建表存储结果

3.FineBI连接Hive数据库,将指标结果可视化


1. 清洗数据

1)部分数据缺失地理位置信息(sender_gps),需要剔除

select count(if(length(sender_gps)=0,1,null)) count_null_sender_gps,
       count(if(length(receiver_gps)=0,1,null)) count_null_receiver_gps
from tb_msg_source;

2)为方便处理,从时间中提取天、小时字段,GPS中提取经度、纬度

创建etl表,存储清洗后的数据

insert overwrite table tb_msg_etl30
select *, date(msg_time) msg_day,
       hour(msg_time) msg_hour,
       split(sender_gps,',')[0] sender_lng,
       split(sender_gps,',')[1] sender_lat
from tb_msg_source30
where length(sender_gps)>0;

2. 计算各指标,并创建表存储结果

-- 统计今日消息总量
create table tb_rs_total_msg_cnt comment '每日消息总量' as
select msg_day, count(*) total_msg_cnt from tb_msg_etl30 group by msg_day;
-- 统计每小时消息量、发送和接收用户数
create table tb_rs_hour_msg_cnt comment '每小时消息趋势' as
select msg_hour, count(*) total_msg_cnt, count(distinct sender_account) sender_user_cnt,
       count(distinct receiver_account) receiver_user_cnt
from tb_msg_etl30 group by msg_hour;
-- 统计今日各地区发送消息总量
create table tb_rs_loc_cnt comment '今日各地区发送消息总量' as
select msg_day, sender_lng, sender_lat, count(*) total_msg_cnt
from tb_msg_etl30
group by msg_day, sender_lng, sender_lat;
-- 统计今日发送和接收用户数
create table tb_rs_user_cnt comment '每日发送和接收消息的人数' as
select msg_day, count(distinct sender_account) sender_user_cnt,
       count(distinct receiver_account) receiver_user_cnt
from tb_msg_etl30
group by msg_day;
-- 统计发送消息条数最多的前十个用户
create table tb_rs_s_user_top10 comment '发送消息最多的10个用户' as
select sender_name, count(*) sender_msg_cnt
from tb_msg_etl30
group by sender_name
order by sender_msg_cnt desc
limit 10;
-- 统计接收消息条数最多的前十个用户
create table tb_rs_r_user_top10 comment '接收消息最多的10个用户' as
select receiver_name, count(*) receiver_msg_cnt
from tb_msg_etl30
group by receiver_name
order by receiver_msg_cnt desc
limit 10;
-- 统计发送人的手机型号分布情况
create table tb_rs_sender_phone comment '发送人的手机型号分布' as
select sender_phonetype, count(*) cnt
from tb_msg_etl30
group by sender_phonetype;
-- 统计发送人的手机操作系统分布
create table tb_rs_sender_os comment '发送人的手机操作系统分布' as
select sender_os, count(*) cnt
from tb_msg_etl30
group by sender_os;

1)统计今日消息总量

2)统计每小时消息量、发送和接收用户数

3)统计今日各地区发送消息总量

注:模拟数据中只有100个不同用户,实际中按经纬度坐标group by太细了,应该换算出地区

4)统计今日发送和接收用户数

5)统计发送消息条数最多的前十个用户

6)统计接收消息条数最多的前十个用户

7)统计发送人的手机型号分布情况

8)统计发送人的手机操作系统分布

3.FineBI连接Hive数据库,将指标结果可视化

 记:在阿里云上搭建了3台虚拟机Hadoop集群,最开始觉得性能应该够用,想跑1000W数据,结果计算创建etl表的时候,用了快2小时都没跑出来。后面换成30W数据,同一条sql语句花了2秒多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/759584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux下的调试器——gdb使用指南

文章目录 一.序二.安装gdb调试器三.进入调试四.调试相关指令 前言; 在VS环境下,我们不仅可以写代码、编译、运行可执行程序,还可以对生成的可执行程序进行调试。本章我们就来学习如何在Linux环境下进行调试。 一.序 要进行调试,首…

EPICS一个示例数据库实例详解

以下是一个示例数据库图表: 以上记录的数据库文件如下: record(ao, "$(P):SET") {field(FLNK, "$(P):ACTIVATE")field(VAL, "2")field(OUT, "$(P):RUN")field(DRVH, "40")field(DRVL, "5"…

摩尔投票算法(Moore‘s Voting Algorithm)及例题

摩尔投票算法(Moores Voting Algorithm)及例题 摩尔投票算法简介摩尔投票算法算法思想摩尔投票算法经典题目169. 多数元素229. 多数元素 II6927. 合法分割的最小下标 上午打力扣第 354 场周赛最后十五分钟用摩尔投票算法顺利 AC 第三题,以前没…

ViewRootImpl简析

ViewRootImpl简析 如何实现视图和wms沟通桥梁的作用Session的创建获取画布如何实现事件分发的桥梁作用 The top of a view hierarchy, implementing the needed protocol between View and the WindowManager. This is for the most part an internal implementation detail of…

快速搭建Python(Django)+Vue环境并实现页面登录注册功能

文章目录 一. 创建vue项目及环境搭建1. 创建vue项目2. 配置axios3. 创建vue组件login和register4. 设置并引用路由vue-router5. 完成login,register组件代码6. 完成App.vue的代码 二. 创建django项目及环境搭建1. 创建django项目2.配置mysql数据库3. 创建应用app4.创…

学习babylon.js --- [4] 体验WebVR

本文基于babylonjs来创建一个简单的WebVR工程,来体验一下babylonjs带来的VR效果,由于没有VR头显,所以只能使用Win10自带的混合现实模拟器,开启模拟器请参考这篇文章 一 简单工程 本文基于第三篇文章中的工程进行修改,…

Deep Residual Learning for Image Recognition

2015-ResNet 关键词: residual connection CV论文:一般在第一页就放一个很“好看”的图 从图可以得到的结论:深的网络更难训练 ( 不仅因为过拟合,因为训练时误差都很难降低 ) 网络结构图 1*1卷积作用:改变通道数 ,提出维度匹配方法:1)补零;2)投影projection…

map和set的模拟实现|利用红黑树封装map和set|STL源码剖析

前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助。 高质量干货博客汇总https://blog.csdn.net/yu_cblog/c…

再战Nvidia,安装 Windows 11 和 EndeavourOS 双系统

吐血刚装了一周的Ubuntu23.04就挂了,由于买的是最新的显卡就上了Test版本,结果Ubuntu自带的nvidia驱动535居然会失灵,nvidia-smi直接fail。于是换了一堆发行版本,但是我这个主板没带hdmi不支持集显输出,必须安装时就上…

WEB:warmup

背景知识 文件包含 目录遍历 代码审计 题目 打开链接后只有一张图片 f12和查看源代码都试一下&#xff0c;查看源代码发现如下图 访问一下source.php&#xff0c;有如下代码&#xff0c;进行代码审计 <?phphighlight_file(__FILE__);class emmm{public static function c…

#pragma pack不成对出现造成的异常

#pragma pack需要成对出现&#xff0c;若不成对出现会造成异常&#xff0c;难以调查。 现有5个文件&#xff0c;分别是main.c&#xff0c;A.h&#xff0c;A.c&#xff0c;B.h&#xff0c;B.c。 A.h文件内容如下&#xff1a; #include <stdio.h> #include <stdlib.h&g…

ylb-接口14购买理财产品

总览&#xff1a; 在api模块service包&#xff0c;Invest类下添加&#xff08;投资理财产品&#xff0c; int 是投资的结果 &#xff0c; 1 投资成功&#xff09;&#xff1a; package com.bjpowernode.api.service;import com.bjpowernode.api.pojo.BidInfoProduct;import j…

go mod vendor简明介绍

Go 语言在 go 1.6 版本以后编译 go 代码会优先从 vendor 目录先寻找依赖包&#xff0c;它具有以下优点&#xff1a; 复制依赖&#xff1a;go mod vendor 会把程序所依赖的所有包复制到项目目录下的vendor 文件夹中&#xff0c;所以即使这些依赖包在外部源&#xff08;如 GitHu…

MySQL 约束、聚合查询和联合查询练习

1. 数据库约束 设置一个考勤系统, 包含员工表&#xff0c;考勤记录表 首先要明白, 员工表对考勤记录表是一对多 员工表中起码包含 id , name 考勤记录表则包含 id, 日期, 考勤记录 考勤记录表为子表, id 则为外键约束 员工表为父键, id则为主键约束 搞明白这些, 接下来就…

【C语言】矩阵相乘

#include <stdio.h>#define M 3 #define N 4 #define P 3void fun(int a[M][N], int b[N][P], int m, int p, int n)//定义函数fun {printf("m: %d, p: %d, n: %d\n", m, p, n);int c[M][P]{0};int i, j, k;for(i 0; i < m; i){for(j 0; j < n; j){fo…

【数据结构】朴素模式匹配 KMP算法

&#x1f387;【数据结构】朴素模式匹配 & KMP 算法&#x1f387; &#x1f308; 自在飞花轻似梦,无边丝雨细如愁 &#x1f308; &#x1f31f; 正式开始学习数据结构啦~此专栏作为学习过程中的记录&#x1f31f; 文章目录 &#x1f387;【数据结构】朴素模式匹配 & K…

IDEA中设置鼠标滚轮修改字体大小

IDEA中设置鼠标滚轮修改字体大小&#xff1f; 选择File--Settings--Editor--General&#xff0c;把 Mouse Control 前的对勾勾选 后点击 OK 即可。 勾选此设置后&#xff0c;增加 Ctrl 鼠标滚轮 快捷键来控制代码字体大小显 示。字体随时可以放大缩小~~可真好用呢~

IDEA运行TOMCAT出现404

就这种问题&#xff0c;每个人的原因都不一定一样&#xff0c;我出现这种问题的解决方法在这里记录一下。顺便把我的配置记录一下。 除了本文的问题&#xff0c;还有可能是默认打开的文件名错了&#xff0c;或者端口被占用。 软件版本IDEA2023 TOMCAT9 亲测&#xff1a;IDE…

❤️创意网页:如何使用HTML制作漂亮的搜索框

✨博主&#xff1a;命运之光 &#x1f338;专栏&#xff1a;Python星辰秘典 &#x1f433;专栏&#xff1a;web开发&#xff08;简单好用又好看&#xff09; ❤️专栏&#xff1a;Java经典程序设计 ☀️博主的其他文章&#xff1a;点击进入博主的主页 前言&#xff1a;欢迎踏入…

pycharm python 函数添加注释 快捷键

写完函数定义后,在函数名下面点击,并按下敲入""",完后回车,这会自动生成函数的文档注释格式 完后找我要插件,会阅读函数的内容,自动生成注释的内容.