2023年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…

news2024/11/19 5:35:32

2023年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…
武汉唯众智创科技有限公司
2024 年 2 月
联系人:辜渝傧13037102709

题号:试题01

模块三:业务分析与可视化

(一)任务一:数据可视化

1.子任务一:数据分析
(1)在 comm 数 据 库 下 创 建 一 个 名 为
dws_behavior_log的外部表,如果表已存在,则先删除;分区字段为dt,即根据日期进行分区;另外,要求指定表的存储路径为HDFS的/behavior/dws/dws_behavior_log目录,存储文件类型为“orc”,文件的压缩类型为“snappy”;字段类型如下表所示;
表6 字段类型表
在这里插入图片描述
答:

DROP TABLE IF EXISTS dws_behavior_log;
create external table comm.dws_behavior_log(client_ip string,device_type string,type string,device string,url string,province string,city string) partitioned by (dt string) STORED AS orc location '/behavior/dws/dws_behavior_log' tblproperties ("orc.compress"="SNAPPY");

(2)启动Hive的动态分区功能,并将Hive设置为非严格模式;
答:

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nostrict;

(3)使用insert overwrite … select …子句将dwd_behavior_log表中数据插入分区表dws_behavior_log中,并实现根据dt进行动态分区;
答:insert overwrite table dws_behavior_log PARTITION (dt) select * from dwd_behavior_log;
(4)查看dws_behavior_log表的所有现有分区、前3行数据,并统计统计表数据总行数;
答:

SHOW PARTITIONS dws_behavior_log;
SELECT * FROM dwd_behavior_log LIMIT 3;
SELECT count(*) FROM dws_behavior_log;

(5)在comm数据库下创建一个名为dim_date的外部表,如果表已存在,则先删除;另外,要求指定表的存储路径为HDFS的/behavior/dim/dim_date目录,字段分隔符为 “\t” , 建 表 时 添 加 TBLPROPERTIES
(‘skip.header.line.count’=‘1’) 语句让Hive读取外表数据时跳过文件行首(表头);字段类型如下表所示;
表7 字段类型表
在这里插入图片描述
答:

DROP TABLE IF EXISTS comm.dim_date;
create external table comm.dim_date(date_id string,week_id string,week_day string,day string,month string,quarter string,year string,is_workday string,holiday string) row format delimited fields terminated by '\t' location '/behavior/dim/dim_date' TBLPROPERTIES ('skip.header.line.count'='1');

(6)在comm数据库下创建一个名为dim_area的外部表,如果表已存在,则先删除;另外,要求指定表的存储路径为HDFS的/behavior/dim/dim_area目录,字段分隔符为
“\t”;字段类型如下表所示;
表8 字段类型表
在这里插入图片描述
答:

drop table if exists comm.dim_area;
create external table comm.dim_area(city string,province string,area string) row format delimited fields terminated by '\t' location '/behavior/dim/dim_area';

(7)使用load data子句将本地/root/eduhq/data目录下的“dim_date_2023.txt”和“dim_area.txt”文件分别加载到外部表dim_date和dim_area中;
答:

load data local inpath '/root/eduhq/data/dim_date_2023.txt' into table comm.dim_date;
load data local inpath '/root/eduhq/data/dim_area.txt' into table comm.dim_area;

(8)分别查看外部表dim_date和dim_area的前3行数据;
答:

select * from comm.dim_date  limit 3;
select * from comm.dim_area  limit 3;

(9)分别统计外部表dim_date和dim_area数据总行数;
答:

select count(*) from comm.dim_date;
select count(*) from comm.dim_area;

(10)统计不同省份用户访问量;将统计结果导出到本地文件系统的/root/eduhq/result/ads_user_pro目录下,并指定列的分隔符为逗号(特别注意:因为省份是随机获取的,所以结果会有所差异);

insert overwrite local directory '/root/eduhq/result/ads_user_pro' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select province,count(*) from comm.dim_area group by province;

(11)统计不同时间段的网页浏览量将统计结果导出到本地文件系统的/root/eduhq/result/ads_user_hour 目录下,并指定列的分隔符为逗号;
答:insert overwrite local directory '/root/eduhq/result/ads_user_hour' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select *,DATE_FORMAT(time, 'yyyy-MM-dd HH') AS hour from comm.xxx group by hour;
(12)不同网站访客的设备类型统计;将统计结果导出到本地文件系统的/root/eduhq/result/ads_visit_mode目录下,并指定列的分隔符为逗号;
答:insert overwrite local directory '/root/eduhq/result/ads_visit_mode' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select url,device_type from comm.xxx group by device_type;
(13)不同网站的上网模式统计;将统计结果导出到本地文件系统的/root/eduhq/result/ads_online_type 目录下,并指定列的分隔符为逗号;
答:insert overwrite local directory '/root/eduhq/result/ads_online_type' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select url,type from comm.xxx group by type;
2.子任务二:数据可视化
(1)使用Pyecharts库绘制中国地图,以直观展示不同省份用户访问量分布情况;
⚫文件名:ads_user_pro.py
⚫文件存放地址:/root/eduhq/python/
⚫数据目录:/root/eduhq/result/ads_user_pro目录
⚫背景地址:/root/eduhq/images/img_1.png
⚫图表名称:不同省份用户访问量分布图.html
⚫图表存放地址:/root/eduhq/html/
(2)使用Pyecharts库绘制一个带时间轴的柱形图,以直观展示不同经济大区用户的访问量统计情况;
⚫文件名:ads_user_region.py
⚫文件存放地址:/root/eduhq/python/
⚫数据目录:
/root/eduhq/result/ads_user_region目录
⚫背景地址:/root/eduhq/images/img_2.png
⚫图表名称:不同经济大区用户访问量统计柱形图
.html
⚫图表存放地址:/root/eduhq/html/
(3)使用Pyecharts绘制网页浏览量统计折线图,直观展示不同时间段内的访问量变化趋势;
⚫文件名:ads_user_hour.py
⚫文件存放地址:/root/eduhq/python/
⚫数据目录:/root/eduhq/result/ads_user_hour目录
⚫背景地址:/root/eduhq/images/img_3.png
⚫图表名称:不同时间段网页浏览量统计曲线图.html
⚫图表存放地址:/root/eduhq/html/
(4)使用Pyecharts绘制网页浏览量统计折线图,直
观展示节假日和工作日不同时间段内的访问量变化趋势;
⚫文件名:ads_hol_work_user.py
⚫文件存放地址:/root/eduhq/python/
⚫数据目录:
/root/eduhq/result/ads_hol_work_user目录
⚫背景地址:/root/eduhq/images/img_3.png
⚫图表名称:节假日和工作日各时间段网页浏览量统计曲线图.html
⚫图表存放地址:/root/eduhq/html/
(5)使用Pyecharts绘制堆积柱形图,直观地展示访客在不同设备类型上的访问次数情况;
⚫文件名:ads_visit_mode.py
⚫文件存放地址:/root/eduhq/python/
⚫数据目录:/root/eduhq/result/ads_visit_mode

目录
⚫背景地址:/root/eduhq/images/img_2.png
⚫图表名称:网站访客设备类型统计堆积柱形图
.html
⚫图表存放地址:/root/eduhq/html/
(6)使用Pyecharts绘制堆积柱形图,直观地展示访客在不同上网模式下的访问次数情况;
⚫文件名:ads_online_type.py
⚫文件存放地址:/root/eduhq/python/
⚫数据目录:/root/eduhq/result/
ads_online_type目录
⚫背景地址:/root/eduhq/images/img_2.png
⚫图表名称:网站访客上网模式统计堆积柱形图
.html
⚫图表存放地址:/root/eduhq/html/
(7)使用Pyecharts绘制词云图,直观地展示不同域名用户访问情况;
⚫文件名:ads_user_domain.py
⚫文件存放地址:/root/eduhq/python/
⚫数据目录:/root/eduhq/result/ads_user_domain
目录
⚫背景地址:/root/eduhq/images/img_2.png
⚫图表名称:不同域名用户访问统计词云.html
⚫图表存放地址:/root/eduhq/html/

(二)任务二:业务分析

(1)统计每天不同经济大区用户访问量;将统计结果导出到本地文件系统的/root/eduhq/result/ads_user_region目录下,并指定列的分隔符为逗号;
答:insert overwrite local directory '/root/eduhq/result/ads_user_region' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select day,area from table_name group by area;
(2)统计节假日和工作日的浏览量差异;将统计结果导出到本地文件系统的/root/eduhq/result/ads_hol_work_user目录下,并指定列的分隔符为逗号;
答:

insert overwrite local directory '/root/eduhq/result/ads_hol_work_user' ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
SELECT  
  CASE  
    WHEN is_workday = 1 THEN '工作日'  
    ELSE '节假日'  
  END AS day_type,  
  SUM(url) AS total_views  
FROM  
  page_views  
GROUP BY  
  day_type;

(3)统计不同域名的用户访问量;将统计结果导出到本地文件系统的
/root/eduhq/result/ads_user_domain目录下,并指定列的分隔符为逗号;
答:

CREATE TABLE user_visits (  
  user_id STRING,  
  visit_date STRING,  
  domain STRING,  
  visit_count INT  
)  
ROW FORMAT DELIMITED  
FIELDS TERMINATED BY '\t';
insert overwrite local directory '/root/eduhq/result/ads_user_domain' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' SELECT user_id, DATE_FORMAT(REGEXP_REPLACE(visit_date, '/', '-'), 'yyyy-MM-dd') AS visit_date, domain, visit_count FROM user_visits;

更多内容请联系
武汉唯众智创科技有限公司
欲了解更多信息,欢迎登录www.whwzzc.com,咨询电话13037102709
*本资料产品图片及技术数据仅供参考,如有更新恕不另行通知,具体内容解释权归唯众所有。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1478807.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Web安全靶场】sqli-labs-master 38-53 Stacked-Injections

sqli-labs-master 38-53 Stacked-Injections 其他关卡和靶场看专栏… 文章目录 sqli-labs-master 38-53 Stacked-Injections第三十八关-报错注入第三十九关-报错注入第四十关-盲注第四十一关-盲注第四十二关-联合报错双查询注入第四十三关-报错注入第四十四关-盲注第四十五关-…

Facebook的元宇宙实践:数字化社交的新前景

近年来,元宇宙(Metaverse)这一概念备受瞩目,被认为是数字化社交的未来趋势之一。而在众多科技巨头中,Facebook(现更名为Meta)一直处于元宇宙发展的前沿。在本文中,我们将深入探讨Fac…

linux系统Jenkins工具web配置

Jenkins工具配置 插件配置系统配置系统工具配置 插件配置 下载 Maven Integration Pipeline Maven lntegration gitlab Generic webhook Trigger nodejs Blue ocean系统配置 系统配置结束系统工具配置

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的水果质量识别系统(Python+PySide6界面+训练代码)

摘要:本篇博客详尽介绍了一套基于深度学习的水果质量识别系统及其实现代码。系统采用了尖端的YOLOv8算法,并与YOLOv7、YOLOv6、YOLOv5等前代算法进行了详细的性能对比分析,提供在识别图像、视频、实时视频流和批量文件中水果方面的高效准确性…

32单片机基础:TIM输出比较

这个输出比较功能是非常重要的,它主要是用来输出PWM波形,PWM波形又是驱动电机的必要条件,所以你如果想用STM32做一些有电机的项目,比如智能车,机器人等。 IC: Input Capture 输入捕获 CC:Capture/Compare一般表示输入捕获和输出…

【Leetcode每日一刷】哈希表|纲领、242.有效的字母异位词、349. 两个数组的交集

纲领 🔗代码随想录理论部分 关于哈希表这个数据结构就不再重复讲了,下面对几个关键点记录一下: 哈希碰撞 解决方法1:拉链法 解决方法2:线性探测法 下面针对做题要用到的三种结构讲一下(也是重复造轮子了…

解释一下前端框架中的虚拟DOM(virtual DOM)和实际DOM(real DOM)之间的关系。

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

windows server mysql 数据库停止 备份 恢复全流程操作方法

一,mysql备份 mysql最好是原工程文件备份.不需要sql查询的方式备份.安全高效. 比如,安装php与mysql组合后,我的mysql文件保存在: D:\phpstudy_pro\Extensions\MySQL5.7.26\data\dux 我只需要复制一份,保存起来就行. 二,mysql恢复 怎么恢复呢.我们一般是只恢复其中一个表,则找…

华为---RSTP(四)---RSTP的保护功能简介和示例配置

目录 1. 技术背景 2. RSTP的保护功能 3. BPDU保护机制原理和配置命令 3.1 BPDU保护机制原理 3.2 BPDU保护机制配置命令 3.3 BPDU保护机制配置步骤 4. 根保护机制原理和配置命令 4.1 根保护机制原理 4.2 根保护机制配置命令 4.3 根保护机制配置步骤 5. 环路保护机…

thefour--Love is like a tide

最后一部分了,要开始进行我们的训练了。 先上代码: import os import numpy as np from tqdm import tqdm import tensorflow as tf from thetwo import NeuralStyleTransferModel import theone import thethree #创建模型 modelNeuralStyleTransferM…

2.29IO进程线程

编写链表&#xff0c;链表里面随便搞点数据 使用 fprintf 将链表中所有的数据&#xff0c;保存到文件中 使用 fscanf 读取文件中的数据&#xff0c;写入链表中 #include <stdio.h> #include <string.h> #include <unistd.h> #include <stdlib.h>typed…

自定义View中的ListView和ScrollView嵌套的问题

当我们在使用到ScrollView和ListView的时候可能会出现显示不全的问题。那我们可以进行以下分析 ScrollView在测量子布局的时候会用UNSPECIFIED。通过源码观察&#xff0c; 在ScrollView的onMeasure方法中 Overrideprotected void onMeasure(int widthMeasureSpec, int heightMe…

git push提交后GitHub没有统计我的Contributions

我在家里的电脑上创建了一个仓库&#xff0c;然后在笔记本上录取下来并进行提交合并等操作&#xff0c;但是发现笔记本上提交的记录并没有被github记录&#xff0c;就是那个绿色的点没有 就是提交完之后 没有出现当天的绿色的点 通过git log 后发现&#xff0c;提交记录中存在…

计算机网络-网络互连与互联网(三)

1.地址解析协议ARP&#xff1a; IP查询MAC地址&#xff0c;询问/回答机制。ARP缓存表、ARP欺骗、ARP病毒、代理ARP、反向RARP。 ARP、RARP分组格式如下&#xff1a; 2.地址解析协议ARP&#xff1a; 缓存表&#xff1a;开始-运行-cmd&#xff0c;输入arp -a(-s&#xff08;绑…

【MySQL】MySQL复合查询--多表查询自连接子查询

文章目录 1.基本查询回顾2.多表查询3.自连接4.子查询 4.1单行子查询4.2多行子查询4.3多列子查询4.4在from子句中使用子查询4.5合并查询 4.5.1 union4.5.2 union all 1.基本查询回顾 表的内容如下&#xff1a; mysql> select * from emp; ----------------------------…

vue项目中使用antv X6新手教程,附demo案例讲解(可拖拽流程图、网络拓扑图)

前言&#xff1a; 之前分别做了vue2和vue3项目里的网络拓扑图功能&#xff0c;发现对antv X6的讲解博客比较少&#xff0c;最近终于得闲码一篇了&#xff01; 需求&#xff1a; 用户可以自己拖拽节点&#xff0c;节点之间可以随意连线&#xff0c;保存拓扑图数据后传给后端&…

Java学习笔记------权限修饰符和抽象类、抽象方法

权限修饰符的分类 代码块 局部代码块 public class test{public static void main(String[] args){int a10;System.out.println(a);} } { int a10; System.out.println(a); }即是局部代码块 构造代码块 构造代码块优先于构造方法执行 静态代码块 格式…

不要神话了AI / GPT(人工智能 和 GPT)-尽量用一张图说明(将持续更新)

很多人一听到 AI&#xff0c; GPT &#xff0c;Chat-GPT&#xff0c; 智能驾驶&#xff0c;智能这个&#xff0c;智能那个&#xff0c; ..... 就觉得 噢&#xff0c; 好 牛皮 呀&#xff0c; 其实这个东西算个啥&#xff1f; 争取 用一张图 把 他的 根 给 刨出来&#xff08;刨…

如何提取测试点

如何提取测试点 首先会想到从需求文档中提取测试点&#xff0c;每一次迭代之后&#xff0c;都会有需求&#xff0c;需求经理评审之后&#xff0c;我们要基于需求去写测试计划&#xff0c;包括梳理出来的测试点&#xff0c;梳理完测试点之后&#xff0c;编写对应的测试用例&…

面试笔记系列三之spring基础知识点整理及常见面试题

目录 如何实现一个IOC容器? 说说你对Spring 的理解&#xff1f; 你觉得Spring的核心是什么&#xff1f; 说一下使用spring的优势&#xff1f; Spring是如何简化开发的&#xff1f; IOC 运行时序 prepareRefresh() 初始化上下文环境 obtainFreshBeanFactory() 创建并…