在线考试系统学员答题批改日志,实战练习

news2025/1/12 1:54:22

一、环境要求

sandbox-hdp 2.6.4 或同等版本自建的Hadoop+Hive+Spark+HBase 开发环境。

二、数据描述

这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系数,题目所属的知识点 ID,做题的学生 ID,题目 ID 以及作答批改果。日志的结构如下:
在这里插入图片描述

三、功能要求

1、数据准备

请在 HDFS 中创建目录/app/data/exam,并将 answer_question.log 传到该目录。

[root@hadoop02 ~]# hdfs dfs -put /opt/testdata/answer_question.log /app/data/exam

2、在 Spark-Shell 中,加载 HDFS 文件系统 answer_question.log 文件,并使用 RDD 完成以下分析,也可使用 Spark 的其他方法完成数据分析。

①提取日志中的知识点 ID,学生 ID,题目 ID,作答结果 4 个字段的值

scala> val rdd = fileRDD
	.map(x=>x.substring(x.indexOf("set ")))
	.map(x=>x.split(",")).map(x=>x(0))
	.map(x=>{
		val a = x.split(" ");
		val b=a(1).split("_");
		(b(1),b(2),b(3),a(2))})
	.foreach(println)

在这里插入图片描述

②将提取后的知识点 ID,学生 ID,题目 ID,作答结果字段的值以文件的形式保存到 HDFS的/app/data/result 目录下。一行保留一条数据,字段间以“\t”分割。文件格式如下所示。

scala> rdd
	.map(x=>x.productIterator.mkString("\t"))
	.saveAsTextFile("/app/data/exam2")

3、创建 HBase 数据表

在 HBase 中创建命名空间(namespace)exam,在该命名空间下创建 analysis 表,使用学生 ID 作为 RowKey,该表下有 2 个列族 accuracy、question。accuracy 列族用于保存学 员 答 题 正 确 率 统 计 数 据 ( 总 分 accuracy:total_score , 答 题 的 试 题 数accuracy : question_count,正确率accuracy:accuracy);question 列族用于分类保存学员正确,错 误和半对的题目 id (正确 question:right,错误 question:error,半对question:half)

hbase(main):007:0> create 'exam:analysis','accuracy','question'

4、请在 Hive 中创建数据库 exam,在该数据库中创建外部表 ex_exam_record 指向/app/data/result 下 Spark 处理后的日志数据 ;

create external table ex_exam_record_ana(
    topic_id string,
    student_id string,
    question_id string,
    score float
)
row format delimited fields terminated by "\t"
stored as textfile location "/app/data/exam2";

在这里插入图片描述
创建外部表 ex_exam_anlysis 映射至 HBase中的 analysis 表的 accuracy 列族

ex_exam_analysis在这里插入图片描述
创建外部表 ex_exam_question 映射至 HBase 中的analysis 表的 question 列族
在这里插入图片描述

create external table  ex_exam_anlysis(
    student_id string,
    total_score float,
    question_count int,
    accuracy float
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with
serdeproperties ("hbase.columns.mapping"=":key,accuracy:total_score,accuracy:accuracy,accuracy:question_count")
tblproperties ("hbase.table.name"="exam:analysis")
create external table  ex_exam_question(
    student_id string,
    `right` string,
    `half` string,
    `error` float
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with
serdeproperties ("hbase.columns.mapping"=":key,question:right,question:half,question:error")
tblproperties ("hbase.table.name"="exam:analysis");

5、使用 ex_exam_record 表中的数据统计每个学员总分、答题的试题数和正确率,并保存到 ex_exam_anlysis 表中,其中正确率的计算方法如下:正确率=总分/答题的试题数

insert into table ex_exam_anlysis_ana(
select student_id,t1.totalscore,t1.`all`,double(t1.totalscore)/double(t1.`all`) `rate` from (
select student_id,sum(score) `totalscore`,count(1) `all` from ex_exam_record_ana group by student_id) t1)

6、使用 ex_exam_record 表中的数据统计每个作对,做错,半对的题目列表。

①题目 id 以逗号分割,并保存到 ex_exam_question表中。

with t1 as(
select student_id,
       case when score=1 then question_id end as `right`,
       case when score=0.5 then question_id end as `half`,
       case when score=0 then question_id end as `error`
       from ex_exam_record_ana)
select student_id,concat_ws(',',collect_list(`right`)),concat_ws(',',collect_list(`half`)),concat_ws(',',collect_list(`error`)) from t1 group by student_id;

在这里插入图片描述

②完成统计后,在 HBase Shell 中遍历 exam:analysis表并只显示 question 列族中的数据,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/436297.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Oracle的学习心得和知识总结(二十一)|Oracle数据库可插拔数据库PDB的创建及删除

目录结构 注:提前言明 本文借鉴了以下博主、书籍或网站的内容,其列表如下: 1、参考书籍:《Oracle Database SQL Language Reference》 2、参考书籍:《PostgreSQL中文手册》 3、EDB Postgres Advanced Server User Gui…

华为OD机试(Java),5键键盘的输出

一、题目描述 有一个特殊的5键键盘,上面有a,ctrl-c,ctrl-x,ctrl-v,ctrl-a五个键。 a键在屏幕上输出一个字母a;ctrl-c将当前选择的字母复制到剪贴板;ctrl-x将当前选择的字母复制到剪贴板&#…

极氪要上市,吉利“基因改造”成功

文|智能相对论 作者| 落笔 当越来越多的国产新锐品牌入局新能源汽车市场,晚半拍的极氪却用较短的时间实现了主观逆袭。据统计,极氪001自问世以来便接连斩获消费者欢心,2022年极氪001更是实现了全年交付71941台的战绩,且持续蝉联…

ASP音乐网站的设计与实现

本文阐述了音乐网站的设计与实现,本系统采用ASPSQL Sever 2000作为开发工具。前台主要实现歌曲的分类显示及分类查询、歌曲的在线试听及下载、会员注册、登录以及最新音乐的新闻介绍,并且还为用户提供了在线交流的平台等功能;后台主要用于数据…

BGP路由优选实验

一,实验要求及其拓扑图 二:划分好IP的拓扑 三: 实验分析 1、使用 Preval 策略,确保R4通过R2到达192.168.10.0/24 1、抓取流量 [r4]ip ip-prefix PV permit 192.168.10.0 24 2、配置策略 [r4]route-policy PV permit node 10 [r4…

Web UI自动化测试框架

WebUI automation testing framework based on Selenium and unittest. 基于 selenium 和 unittest 的 Web UI自动化测试框架。 特点 提供更加简单API编写自动化测试。提供脚手架,快速生成自动化测试项目。自动生成HTML测试报告生成。自带断言方法,断言…

Linux常用环境配置

一、sqlite3 1、官网地址 SQLite Download Page 2、在Linux下载 右键复制源代码链接在linux用wget下载 wget https://www.sqlite.org/2023/sqlite-autoconf-3410200.tar.gz 3、解压 tar -xzvf sqlite-autoconf-3410200.tar.gz 4、编译 # 进入解压目录 cd sqlite-autoconf-34102…

App 版本更新插件介绍及使用指南

随着移动互联网的发展,APP 已经成为人们生活中必不可少的一部分,而版本更新也是 APP 发展过程中必不可少的环节。为了更好地实现 APP 版本更新和管理,我们推荐一个非常实用的插件:App 版本更新插件。 该插件支持强制更新、静默更…

Hystrix传递ThreadLocal范围对象的问题(最为细致的分析)

场景 在springcloud微服务体系下,从网关层开始要在request请求头放置一些重要参数,比如traceId,并要求在fegin之间的调用时,也能够一直传递下去,由于实际项目使用中,都是fegin集成了hystrix一起配合使用的…

cloud-canal的部署使用

一,官网参考: https://www.clougence.com/ https://www.clougence.com/cc-doc/quick/quick_start 二,点击下载私有部署版 返回数据: 版本号: 2.5.0.7 MD5值: 18e2502xxxxxxx 下载地址: https://tgzdownload.clougence.com/lates…

华为OD机试(Java),分班

一、题目描述 幼儿园两个班的小朋友在排队时混在了一起,每位小朋友都知道自己是否与前面一位小朋友是否同班,请你帮忙把同班的小朋友找出来。 小朋友的编号为整数,与前一位小朋友同班用Y表示,不同班用N表示。 二、输入描述 输…

PYQT5学习笔记01——PYQT5初体验以及PYQT5程序基本结构分析

一、PYQT5初体验 我们首先用代码编写一个窗口,窗口里面有一个标签控件,标签内的文本是 Hello World,代码如下: # -*- coding: UTF-8 -*- # 导入需要的包 from PyQt5.Qt import * import sys# 创建应用程序对象 app QApplicatio…

【c++初阶】:

c入门 一.概念二.使用三.应用四.常引用五.引用与指针 一.概念 c语言中我们常用指针找地址,但在c中,忽略了指针(当然也可以使用指针)。常用引用这个概念。 二.使用 可以看到这里的b和c本质上都是a,只是不同的称呼罢了。…

手把手教你将项目部署到服务器!

一、导入centos7虚拟机: 打开VMWare,点击“打开虚拟机”,选择centos7.ova之后,选择存储路径: 点击导入: 选择“不再显示此消息”,点击“重试”按钮: 点击“编辑虚拟机设置”&#x…

【数据结构】二叉树OJ题

😽PREFACE 🎁欢迎各位→点赞👍 收藏⭐ 评论📝 📢系列专栏:数据结构 🔊本专栏主要更新的是数据结构部分知识点 💪种一棵树最好是十年前其次是现在 目录 1.单值二叉树 2.相同的树 …

Hadoop之Hive

文章目录 一、Hive简介1.1 Hive 基本概念1.2 Hive架构图1.3 Hive数据模型 二、Hive安装配置2.1 内嵌模式2.2 配置元数据到mysql2.3本地模式2.4远程模式2.5 Hive JDBC Hiverserver22.5.1远程模式下使用Beeline CLI2.5.2 DataGrip图形化客户端 2.6 Hive常见属性配置 一、Hive简介…

Vue基础入门(上)

<script src"https://unpkg.com/vuenext"></script> 从面向dom编程到面向数据编程 输入显示列表 const appVue.createApp({data(){return{inputValue:,list:[]}},methods:{handleAddItem(){this.list.push(this.inputValue);this.inputValue;}},templ…

(一) nvidia jetson orin nvcsi tegra-capture-vi camera相关内容梳理 之 vi相关代码分析

背景:对于nvidia 的jetson orin 的camera,其内部是如何实现的尼?硬件方面的pipeline是怎么关联的,其内部有哪些camera相关的modules?对于这些modules,软件上又是怎么去实现?设备树如何去抽象这些modules?分析完后,给我们一个camera sensor,如何进行bring up?本文将会…

什么是 AUTOSAR C++14?

总目录链接>> AutoSAR入门和实战系列总目录 总目录链接>> AutoSAR BSW高阶配置系列总目录 文章目录 什么是 AUTOSAR C14&#xff1f;AUTOSAR C14 规则和偏差静态分析工具可以完全支持自动 什么是 AUTOSAR C14&#xff1f; 它是 C 版本 14 (ISO/IEC 14882:2014…

Mac安装Stable Diffusion教程【超详细教程】附带安装包

Mac安装Stable Diffusion教程 本机配置Mac安装Stable Diffusion教程 配带官方说明重要注意事项安装所需文件已上传网盘自动安装新安装&#xff1a; 自动安装现有安装&#xff1a; 下载稳定扩散模型故障排除Web UI无法启动&#xff1a;性能不佳&#xff1a; 本机配置 电脑&…