【大数据实训】用Hbase模拟电影搜索引擎(四)

news2025/1/21 14:10:21

博主介绍全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战

🍅文末获取项目联系🍅

《云计算与大数据处理》课程大作业评分表

项目考核内容考核/评价细则小项分大项分
数据集20%数据清洗或生成模拟数据集20%A、正确完成数据清洗,或生成的模拟数据集质量高、多样性好,代码规范、可读性高。B、正确地完成数据清洗,或生成的模拟数据集质量较高、多样性较好,代码较规范、可读性好。C、较为正确地完成数据清洗,或生成的模拟数据集质量一般、缺乏多样性较好,代码基本符合规范、可读性一般。D、基本正确地完成数据清洗,或生成的模拟数据集质量一般、多样性较差,代码不太规范、可读性差。E、没有正确完成数据清洗,或生成的模拟数据集质量较差、多样性差,代码不规范、可读性差。
Hbase或MapReduce编程50%项目的完成度60%A、针对大作业题目,非常完美地实现了所要求的功能,甚至增加了一些大数据处理功能,代码设计非常合理、规范、可读性高。B、针对大作业题目,完整地实现了所要求的功能,代码设计合理、规范、可读性较好。C、针对大作业题目,实现了所要求的功能,代码设计较合理、规范、可读性一般。D、针对大作业题目,基本正确地实现了所要求的功能,代码设基本合理,规范、可读性较差。E、针对大作业题目,部分实现了所要求的功能,代码设计不合理,规范、可读性较差,或存在抄袭现象。
项目功能效果与测试(40%)A、对每一个功能、每一个步骤,都有严格的测试和效果评价,测试过程详实,记录很完整。B、对每一个功能、每一个步骤,都有较完整的测试和效果评价,测试过程完整,记录完整。C、对每一个功能、每一个步骤,都有作了测试和效果评价,测试过程基本完整,但记录可能不完整。D、对每一个功能、每一个步骤,只作了简单的测试和效果评价,测试过程基本完整,但记录可能不完整。E、对大作业要求的功能没有测试或测试不完整,也没有效果评价,也没有作相应的记录。
报告30%报告质量70%A、报告质量很高,对涉及的原理或采用的方法(Hbase或MapReduce等,以下同),都有充分阐述,甚至加上了自己的理解和分析,图文并茂,步骤清晰,记录(包括截图)很完整。B、报告质量较高,对涉及的原理或采用的方法,都有完整的阐述,图文丰富,步骤清晰,记录(包括截图)完整。C、报告质量一般,对涉及的原理或采用的方法,阐述不完整或者有一些错误,图表不多,记录(包括截图)基本完整。D、报告质量不高,没有完整地阐述涉及的原理或采用的方法,几乎没有图表,步骤不清晰,记录(包括截图)不完整。E、报告质量很差或存在50%条目书写不完全符合要求或抄袭。
报告规范30%A、报告很完整,图、文、表格排版很规范,标题、页眉、页脚等格式也很规范。B、报告较为完整,图、文、表格排版比较规范,其他格式较规范。C、报告较为完整,图、文、表格排版基本规范,其他格式基本规范。D、报告不完整或不规范,特别是图表的排版较差。E、报告不规范,甚至有抄袭。

目 录

(说明:目录由系统自动生成。打印时删除此说明文字)

第一章 概述

1.1 任务概述

1.2 数据集描述

第二章 生成模拟数据集

2.1 目标

2.2 实现思路

2.3 实现代码

第三章 功能实现

3.1 功能1实现

3.2 功能2实现

3.3 功能3实现

第四章 运行及测试

4.1 编译运行

4.2 测试

4.3 打包执行

第一章 概述

说明:

  1. 每一章每一节,可以加上自己的理解,尽量丰富内容。

  2. 在功能上可以根据自己的能力增加一些功能。

  3. 本文档所有说明性文字,在打印之前都应该删除掉。

  4. 本文档只提供了基本的模板,每章都可以根据自己实现的功能和理解增加一些章节,每节都应该尽量丰富内容。

1.1 任务概述

题目:电影搜索引擎

功能:根据文档数据集,模拟用户输入一个电影关键

词后,搜索到哪些文档

1.2 数据集描述

用Java语言编写程序,按以下格式要求生成一个较大的模拟数据集

(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.

第二章 生成模拟数据集

如果是对现成的数据集作了清洗,则改成“数据清洗”。

2.1 目标

用Java语言生成一个较大的模拟数据集,达到模拟海量数据的效果。

2.2 实现思路

生成模拟数据集:用C+、Java、Python等语言编写程序,按以下格式要求生成一个较大的模拟数据集(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.…

注意:关键词D1:6,表示关键词D1这一列的值为

6(即出现次数)

2.3 实现代码

第三章 功能实现

本章对每一个功能,详细描述其实现原理,实现方法,实现代码,尽可能图文并茂。

3.1 功能实现

HBase编程:编写Java程序,实现本题功能,即在HBase中创建一个表doc,把数据集中的数据全部插入到doc表,然后再输入一个电影关键词,按以下格式输出查询结果。尽可能详细描述程序的编译、在IDE环境下测试、打包、执行完整过程,附相应的截图及程序执行结果文档ID1:出现次数文档ID2:出现次数文档ID3:出现次数

实验结果:

img

第四章 运行及测试

本章详细描述完整程序的编译、测试、打包、执行过程,要附截图。

根据实际情况修改每一节标题。

4.1 编译运行

点击执行 开始模拟数据集,并根据关键词搜索信息

img

img

4.2 测试

运行结果

img

4.3 打包执行

get ‘nlp_graph:doc’,’1’

img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/996698.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python读取监控流通过websocket连接发送到java服务端,服务端推流到前端

python读取逐帧读取监控 import websocket import base64 import cv2 import numpy as npvideoPath "rtmp://ns8.indexforce.com/home/mystream" // 此为公开RTSP流def on_message(ws, message):print(1)def connection_tmp(ws):websocket.enableTrace(True)ws w…

时序分解 | MATLAB实现基于小波分解信号分解分量可视化

时序分解 | MATLAB实现基于小波分解信号分解分量可视化 目录 时序分解 | MATLAB实现基于小波分解信号分解分量可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 基于小波分解的分量可视化,MATLAB编程程序,用于将信号分解成不同尺度和频率的子信…

动态库的制作和使用

动态库和静态库的工作原理 配置环境变量 方式1: 坏处:环境变量是临时的 方式2: 1 用户级别的配置: 进入到/home,找到.bashrc,进入 先去找到库的路径 然后再到.bashrc最后一行输入路径 使其生效 2 系统…

芯片产业链补齐,中国成全球唯一拥有全部工业门类的国家

随着一款国产5G手机的发布,中国制造在芯片产业链方面也形成了自己的完整体系,成为全球唯一一个拥有全部工业门类的国家,这是非常值得高兴的消息。 中国早在2010年就成为全球最大制造国,不过当时中国制造所需要的芯片大多都需要从海…

解决img标签和p标签不能水平居中对齐的问题

现象如下&#xff1a; <div class"children"><div class"wrap"><ul><li class"product"><a href"#"><img src"./images/miphone1.jpg"><p>小米手机</p></a></li&…

【LeetCode-中等题】27. 移除元素

文章目录 题目方法一&#xff1a;快慢指针 题目 方法一&#xff1a;快慢指针 int fast 0;// 快指针 用于扫描需要的元素int slow 0;//慢指针 用于记录需要存放元素的位置class Solution { // 快慢指针public int removeElement(int[] nums, int val) {int fast 0;// 快指针…

页面分布引导新手指引(driver.js)

页面分布引导&#xff08;driver.js&#xff09; 最近由于有一个需求——做新手指引&#xff0c;在新用户进入页面的时候提供指引和帮助,快速让用户熟悉页面的功能,但是为了不要过多影响现有的页面逻辑和样式,找到一款非常好用的工具driver.js:Driver.js是一个功能强大且高度可…

golang-bufio 缓冲扫描

前面两篇博客&#xff0c;介绍了 bufio 包中的缓冲读和写&#xff08;bufio.go&#xff09;&#xff0c;下面再来介绍一下缓冲扫描&#xff08;scan.go&#xff09;。这个扫描的是用来对缓存读的更高级封装&#xff0c;提供了一些更易用的方法。 缓冲扫描 Scanner 提供了一个…

电子技术基础(三)__第2章放大电路原理__英文简称

静态分析&#xff0c; 又称为直流分析&#xff0c; 用于求出电路的直流工作状态&#xff0c; 即l输入信号 。 一 . 先看几个英文符号 : 集电极及发射极间电压, 简称管压降 : 发射结电压降&#xff0c; 二. 接着看 加上Q点的英文简称 Q点: 放大电路的静态工作点&#…

【Spring面试】二、BeanFactory与IoC容器的加载

文章目录 Q1、BeanFactory的作用是什么&#xff1f;Q2、BeanDefinition的作用是什么&#xff1f;Q3、BeanFactory和ApplicationContext有什么区别&#xff1f;Q4、BeanFactory和FactoryBean有什么区别&#xff1f;Q5、说下Spring IoC容器的加载过程&#xff08;※&#xff09;Q…

《向量数据库》——向量数据库的使用场景有哪些?

向量数据库在许多应用领域都有广泛的用途,特别是那些需要存储、检索和分析向量数据的场景。以下是一些常见的向量数据库使用场景: 1、相似性搜索: 推荐系统:用于根据用户的历史行为或兴趣,搜索相似用户或物品,以提供个性化推荐。图像检索:允许用户通过图像查询相似的图像…

Leangoo领歌 -敏捷任务管理软件,任务管理更轻松更透明

​任务管理&#xff0c;简单易懂&#xff0c;就是对任务进行管理。那怎么可以更好进行任务管理呢&#xff1f;怎么样样可以让任务进度可视化&#xff0c;一目了然呢&#xff1f;有效的管理可以让我们事半功倍。 接下来我们看一下如何借助任务管理软件高效的做任务管理。 首先…

机器学习实战-系列教程6:SVM分类实战1(鸢尾花数据集/软间隔/线性SVM/非线性SVM/scikit-learn框架)项目实战、原理解读、代码解读

&#x1f308;&#x1f308;&#x1f308;机器学习 实战系列 总目录 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 SVM分类实战1 SVM分类实战2 支持向量机&#xff08;Support Vector Machines&#xff0c;SVM&#xff09;&#xff0c;用于分类和…

开箱报告,Simulink Toolbox库模块使用指南(六)——S-Fuction模块(TLC)

文章目录 前言 Target Language Compiler&#xff08;TLC&#xff09; C MEX S-Function模块 编写TLC文件 生成代码 Tips 分析和应用 总结 前言 见《开箱报告&#xff0c;Simulink Toolbox库模块使用指南&#xff08;一&#xff09;——powergui模块》 见《开箱报告&am…

Unity中Shader抓取屏幕并实现扭曲效果实现

文章目录 前言一、屏幕抓取&#xff0c;在上一篇文章已经写了二、实现抓取后的屏幕扭曲实现思路&#xff1a;1、屏幕扭曲要借助传入 UV 贴图进行扭曲2、传入贴图后在顶点着色器的输入参数处&#xff0c;传入一个 float2 uv : TEXCOORD&#xff0c;用于之后对扭曲贴图进行采样3、…

【鲁棒电力系统状态估计】基于投影统计的电力系统状态估计的鲁棒GM估计器(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

Orangepi Zero2 全志H616(一):配置初始化和启动流程

目录 一&#xff0c;Orangepi简单说明 ①为什么使用全志H616 ②基本特性 ③配套操作系统支持 二&#xff0c;刷机和系统启动 ①准备工具 ②登录系统 ● 开发板供电 ● 登录 ● 开发板上板载LED灯测试说明 ③修改登录密码 ④网络配置 ⑤SSH登陆开发板 三&#xff…

(二十六)大数据实战——kafka集群之Kraft模式安装与部署

前言 本节内容主要介绍kafka3.0版本以后&#xff0c;一种新的kafka集群搭建模式看kraft&#xff0c;在该模式下&#xff0c;kafka高可用不在依赖于zookeeper&#xff0c;用 controller 节点代替 zookeeper&#xff0c;元数据保存在 controller 中&#xff0c;由 controller 直…

产品路线图管理,实践如何管理产品路线图和路线图规划

​什么是产品路线图&#xff1f; 产品路线图是一个高层次的战略计划&#xff0c;它描述了产品在未来一段时间可能会如何发展和壮大。 产品路线图确保整个产品团队持续关注产品的目标&#xff0c;帮助产品负责人把握产品的战略方向&#xff0c;调整产品的优先级和产品规划。 …

【实践篇】Redis最强Java客户端Redisson

文章目录 1. 前言2. Redisson基础概念2.1 数据结构和并发工具2.1.1 对Redis原生数据类型的封装和使用2.1.2 分布式锁实现和应用2.1.3 分布式集合使用方法 2.2 Redisson的高级特性2.2.1 分布式对象实现和使用2.2.2 分布式消息队列实现和使用2.2.3 分布式计数器实现和使用 3. 参考…