计算机毕业设计Python+Spark知识图谱高考志愿推荐系统 高考数据分析 高考可视化 高考大数据 大数据毕业设计 机器学习 深度学习 人工智能

news2024/11/30 20:34:40

学院(全称)                        专业(全称)       

姓名

学号

年级

班级

设计(论文)

题目

基于Spark的高考志愿推荐系统设计与实现

指导教师姓名

职称

拟完成时间

2023年10 月 15  日

设计(论文)类别

þ项目设计制作类    ¨项目设计策划类    ¨实践操作类

¨课堂教学与设计类  ¨学位论文类

命题来源

þ教师命题            ¨学生自拟          ¨教师科研课题

是否在实验实训、实习、工程实践和社会调查等社会实践中完成

þ是   ¨否

一、选题依据及意义

1.选题依据:

高考是中国的大学招生的学术资格考试,在目前看来,高考的考试类型有两种,一种是文理分科,另一种是新高考模式[1]。传统的文理分科是将学生分成两个类型,一种是文科,除了语数外三门课以外需要学习政史地,理科相对应的就需要学习物化生。根据学生的高考成绩和每个大学在所对应省份的总体招生计划来分梯度划线,也就是我们常说的重本线,二本线和专科线。

高考填报志愿对每个考生都非常重要,每年全国有数百万家庭使用网络了解高考支援志愿信息并推荐填报志愿。对于很大一部分考生和家长来说,短时间了解全国数千所高等院校的招生标准、历史录取分数、专业要求等信息非常困难。往往由于信息的缺失或错误造成高考志愿与考生成绩之间的较大差异,对考生造成不可挽回的损失。

  1. 意义:

目前高考志愿填报,涌现很多没有结合自身实际、盲目跟风的不良现象,最常见的跟风是过度依赖智能系统,很多家长、考生缺乏高考志愿相关专业知识,又没有太多时间去研究,面对浩如烟海的数据产生焦虑情绪,希望找到一种性价比高的方式,解决填报志愿时遇到的各种难题,最好能省心省事直接生成填报方案[2]。在庞大用户需求量和高额利润诱惑下,高考志愿智能辅助系统软件的市场近年来变得非常火爆,有些商家抓住客户着急心理和对行情信息不了解的情况,做出虚假、过分夸大宣传。大部分家长不能从专业角度去甄别智能系统,盲目跟风缴费升级会员,过分迷信权威金牌专家、内部来源数据、人工智能一键生成方案等,很多考生三年备考、三分钟报考,录取去向满意度不高。

在当今时代,互联网的高度普及以及信息技术的飞速发展都使得数据呈现爆炸式增长,海量的数据然已成为一种“藏”。与此同时,社会出现了大量的“据金者”在数据的海洋里挖掘、采集、提炼、分析,想要发掘有价值的信息。据了解,大数据目前主要应用于互联网、电商、视频门户网站等企业领域,对于教育领域则运用的较少高考是教育领域中最引人注目的大事件,中国作为高考大国,在高考招生的信息化建设中,积累了非常丰富的高考信息数据资源,包括历年的报名库、志愿库、录取库、成绩库等等,且数据大多为原始数据未经过处理。面对这些数据,考生在填报志愿时往往无所适从,导致高考数据没能充分体现其价值,面对大数据时代所带来的数据过载等问题,推荐系统列和搜索引应运而生,相比于后者的信息被动选择模式,推荐系统是基于用户的相关行为数据自动的帮助用户过滤掉一些无用或不喜欢的内容,直接替用户完成了自我筛选的过程。其极大的缩短了用户在信息选择上的时间,同时也提高了用户相关行为数据的利用率[3]

二、研究目的与主要内容

1.研究目的:

高考志愿填报,是人生中的一大抉择,直接关系考生的终身发展每年都会有这样一个现象,有的考生分数很高,本可以录取到 985、211 高校的,但是因为志愿填报的误差,被激烈的竞争挤出来,或者由于不合适的专业选择直接导致了不理想的录取结果,更有甚者导致不得不复读[4]。为了让广大考生报考到一个相对适合自己的专业,我打算利用历年高考志愿填报数据,结合学生个人信息,采用大数据技术,设计一个基于Spark的高考志愿填报推荐系统,在学生填报高考志愿时给学生推荐适合自己的学校和专业,帮助广大考生报考理想学校,提高录取的机率。

2.主要内容:

1、SparkML推荐系统:包含协同过滤算法的两种实现(基于用户、基于物品)、基础业务功能;

2、后台管理系统:数据管理;

3、爬虫:爬取历年省控线、专业线、高考院校信息等作为数据集,并可以实时更新;

4、数据大屏驾驶舱:使用SparkSQL计算框架完成数据统计,以echarts形式进行可视化显示;

提纲:

摘要

英文摘要

1  引言 

    1.  研究背景
    2. 1.2  研究的目的和意义

1.3  国内外研究现状

1.4  研究主要内容与技术

1.4.1研究内容

1.4.2研究技术

2  基于python爬虫的数据爬取和数据库的建立

2.1  高考信息表

2.5  数据库的建立

3  数据进行展示、科学分析和预测

3.1  基于spark+echarts进行可视化展示

3.2  推荐算法

3.4  情感分析

4  系统的建立和展示

4.1  基于springboot+mybatis后端开发

4.2  基于html、echarts、vue前端开发

4.3  系统的最终调试

5  结束语

参考文献

致谢

附录

三、研究方法和手段

研究方法:

参阅相关资料、书籍,在网上调阅资料、学习相关教程、咨询指导老师。在网上收集相关的数据、查阅相关内容掌握数据含义,通过清洗、分析、建模、可视等步骤完成本项目。

手段:

1、按照设计题目要求设计毕业设计方案,配合指导教师进行设计;

2、明确数据的来源,查找数据的途径,确保数据的稳定性;

3、接受指导教师指导,定时汇报工作内容,并就相关问题进行讨论;

4、理论联系实际,培养正确的工作方法和严谨的科学态度;

5、按照进度计划完成毕业设计并书写毕业论文。

四、文献综述

 1、传统填报方法效率低、效果差。

目前,全国大部分省(自治区、直辖市)都是高考成绩公布后开始填报志愿,大部分家长和考生仅仅利用招生考试机构公布志愿填报日程几天时间,从近2700所高校和500多个专业中做出选择,对很多毫无经验的家长和考生来说“难于上青天”[5]。因为影响高考志愿因素太多,如考生职业生涯规划、个人和家庭情况、分数、院校、专业、城市、高考志愿政策规则、填报策略技巧、近3到5年录取数据、录取概率测算、就业情况等,如果仅在几天内通过传统手段,以手工查阅书籍材料,往往会因为资料难找、耗时长、易疲劳出错等原因,填报志愿和最终录取去向往往不尽如人意[6]

2、填报方案不科学,录取不满意案例多。

《中国青年报》社会调查中心发起的一项10万人参加的抽样调查,超过71.2%的人后悔当年的高考志愿。我们可以在新闻媒体或网络上看到很多志愿填报不科学的典型案例,其中很多是高材生。

2008年周某以青海省第三名的成绩被北京大学生命科学学院录取,两年后周某选择转学到了北京工业技师学院。2017年李某从中国科学技术大学退学补习,2018年高考以云南省理科第8名的好成绩拒绝清华大学和北京大学发出的邀请,选择了四川大学口腔专业。2017年广西理科高考第3名考生,填错高考志愿批次,最后通过征集获得录取。2017年浙江省646高分考生竟报考独立学院,全省被独立学院录取的600分以上考生多达9人[7]

现实中,还有很多高考过来人默默承受着高考志愿填报失误带来的痛,比如对专业不满意、对院校不满意、填错批次、错过填报时间、被退档、毕业后从事与自己所学专业毫无关联的工作等。

在本项目中主要研究的是传统文理分科的高考模式,因为这种模式有着大量的数据支撑,提供训练,能够高精度地做出预测[8]。而新考高模式刚刚施行,其数据是不足以支撑训练,从而做出预测。高考录取填报推荐志愿方式,梯度志愿和混合录取,经过不断优化,平行志愿已成为了高考录取的主流,大部分省份都采取平行志愿,所以本次项目也就平行志愿的录取方式来进行研究。即分数优先,满足偏好的方式,所以本项目着重对学生位次进行研究。针对高考这一热门话题,国内外都有着不少的专家学者对其进行研究,在过去的实践中,人们往往选用经典的时间序列方法来解决预测高校录取问题,即利用近5年高校录取的分数线,名次求平均值来预测当年的分数线,但是利用时间序列预测,就必须保证时间序列的过去值、当前值、和未来值之间存在着某种确定的函数关系[9]。所以这养的预测是不够精确,不够完善的。除了基于时间序列的预测以外,还有人通过录取线差法来对高考录取进行研究,所谓录取线差是指考生意向院校当年平均录取分数与其所在招生批次录取控制分数线的差值。但是,每年高考试卷难度有别,造成了各个院校各年度的录取分数可能发生较大的变化。

五、参考文献

[1]孙浩然,武雪明,吉雪芸.高考志愿智能推荐系统的设计与实现[J].电脑知识与技术,2023,19(09):41-45.DOI:10.14004/j.cnki.ckt.2023.0427.

[2]白俊杰. 基于混合推荐的高考志愿推荐系统的设计与实现[D].内蒙古大学,2022.DOI:10.27224/XXXXX.2022.001490.

[3]孟真. 基于Spark的高考推荐系统设计与实现[D].山东师范大学,2017.

[4]银虹宇. 基于大数据的高考志愿推荐系统的设计与实现[D].电子科技大学,2018.

[5]谢雷,唐旭,钟立国. 基于Spark的高考志愿填报系统设计与实现[J]. 计算机工程与设计, 2017, 38(9): 2461-2465.

[6]唐旭,钟立国,谢雷. 基于Spark的高考志愿填报系统设计与实现[J]. 现代计算机, 2019, 40(8): 129-132.

[7]李坤,田田. 基于Spark的高考志愿填报系统设计与实现[J]. 电脑知识与技术, 2019, 15(3): 80-81.

[8]陈娟,黄林伟. 基于Spark的高考志愿填报系统设计与实现[J]. 现代电子技术, 2020, 43(4): 181-184.

[9]基于Spark的高考志愿填报系统设计与实现 作者:谢雷,唐旭,钟立国 出处:《计算机工程与设计》,2017年,第38卷,第9期

[10]Guo, M., Zhang, J., Zhang, J., & Li, J. (2020). Research on Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2020 International Conference on Artificial Intelligence and Big Data (ICAIBD) (pp. 104-107).

[11]Wang, Y., Liu, W., Zhu, M., Li, H., & Li, J. (2019). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2019 2nd International Conference on Mathematics, Modeling, Simulation and Education Application (MMSEA) (pp. 1-4).

[12]Wang, Z., & Guo, C. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2018 IEEE International Conference on Big Data (Big Data) (pp. 4494-4496).

[13]Zhang, Y., & Li, S. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2018 International Conference on Data Science and Advanced Analytics (DSAA) (pp. 535-539).

六、工作进度安排

2023.7.10-2023.8.1选题,查阅资料,拟定大纲,填写开题报告

2023.8.2-2023.8.20撰写论文初稿并以班级为单位上交学院

2023.8.21-2023.9.20在指导老师指导下修改论文

2023.9.21-2023.10.15继续修改论文,并定稿打印,送交论文,等待答辩

七、预期成果

顺利完成毕业论文和毕业设计,设计出一个基于Spark的高考志愿推荐系统,可以实现根据考生的个人情况提供个性化志愿服务的推荐系统,帮助考生最大化挑选自己喜欢的院校及专业,提高高考志愿填报的成功率。

(以上内容在教师指导下由学生填写) 学生签名:         年  月  日

八、指导教师审核意见:

   指导教师签名:               年  月  日

 

九、学院毕业设计(论文)领导小组审核意见:

领导小组签名:             年  月  日                            

说明:本表由学生填写,指导教师和学院签署意见,一式三份,分别存于教务处、学院、学生个人档案。

核心代码分享如下:

大数据项目专用脚本
## 启动hadoop
cd /data/hadoop/sbin
start-all.sh



## 启动hive 

cd /data/hive

nohup hive --service metastore &

nohup hive --service hiveserver2 &


--先将mysql中的高考数据集导出csv文件
原因:1.如果Python爬取直接生成csv的话需要电脑开机连续爬取5-7天,不现实
      2.Python爬取存mysql然后转csv可以保证我们可以在任意时间开机爬取(数据库滤重)
--测试mysqldump -h localhost -u root -p gaokao school > D:\hadoop_spark_hive_gaokao_fenxi_vmvare2024\export_csv\school.csv


----需要导入hive的表列举	  
school  √
school_province_score √ 省控线
special √
school_special_score √
ruanke_rank 软科中国大学排名 √
qs_world √
province  √

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1555699.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习之聚类算法、随机森林

文章目录 随机森林决策树基础特征值问题? 聚类算法 随机森林 决策树 基础 概念:从根节点一步步走到叶子节点(决策); 组成:根节点第一个选择的节点;叶子节点最终的决策结果;非叶子…

分文件编程——Makefile

1.分文件编程 1.1源文件&#xff1a; .c结尾的文件 包含main函数的.c 包含子函数的.c 1.2头文件&#xff1a; .h结尾的文件 文件包含 头文件、宏定义、typedef、结构体、共用体、枚举、函数声明… 调用时用#include"xx.h" #include< >与#include " &q…

关系数据库理论

函数依赖: 关系数据库的规范化理论是数据库逻辑设计的工具。 关系模式由五部分组成&#xff0c;是一个五元组&#xff1a; R(U, D, DOM, F)  关系名 R 是符号化的元组语义  U 为一组属性  D 为属性组 U 中的属性所来自的域  DOM 为属性到域的映射  F 为属…

JUC/多线程原理(三)

一、Monitor 原理 二、synchronized 原理 (一)、基础 synchronized 即使内部抛出异常也会释放锁 (二)、轻量级锁 轻量级锁的使用场景&#xff1a;如果一个对象虽然有多线程要加锁&#xff0c;但加锁的时间是错开的&#xff08;也就是 没有竞争 &#xff09;&#xff0c;那么…

目前现货黄金行情技术分析

目前行情黄金可以投资吗&#xff1f;不论是黄金价格怎么波动&#xff0c;总是有投资者问这个问题&#xff0c;原因是他们搞不清现状&#xff0c;弄不懂当前的市场形势&#xff0c;对于技术分析和基本分析的方法也不甚了解&#xff0c;因此缺乏对未来行情判断的能力。下面我们就…

E2697A安捷伦E2697A高阻抗适配器

181/2461/8938产品概述&#xff1a; E2697A高阻抗适配器允许将需要高阻抗输入的探头&#xff08;例如无源探头、电流探头&#xff09;连接到Infiniium 54850、80000和90000系列高性能示波器。E2697A高阻抗适配器扩展了Agilent Infiniium高性能示波器的功能&#xff0c;使其成为…

《霍格沃茨之遗》推荐购买吗 《霍格沃茨之遗》不支持Mac电脑怎么办 crossover24软件值得买吗 crossover中文官网

《霍格沃茨之遗》作为一款期待已久的游戏&#xff0c;自发布以来就吸引了无数玩家的目光。它以哈利波特系列为背景&#xff0c;提供了一个沉浸式的魔法世界体验&#xff0c;让玩家能够探索广阔的霍格沃茨魔法学校&#xff0c;体验魔法学习与战斗&#xff0c;解开古老谜团的乐趣…

医院消防巡检系统革新:凡尔码平台二维码技术引领安全升级

医院消防巡检&#xff0c;传统依赖手工记录&#xff0c;效率和准确性受限。凡尔码平台的二维码消防巡检系统&#xff0c;以创新技术颠覆传统&#xff0c;实现即时、精准的安全管理&#xff0c;确保医院消防安全无虞。 凡尔码平台的消防巡检系统不仅提升了医院安全管理的效率&a…

UE4_碰撞_射线检测不到物体原因及跳不到圈内的问题

UseSimpleAsComplex 和 UseComplexAsSimple 标记的作用和使用时间。 虚幻引擎 4 中有简单和复杂碰撞形态。 简单碰撞 是基础&#xff0c;如盒体、 球体、胶囊体和凸包。 复杂碰撞 是给定对象的三角网格图。 虚幻引擎 4 会默认创建简单和复杂两种形态&#xff0c;然后基于用户需…

上位机图像处理和嵌入式模块部署(qmacvisual测量标定)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 在机器视觉中,测量是很重要的一个环节。如果是简单的定位,可能精度要求并不那么严格。但是如果是对产品进行QA测量,需要精确到0.1mm,甚至是0.05mm这样的精度,那就需要对camera…

54 关于 arp 的处理

前言 arp 协议是一个相当基础的协议 局域网内部 无处不在, 用于根据 ip 地址获取对应的主机的 mac 地址, 进而 发送数据包 相当基础 且重要, 也相对来说比较简单 创建 neighbor 这里指定了 ops 为 arp_hh_ops 初始化设备接收到包的处理函数 arp_solicit 创建 arp 请…

RN在android/ios手机剪切图片的操作

之前写过一个React Native调用摄像头画面及拍照和保存图片到相册全流程但是这个仅限于调用摄像头拍照并保存图片,今天再写一个版本的操作,这个博客目前实现的有三点操作: 调用摄像头拍照对照片进行剪切从相册选取图片 功能上面来说有两点: 点击按钮可以对摄像头进行拍照,拍完照…

什么样的人适合学习网络安全?怎么学?_

有很多想要转行网络安全或者选择网络安全专业的人在进行决定之前一定会有的问题&#xff1a;什么样的人适合学习网络安全&#xff1f;我适不适合学习网络安全&#xff1f; 会产生这样的疑惑并不奇怪&#xff0c;毕竟网络安全这个专业在2017年才调整为国家一级学科&#xff0c;…

实时语音识别(Python+HTML实战)

项目下载地址&#xff1a;FunASR 1 安装库文件 项目提示所需要下载的库文件&#xff1a;pip install -U funasr 和 pip install modelscope 运行过程中&#xff0c;我发现还需要下载以下库文件才能正常运行&#xff1a; 下载&#xff1a;pip install websockets&#xff0c;pi…

C++进阶,手把手带你学继承

&#x1fa90;&#x1fa90;&#x1fa90;欢迎来到程序员餐厅&#x1f4ab;&#x1f4ab;&#x1f4ab; 主厨&#xff1a;邪王真眼 主厨的主页&#xff1a;Chef‘s blog 所属专栏&#xff1a;c大冒险 总有光环在陨落&#xff0c;总有新星在闪烁 【本节目标】 1.继…

2024年春季思维100线上比赛怎么考?来看几道官方样题(附答案)

根据思维100活动的官方通告&#xff0c;2024年春季的思维100活动从前天&#xff08;2024年3月28日&#xff09;就正式启动了&#xff0c;整个活动从3月底启动&#xff0c;5月底结束。整个过程共有三场比赛&#xff1a; 第一轮4月20日线上比赛&#xff1a;在家里或自己选择地方…

多模态大模型:解析未来智能汽车的新引擎

多模态大模型&#xff1a;解析未来智能汽车的新引擎 1. 多模态大模型简介2. 多模态大模型在智能汽车中的应用2.1 感知与认知2.2 智能驾驶辅助2.3 智能交互 随着人工智能技术的不断进步&#xff0c;智能汽车已经从概念变成了现实&#xff0c;成为了当今科技领域的焦点之一。而在…

通俗易懂Redis缓存穿透,缓存击穿,缓存雪崩

1.1 缓存穿透 原因&#xff1a;当我们查询一个数据的时候&#xff0c;缓存中没有&#xff0c;就会去查询我们的关系型数据库&#xff0c;而且查询不到的数据是不会放到我们的缓存中&#xff0c;就会导致我们每次的请求都会来到我们的关系型数据库中&#xff0c;从而导致关系型…

Windows安装tomcat,以服务的方式管理,如何设置虚拟内存

之前工作中&#xff0c;部署tomcat都是使用Linux服务器&#xff0c;最近遇到个客户&#xff0c;提供的服务器是Windows server&#xff0c;并且需要通过服务的方式管理tomcat&#xff1b;以自己多年的码农经验&#xff0c;感觉应该没有问题&#xff0c;结果啪啪打脸了&#xf…

RWKV_Pytorch:支持多硬件适配的开源大语言模型推理框架

亲爱的技术探索者们&#xff0c;今天我要向大家隆重推荐一个在开源社区中崭露头角的项目——RWKV_Pytorch。这是一个基于Pytorch的RWKV大语言模型推理框架&#xff0c;它不仅具备高效的原生Pytorch实现&#xff0c;而且还扩展了对多种硬件的适配支持&#xff0c;让模型的部署和…