2023年职业院校技能大赛中职组----大数据应用与服务赛项任务书试题

news2024/11/28 13:48:03

2023年职业院校技能大赛中职组----大数据应用与服务赛项任务书试题

    • 模块一:数据库系统运维(25分)
        • 任务一:数据库系统搭建(10分)
        • 任务二:房源数据库系统运维(15分)
    • 模块二:数据采集与处理(30分)
        • 任务一:二手房源数据采集(10分)
        • 任务二:房源信息数据清洗(10分)
        • 任务三:新房数据处理(10分)
    • 模块三:大数据应用开发(45分)
        • 任务一:基于Tableau进行数据分析与可视化(10分)
        • 任务二:基于Excel进行数据分析与可视化(10分)
        • 任务三:基于Python对租房数据绘制折线图(10分)
        • 任务四:基于Python对租房数据绘制散点图(10分)
        • 任务五:数据分析报告(5分)

一、竞赛内容
本试卷包含数据库系统运维、数据采集与处理、大数据应用开发三个模块,试卷满分100分。
二、竞赛时间
竞赛时间:共计240分钟。
三、竞赛事项要求
1.参赛选手不得携带通信设备等物品进入赛场,严禁在程序及运行结果中任何位置标注竞赛队的任何信息,违反者按作弊处理。
2.请根据大赛所提供的竞赛环境,检查所列的硬件设备、软件清单、材料清单是否齐全,计算机设备是否能正常使用。
3.竞赛结束前,整合各试题的操作过程和结果数据,并提交完整的文档、代码、截图等竞赛结果到指定目录中。
4.竞赛结束时,后台统一关闭答题通道,禁止将比赛所用的所有物品(包括试卷和稿纸)带离赛场。

模块一:数据库系统运维(25分)

任务一:数据库系统搭建(10分)

【任务要求】
本环节需要使用root用户完成相关配置,实现数据库系统MySQL搭建、配置及使用;
【任务需求背景】
在数据量日益增加的环境下,单一部门的数据通常无法满足整个企业的需求。此时需要通过数据库进行整合,将来自各个部门的数据汇总到一个系统中,实现数据的共享,更好的实现信息共享互通。如物资管理、软件项目管理、人事管理等,这些工作都需要建立相应的数据库进行维护,以便更好地管理相关数据。
【具体任务】
1、添加MySQL数据库系统的用户和组,将完整命令截图粘贴到对应答题报告中
2、将MySQL安装包解压到/usr/local路径,将完整命令截图粘贴到对应答题报告中;
3、在/usr/local目录下将解压出来的Mysql包改名为mysql,将完整命令截图粘贴到对应答题报告中;
4、将/usr/local/目录下的mysql文件夹修改为mysql组所拥有权限,将完整命令截图粘贴到对应答题报告中;
5、在/usr/local/mysql目录下(一定要在mysql目录下执行,注意输出的文字,里边有修改root密码和启动mysql的命令),初始化MySQL数据库系统,将完整命令及初始化成功的截图粘贴到对应答题报告中;
6、在usr/local/mysql/目录下,执行对MySQL数据库初始化后服务的启动命令,将完整命令及初始化成功的截图粘贴到对应答题报告中;
7、在usr/local/mysql/目录下,设置MySQL数据库的登录用户root的密码,将完整命令及初始化成功的截图粘贴到对应答题报告中;
8、在usr/local/mysql/目录下,设置MySQL数据库的登录用户root的密码,将完整命令的截图粘贴到对应答题报告中;
9、在usr/local/mysql/目录下,拷贝/usr/local/mysql/support-files/my-medium.cn配置文件到etc目录下,增加或者修改MySQL数据库的最大连接数,保存修改后的配置文件,将完整命令及修改配置后的截图粘贴到对应答题报告中;
10、通过root用户登录MySQL数据库系统,查看mysql库下的所有表,将完整命令及执行命令后的结果的截图粘贴到对应答题报告中;

任务二:房源数据库系统运维(15分)

【任务要求】
本环节需要使用MySQL数据库系统完成关于各城市用户租房信息的建库、建表、数据的增、删、改、查等操作。
【任务需求背景】
为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况,因此,建立一个房源信息管理系统,并通过MySQL数据库进行管理和维护,是非常必要的。
【具体任务】
1、在Mysql库中,创建一个名为tenantdb的数据库并查看这个数据库,将完整命令及结果截图粘贴到对应答题报告中;
2、在Mysql库中,选择并使用刚才创建的tenantdb数据库,将完整命令及结果截图粘贴到对应答题报告中;
3、在tenantdb数据库中创建一个名为rental_info的数据表,包含字段见下表,指定user_id字段为主键,该字段非空且自增,数据库引擎为InnoDB,默认字符集为utf8,字段类型应符合实际意义。将完整命令及运行结果截图粘贴到对应答题报告中;

表1 rental_info表字段说明:

字段说明
user_id租户id
user_id租户id
user_name租户姓名
sex租户性别
age租户年龄
address家庭住址

4、在Mysql库中,查看刚才创建的rental_info表结构,将完整命令及结果截图粘贴到对应答题报告中;
5、在Mysql库中,修改rental_info表结构,将字段sex修改为user_sex,增加字段rental_address(租房地址),字段类型应符合实际意义。将完整命令及运行结果截图粘贴到对应答题报告中;
6、在Mysql库中,向rental_info表中插入三条租客租房信息:

  • 小张,男,29,成都市天府新区,成都市武侯区;
  • 小李,男,27,成都市成华新区,成都市高新区;
  • 小王,男,32,成都市锦江区,成都市天府新区。

将完整命令及运行结果截图粘贴到对应答题报告中;
7、插入数据后,查询表数据,将完整命令及运行结果截图粘贴到对应答题报告中;
8、将rental_info表中user_id为1的记录,姓名修改为张三,年龄修改为35。将完整命令及运行结果截图粘贴到对应答题报告中;
9、修改rental_info表数据后,查询表数据,将完整命令及运行结果截图粘贴到对应答题报告中;
10、删除rental_info表中姓名为小李的数据,将完整命令及运行结果截图粘贴到对应答题报告中;
11、删除rental_info表数据后,查询表数据,将完整命令及运行结果截图粘贴到对应答题报告中。

模块二:数据采集与处理(30分)

任务一:二手房源数据采集(10分)

【任务要求】
本环节需要使用项目文件中导入的库完成关于房源信息的采集、保存等操作。
【任务需求背景】
互联网中的数据是海量的,通过人力操作进行数据采集低效繁琐,如何高效地获取数据源成为首要问题。本项目使用网络爬虫技术对数据信息进行采集,从“二手房信息查询网站”中抓取房源数据,并将数据进行存储。
【具体任务】
1、使用虚拟机中的谷歌浏览器访问“二手房信息查询网站”,网站访问地址为【http://127.0.0.1:5000】,网站首页效果图如下;
在这里插入图片描述
2、点击城市标签跳转到对应页面。以“成都”为例,“成都二手房信息”页面展示如下图;
3、使用PyCharm打开桌面上的“House”项目,在“spider”包下的“crawl_house.py”文件中进行编码,该文件用于从“二手房信息查询网站”中抓取北京、广州、天津、深圳、佛山、南宁、太原这7个城市的二手房数据,并按城市名分别保存到xlsx文件中。xlsx文件存储到“House”项目中的【spider/house_data/】目录下,若目录不存在,则需自行创建目录。在这里插入图片描述
抓取的二手房信息数据及文件名要求如下:

文件名列名
城市名_house.xlsx(如“北京_house.xlsx”)格局、面积、朝向、层数、房龄、总价、平方价格
任务二:房源信息数据清洗(10分)

【任务要求】
本环节需要使用Excel工具对数据文件的处理,包括排序、筛选、数据标注等。
【任务需求背景】
数据资产时代,人口带来了数据,数据成就了社会发展,数据可以说无处不在。随着科技的不断发展,我们生活中产生的数据量越来越大,如何从海量数据中筛选出真正需要的数据是非常关键的。本任务使用Excel工具对数据进行处理,根据要求筛选出对应的房源。
【具体任务】
1、使用Excel打开任务一中保存的“北京”和“深圳”两地的房源信息文件;
2、筛选出面积在90—100m2平方以及价格最低的20个房源信息,在最后一列后面新增一列“意向排行”,按价格顺序从低到高,前10行标注为“优质房源”,后10行标注为“一般房源”。完成后在答题报告上粘贴相应的截图。

任务三:新房数据处理(10分)

【任务要求】
本环节需要使用NumPy、Pandas等数据处理工具完成关于新房信息数据的处理,并将处理后的数据进行保存。
【任务需求背景】
数据处理能将大量可能是杂乱无章的数据分为不同的类别和组织,为人们提供有用、有意义、易于理解的信息,帮助人们更加高效地管理和使用数据。而在现代社会,数据处理貫穿于各个领域,成为了人们对数据分类、组织、编码、存储、查询和维护等活动的关键环节。现在有一批新房信息数据,每个新房信息包括格局、面积、朝向、层数、房龄、价格等字段。需要针对原始数据中的异常数据进行处理,以便后续的使用。
【具体任务】
1、使用PyCharm打开虚拟机桌面上的“House”项目,在“clean_data”包下的“clean_house.py”文件中进行编码,该文件用于清洗新房数据并保存。
2、待清洗数据保存在“House”项目“clean_data”包的“data”下,清洗要求如下:
(1)针对“价格”列进行数据切分,切分后列名设置为“总价”、“平均价格”。
(2)针对“价格”列中存在的缺失数据,如果有另一条数据的“面积”列与之相同,则用该数据中的“价格”进行填充;如果不存在,则删除存在缺失值的数据。
(3)针对其他列中存在缺失值的数据,一律执行删除操作。
3、将处理完成后的数据进行保存,按城市名分别保存为xlsx文件(如“北京_new_house.xlsx”),存储到“House”项目中的【clean_data/house_data/】目录下,若目录不存在,则需自行创建目录。
4、使用Excel打开【clean_data/house_data/】目录下保存的文件,按“面积”列进行排序,完成后在答题报告上粘贴相应的截图。

模块三:大数据应用开发(45分)

任务一:基于Tableau进行数据分析与可视化(10分)

【任务要求】
本环节需要使用数据可视化工具Tableau,基于房源信息数据进行可视化展示;
【任务需求背景】
为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。
【具体任务】
1、租房信息相关数据存储在Windows桌面“draw_price”下的“各城市租房信息.csv”中,使用数据可视化工具Tableua连接Windows桌面目录下的csv文件数据源,绘制租房价格随面积变化的折线图。X轴标签显示为面积,Y轴标签设置为最高租赁价格,标题设置为“面积-房价走势图”;
2、根据“各城市租房信息.csv”数据表,使用Tableua连接csv文件数据源,根据“房源地段”统计出各地段的在售房源数据,绘制在售房源数据统计柱状图。X轴刻度标签显示为地段名称,Y轴标签显示为在售房源数量,标题设置为“各地段在售房源对比图”。
3、X轴刻度标签字体大小为自定义大小,Y轴刻度标签字体大小为自定义大小;
4、将绘制完成后的图表进行截图,粘贴到答题报告上对应位置。

任务二:基于Excel进行数据分析与可视化(10分)

【任务要求】
本环节需要使用Excel开发工具,对各城市的租房价格数据表进行数据分析与处理,进行可视化展示;
【任务需求背景】
为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。
【具体任务】
1、使用Excel工具打开Windows桌面“draw_price”文件下的“各城市租房信息.csv”,使用该数据源绘制柱状图,X轴标签设置为城市名,Y轴标签设置为平均租房价格,标题设置为“各城市租房均价对比图”,X轴刻度标签字体大小为8,Y轴刻度标签字体大小为8;
(1)使用透视表在新工作表中进行插入,选取所有的城市名作为A列,选取租房的价格求平均后作为B列;
(2)以城市名作为x轴数据,以平均价格作为Y轴数据进行柱状图的绘制;
(3)柱体颜色设置为蓝色,图表使用橙色填充,黑色边框;
2、使用Excel工具打开Windows桌面“draw_price”文件下的“各城市租房信息.csv”,筛选出“北京”的城市数据,根据“房源户型”的分类进行统计,统计出每类户型对应的房源数,基于户型统计数据绘制户型分布圆环图。
3、将绘制完成后的图表进行截图,粘贴到答题报告上对应位置。

任务三:基于Python对租房数据绘制折线图(10分)

【任务要求】
本环节需要使用Pycharm开发工具,Numpy、Pandas、Matplotlib、Seaborn等库,基于房源信息数据绘制租房价格随面积变化的折线图;
【任务需求背景】
为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。
【具体任务】
1、租房信息存储在虚拟机桌面的“House”项目中“draw_price”下的“各城市租房信息.csv”中,在同级目录的draw_img1.py中完成折线图绘制;
2、使用Pandas库读取CSV文件,筛选出面积作为X轴数据,以对应价格作为Y轴数据,以城市名作为划分依据,使用Matplotlib库绘制多条折线图,展示各城市下各面积对应房价走势对比图;
3、标题设置为:各城市租房价格对比图;
4、X轴标签显示为房屋面积,Y轴标签显示为租赁价格;
5、X轴刻度标签字体大小为10,Y轴刻度标签字体大小为10;
6、将绘制的图片保存到“House”项目的“Img”路径下,命名为“line.png”,若目录不存在需自行创建。
7、将绘制完成后的图进行截图,粘贴到答题报告上对应位置。

任务四:基于Python对租房数据绘制散点图(10分)

【任务要求】
本环节需要使用Pycharm开发工具,Numpy、Pandas、Matplotlib、Seaborn等库,基于房源信息数据绘制各城市最高租房价格的散点图;
【任务需求背景】
为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。
【具体任务】
1、租房信息存储在虚拟机桌面的“House”项目中“draw_price”下的“各城市租房信息.csv”中,在同级目录的draw_img2.py中完成散点图绘制;
2、使用Pandas库读取CSV文件,使用Matplotlib库绘制各城市房价散点图;
(1)以城市名作为划分依据,
(2)将“房屋面积”划分为7类作为X轴数据,分别为“50㎡以下”、“50㎡80㎡”、“80㎡100㎡”、“100㎡120㎡”、“120㎡150㎡”、“150㎡~200㎡”、“200㎡以上”,以每类面积的平均房价作为Y轴数据,绘制散点图。
(3)标题设置为:各城市不同面积租房均价分布图;
(4)X轴标签显示为房屋面积,Y轴标签显示为租赁平均价格;
(5)X轴刻度标签字体大小为8,Y轴刻度标签字体大小为8;
(6)将绘制的散点图保存到“House”项目的“Img”路径下,命名为“scatter.png”,若目录不存在需自行创建。
3、将绘制完成后的图进行截图,粘贴到答题报告上对应位置。

任务五:数据分析报告(5分)

【任务要求】
本环节根据数据分析结果输出数据分析报告;
【任务需求背景】
通过对租房信息数据进行分析和可视化,我们更好的了解城市租房的整体情况,分析出不同区域的户型分布、房价走势、房源数量、租房中介信息等,根据分析可视化结果提出合适的决策建议与方案。
【具体任务】
1、根据“各城市租房信息.csv”信息及前面四个任务的可视化结果,打开虚拟机桌面“House”项目下的“数据分析报告.docx”文件,完善数据分析报告,为“爱家客”中介提出合适的房源上新意见。
2、将填写的内容进行截图并粘贴到答题报告对应位置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1052483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

milvus 结合Thowee 文本转向量 ,新建表,存储,搜索,删除

1.向量数据库科普 【上集】向量数据库技术鉴赏 【下集】向量数据库技术鉴赏 milvus连接 from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility connections.connect(host124.****, port19530)2.milvus Thowee 文本转向量 使用 …

模拟实现简单的通讯录

前言:生活中处处都会看到或是用到通讯录,今天我们就通过C语言来简单的模拟实现一下通讯录。 鸡汤:跨越山海,终见曙光! 链接:gitee仓库:代码链接 目录 主函数声明部分初始化通讯录实现扩容的函数增加通讯录所…

【Docker】docker拉取镜像错误 missing signature key

问题 当我使用docker拉取一个特定的镜像时,提示错误: 错误 missing signature key 但是拉取其他镜像又可以访问,,,,于是,我怀疑是否是docker版本问题。 docker --version结果确实&#xff0…

使用Python进行App用户细分

App用户细分是根据用户与App的互动方式对用户进行分组的任务。它有助于找到保留用户,找到营销活动的用户群,并解决许多其他需要基于相似特征搜索用户的业务问题。这篇文章中,将带你完成使用Python进行机器学习的App用户细分任务。 App用户细…

FFmpeg 命令:从入门到精通 | FFmpeg 音视频处理流程

FFmpeg 命令:从入门到精通 | FFmpeg 音视频处理流程 FFmpeg 命令:从入门到精通 | FFmpeg 音视频处理流程实例 FFmpeg 命令:从入门到精通 | FFmpeg 音视频处理流程 实例 ffmpeg -i test_1920x1080.mp4 -acodec copy -vcodec libx264 -s 1280x…

ElasticSearch 同步数据变少了

一、前言 这几天对接ES遇到几个坑,我们将一张库存表同步到ES发现Docs Count和我们表中的数据对不上,需要加上Docs deleted才对得上,也不知道批量写入数据为什么有些数据就会成 Docs deleted。 二、ID和版本号 ES中每一个Document都有一个_…

ElementUI之增删改及表单验证

⭐⭐本文章收录与ElementUI原创专栏:ElementUI专栏 ⭐⭐ ElementUI的官网:ElementUI官网 目录 一.前言 二.使用ElementUI完成增删改 2.1 后台代码 2.2 前端代码 三.使用ElementUI完成表单验证 一.前言 本章是继上一篇的基础之上在做完善&#xff0…

Leetcode---364场周赛

题目列表 2864. 最大二进制奇数 2865. 美丽塔 I 2866. 美丽塔 II 2867. 统计树中的合法路径数目 一、最大二进制奇数 这题只要你对二进制有了解(学编程的不会不了解二进制吧),应该问题不大,这题要求最大奇数,1.奇数:只要保证…

二维码智慧门牌管理系统:创新历史,稳定未来

文章目录 前言一、解决传统门牌管理混乱二、提供便捷服务三、尊重历史,保持稳定 前言 随着科技的飞速发展,二维码智慧门牌管理系统已经成为了城市管理的新趋势。这款系统的出现,不仅优化了传统门牌管理的不足,还大大提高了城市管…

3.物联网射频识别,(高频)RFID应用ISO14443-2协议

一。ISO14443-2协议简介 1.ISO14443协议组成及部分缩略语 (1)14443协议组成(下面的协议简介会详细介绍) 14443-1 物理特性 14443-2 射频功率和信号接口 14443-3 初始化和防冲突 (分为Type A、Type B两种接口&…

(高阶) Redis 7 第16讲 预热/雪崩/击穿/穿透 缓存篇

面试题 什么是缓存预热/雪崩/击穿/穿透如何做缓存预热如何避免或减少缓存雪崩穿透和击穿的区别?穿透和击穿的解决方案出现缓存不一致时,有哪些修补方案缓存预热 理论 将需要的数据提前加载到缓存中,不需要用户使用的过程中进行数据回写。(比如秒杀活动数据等) 方案 1.…

【C语言深入理解指针(1)】

1.内存和地址 1.1内存 在讲内存和地址之前,我们想有个⽣活中的案例: 假设有⼀栋宿舍楼,把你放在楼⾥,楼上有100个房间,但是房间没有编号,你的⼀个朋友来找你玩,如果想找到你,就得挨…

学校安全用电管理系统解决方案

随着科技的发展和进步,电力已成为我们日常生活和学习的重要支柱。然而,电力的使用也带来了一定的安全风险。特别是对于学校这个复杂而又活跃的环境,安全用电管理系统的角色显得尤为重要。 一、学校用电管理系统的现状 目前&#xff0…

2023-09-28 LeetCode每日一题(花期内花的数目)

2023-09-28每日一题 一、题目编号 2251. 花期内花的数目二、题目链接 点击跳转到题目位置 三、题目描述 给你一个下标从 0 开始的二维整数数组 flowers ,其中 flowers[i] [starti, endi] 表示第 i 朵花的 花期 从 starti 到 endi (都 包含&#xf…

JSP学习笔记【三】——JQuery

前言 在写项目的时候需要动态对某组件的属性进行调整,我看网上的教程都是使用document.getElementById等,但我在eclipse编写.jsp文件的时候,却提示document cannot be resolved。由于我对jsp没有系统的了解以及无人可咨询,网上也…

【DTEmpower案例操作教程】向导式建模

DTEmpower是由天洑软件自主研发的一款通用的智能数据建模软件,致力于帮助工程师及工科专业学生,利用工业领域中的仿真、试验、测量等各类数据进行挖掘分析,建立高质量的数据模型,实现快速设计评估、实时仿真预测、系统参数预警、设…

XSS详解

XSS一些学习记录 XXS短标签、属性、事件、方法短标签属性事件函数弹窗函数一些对于绕过有用的函数一些函数使用payload收集 浏览器编码问题XML实体编码URL编码JS编码混合编码 一些绕过方法利用constructor原型污染链构造弹框空格绕过圆括号过滤绕过其他的一些绕过 参考 XXS短标…

ThinkPHP 配置跨域请求,使用TP的内置跨域类配置,小程序和web网页跨域请求的区别及格式说明

TP 内置的跨域配置类 AllowCrossDomain TP 框架提供的内置类&#xff1a; \think\middleware\AllowCrossDomain::class 开启跨域 <?php// 全局中间件定义文件return [// 全局请求缓存// \think\middleware\CheckRequestCache::class,// 多语言加载// \think\middleware\L…

联邦学习-Tensorflow实现联邦模型AlexNet on CIFAR-10

目录 Client端 Server端 扩展 Client.py Server.py Dataset.py Model.py 分享一种实现联邦学习的方法&#xff0c;它具有以下优点&#xff1a; 不需要读写文件来保存、切换Client模型 不需要在每次epoch重新初始化Client变量 内存占用尽可能小&#xff08;参数量仅翻一…

前端JavaScript入门到精通,javascript核心进阶ES6语法、API、js高级等基础知识和实战 —— Web APIs(三)

思维导图 全选案例 大按钮控制小按钮 小按钮控制大按钮 css伪类选择器checked <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><…