【楚怡杯】职业院校技能大赛 “Python程序开发”赛项样题六

news2026/2/13 17:12:11

模块一：网络爬虫（20分）

任务一：获取网站数据

【任务说明】

数据是很多企业的生命，没有数据就没有一切。企业首先要解决的问题就是数据问题，那么获取数据的手段有很多种，其中爬虫就是性价比最高的一种。现有一个天气网站，网站上有大量城市关于天气相关指数等数据，请根据具体要求，编写爬虫实现数据抓取。

【任务要求】

以网站首页为入口，从该页面获取青岛、开封、苏州、扬州、烟台、丽江、桂林、三亚、厦门、大理共10个城市的历史天气数据，抓取字段见表一。

表一：历史天气数据字段

字段

城市、日期、最高气温、最低气温、天气、风向

现需要通过爬虫抓取相应数据，具体要求如下：

1.使用requests库向url发送请求；

2.使BeautifulSoup或Xpath从响应内容中解析数据；

3.从首页中获取视频分类名和各类别链接；

4.向各类别链接发送请求，从响应内容中获取视频具体的播放、评论、点赞等数据；

5.将抓取的数据存入MySQL数据库中；

6.绕过网站的反爬虫检测；

【操作说明】

1、从虚拟机桌面“赛题/01_网络爬虫/01_获取网站数据”文件夹中获取相关项目工程代码。

2、完成任务后，根据平台“答题区”对应内容要求，完成答题报告并点击“保存”按钮实时保存。

模块二：数据清洗（30分）

任务一：数据清洗

【任务说明】

数据清洗是数据分析过程中很重要的一个环节，没有高质量的数据清洗就没有高质量的数据分析。在不准确的数据基础上做出的分析，结论将变得毫无价值和意义。

现有一份相关行业的企业数据，请根据任务要求完成数据清洗功能。

【任务要求】

数据集中有公司名、估值市值、省份、地址、城市、企业属性、成立时间、行业几个字段，请你使用NumPy和Pandas按如下要求对数据进行清洗：

1.删除空值；

2.将"成立时间"的时间戳转换成时间类型；

3.对"行业"拆分为"行业大致类别"、"行业细致类别",并删除"行业"；

4.对"行业细致类别"分组查看"估值市值"的降序排序内容；

5.查看进8年以来新建的公司内容部；

6.对"企业属性"的异常值用众数填充；

7.修改列名"估值市值"为"估值市值(亿) "；

8.根据"地址"统计"估值市值"的总和；

9.查看已上市公司最多的5个城市；

10.将"成立时间"放置第二列,并只保留年月日；

11.将清洗后的数据存入MySQL数据库中。

【操作说明】

1、从虚拟机桌面“赛题/02_数据清洗/01_数据清洗”文件夹中获取相关项目工程代码。

2、完成任务后，根据平台“答题区”对应内容要求，完成答题报告并点击“保存”按钮实时保存。

模块三：数据分析及可视化（30分）

任务一：独行月球电影每日评论数分析

【任务说明】

现有独行月球电影每日评论数据，请根据任务要求完成数据分析。

【任务要求】

读取所需数据集后对数据进行必要的清洗，绘制出面积图并用Django框架渲染到前端页面，绘图要求如下：

1.使用PyEcharts库绘制面积图；

2.整个画布大小宽为700px,高为400px,背景颜色为红蓝渐变,上红下蓝,红色:rgb(235,26,67),蓝色:rgb(41,163,154)；

3.x轴为日期y轴为评论条数,标签颜色都为白色透明度为0.5；

4.y轴轴线颜色为白色,宽度为3；

5.标题为"独行月球每日评论量",居中显示、字体颜色为白色

6.轴线、点边框为白色、点为红色、图元标签为白色

7.线面积部分为蓝色由上到下渐变

8.栅格线透明度为0.3

9.提示线为十字型,线类型为虚线

10.使用Django框架在前端页面中渲染展示面积图；

示意图如下：

图1：面积示意图

【操作说明】

1、从虚拟机桌面“赛题/03_数据分析及可视化/ 03_工程代码”文件夹中获取相关项目工程代码。

2、完成任务后，根据平台“答题区”对应内容要求，完成答题报告并点击“保存”按钮实时保存。

任务二：独行月球电影每日评论用户分析

【任务说明】

现有独行月球电影每日评论数据，请根据任务要求完成数据分析。

【任务要求】

读取所需数据集后，对数据进行必要的清洗，绘制出独行月球电影每日评论用户词云图。绘图要求如下：

1.随机取200个用户名，使用PyEcharts库绘制词云图；

2.画布大小宽为700px,高为500px；

3.标题为"独行月球ID词云图",字体居中显示

4.背景颜色为镜像渐变,r大小为1.2,渐变0时,设置颜色为透明色,1时为蓝色:rgb(41,163,154)

5.使用Django框架在前端页面中渲染任务一的面积图和任务二词云图；

6.示意图如下：

图2：词云图示意图

【操作说明】

1、从虚拟机桌面“赛题/03_数据分析及可视化/ 03_工程代码”文件夹中获取相关项目工程代码。

2、完成任务后，根据平台“答题区”对应内容要求，完成答题报告并点击“保存”按钮实时保存。

数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。数据分为训练数据和测试数据，分别保存在kc_train.csv和kc_test.csv两个文件中。其中训练数据主要包括10000条记录，14个字段，主要字段说明如下：第一列“销售日期”：2014年5月到2015年5月房屋出售时的日期第二列“销售价格”：房屋交易价格，单位为美元，是目标预测值第三列“卧室数”：房屋中的卧室数目第四列“浴室数”：房屋中的浴室数目第五列“房屋面积”：房屋里的生活面积第六列“停车面积”：停车坪的面积第七列“楼层数”：房屋的楼层数第八列“房屋评分”：King County房屋评分系统对房屋的总体评分第九列“建筑面积”：除了地下室之外的房屋建筑面积第十列“地下室面积”：地下室的面积第十一列“建筑年份”：房屋建成的年份第十二列“修复年份”：房屋上次修复的年份第十三列"纬度"：房屋所在纬度第十四列“经度”：房屋所在经度

【任务要求】

1.读取房屋销售数据；

2.提取合适的特征；

3.对数据进行编码等预处理；

4.划分训练集和测试集；

5.构建机器学习模型；

6.编写模型训练相关代码，完成模型训练；

7.将训练好的模型进行保存；

8.使用模型进行预测。

【操作说明】

1、从虚拟机桌面“赛题/04_机器学习/01_房屋销售预测”文件夹中获取项目工程文档。

2、完成任务后，根据平台“答题区”对应内容要求，完成答题报告并点击“保存”按钮实时保存。

任务二：工业蒸汽量预测

【任务说明】

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。

【任务要求】

1.读取蒸汽量数据；

2.对数据进行清洗以及预处理；

3.特征提取以及特征工程；

4.划分训练集及测试集；

5.选取合适的机器学习模型；

6.使用数据训练模型并进行模型调优；

7.根据锅炉的工况，预测产生的蒸汽量；

8.将训练好的模型进行保存。

【操作说明】

1、从虚拟机桌面“赛题/04_机器学习/02_工业蒸汽量预测”文件夹中获取项目工程文档。

2、完成任务后，根据平台“答题区”对应内容要求，完成答题报告并点击“保存”按钮实时保存。