模块一:网络爬虫(20分)
任务一:获取网站数据
【任务说明】
数据是很多企业的生命,没有数据就没有一切。企业首先要解决的问题就是数据问题,那么获取数据的手段有很多种,其中爬虫就是性价比最高的一种。现有一个天气网站,网站上有大量城市关于天气相关指数等数据,请根据具体要求,编写爬虫实现数据抓取。
【任务要求】
以网站首页为入口,从该页面获取青岛、开封、苏州、扬州、烟台、丽江、桂林、三亚、厦门、大理共10个城市的历史天气数据,抓取字段见表一。
表一:历史天气数据字段
字段 |
城市、日期、最高气温、最低气温、天气、风向 |
现需要通过爬虫抓取相应数据,具体要求如下:
1.使用requests库向url发送请求;
2.使BeautifulSoup或Xpath从响应内容中解析数据;
3.从首页中获取视频分类名和各类别链接;
4.向各类别链接发送请求,从响应内容中获取视频具体的播放、评论、点赞等数据;
5.将抓取的数据存入MySQL数据库中;
6.绕过网站的反爬虫检测;
【操作说明】
1、从虚拟机桌面“赛题/01_网络爬虫/01_获取网站数据”文件夹中获取相关项目工程代码。
2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。
模块二:数据清洗(30分)
任务一:数据清洗
数据清洗是数据分析过程中很重要的一个环节,没有高质量的数据清洗就没有高质量的数据分析。在不准确的数据基础上做出的分析,结论将变得毫无价值和意义。
现有一份相关行业的企业数据,请根据任务要求完成数据清洗功能。
数据集中有公司名、估值市值、省份、地址、城市、企业属性、成立时间、行业几个字段,请你使用NumPy和Pandas按如下要求对数据进行清洗:
1.删除空值;
2.将"成立时间"的时间戳转换成时间类型;
3.对"行业"拆分为"行业大致类别"、"行业细致类别",并删除"行业";
4.对"行业细致类别"分组查看"估值市值"的降序排序内容;
5.查看进8年以来新建的公司内容部;
6.对"企业属性"的异常值用众数填充;
7.修改列名"估值市值"为"估值市值(亿) ";
8.根据"地址"统计"估值市值"的总和;
9.查看已上市公司最多的5个城市;
10.将"成立时间"放置第二列,并只保留年月日;
11.将清洗后的数据存入MySQL数据库中。
1、从虚拟机桌面“赛题/02_数据清洗/01_数据清洗”文件夹中获取相关项目工程代码。
2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。
模块三:数据分析及可视化(30分)
任务一:独行月球电影每日评论数分析
现有独行月球电影每日评论数据,请根据任务要求完成数据分析。
读取所需数据集后对数据进行必要的清洗,绘制出面积图并用Django框架渲染到前端页面,绘图要求如下:
1.使用PyEcharts库绘制面积图;
2.整个画布大小宽为700px,高为400px,背景颜色为红蓝渐变,上红下蓝,红色:rgb(235,26,67),蓝色:rgb(41,163,154);
3.x轴为日期y轴为评论条数,标签颜色都为白色透明度为0.5;
4.y轴轴线颜色为白色,宽度为3;
5.标题为"独行月球每日评论量",居中显示、字体颜色为白色
6.轴线、点边框为白色、点为红色、图元标签为白色
7.线面积部分为蓝色由上到下渐变
8.栅格线透明度为0.3
9.提示线为十字型,线类型为虚线
10.使用Django框架在前端页面中渲染展示面积图;
示意图如下:
图1:面积示意图
1、从虚拟机桌面“赛题/03_数据分析及可视化/ 03_工程代码”文件夹中获取相关项目工程代码。
2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。
任务二:独行月球电影每日评论用户分析
【任务要求】
读取所需数据集后,对数据进行必要的清洗,绘制出独行月球电影每日评论用户词云图。绘图要求如下:
1.随机取200个用户名,使用PyEcharts库绘制词云图;
2.画布大小宽为700px,高为500px;
3.标题为"独行月球ID词云图",字体居中显示
4.背景颜色为镜像渐变,r大小为1.2,渐变0时,设置颜色为透明色,1时为蓝色:rgb(41,163,154)
5.使用Django框架在前端页面中渲染任务一的面积图和任务二词云图;
6.示意图如下:
图2:词云图示意图
【操作说明】
1、从虚拟机桌面“赛题/03_数据分析及可视化/ 03_工程代码”文件夹中获取相关项目工程代码。
2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。
模块四:机器学习(15分)
任务一:房屋销售预测
数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。 数据分为训练数据和测试数据,分别保存在kc_train.csv和kc_test.csv两个文件中。 其中训练数据主要包括10000条记录,14个字段,主要字段说明如下: 第一列“销售日期”:2014年5月到2015年5月房屋出售时的日期 第二列“销售价格”:房屋交易价格,单位为美元,是目标预测值 第三列“卧室数”:房屋中的卧室数目 第四列“浴室数”:房屋中的浴室数目 第五列“房屋面积”:房屋里的生活面积 第六列“停车面积”:停车坪的面积 第七列“楼层数”:房屋的楼层数 第八列“房屋评分”:King County房屋评分系统对房屋的总体评分 第九列“建筑面积”:除了地下室之外的房屋建筑面积 第十列“地下室面积”:地下室的面积 第十一列“建筑年份”:房屋建成的年份 第十二列“修复年份”:房屋上次修复的年份 第十三列"纬度":房屋所在纬度 第十四列“经度”:房屋所在经度
【任务要求】
1.读取房屋销售数据;
2.提取合适的特征;
3.对数据进行编码等预处理;
4.划分训练集和测试集;
5.构建机器学习模型;
6.编写模型训练相关代码,完成模型训练;
7.将训练好的模型进行保存;
8.使用模型进行预测。
1、从虚拟机桌面“赛题/04_机器学习/01_房屋销售预测”文件夹中获取项目工程文档。
2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。
任务二:工业蒸汽量预测
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
1.读取蒸汽量数据;
2.对数据进行清洗以及预处理;
3.特征提取以及特征工程;
4.划分训练集及测试集;
5.选取合适的机器学习模型;
6.使用数据训练模型并进行模型调优;
7.根据锅炉的工况,预测产生的蒸汽量;
8.将训练好的模型进行保存。
1、从虚拟机桌面“赛题/04_机器学习/02_工业蒸汽量预测”文件夹中获取项目工程文档。
2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。
职业素养(5分)
【任务要求】
参赛选手操作规范、代码清晰易读、遵守考场纪律、收纳整理干净整洁、文明竞赛。