【2023年第十一届泰迪杯数据挖掘挑战赛】A题：新冠疫情防控数据的分析 32页和40页论文及实现代码

1 题目

一、背景

自2019年底至今，全国各地陆续出现不同程度的新冠病毒感染疫情，如何控制疫情蔓延、维持社会生活及经济秩序的正常运行是疫情防控的重要课题。大数据分析为疫情的精准防控提供了高效处置、方便快捷的工具，特别是在人员的分类管理、传播途径追踪、疫情研判等工作中起到了重要作用，为卫生防疫部门的管理决策提供了可靠依据。疫情数据主要包括人员信息.csv、场所信息.csv、个人自查上报信息.csv、场所码扫码信息.csv、核酸采样检测信息.csv、疫苗接种信息.csv。本赛题提供了某市新冠疫情防疫系统的相关数据信息，请根据这些数据信息进行综合分析，主要任务包括数据仓库设计、疫情传播途径追踪、传播指数估计及疫情趋势研判等。

（1）人员信息表：附件2.csv

序号	字段名	字段说明	字段类型	默认值
1	user_id	人员id:人员的唯一标识	bigint(20)
2	openid	微信OpenID	varchar(64)	null
3.	gender	性别：男、女	varchar(2)	null
4	nation	民族	varchar(20)	null
5	age	年龄	int	null
6	birthdate	出生日期	varchar(20)	null
7	create_time	创建时间	timestamp	null

（2）场地信息表：附件3.csv

序号	字段名	字段说明	字段类型	默认值
1	grid_point_id	场所id:场所的唯一标识	bigint(20)
2	name	场所名	varchar (255)	null
3.	point_type	场所类型	varchar (50)	nnulnulll
4	x_coordinate	X坐标(单位:米)	decimal(12,2)	null
5	y_coordinate	Y坐标(单位:米)	decimal(12,2)	null
6	create_time	创建时间	timestamp	null

（3）个人自查上报信息表：附件4.csv

NO.	字段名	字段说明	字段类型	默认值
1	sno	序列号：自查记录的唯一标识	bigint(20)
2	user_id	人员ID:对应于"人员信息表"中的user_id . ID	长整型数字(20)
3.	x_coordinate	上报地点的x坐标	小数(12,2)	null
4	y_coordinate	上报地点的y坐标	小数(12,2)	null
5	symptom	症状：1 发热、2 乏力、3 干咳、4 鼻塞、5 流涕、6 腹泻、 7 呼吸困难、8 无症状	varchar (100)	null
6	nucleic_acid_result	核酸检测结果：0 阴性、1 阳性、2 未知（非必填）	varchar (10)	null
7	resident_flag	是否常住居民:0未知，1是，2否	int	null
8	dump_time	上报时间	timestamp	null

（4）场所码扫码信息表：附件5.csv

序号	字段名	字段说明	字段类型	默认值
1	sno	序列号：扫码记录的唯一标识	bigint(20)
2	grid_point_id	场所ID:对应于"场所信息表"中的grid_point_id	bigint(20)
3	user_id	人员ID:对应于"人员信息表"中的user_id . ID	bigint(20)
4	temperature	体温	double	null
5	create_time	扫码记录时间	timestamp	null

（5）核酸采样检测信息表：附件6.csv

序号	字段名	字段说明	字段类型	默认值
1	sno	序列号：核酸采样记录的唯一标识	bigint(20)
2	user_id	人员ID:对应于"人员信息表"中的user_id . ID	bigint(20)	null
3	cysj	采样日期和时间	timestamp	null
4	jcsj	检测日期和时间	timestamp	null
5	jg	检测结果：阴性、阳性、未知	varchar (50)	null
6	grid_point_id	场所ID:对应于"场所信息表"中的grid_point_id	bigint(20)

（6）疫苗接种信息表：附件7.csv

序号	字段名	字段说明	字段类型	默认值
1	sno	序列号：疫苗接种记录的唯一标识	bigint(20)
2	inject_sn	接种流水号	varchar(50)
3	user_id	人员ID:对应于"人员信息表"中的user_id . ID	varchar(50)
4	age	接种者年龄	int	null
5	gender	性别：1 男、2 女	varchar(10)	null
6	birthdate	出生日期	varchar(50)	null
7	inject_date	接种日期	timestamp	null
8	inject_times	针次：1 第一针、2 第二针、 3 加强针	varchar(30)	null
9	vaccine_type	疫苗类型：1 灭活疫苗、2 重组蛋白疫苗、3 病毒载体疫苗、4 核酸疫苗、5 减毒疫苗	varchar(30)	null

二、问题

根据核酸检测中阳性人员的出行时间与场所追踪密接者,将结果保存到“result1.csv”文件中，文件模板格式如下

序号	密接者ID	密接日期	密接场所ID	阳性人员ID

由问题1的结果,根据密接者的出行时间与场所追踪相应的次密接者,将结果保存到“result2.csv”文件中，文件模板如下。

序号	次密接者ID	次密接日期	次密接场所ID	密接者ID

建立模型，分析接种疫苗对病毒传播指数的影响。
根据阳性人员的数量及辐射范围，分析确定需要重点管控的场所。
为了更精准地进行疫情防控和人员管理，你认为还需要收集哪些相关数据。基于这些数据构建模型，分析其精准防控的效果。

注在解决上述问题时，要求结合赛题提供的数据信息表建立数据仓库，实现数据治理的内容，请在论文中明确阐述做了哪些数据治理工作，具体是如何实现的。

2 论文一介绍

新冠疫情防控数据的分析 --基于机器学习算法的大数据分析

摘要

自新冠疫情发生以来，这一感染性极强的病毒在全球呈现爆发式的蔓延和增长，对全球的社会经济和人类的日常生活都造成了极大的影响。因此，对于疫情的防控和治疗措施对于全球而言都是及其重要的一个课题。

本文主要是基于题目所给的自疫情发生以来所记录的部分数据，运用Python对数据进行清洗和处理，确定密接者和次密接者的信息，结果导出在result1.csv和result2.csv文件中，使疫情防控更为精确而有效；其次，根据人员接种疫苗前后的感染情况，运用SEIR传染病模型求解病毒传播指数，运用卡方检验和皮尔逊、斯皮尔曼等级相关系数进行相关性检验，以此求解不同人群在不同场合感染、传播病毒的速率，结果表明，接种疫苗能够减缓病毒传播速度；最后，再根据阳性人员的密集程度将重点防控区域落于公共交通场所，社区住所，以及学校和各大娱乐场所，以便达到更好的疫情防控效果。此外，根据分析我们还发现如果将成年人视为重点防控人员，可以在一定程度上减缓病毒传播的速度，从而达到一定的防控效果。

基于此次数据调查与分析，希望可以给疫情防控带来一定的可行措施，使疫情防控更为精确化，减缓病毒的传播速率；此外，对于机器学习算法在解决现实问题中的运用，可以大大降低人力资源的浪费，更高效的解决实际问题。

**关键字：**机器学习算法， SEIR传染病模型，卡方检验，皮尔逊、斯皮尔曼等级相关系数

在这里插入图片描述

3 论文二介绍

基于机器学习新冠疫情防控趋势研判

摘要

由于各地陆续出现不同程度的新冠病毒感染疫情，如何控制疫情蔓延、维持社会生活及经济秩序的正常运行是疫情防控的重要课题。基于该背景下，大数据分析为疫情情况的预测和峰值提高重要参照，提高治理效率，降低人员伤亡，出台符合中国国情的疫情应对措施。大数据特别是在人员的分类管理、传播途径追踪、疫情研判等工作中起到了重要作用，为卫生防疫部门的管理决策提供了可靠依据。

本文就新冠疫情防控情趋势研判，提出了创新性的解决方法：使用K-近邻(KNN)机器学习算法来找到与阳性人员有过密切接触的其他人员，且使用 KNN算法来实现次密接者追踪,还引用了机器学习线性回归模型进行分析探究接种疫苗和病毒指数的影响,再根据热力图和机器学习K-Means聚类算法找出阳性人员的数量及辐射范围，分析确定需要重点管控的场所，最后使用时空分析方法分析人员流动的有向图和使用聚类分析算法将地点划分为不同的聚类，再结合数据治理的知识，对疫情防控和人员管理提供更加精准的决策参考。

关键字：

k-近邻(KNN) 线性回归机器学习 K-Means聚类

在这里插入图片描述