任务背景
过去一年多的时间,对我们影响最大的事件就是全球新冠肺炎的大流行。新冠肺炎除了对患者带来痛苦之外,对医疗系统也带来了巨大的挑战。许多患者陷入危险的本质原因就是医疗资源的紧张,如果可以根据现有确诊的数据来预测将来可能的确诊数,那政府和医院就能够提前对医疗资源进行规划和准备,来大幅改善确诊患者的医疗环境。
所以,新冠肺炎的蔓延趋势分析也备受关注。数据分析竞赛网站 kaggle 也陆续放出一些数据集给数据分析的爱好者们分析。
今天我们就基于其中的一份数据集来尝试预测不同国家随着时间的变化,确诊病例的变化趋势。
train.csv 的格式如下:
-
Id: 这是一个唯一的标识符,可能是用来区分每一条数据记录的编号。
-
Province_State: 这列记录了疫情数据对应的省/州的名称。在一些国家,疫情数据会根据不同的省份或州进行分别统计,这列可能用于标识具体的地理区域。
-
Country_Region: 这列记录了疫情数据对应的国家或地区的名称,例如"Afghanistan"代表阿富汗。
-
Date: 这列记录了数据的日期,以年-月-日的形式表示。在这个例子中,日期从2020年1月22日开始。
-
ConfirmedCases: 这列记录了每个日期对应的累计确诊病例数量。根据日期和地区,这个数字可能不断增加。
- <