背景:大约从2015年起,共享单车席卷了大部分城市。共享单车在给人们带来便利的同时,也存在一些问题:单车的分布很不均匀。比如在早高峰的时候,一些地铁口往往聚集着大量的单车,而到了晚高峰却很难找到一辆单车了。那么如何解决共享单车分布不均匀的问题呢?目前,共享单车公司会雇一些工人来搬运单车,把它们运送到需要单车的区域。但工人应该运多少单车?什么时候运?运到什么地方呢?这就需要准确地知道共享单车在整个城市不同地点的数量分布情况。下面造一个共享单车预测器,用来预测某一时间、某一停放区域的单车数量。供共享单车公司参考,以实现对单车的合理投放。
数据集:使用国外的一个共享单车公开数据集(Capital Bikeshare)来完成任务。
该数据是从2011年1月1日到2012年12月31日之间某地的单车使用情况,每一行都代表一条数据记录,共17379条。一条数据记录了一个小时内某地的星期几、是否是假期、天气和风速等情况,以及该地区的单车使用量(用cnt变量表示),它是我们最关心的量。
任务:我们要解决的问题就是,能否根据历史数据预测接下来一段时间该地区单车数量的走势呢?
数据预处理:
观察到数据集中的数据变量可以分成两种:一种是类型变量,另一种是数值变量。所谓的类型变