本篇的思维导图:
项目背景
时间序列数据集中的所有数据都伴随着一个时戳,比如股票、天气数据。这个数据集,是科学家们多年间用开普勒天文望远镜观察并记录下来的银河系中的一些恒星的亮度。广袤的宇宙,浩瀚的星空在过去很长一段时间里,人类是没有办法证明系外行星的存在的,因为行星是不发光的。但是随着科学的发展,我们已经知道了一些方法,可以用于判定恒星是否拥有行星。方法之一就是记录恒星的亮度变化,科学家们推断行星的环绕会周期性地影响这些恒星的亮度。如果收集了足够多的时序数据,就可以用机器学习的方法推知哪些恒星像太阳一样,拥有行星系统。
本项目通过对时序数据的预处理、探索性数据分析、特征工程,然后构建循环神经网络模型,来熟悉循环神经网络时序数据的全流程处理。
数据采集
本次建模数据来源于网络,数据项统计如下: