深度学习处理时间序列（3）

基于常识、不使用机器学习的基准

在开始使用像黑盒子一样的深度学习模型解决温度预测问题之前，我们先尝试一种基于常识的简单方法。它可以作为一种合理性检查，还可以建立一个基准，更高级的机器学习模型需要超越这个基准才能证明其有效性。对于一个尚没有已知解决方案的新问题，这种基于常识的基准很有用。一个经典的例子是不平衡分类任务，其中某些类别比其他类别更常见。如果数据集中包含90%的类别A样本和10%的类别B样本，那么对于分类任务，一种基于常识的方法就是对新样本始终预测类别A。这种分类器的总体精度为90%，因此任何基于机器学习的方法的精度都应该高于90%，才能证明其有效性。有时候，这样的简单基准可能很难超越。

在本例中，我们可以放心地假设：温度时间序列是连续的（明天的温度很可能接近今天的温度），并且具有每天的周期性变化。因此，一种基于常识的方法是，始终预测24小时之后的温度等于现在的温度。我们用平均绝对误差（MAE）指标来评估这种方法，这一指标的定义如下。

np.mean(np.abs(preds - targets))

评估循环如代码清单10-9所示。

代码清单10-9　计算基于常识的基准的MAE

def evaluate_naive_method(dataset):
    total_abs_err = 0.
    samples_seen = 0
    for samples, targets in dataset:
        preds = samples[:, -1, 1] * std[1] + mean[1]  ←----温度特征在第1列，所以samples[:, -1, 1]是输入序列最后一个温度测量值。之前我们对特征做了规范化，所以要得到以摄氏度为单位的温度值，还需要乘以标准差并加上均值，以实现规范化的逆操作
        total_abs_err += np.sum(np.abs(preds - targets))
        samples_seen += samples.shape[0]
    return total_abs_err / samples_seen

print(f"Validation MAE: {evaluate_naive_method(val_dataset):.2f}")
print(f"Test MAE: {evaluate_naive_method(test_dataset):.2f}")

对于这个基于常识的基准，验证MAE为2.44摄氏度，测试MAE为2.62摄氏度。因此，如果假设24小时之后的温度总是与现在相同，那么平均会偏差约2.5摄氏度。这个结果不算太差，但你可能不会基于这种启发式方法来推出天气预报服务。接下来，我们将利用深度学习知识来得到更好的结果。

基本的机器学习模型

在尝试机器学习方法之前，建立一个基于常识的基准是很有用的。同样，在开始研究复杂且计算代价很大的模型（如RNN）之前，尝试简单且计算代价很小的机器学习模型（比如小型的密集连接网络）也是很有用的。这样做可以保证进一步增加问题复杂度是合理的，能够带来真正的好处。代码清单10-10给出了一个全连接模型：首先将数据展平，然后是两个Dense层。请注意，最后一个Dense层没有激活函数，这是回归问题的典型特征。我们使用均方误差（MSE）作为损失，而不是平均绝对误差（MAE），因为MSE在0附近是光滑的（而MAE不是），这对梯度下降来说是一个有用的属性。我们在compile()中监控MAE这项指标。

代码清单10-10　训练并评估一个密集连接模型

from tensorflow import keras
from tensorflow.keras import layers

inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.Flatten()(inputs)
x = layers.Dense(16, activation="relu")(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_dense.keras",  ←----这个回调函数用于保存具有最佳性能的模型
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=10,
                    validation_data=val_dataset,
                    callbacks=callbacks)

model = keras.models.load_model("jena_dense.keras")  ←---- (本行及以下1行)重新加载最佳模型，并在测试数据上进行评估
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

我们来绘制训练和验证的损失曲线，如代码清单10-11和图10-3所示。

代码清单10-11　绘制结果

import matplotlib.pyplot as plt
loss = history.history["mae"]
val_loss = history.history["val_mae"]
epochs = range(1, len(loss) + 1)
plt.figure()
plt.plot(epochs, loss, "bo", label="Training MAE")
plt.plot(epochs, val_loss, "b", label="Validation MAE")
plt.title("Training and validation MAE")
plt.legend()
plt.show()

在这里插入图片描述

部分验证损失接近不使用机器学习的基准方法，但并不稳定。这也展示了首先建立基准的优点，事实证明，要超越这个基准并不容易。我们的常识中包含大量有价值的信息，而机器学习模型并不知道这些信息。你可能会问，如果从数据到目标之间存在一个简单且表现良好的模型（基于常识的基准），那么我们训练的模型为什么没有找到它并进一步改进呢？我们在模型空间（假设空间）中搜索解决方案，这个模型空间是具有我们所定义架构的所有双层网络组成的空间。基于常识的启发式方法只是这个空间所表示的数百万个模型中的一个。这就好比大海捞针。从技术上说，假设空间中存在一个好的解决方案，但这并不意味着你可以通过梯度下降找到它。总体来说，这是机器学习的一个重要限制：如果学习算法没有被硬编码为寻找某种特定类型的简单模型，那么有时候算法无法找到简单问题的简单解决方案。这就是好的特征工程和架构预设非常重要的原因：你需要准确告诉模型它要寻找什么

一维卷积模型

说到利用正确的架构预设，由于输入序列具有每日周期性的特征，或许卷积模型可能有效。时间卷积神经网络可以在不同日期重复使用相同的表示，就像空间卷积神经网络可以在图像的不同位置重复使用相同的表示。你已经学过Conv2D层和SeparableConv2D层，它们通过在二维网格上滑动的小窗口来查看输入。这些层也有一维甚至三维的版本：Conv1D层、SeparableConv1D层和Conv3D层2。Conv1D层是在输入序列上滑动一维窗口，Conv3D层则是在三维输入物体上滑动三维窗口。2请注意，Keras中没有SeparableConv3D层。这并不是因为任何理论上的原因，只是因为还没有实现它。

因此，你可以构建一维卷积神经网络，它非常类似于二维卷积神经网络。它适用于遵循平移不变性假设的序列数据。这个假设的含义是，如果沿着序列滑动一个窗口，那么窗口的内容应该遵循相同的属性，而与窗口位置无关。我们在温度预测问题上试一下一维卷积神经网络。我们选择初始窗口长度为24，这样就可以每次查看24小时的数据（一个周期）。我们对序列进行下采样时（通过MaxPooling1D层），也会相应地减小窗口尺寸。

inputs = keras.Input(shape=(sequence_length, raw_data.shape[-1]))
x = layers.Conv1D(8, 24, activation="relu")(inputs)
x = layers.MaxPooling1D(2)(x)
x = layers.Conv1D(8, 12, activation="relu")(x)
x = layers.MaxPooling1D(2)(x)
x = layers.Conv1D(8, 6, activation="relu")(x)
x = layers.GlobalAveragePooling1D()(x)
outputs = layers.Dense(1)(x)
model = keras.Model(inputs, outputs)

callbacks = [
    keras.callbacks.ModelCheckpoint("jena_conv.keras",
                                    save_best_only=True)
]
model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])
history = model.fit(train_dataset,
                    epochs=10,
                    validation_data=val_dataset,
                    callbacks=callbacks)

model = keras.models.load_model("jena_conv.keras")
print(f"Test MAE: {model.evaluate(test_dataset)[1]:.2f}")

得到的训练曲线和验证曲线如图10-4所示。

在这里插入图片描述

事实证明，这个模型的性能甚至比密集连接模型更差。它的验证MAE约为2.9摄氏度，比基于常识的基准差很多。出了什么问题？有以下两个原因。首先，天气数据并不完全遵循平移不变性假设。虽然数据具有每日周期性，但早晨的数据与傍晚或午夜的数据具有不同的属性。天气数据只在某个时间尺度上具有平移不变性。其次，数据的顺序很重要。要想预测第2天的温度，最新的数据比5天前的数据包含更多的信息。一维卷积神经网络无法利用这一点。特别是，最大汇聚层和全局平均汇聚层在很大程度上破坏了顺序信息。