阅读笔记DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks

news2026/2/11 6:21:30

$z_{i,t}\in \mathbb{R}$ 表示时间序列 $i$ 在 $t$ 时刻的值。给一个连续时间段 $t\in [1, T]$ ，将其划分为context window $1,t_0)$ 和prediction window $t_0,T]$ 。用context window的时间序列预测prediction window的时间序列的目标分布是
$P(\mathbf z_{i,t_0:T} | \mathbf z_{i,1:t_0-1}, \mathbf x_{i,1:T})$ 其中 $\mathbf x_{i,t}$ 是协变量(covariate)，也就是特征，可以是时间相关的，也可以是序列相关的，比如day-of-the-week、hour-of-the-day等。
作者用自回归（autoregressive）模型建模上面时间序列的概率：
$Q_\Theta(\mathbf z_{i,t_0:T} | \mathbf z_{i,1:t_0-1}, \mathbf x_{i,1:T})=\Pi_{t=t_0}^TQ_\Theta(z_{i,t} | \mathbf z_{i,1:t-1}, \mathbf x_{i,1:T}) = \Pi_{t=t_0}^T l(z_{i,t} | \theta(\mathbf h_{i,t}, \Theta))$ 其中 $\mathbf h_{i,t} = h(\mathbf h_{i,t-1}, z_{i, t-1}, \mathbf x_{i,t}, \Theta)$ 是RNN的隐含表示。likelihood $l(z_{i,t} | \theta(\mathbf h_{i,t}, \Theta))$ 是一个分布，参数由 $\theta(\mathbf h_{i,t}, \Theta)$ 给出。
在这里插入图片描述

likelihood $l(z_{i,t} | \theta(\mathbf h_{i,t}, \Theta))$ 的参数由网络预测，例如分布的mean和variance。具体地，作者对实数值选择Gaussian likelihood，对正的计数值选择negative-binomial likelihood。

优化目标是最大化log-likelihood：
$\mathcal L = \sum_{i=1}^N \sum_{t=t_0}^T \log l(z_{i,t} | \theta(\mathbf h_{i,t}))$ 因为模型没有隐变量，所以不需要inference，可以直接用梯度下降优化。需要优化的参数 $\Theta$ 包含RNN的参数，和计算分布参数的参数。