一、公式定义
在时间 t t t观察到 x t x_{t} xt,那么得到 T T T个不独立的随机变量 ( x 1 , . . . , x T ) − p ( X ) (x_{1},...,x_{T})-p(X) (x1,...,xT)−p(X)
由条件概率公式:
p ( a , b ) = p ( a ) p ( b ∣ a ) = p ( b ) p ( a ∣ b ) p(a,b)=p(a)p(b|a)=p(b)p(a|b) p(a,b)=p(a)p(b∣a)=p(b)p(a∣b)
可得序列模型的统计学公式:
p ( X ) = p ( x 1 ) ⋅ p ( x 2 ∣ x 1 ) ⋅ . . . p ( x T ∣ x 1 , . . . , x T − 1 ) p(X)=p(x_{1})·p(x_{2}|x_{1})·...p(x_{T}|x_{1},...,x_{T-1}) p(X)=p(x1)⋅p(x2∣x1)⋅...p(xT∣x1,...,xT−1)
二、序列建模
序列模型的任务可看作求解 p ( x t ∣ x 1 , . . . , x t − 1 ) p(x_{t}|x_{1},...,x_{t-1}) p(xt∣x1,...,xt−1),其可以通过对条件概率建模的方法求解,即:
p ( x t ∣ x 1 , . . . , x t − 1 ) = p ( x t ∣ f ( x 1 , . . . , x t − 1 ) ) p(x_{t}|x_{1},...,x_{t-1})=p(x_{t}|f(x_{1},...,x_{t-1})) p(xt∣x1,...,xt−1)=p(xt∣f(x1,...,xt−1))
其中 p ( x t ∣ x 1 , . . . , x t − 1 ) p(x_{t}|x_{1},...,x_{t-1}) p(xt∣x1,...,xt−1)的意思是:在给定前 t − 1 t-1 t−1个数据的前提下,求第 t t t个数据的概率。 p ( x t ∣ f ( x 1 , . . . , x t − 1 ) ) p(x_{t}|f(x_{1},...,x_{t-1})) p(xt∣f(x1,...,xt−1))的意思是:对已有的 t − 1 t-1 t−1个数据建立一个模型,用这个模型去预测第 t t t个数据,也成为自回归模型。
三、建模方法
3.1 马尔科夫方法
假设当前数据只与 τ τ τ个过去的数据有关,则:
p ( x t ∣ x 1 , . . . , x t − 1 ) = p ( x t ∣ f ( x t − τ , . . . , x t − 1 ) ) = p ( x t ∣ f ( x t − τ , . . . , x t − 1 ) ) p(x_{t}|x_{1},...,x_{t-1})=p(x_{t}|f(x_{t-τ},...,x_{t-1}))=p(x_{t}|f(x_{t-τ},...,x_{t-1})) p(xt∣x1,...,xt−1)=p(xt∣f(xt−τ,...,xt−1))=p(xt∣f(xt−τ,...,xt−1))
3.2 潜变量方法
引入潜变量 h t h_{t} ht来表示过去信息 h t = f ( x 1 , . . . , x t − 1 ) h_{t}=f(x_{1},...,x_{t-1}) ht=f(x1,...,xt−1),则 x t = p ( x t ∣ h t ) x_{t}=p(x_{t}|h_{t}) xt=p(xt∣ht)
四、总结
在时序模型中,当前数据与之前观察到的数据相关;
在自回归模型中,使用自身过去的数据预测未来的数据。