简介

score matching算法是一种求解概率密度函数的参数的算法。
在很多情况下，概率密度函数可以表示为：
$p(\xi;\theta)=\frac{1}{Z(\theta)}q(\xi;\theta)$
假设我们知道 $q$ 的解析表达式，但是因为 $Z$ 的计算需要积分计算，并不能简单地计算 $Z$ 。
score matching算法通过绕开归一化常数 $Z$ ，求解概率密度函数的参数 $\theta$ 。

Score Function

为了去掉 $Z$ ，我们定义分数函数score function $\psi(\xi;\theta)$ :
$\psi(\xi;\theta)=\left (\begin{array}{c} \frac{\partial\log p(\xi;\theta)}{\partial \xi_1} \\ \vdots \\ \frac{\partial\log p(\xi;\theta)}{\partial \xi_n} \\ \end{array}\right)=\left (\begin{array}{c} \psi_1(\xi;\theta) \\ \vdots \\ \psi_n(\xi;\theta) \\ \end{array}\right)=\nabla_\xi \log p(\xi;\theta)$
因为 $Z(\theta)$ 和 $\xi$ 无关，通过score function可以去掉 $Z(\theta)$ ，即score function只依赖 $q$
$\psi(\xi;\theta)=\nabla_\xi\log q(\xi;\theta)$

另外，用 $\psi_x(\cdot)=\nabla_\xi \log p_x(\cdot)$ 表示观测数据的score function。

求解方法

score matching算法通过最小化模型分数函数 $\psi(\xi;\theta)$ 和数据分数函数 $\psi_x(\xi;\theta)$ 的平方差的期望来得到参数 $\theta$ 。该期望的定义如下：
$J(\theta)=\frac{1}{2}\int_{\xi\in \mathbb{R}^n}p_x(\xi)\|\psi(\xi;\theta)-\psi_x(\xi;\theta)\|^2d\xi$
最小化上面的期望将得到 $\theta$ 的score matching估计量(estimator)：
$\hat{\theta}=\text{argmin}J(\theta)$
因为score function不含有 $Z$ ，优化 $J(\theta)$ 可以去掉对 $Z$ 的计算。但值得注意的是，直接优化 $J(\theta)$ 依然很难，因为数据分数函数 $\psi_x(\xi;\theta)$ 的计算是一个非参数估计问题(non-parametric estimation problem)。

但是可以证明 $J(\theta)$ 可以重写成没有数据分数函数的形式：
$J(\theta)=\int_{\xi\in \mathbb{R}^n}p_x(\xi)\sum_{i=1}^n[\partial_i\psi_i(\xi;\theta)+\frac{1}{2}\psi_i(\xi;\theta)^2]d\xi+const$
下面是论文中给出的完整定理。
在这里插入图片描述
现实中，假设我们有 $T$ 个观测值 $x(1),\ldots,x(T)$ 。根据大数定理，期望可以用平均数表示， $J$ 则表示成
$\tilde{J}(\theta)=\frac{1}{T}\sum_{t=1}^T\sum_{i=1}^n[\partial_i\psi_i(x(t);\theta)+\frac{1}{2}\psi_i(x(t);\theta)^2]d\xi+const$
可以证明，如果 $\hat{\theta}$ 是 $\tilde{J}$ 的全局最优解，那么估计量 $\hat{\theta}$ 将具有一致性(consistent)。
具有一致性的估计量是渐进无偏(asymptotic unbiasedness)的。

emm

从统计学的角度理解score matching。score matching就是要从观测数据估计出总体的未知参数。 $\hat{\theta}$ 是估计量， $\theta$ 是被估计量。估计量需要具有一些性质才是好的估计量。这里 $\hat{\theta}$ 在一定条件下具有一致性(consistent)。