机器学习之参数学习

news2025/4/27 20:00:37

下述内容为课程小结

定义

参数估计的方法包括经验风险最小化、结构风险最小化、最大似然估计、最大后验估计。

参数估计用于学习模型参数，以达到最优的目的，如线性回归的模型参数
在这里插入图片描述

经验风险最小化

对于输入的待处理数据格式为 ${(x，y)}$ 时，x为输入数据，y为输入的标签，那么常用平方损失函数衡量真实值与预测值的偏差。
一般表达方式为
$\begin{aligned} Loss &= \sum_{n=1}^{N}L(y^{n},f(x^{(n)};w))\\ &=\frac{1}{2}\sum_{n=1}^{N}(Y^{(n)}-w^Tx^{(n)})^2\\ &=\frac{1}{2}||y-X^Tw||^2\\ \end{aligned}$
PS:该表达式为训练集上的经验风险定义
其中
$[y^{(1)},...,y^{(N)}]^T \in R^N$ ,为真实标签向量
$\in R^{(D+1)*N}$ 由所有样本的特征向量组成

由上述表达式可知，关于 $w$ 使得函数存在最小值，那么只需对 $w$ 求解导数即可，得到
$\begin{aligned} \frac{\partial R(w)}{\partial w} &= \frac{1}{2}\frac{\partial (||y-X^Tw||^2)}{\partial w}\\&=-X(y-X^Tw) \\&=0\\ 可得 w&=(XX^T)^{-1}Xy \end{aligned}$
PS:根据矩阵的性质可知， $XX^T$ 必须可逆。若存在不可逆的情况，常见有两种方法用于处理：

使用PCA等方法进行预处理，降低或者消除特征之间的相关性
使用梯度下降的方法进行迭代达到参数估计目的（与深度学习中的反向传播原理一致），如 $\alpha X(y − X^Tw)$ , 𝛼 为学习率。

结构风险最小化

在最小二乘估计中，需要保证特征矩阵 $XX^T$ 可逆，那么为了解决该问题，结构风险最小化在最小二乘方法基础上添加对角常数，使特征矩阵 $XX^T$ 可逆，具体的实现方式为 $XX^T+\lambda I$ 。则 $XX^T+\lambda I$ 为满秩矩阵，必存在可逆矩阵，参数 $w=(XX^T+ \lambda I)^{-1}Xy$
PS: $\lambda$ 为超参数但不为0
将 $XX^T+\lambda I$ 代入原最小二乘估计损失函数，可得到
$\begin{aligned} Loss &= \sum_{n=1}^{N}L(y^{n},f(x^{(n)};w))+ \lambda ||w||^2\\ &=\frac{1}{2}\sum_{n=1}^{N}(Y^{(n)}-w^Tx^{(n)})^2+\frac{1}{2} \lambda ||w||^2\\ &=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2} \lambda ||w||^2\\ \end{aligned}$

最大似然估计

最大似然估计为概率论中的概念，那么在机器学习中除了存在的{x,y}函数对应关系 $y = f (x)$ ，还存在条件概率 $p (y ∣ x)$ 。
那么条件概率 $p (y ∣ x)$ 使用最大似然估计如何估计参数呢？

若数据集中的y由下列表达式决定：
$\varepsilon$
其中 $x$ 为输入样本数据， $w$ 为权重， $\varepsilon$ 为噪声，服从高斯分布 $\varepsilon \space \epsilon \space N(0,\sigma ^2)$
根据高斯分布的性质可知， $y$ 则服从 $N(w^Tx,\sigma ^2)$

那么需要确定在参数 $w$ 取某个值，确保𝑝(𝒚|𝑿; 𝒘, 𝜎)最大。
$\begin{aligned} p(y|X; w, \sigma ) &=\prod_{n=1}^{N}p(y^{(n)}|x^{(n)}; w, \sigma ) \\ &=\prod_{n=1}^{N}N(y^{(n)};w^Tx^{(n)}, \sigma ^2)\\ \end{aligned}$

在数学中常用取对数再求导的方法进行求解，最后可以得到
$𝒘^{𝑀𝐿} = (𝑿𝑿^T)^{−1}𝑿𝒚.$

最大后验估计

最大后验估计的前提在于需要知道一个先验分布。
假设参数 $w$ 服从先验分布 $p(w;a)=N(w;0,a^2I)$ ,其中 $a^2$ 为每一维度上的方差， $I$ 为对角矩阵。
利用贝叶斯公式 $\frac{P(A)}{P(B)}$ ,可得到参数 $w$ 的后验分布计算公式为
$\begin{aligned} p(w|X,y; a, \sigma ) &= \frac{p(w,y|X;a,\sigma)}{\sum_{w}p(w,y|X;a,\sigma)}\\ &\propto p(y|X,w;\sigma)p(w;a) \end{aligned}$
其中 $\propto p(y|X,w;\sigma)$ 为 $w$ 的似然函数， $p (w; a)$ 为先验分布。

那么根据最大后验估计的原理，我们旨在选取最优的参数 $w$ 值，令 $\sigma )$ 值最大，那么只需对 $\propto p(y|X,w;\sigma)p(w;a)$ 使用最大似然函数的计算方法即可，可以得到
$\begin{aligned} log \space p(w|X,y; a, \sigma ) \propto -\frac{1}{2\sigma^2}||y-X^Tw||^2-\frac{1}{2 a^2}w^Tw \end{aligned}$