下述内容为课程小结
定义
参数估计的方法包括经验风险最小化、结构风险最小化、最大似然估计、最大后验估计。
参数估计用于学习模型参数,以达到最优的目的,如线性回归的模型参数
经验风险最小化
对于输入的待处理数据格式为
(
x
,
y
)
{(x,y)}
(x,y)时,x为输入数据,y为输入的标签,那么常用平方损失函数衡量真实值与预测值的偏差。
一般表达方式为
L
o
s
s
=
∑
n
=
1
N
L
(
y
n
,
f
(
x
(
n
)
;
w
)
)
=
1
2
∑
n
=
1
N
(
Y
(
n
)
−
w
T
x
(
n
)
)
2
=
1
2
∣
∣
y
−
X
T
w
∣
∣
2
\begin{aligned} Loss &= \sum_{n=1}^{N}L(y^{n},f(x^{(n)};w))\\ &=\frac{1}{2}\sum_{n=1}^{N}(Y^{(n)}-w^Tx^{(n)})^2\\ &=\frac{1}{2}||y-X^Tw||^2\\ \end{aligned}
Loss=n=1∑NL(yn,f(x(n);w))=21n=1∑N(Y(n)−wTx(n))2=21∣∣y−XTw∣∣2
PS:该表达式为训练集上的经验风险定义
其中
y
=
[
y
(
1
)
,
.
.
.
,
y
(
N
)
]
T
∈
R
N
y = [y^{(1)},...,y^{(N)}]^T \in R^N
y=[y(1),...,y(N)]T∈RN,为真实标签向量
x
∈
R
(
D
+
1
)
∗
N
x \in R^{(D+1)*N}
x∈R(D+1)∗N由所有样本的特征向量组成
由上述表达式可知,关于
w
w
w使得函数存在最小值,那么只需对
w
w
w求解导数即可,得到
∂
R
(
w
)
∂
w
=
1
2
∂
(
∣
∣
y
−
X
T
w
∣
∣
2
)
∂
w
=
−
X
(
y
−
X
T
w
)
=
0
可得
w
=
(
X
X
T
)
−
1
X
y
\begin{aligned} \frac{\partial R(w)}{\partial w} &= \frac{1}{2}\frac{\partial (||y-X^Tw||^2)}{\partial w}\\&=-X(y-X^Tw) \\&=0\\ 可得 w&=(XX^T)^{-1}Xy \end{aligned}
∂w∂R(w)可得w=21∂w∂(∣∣y−XTw∣∣2)=−X(y−XTw)=0=(XXT)−1Xy
PS:
根据矩阵的性质可知,
X
X
T
XX^T
XXT必须可逆。若存在不可逆的情况,常见有两种方法用于处理:
- 使用PCA等方法进行预处理,降低或者消除特征之间的相关性
- 使用梯度下降的方法进行迭代达到参数估计目的(与深度学习中的反向传播原理一致),如 w ← w + α X ( y − X T w ) w ← w + \alpha X(y − X^Tw) w←w+αX(y−XTw), 𝛼 为学习率。
结构风险最小化
在最小二乘估计中,需要保证特征矩阵
X
X
T
XX^T
XXT可逆,那么为了解决该问题,结构风险最小化在最小二乘方法基础上添加对角常数,使特征矩阵
X
X
T
XX^T
XXT可逆,具体的实现方式为
X
X
T
+
λ
I
XX^T+\lambda I
XXT+λI。则
X
X
T
+
λ
I
XX^T+\lambda I
XXT+λI为满秩矩阵,必存在可逆矩阵,参数
w
=
(
X
X
T
+
λ
I
)
−
1
X
y
w=(XX^T+ \lambda I)^{-1}Xy
w=(XXT+λI)−1Xy
PS:
λ
\lambda
λ为超参数但不为0
将
X
X
T
+
λ
I
XX^T+\lambda I
XXT+λI代入原最小二乘估计损失函数,可得到
L
o
s
s
=
∑
n
=
1
N
L
(
y
n
,
f
(
x
(
n
)
;
w
)
)
+
λ
∣
∣
w
∣
∣
2
=
1
2
∑
n
=
1
N
(
Y
(
n
)
−
w
T
x
(
n
)
)
2
+
1
2
λ
∣
∣
w
∣
∣
2
=
1
2
∣
∣
y
−
X
T
w
∣
∣
2
+
1
2
λ
∣
∣
w
∣
∣
2
\begin{aligned} Loss &= \sum_{n=1}^{N}L(y^{n},f(x^{(n)};w))+ \lambda ||w||^2\\ &=\frac{1}{2}\sum_{n=1}^{N}(Y^{(n)}-w^Tx^{(n)})^2+\frac{1}{2} \lambda ||w||^2\\ &=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2} \lambda ||w||^2\\ \end{aligned}
Loss=n=1∑NL(yn,f(x(n);w))+λ∣∣w∣∣2=21n=1∑N(Y(n)−wTx(n))2+21λ∣∣w∣∣2=21∣∣y−XTw∣∣2+21λ∣∣w∣∣2
最大似然估计
最大似然估计为概率论中的概念,那么在机器学习中除了存在的{x,y}函数对应关系
y
=
f
(
x
)
y=f(x)
y=f(x),还存在条件概率
p
(
y
∣
x
)
p(y|x)
p(y∣x)。
那么条件概率
p
(
y
∣
x
)
p(y|x)
p(y∣x)使用最大似然估计如何估计参数呢?
若数据集中的y由下列表达式决定:
y
=
f
(
x
;
w
)
+
ε
y=f(x;w)+ \varepsilon
y=f(x;w)+ε
其中
x
x
x为输入样本数据,
w
w
w为权重,
ε
\varepsilon
ε为噪声,服从高斯分布
ε
ϵ
N
(
0
,
σ
2
)
\varepsilon \space \epsilon \space N(0,\sigma ^2)
ε ϵ N(0,σ2)
根据高斯分布的性质可知,
y
y
y则服从
N
(
w
T
x
,
σ
2
)
N(w^Tx,\sigma ^2)
N(wTx,σ2)
那么需要确定在参数
w
w
w取某个值,确保𝑝(𝒚|𝑿; 𝒘, 𝜎)最大。
p
(
y
∣
X
;
w
,
σ
)
=
∏
n
=
1
N
p
(
y
(
n
)
∣
x
(
n
)
;
w
,
σ
)
=
∏
n
=
1
N
N
(
y
(
n
)
;
w
T
x
(
n
)
,
σ
2
)
\begin{aligned} p(y|X; w, \sigma ) &=\prod_{n=1}^{N}p(y^{(n)}|x^{(n)}; w, \sigma ) \\ &=\prod_{n=1}^{N}N(y^{(n)};w^Tx^{(n)}, \sigma ^2)\\ \end{aligned}
p(y∣X;w,σ)=n=1∏Np(y(n)∣x(n);w,σ)=n=1∏NN(y(n);wTx(n),σ2)
在数学中常用取对数再求导的方法进行求解,最后可以得到
𝒘
𝑀
𝐿
=
(
𝑿
𝑿
T
)
−
1
𝑿
𝒚
.
𝒘^{𝑀𝐿} = (𝑿𝑿^T)^{−1}𝑿𝒚.
wML=(XXT)−1Xy.
最大后验估计
最大后验估计的前提在于需要知道一个先验分布。
假设参数
w
w
w服从先验分布
p
(
w
;
a
)
=
N
(
w
;
0
,
a
2
I
)
p(w;a)=N(w;0,a^2I)
p(w;a)=N(w;0,a2I),其中
a
2
a^2
a2为每一维度上的方差,
I
I
I为对角矩阵。
利用贝叶斯公式
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B) = P(B|A) \frac{P(A)}{P(B)}
P(A∣B)=P(B∣A)P(B)P(A),可得到参数
w
w
w的后验分布计算公式为
p
(
w
∣
X
,
y
;
a
,
σ
)
=
p
(
w
,
y
∣
X
;
a
,
σ
)
∑
w
p
(
w
,
y
∣
X
;
a
,
σ
)
∝
p
(
y
∣
X
,
w
;
σ
)
p
(
w
;
a
)
\begin{aligned} p(w|X,y; a, \sigma ) &= \frac{p(w,y|X;a,\sigma)}{\sum_{w}p(w,y|X;a,\sigma)}\\ &\propto p(y|X,w;\sigma)p(w;a) \end{aligned}
p(w∣X,y;a,σ)=∑wp(w,y∣X;a,σ)p(w,y∣X;a,σ)∝p(y∣X,w;σ)p(w;a)
其中
∝
p
(
y
∣
X
,
w
;
σ
)
\propto p(y|X,w;\sigma)
∝p(y∣X,w;σ)为
w
w
w的似然函数,
p
(
w
;
a
)
p(w;a)
p(w;a)为先验分布。
那么根据最大后验估计的原理,我们旨在选取最优的参数
w
w
w值,令
p
(
w
∣
X
,
y
;
a
,
σ
)
p(w|X,y; a, \sigma )
p(w∣X,y;a,σ)值最大,那么只需对
∝
p
(
y
∣
X
,
w
;
σ
)
p
(
w
;
a
)
\propto p(y|X,w;\sigma)p(w;a)
∝p(y∣X,w;σ)p(w;a)使用最大似然函数的计算方法即可,可以得到
l
o
g
p
(
w
∣
X
,
y
;
a
,
σ
)
∝
−
1
2
σ
2
∣
∣
y
−
X
T
w
∣
∣
2
−
1
2
a
2
w
T
w
\begin{aligned} log \space p(w|X,y; a, \sigma ) \propto -\frac{1}{2\sigma^2}||y-X^Tw||^2-\frac{1}{2 a^2}w^Tw \end{aligned}
log p(w∣X,y;a,σ)∝−2σ21∣∣y−XTw∣∣2−2a21wTw
巧合的是,该结果与平方损失的结构风险最小化一致,那么有理由知道最大后验概率等于平方损失的结构风险最小化。