线性神经网络

我们应该从线性神经网络开始，去逐步了解深度神经网络（深度学习）的各种复杂结构和底层原理。

1. 线性回归

用一个线性的模型来拟合数据与它们的标签之间的映射，用于回归问题。

1.1 构造线性模型：

$y=\widehat{\omega}^Tx\tag{1-1}$
请添加图片描述
图1 线性回归与神经网络的关系

由(1-1)不难发现，线性回归其实就是单层线性神经网络。

1.2 最小二乘损失函数：

可以证明，让线性回归偏差的L2范数（均方误差）最小等价于对线性模型的极大似然估计…
$L(\widehat{\omega})=\sum_{i=1}^N||\widehat{\omega}^Tx_i-y_i||^2_2\tag{1-2}$

1.3 求解：

(1-2)是一个凸优化问题，而且比较简单，可以求得解析解。所以可以令求导=0的方式对其求解析解：
$\widehat{\omega}=(X^TX)^{-1}X^TY\tag{1-3}$
当然梯度下降应该能求出非常接近解析的效果…

1.4 预测：

求解出参数向量之后把x代入线性模型即可预测。

1.5 小节：

不难理解吧？最经典、古老、简单的模型了吧…

2. 线性分类

线性分类就要是把线性回归设法用于分类问题。相对于回归问题来说，变化有以下几点：

2.1 多输出

最直观的改动应该是一个输出变成多个了。我们期望用多个输出神经元来达到估计每个类别分布的目的。
请添加图片描述
图2 线性分类与神经网络的关系

2.2 输出层

搞清楚多输出的网络结构之后，输出层应该使用怎样的策略呢？对每个输出神经元应用(1-1)那样的前向传播方法来计算不可以吗？？其实不行：

因为对于分类问题，必须要使所有神经元的输出满足：

均≥0
和=1
输出层的传递函数必须可导

对于以上3个特点，分类问题的输出层有着独特的设计——softmax激活函数：
$\widehat{y_j}=\frac{e^{o_j}}{\sum_{k}^{N}e^{o^k}}\tag{2-1}$
(2-1)中，oj为输出层第j个【原输出】，经过这样的处理后yj为最终输出，可以保证以上三点。

softmax激活函数的具体工作方式如下图所示：
请添加图片描述
图3 由softmax激活函数连接到输出层示意

2.3 损失函数

这样搞了之后我们的损失函数采用交叉熵损失，这是由极大对数似然估计推导而来的损失函数，可以证明和MSE损失是等价的：
$l(y,\widehat{y})=-\sum_{j=1}^{N}y_ilog\widehat{y_i}\tag{2-2}$
(2-2)中，y为独特编码的分类标签向量，yi为y的第i个分量。