1.线性模型
把输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型(linear model)
2.分段线性模型
线性模型也许过于简单,x1 跟 y 可能中间有比较复杂的关系。线性模型有很大的限制,只能表示一条直线,这一种来自于模型的限制称为模型的偏差,无法模拟真实的情况。
所以需要写一个更复杂的、更有灵活性的、有未知参数的函数。分段线性曲线(piecewise linear curve)可以看作是一个常数,再加上一堆蓝色的函数。
同时可以用分段线性曲线去逼近任何的连续的曲线,而每个分段线性曲线都可以用一大堆蓝色的函数组合起来。也就是说,只要有足够的蓝色函数把它加起来,就可以变成任何连续的曲线。
假设 x 跟 y 的关系非常复杂也没关系,就想办法写一个带有未知数的函数。直接写 HardSigmoid 不是很容易,但是可以用一条曲线来理解它,用 Sigmoid 函数来逼近 Hard Sigmoid,如图 1.10 所示。Sigmoid 函数的表达式为
其横轴输入是 x1,输出是 y,c 为常数。
调整这里的 b、w 和 c 可以制造各种不同形状的 Sigmoid 函数,用各种不同形状的 Sigmoid函数去逼近 Hard Sigmoid 函数。
将多个特征带入寻找参数的过程
3.模型变形
不一定要把 Hard Sigmoid 换成 Soft Sigmoid。HardSigmoid 可以看作是两个修正线性单元(Rectified Linear Unit,ReLU)的结合。2 个 ReLU 才能够合成一个 Hard Sigmoid。
Sigmoid 或 ReLU 称为激活函数(activation function)。
4.过拟合
神经网络层数过多时,可能会造成过拟合,在训练时表现好,但在预测时表现差。