模型评估和选择

训练误差和测试误差

将预测系统的X作为输入，输入到模型里面，就可以得到预测结果。
在这里插入图片描述
学习到的模型： $Y=\hat{f}(X)$

训练集(Training Set)： $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(\left[_{x_{N}}, y_{N}\right)\right\}\right.$

训练误差(Training Error) ： $R_{e m p}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)$

测试集(Test Set）： $T^{\prime}=\left\{\left(x_{1^{\prime}}, y_{1^{\prime}}\right),\left(x_{2^{\prime}}, y_{2^{\prime}}\right) \cdots,\left(x_{N^{\prime}}, y_{N^{\prime}}\right)\right\}$

测试误差(Test error)： $e_{\text {test }}=\frac{1}{N^{\prime}} \sum_{i^{\prime}=1}^{N^{\prime}} L\left(y_{i^{\prime}}, \hat{f}\left(x_{i^{\prime}}\right)\right)$

误差率(Error Rate)： $e_{t e s t}=\frac{1}{N^{\prime}} \sum_{i^{\prime}=1}^{N^{\prime}} I\left(y_{i^{\prime}} \neq \hat{f}\left(x_{i^{\prime}}\right)\right)$ = 预测结果不等于真实结果/总数

准确率(Accuracy)： $r_{\text {test }}=\frac{1}{N^{\prime}} \sum_{i^{\prime}=1}^{N^{\prime}} I\left(y_{i^{\prime}}=\hat{f}\left(x_{i^{\prime}}\right)\right)$ = 预测结果等于真实结果/总数

过拟合

过拟合(Over-Fitting) ：学习所得模型包含参数过多，出现对已知数据预测很好，但对未知数据预测很差的现象。

在这里插入图片描述
预测误差与模型复杂度的关系：

正则化与交叉验证

正则化

正则化：实现结构风险最小化策略
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
经验风险 $\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$ 越小，误差就越小，但模型复杂度越大，预测误差是按照上方图来变化的，故而我们需要用 $\lambda$ 来权衡经验风险和模型复杂度。

常用的正则化项为L1范数和L2范数。
L1范数： $L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\lambda\|w\|_{1}$
L2范数： $L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\frac{\lambda}{2}\|w\|_{2}^{2}$