怎样评估机器学习算法的性能？

利用机器学习诊断法来评估机器学习算法的性能。诊断法是一种测试法，通过这种测试能够了解算法在哪里出了问题，这也能够告诉我们要想改进一种算法的效果、什么样的尝试才是有意义的。

7.1 评估假设

评价算法学习得到的假设。

怎样判断一个假设是否过拟合呢？

假设我们有这样一组数据组（如图的十组数据），为了确保我们可以评价我们的假设函数，我们将数据分成两部分：第一部分作为训练集，第二部分作为测试集，经典的分割是7:3。但是如果数据集呈现某种规律，那么最好是随机选择训练集和测试集。

以线性回归为例（展示训练和测试学习算法的过程）

首先需要对训练集进行学习得到参数 $\theta$ （就是最小化训练误差 $J(\theta)$ ）
计算出测试误差

如果是分类问题里面的逻辑回归的步骤：

首先需要对训练集进行学习得到参数 $\theta$
计算测试误差

还可以使用错误分类的方法也叫做0/1分类错误。0和1表示了你预测的分类是正确或错误的情况。

0/1错误分类度量：

把用来测试的数据求出h theta,y,再把两者代入err(h,y)函数中，求出测试数据中的误差，求和后再除以mtest ，就是求测量数据的平均误差。

7.2 模型选择问题

假设想要确定对于一个数据集最合适的多项式次数，怎样选用正确的特征来构造学习算法或者加入需要选择学习算法中的正则化参数lambda，该怎样做呢？——这类问题被叫做模型选择问题。

在这一小节，不是考虑把数据分为训练集和测试集，而是如何将数据分为三个数据组：训练集、验证集和测试集。

如果你的参数对某个数据集拟合的很好，比如说是训练集或者其他数据集，那么用同一数据集计算得到的误差比如训练误差并不能很好地估计出实际的泛化误差，即该假设对新样本的泛化能力。现在，我们来考虑模型选择问题。假设现在要选择能最后地拟合数据的多项式次数，考虑选择一次、二次、...、十次函数中的哪一个？这类似于在这个算法里加入一个参数。这里设置d=1 2 3 4表示一次函数、二次函数、三次函数、四次函数。

如果你想要选择一个模型，就是选择一次多项式次数，从这10个模型中选择一个，拟合这个模型并且估计这个拟合好的模型假设对新样本的泛化能力。那么可以这样做：首先先选择第一个模型，然后最小化训练误差，这样就会得到一个参数向量 $\theta^{(1)}$ ，然后再选择第二个模型（二次函数）用它来拟合训练集，就会得到另外一个参数向量 $\theta^{(2)}$ ，以此类推会得到十个向量参数。取每一个假设和它相应的参数，然后计算出它在测试集的性能。

最后选择了五次函数，现在我们想知道这个模型的泛化能力怎么样。我们可以观察这个五次多项式假设模型对测试集的拟合情况，但问题是这样做任然不能公平地估计出这个假设的泛化能力其原因在于我们拟合了一个额外的参数d，也就是多项式的次数。我们用测试集拟合了参数d，我们选择了一个能够最好地拟合测试集的参数d的值。因此我们的参数向量 $\theta^{(1)}$ 在测试集上的性能很可能是对泛化误差过于乐观的估计。因为使用测试集拟合得到的参数d，再在测试集上评估假设就不公平了。因为我用测试集拟合到的参数用测试集选择了多项式的次数，所以假设很可能对于测试集的表现好过于它没见过的样本，但后者才是我们真正关心的。

如果我们用训练集来拟合参数向量时，拟合后的模型在训练集上的效果是不能预测出假设对于新样本的泛化能力的。这是因为这些参数能够很好地拟合训练集，因此很有可能在训练集上表现地很好，但对其他的新样本来说就不一定那么好了。（也就是训练集和测试集其实还是来自一个数据集中只不过人为划分出来了70%和30% 所以有可能对这一整个数据集都友好。用测试集来优化训练集的模型，那再用测试集去测试肯定是效果很好；所以我们应该另外取20%的数据作为交叉验证，再用测试集预测效果好不好）

具体来说，我们是在对测试集进行拟合，通过拟合测试得到参数d，这意味着假设在测试集上的效果并不能用来公正的估计这个假设对从未见过的新样本的效果。为了解决模型选择出现的问题，我们通常会采用如下的方法来估计一个假设：

给定一个数据集，不把它分成训练集和测试集，而是分为三个部分：训练集、交叉验证集（cv）、测试集，这些数据典型额分配比例是6：2：2。

当面对这样问题的模型选择，我们需要做的就是：用验证集或者说交叉验证集来选择模型而不是原来的测试集。具体来讲，首先要选取第一种假设，利用最小化函数求出一个参数向量 $\theta$ ，以此类推。接下来用交叉验证集来测试，然后计算出 $J_{cv}$ 来观察这些假设模型在交叉验证集上的效果如何，会选择交叉验证误差最小的那个假设作为我们的模型。