文章目录
- 预测性能评价思路
- 1、均方误差(Mean Square Error,MSE)
- 2、均方根误差(Root Mean Square Error,RMSE)
- 3、平均绝对误差(Mean Absolute Error,MAE)
- 4、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)
- 5、对称平均绝对百分比误差(Symmetric Mean Absolute Percentage Error,SMAPE)
- 6、拟合度(R-squared)
- 7、预测性能评价指标对比
预测性能评价思路
通常将在训练数据集上的预测输出值与训练数据集中对应的真实值之间的差异称为“训练误差”,而将使用训练好的模型在测试数据集上进行测试而得到的预测值与真实值之间的差异称为“泛化误差”,使用预测模型进行大数据预测的最大目的在于要使“泛化误差”处于一个最小值的状态,而实际过程中只能通过对模型的训练过程使“训练误差”尽可能小,因此实际的应用中,想要在测试数据集上进行测试时预测值与真实值的“泛化误差”为0几乎是不可能的。
由于误差难以避免,在对模型的好坏进行评价时,需要采用一系列指标对其性能进行评价,对预测模型进行性能评价时,主要是对训练好的模型在新数据集上的预测值的好坏进行评价,通常会采用一些数学统计上的公式计算模型的预测值与实际的真实值之间的关系。常见的性能评价指标有均方误差、均方根误差、平均绝对误差、平均绝对百分比误差、对称平均绝对百分比误差以及拟合度,下面将对它们分别展开介绍。
1、均方误差(Mean Square Error,MSE)
该指标的取值范围为0到正无穷大,当模型的预测值与真实值完全相同时,该值取值为0,否则预测值与真实值之间的差值越大,该值越大。其计算公式如下:
其中n为样本的数量,y_p为预测值,y_t为真实值。
2、均方根误差(Root Mean Square Error,RMSE)
该指标主要是对均方误差进行了开方,使得在数量级上对误差进行观察更为直观,该指标的取值范围与均方误差一样为0到正无穷,当模型的预测值与真实值完全相同时,该值取值为0,否则预测值与真实值之间的差值越大,该值越大。其计算公式如下:
3、平均绝对误差(Mean Absolute Error,MAE)
与前面两个指标不同的是该指标无需对误差值进行平方计算,该指标主要对所有预测样本的预测值与真实值的误差绝对值的平均值进行计算以判断预测效果的好坏。其计算公式如下:
与前面两个指标相同的是,该指标的取值范围也为0到正无穷大,当模型的预测值与真实值完全相同时,该值取值为0,否则预测值与真实值之间的差值越大,该值越大。
4、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)
前面几个指标都是采用实数作为预测误差效果评价的标准,而平均绝对百分比误差则是以百分数作为预测误差效果评价的标准,该指标的取值范围为0到正无穷大,当该指标取值为0%时,表示模型下的预测值与真实值完全一致,该模型可视作完美模型,当该指标取值大于100%时,表示模型下的预测值与真实值相差较大,该模型的预测效果较差。该指标的计算公式如下所示:
可以看到,该公式以真实值作为分母部分,类似于对预测值与真实值之间的误差值进行了归一化处理,以此避免了部分误差极值点对绝对误差的影响,但是由于此特征的存在,在数据集的真实值中存在0时,该预测评价指标无法被采用。
5、对称平均绝对百分比误差(Symmetric Mean Absolute Percentage Error,SMAPE)
与平均绝对百分比误差相同,该指标也是以百分数作为预测误差效果评价的标准,不同点在于其分母部分是预测值绝对值与真实值绝对值的平均值,但该指标同样可以避免了部分误差极值点对绝对误差的影响。同样的,在数据集的真实值中存在0时,该预测评价指标无法被采用。该指标的计算公式如下:
由上式可以看到,该指标的取值范围为0到正无穷大,计算结果越小,则模型的预测值与真实值之间的差值越小,模型的预测效果越好。
6、拟合度(R-squared)
拟合度主要用来衡量模型预测值与真实值之间的拟合程度,其计算公式如下:
在上述公式中,y ̅_t为真实值的平均值。
拟合度指标最大的特点在于将实际预测的误差情况与数据集本身的数据情况进行对比,当将公式中的分子分母部分同时除以预测样本数时,分子部分变成了前面介绍的误差指标均方误差,而分母部分则变成了预测样本数据集的方差,当这预测误差越小时,分子部分越接近于0,则该指标的计算结果越接近0,即模型的预测效果越好,而当分子与分母越接近时,每个预测值均处于一个更接近于均值的状态,该指标最后的计算值接近于0,则此时模型的预测效果是极差的。因此该指标的取值范围在0到1之间,该值越大,则模型的预测效果越好,一般来说当该指标的计算结果超过0.8时,模型的预测效果相对较好。
7、预测性能评价指标对比
对比上述六种预测性能评价指标可以看到,对单个模型的预测性能进行评价时,主要还是利用模型的预测值与预测样本的真实值之间的误差进行计算,通过它们之间误差的不同表现形式对来模型的预测性能进行评价,例如均方误差、均方根误差、拟合度是利用预测值与样本真实值之间误差的平方来表现其预测性能好坏,而平均绝对误差、平均绝对百分比误差以及对称平均绝对百分比误差则是利用利用预测值与样本真实值之间误差的绝对值来表现其预测性能好坏。另外这些预测性能评价指标之间也存在一定的相似性,除拟合度外,其他五种预测性能评价指标的取值范围均在0到正无穷之间,且该值越小,模型的预测性能越好,而拟合度也可以视作是均方误差的一种变形,因此无论采用哪种预测性能评价指标对模型的预测效果进行评价均具有一定的合理性。