目录
一、模型评估分类
1.在线评估
2.离线评估
二、离线模型评估
1.特征评估
① 特征自身稳定性
② 特征来源稳定性
③ 特征成本
2.模型评估
① 统计性评估
覆盖度
最大值、最小值
分布形态
② 模型性能指标
分类问题
回归问题
③ 模型的稳定性
模型评估指标分五小节课程,这节课全局讲述模型评估指标有什么,下三节课重点讲解模型性能指标,了解他们的计算;最后一节课,详细讲解模型的稳定性指标。
一、模型评估分类
模型评估分为:离线评估和在线评估两类。
1.在线评估
在线评估通常是将模型部署上线后,使用线上真实数据对模型进行评估。通常会采取ABTest方式来评估业务的表现。
ABTest的操作方式是先导入一部分流量到模型中,使得一部分用户使用模型训练后的商品页面,而一部分用户看到原来的界面,这两部分用户互相独立,测试1周或1天,观察两者点击率或者购买转化率的差异,判断模型是否达到业务预期。
如果想继续了解ABTest,请查看详情:
产品经理需要懂的AB测试 - 知乎 (zhihu.com)
如何避免产品开发的致命陷阱?AB测试是你不可或缺的救命稻草! | 人人都是产品经理 (woshipm.com)
2.离线评估
离线评估是模型在上线之前进行的验证和评估工作,如果验收不通过,算法同学要进行模型的调整和优化。
离线评估更关注模型指标,如:准确率、稳定性等;而上线评估更加关注业务指标,如:用户转化率、优惠劵的核销率。
接下来我们为了讲述模型指标,主要关注离线模型的评估。
二、离线模型评估
离线模型评估分为特征评估和模型评估两类。
特征是模型的基础,所以我们不仅要对模型最终效果进行评估,还要对特征进行评估。
1.特征评估
对于特征评估我们并不是对所有的特征进行评估,我们只对重要特征进行评估。那么我们就需要和算法同学进行沟通,了解哪些特征比较重要。
特征评估包括三点:特征自身稳定性、特征来源稳定性、特征成本
① 特征自身稳定性
特征自身稳定性我们会使用PSI指标进行评估。PSI指标(模型随着时间推移发生变化而不稳定的指标)。特征自身稳定性会影响模型的整体效果,所以我们需要测评重要特征是否达到稳定指标。
② 特征来源稳定性
特征一般分为:内部来源和外部来源。
如果特征是从集团内部接入的,那我们需要看他从哪条业务线获取的,这个业务的稳定性如何,业务方是否有可能中止共享数据或者收回数据。
如果特征是从集团外部接入的,我们需要审核外部公司的资质是否合法,技术储备是否完善。
③ 特征成本
不同来源的特征可能成本也不相同,如果特征来源是集团内部业务,可能不需要成本或者需要年终进行成本均摊。如果是外部购买的特征数据,那就正常支付就好了。
作为产品经理,我们在进行评估的时候要充分考虑到付费特征在模型中产生的增益是否大于成本,如果成本过高,那么我们考虑是否可以替换特征或者使用数据缓存的方式减少调用。
2.模型评估
模型评估也包括三部分:统计性评估、模型性能指标和模型的稳定性。
① 统计性评估
在进行模型性能指标和稳定性评估之前,我们首先要对统计性能进行评估。包括:覆盖度、最大值、最小值、分布规律。
覆盖度
计算公式:打分的人数/需要打分的人数
结果越大,覆盖度越大。比如我们要做一个用户逾期还款预测的模型,如果覆盖率只有60%,那么银行就没有办法按照这个模型进行决策,这个模型就是没有用的。
最大值、最小值
我们需要对最大值和最小值进行评估。
如果最大值和最小值相隔太近,例如:0-100作为一个信用划分的区间,用户很容易集中在一个分数段,难以进行用户的区分。如果将0-100作为一个划分的总区间,相当于过去大的1份区间被细化成为现在的10份,就会更便于划分用户。
分布形态
我们的预测结果和我们的人群行为的分布应该符合一定的规律。
比如:预测用户消费能力,人群的分布情况应该满足应该满足正态分布。
业务场景不同,需要重点观察的统计性能指标也不同。
② 模型性能指标
根据问题的差异被分为:回归问题和分类问题。
模型被分为:分类模型和回归模型。不同类型的模型评估指标不相同。
分类问题
主要指标:混淆矩阵、KS、AUC。
将混淆矩阵作为基础工具,我们可以计算出召回率、准确率。评判模型的区分能力。我们也可以计算出TPR、FPR,从而计算出AUC和KS等相关指标。
因此,混淆矩阵是二分类问题的基础工具。
回归问题
主要指标:MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、R方等。
这些指标主要预测数值回归问题。
③ 模型的稳定性
最后,我们需要评估模型整体效果的稳定性。主要使用PSI指标进行评估。
这节课我们主要从全局角度了解模型评估,评估指标计算方法后面文章会详细说明。
今天的知识思维导图如下所示:
参考文献:刘海丰——《成为AI产品经理》