04 效用评测层显性指标+标准方法对推荐效果定量评测

你好，我是大师兄。前面三节课我们介绍了推荐系统的数据采集层和数据加工层的相关内容，本节课我们重点介绍下推荐系统效用评价层的评测方法和评测指标。

这里的“效用评测”，通俗点说是指推荐系统输出数据的好坏是否符合用户和商业的预期；往大了说，是指推荐系统是否达成了产品目标，是否增加了用户黏性和访问深度；往小了说，是评估推荐算法的输出结果是否准确、全面。

因此，如果我们想优化一个系统的输出结果，就需要通过相应的评测方法对相应评测指标进行评估。

下面我们先来说说推荐系统效用评测的方法。

评测方法

关于推荐效果的评测方法，市面上主要分为离线评测、在线评测和用户调研这三种，接下来我们详细进行说明。

方法一：离线评测

离线评测方法的实现思路：首先，我们从用户真实历史行为日志中构造一个调用推荐系统的请求，然后调用推荐系统生成推荐结果，最终结合历史上的真实反馈进行定性评测、效果对比。

根据对推荐的问题定义，离线评测方法又可以划分为离线评分预测、离线分类预测、离线排序预测这三种。

1.离线评分预测

在没有显性用户评分的情况下，我们可以将推荐看成一个回归问题，以此来预测用户对物品的评分，然后采用评分预测模型对推荐系统进行评分。

离线评分预测的常见测量指标分为 MAE（平均绝对误差）、RMSE （均方根误差）这两类，它们的计算公式如下所示：

在以上两个公式中，u 代表用户，i 代表物品，T 代表所有评分过的用户， image.png代表用户 u 对物品 i 的真实评分，image.png为推荐算法模型预测的评分。

对比 MAE 指标，我们发现 RMSE 加大了对预测不准的用户物品评分的惩罚，即平方项的惩罚，因此 RMSE 的评测分数会更加苛刻一些。

此外，离线评分预测的衡量指标还包含归一化均方误差（NMRSE）、归一化平均绝对误差（NMAE）等，因篇幅有限，本节课我们就不赘述了。

2.离线分类预测

在没有显性用户评分的情况下，物品主要分为喜欢和不喜欢这两类，因此我们可以把推荐系统看成是一个分类问题，它可以是二分类，也可以是多分类，此时我们往往采用离线分类测试方法来预测用户的行为。

在离线分类预测过程中，我们需要测量的指标主要是准确率（Precision）、召回率（Recall），它们的计算公式如下所示：

其中 u 代表推荐数量，准确率（P）代表用户感兴趣的物品在推荐的候选集中占了多少比例，召回率（R）代表用户感兴趣的物品在推荐的用户感兴趣的所有物品候选集中占了多少比例。

因为 P 与 R 这两个指标负相关，所以在对推荐系统进行评估时，我们必须同时给出这两个指标。

对同一个模型进行评估时，我们经常需要绘制一条 P-R 曲线后再进行分析，操作起来相对比较麻烦。

为了便于我们进行评估，我们还可以使用综合评价指标（F-Measure）来代替 P-R 曲线，它的计算公式如下所示：

当参数 α=1 时，称作 F1 值：

F1 把准确率和召回率结合在一起进行考虑，当 F1 数值较高时，说明评估结果越准确，因此，它成了一种常见的综合评测方法。

综上可知：在离线分类预测方法中，我们无需预测评分，只需要把分类结果预测准确即可，即我们只需要关注给出的结果用户是否关心就行。

3.离线排序预测

在没有显性用户评分的情况下，我们也可以将推荐系统看作是一个排序学习问题。

对于推荐结果而言，我们天然地认为最合适的结果就应该排在最前面。因为推荐结果主观性非常强，所以我们不能采用搜索引擎排序指标（比如 MAP、MRR、NDCG 等客观性强的指标）对推荐系统进行评价并排序，而是采用 AUC（area under the curve）模型评估指标。

那 AUC 模型评估指标怎么得来的呢？以 58 同城本地服务猜你喜欢某深度学习推荐算法模型的 AUC 曲线为例，如下图所示。

在上图中，ROC（Receiver Operating Characteristic，受试者工作特征）曲线的横轴为假正例率（FPR），纵轴为真正例率（TPR）。算法模型通过样本逐个预测这两个值，然后通过作图得出了这么一条 ROC 曲线，而 AUC 指的就是 ROC 曲线下方的面积。

由此可见，AUC 量化了 ROC 曲线，AUC 的值越大，说明模型预测输出的概率越合理，也就是排序的结果越合理。

不过，AUC 是一个相对量，并不是一个绝对量，在这里，我们无法说明多高的 AUC 才能达到模型上线要求，需要我们在同种条件下进行比较才行，因为它与训练数据和测试数据存在很大关系。

通过以上三种离线评测方法的介绍，我们得知：在离线评测过程中，我们无需投入大量的人力及开销，真正实现全自动运行，成本较低。

方法二：在线评测

常言道：“是骡子是马拉出来遛遛”。任何模型经过离线评测后，都需要在实际场景中接受检验才行，也就是这部分我们要讲的内容——在线评测。

在线评测主要是用来比较新老算法的效用，也就是线上 AB 分流实验。

AB 分流实验利用假设检验的工具，在实战条件下判定新模型是否对测量指标有效。它不光可以用来评估算法模型，同时也可以用来评估其他策略或者 UI 的改动（UI 的每一次改动我们称之为一个特性）。

以某种分流的方法给每个特性的实验分配一定流量时，因每个实验的流量不同，从而互不干扰，这种就叫单层实验框架。

由于大量的实验对流量比较稀缺，所有现有的 AB 测试实验大部分基于 Google 的论文《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》重叠分层实验框架进行设计，其中就有由大师兄在 2014 年设计的 58 同城通用实时对照分层实验平台“日晷”系统。

这个系统采用分层架构的方式把用户进行了切分，充分考虑了流量的再利用和用户体验，同时通过组建实验委员会对实验进行评定并把实验结论作为决策的依据，一切以数据说话，决策上摆脱了所谓“专家”的控制。

而且重叠分层实验框架通过复用接入流量，实现了对不同层次的子系统进行了流量共享，对同层实验进行了流量划分。同时，重叠分层实验框架通过用户 id 及时间维度对单一访问用户进行了划分，以此避免单一用户产生不同的用户体验。

接下来我们介绍下重叠分层实验框架的几个基本概念：域（Domain）、层（Layer）、实验（Experiment）。

我们把每一个正在进行的测试就称作一个实验，多个并行且互斥的实验构成了一个层，而一个完整的流量划分就称作一个域。

以 58 同城本地服务中在线 AB 测试的一个划分为例，我们来解释一下流量与实验、层、域之间的关系。

根据上图，我们把流量与实验之间的关系进行了相关梳理。

流量进入 Layer1，我们通过实验 EXP1 、实验 EXP2 的流量分配百分比随机选择一个实验；
流量进入 Layer2，只有实验 EXP3，我们选择实验 EXP3；
流量进入 Layer3，EXP4、EXPx 可视为 2 个大实验，然后通过流量分配百分比选择实验。

EXPx，此时实验 EXPx 被分成了 2 个层：Layer3-1 子层（包括EXP5、EXP6、EXP7）和 Layer3-2 子层（包括 EXP8），接下来我们先走 Layer3-1 ，然后选择一个实验，假设我们选择了实验 EXP6，往下走我们就是选择实验 EXP7；

然后依次类推到 EXP9。

在线评测方法除了支持重叠分层实验以外，还支持对实验进行自动化评估，为我们的工作带来了不少便利。

使用重叠分层实验框架后，PM 可以独立进行实验配置、实现管理、实验统计和评估，而不需要依赖 RD，大大节省了 RD 成本。而且实验与实验之间可并行，大大提升了评估效率，还能将实验对业务系统的逻辑侵入降到最低。同时因实验过程中干扰较少，也大大保证了实验结果的可信度，能帮助公司快速推进数据驱动进程，改变以往拍脑袋决策的弊病。

58 同城本地服务推荐系统针对各业务的算法分流也第一时间接入了实验系统，节省了部门大量的运维成本，也大大简化了推荐系统的架构，同时实验系统还多次发现并辅助业务人员定位线上问题，肩负起了数据实时监控的职责。

由于在线评测方法涉及大量统计学知识，这部分内容本节课我们不单独展开说明，如果你有需要可以选择拉勾教育的其他课程进行学习。