技术细分|推荐系统——推荐系统中的偏差

news2026/3/15 10:20:40

一、背景

推荐系统中大量使用用户行为数据，作为系统学习的标签或者说信号。但用户行为数据天生存在各式各样的偏差（bias），如果直接作为信号的话，学习出的模型参数不能准确表征用户在推荐系统中的真实行为意图，造成推荐效果的下降。

因此，本篇聊一聊推荐系统中常见的偏差，与相应的去偏思路与方法。

Bias and Debias in Recommender System: A Survey and Future Directions。

二、推荐的反馈闭环

推荐系统是由用户、数据、模型，三者互相作用产生的一个动态的反馈闭环。闭环分为三个阶段：

User -> Data
- 用户会产生大量的 user-item（对抖音是用户-视频、对头条是用户-文章）交互数据，以及各类周边信息包括 user 特征、item 属性、交互上下文信息等。其中 user-item 交互数据中 user 集合被表示成 U={u1,...,un} ，item 集合被表示成 I={i1,...,im}
- user 与 item 两者间互相作用形成反馈矩阵（feedback matrix），类型分为两种：
  - 隐式反馈：表示为 X=R^{n×m}，矩阵中元素x_{u,i} 是二值化 0、1 取值表示 user u 是否发生与 item i 的交互行为（bool 类型，例如购买、点击、查看等行为）
  - 显式反馈：表示为 R=R^{n×m}，矩阵中元素 r_{u,i} 是 user u 对 item i 的评分（float 类型，例如豆瓣评分）
Data -> Model
- 根据历史观测数据，训练模型预测 user 是否采纳 item 的程度。
Model -> User
- 模型返回预测推荐结果给到用户，进一步影响用户的未来行为和决策。

三个阶段不断循环，在闭环中逐渐加剧各阶段的 bias，会造成更严重的问题。

三、常见偏差

3.1 数据偏差

1.显式反馈数据 - Selection Bias

定义：当用户可以自由选择 item 进行评分，可观测到的评分并不是所有评分的有代表性样本。换而言之，评分数据是“非随机缺失”（missing not at random, MNAR）的

这个偏差的来源比较好理解，我们也可以想想自己是不是也是这样：倾向于评分喜爱的 item（例如，热衷粉丝的电影、歌曲等），倾向于评分特别好或者特别差的 item（例如，去看电影很想夸好片，很想喷烂片）

2. 显式反馈数据 - Conformity Bias

定义：用户评分倾向于与其他人相似，即使是完全基于他们自己的判断，也会受到影响

这个偏差是由从众心理导致的。对于大众一致喜欢/讨厌的 item，个体用户做判断时经常会受到外界声音的影响

3. 隐式反馈数据 - Exposure Bias

定义：仅有一部分特定 item 曝光给了用户，因此没有观测到的交互行为并不直接等同于是训练中的负例

可以想一想，对于没有产生交互行为（没有点击、购买等行为）的数据样本而言，其实是由 2 个原因造成：

用户的确不喜欢当前 item；
当前 item 没有曝光给用户（对于从没刷到过的视频，我们无法确定自己是否喜欢）

对于数据曝光问题，之前的研究有几个角度：

当前版本的曝光取决于上一个推荐系统版本的策略，决定了如何展现；
因为用户会主动搜索或寻找感兴趣的 item，因此用户选择成为了影响曝光的因素，使得高度相关/吸引力（例如标题党、美女图片类新闻）的 item 更容易被曝光；
用户的背景关系是影响曝光的一个因素，例如好友、社区、地理位置等因素会影响曝光；
流行的 item 会更容易曝光给用户，因此 Popularity Bias 是另一种形式 Exposure Bias