(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】
(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】
(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】
(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】
(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】
(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】
(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】
(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】
(9)工业界推荐系统-小红书推荐场景及内部实践【排序模型】
(10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
(11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
(12)工业界推荐系统-小红书推荐场景及内部实践【交叉结构】
(13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】
多样性
相似性度量
- 基于物品属性标签。
- 类目、品牌、关键词…
- 基于物品向量表征。
- 用召回的双塔模型学到的物品向量(不好)。
- 基于内容的向量表征(好)。
双塔学习到的向量不好的原因:
1、存在长尾物品和新物品,这些在双塔模型中并未很好的被表征;
2、用这些向量计算的相似度准确性不高。
• CLIP是当前公认最有效的预训练方法。
• 思想: 对于图片—文本二元组,预测图文是否匹配。
• 优势:无需人工标注。小红书的笔记天然包含图片+ 文字,大部分笔记图文相关。
CLIP论文: Learning Transferable Visual Models From Natural Language Supervision
提升多样性方法
精排后的后处理被称为 重排。
MMR(Maximal Marginal Relevance)
滑动窗口
重排规则
规则举例:
- 每 𝑘 篇笔记最多出现 1 篇某种笔记;
- 前 𝑡 篇笔记最多出现 𝑘 篇某种笔记;
DPP
DPP数学基础
DPP多样性算法
Fast Greedy MAP Inference for Determinantal Point Process to Improve Recommendation Diversity
求解DPP
暴力算法
Hulu的快速算法
当然 DPP算法实际应用中也会结合滑动窗口和重排规则等。