工业界是怎么做的?
- 制定标注规则 -> 标注数据 -> 训练模型 -> 线上推理
- 搜索产品和搜索算法团队定义相关性标注规则
- 认为地将 (q,d) 相关性划分为 4个 或 5个 档位
- 相关性文档规则非常重要!假如日后有大幅度变动,需要重新标注数据,丢弃累积的数据
- 产品和算法团队监督指导团队的工作,累积数十万,数百万条 (q,d) 样本
- 算法团队用人工标注的数据训练相关性模型
相关性档位划分
字面匹配 vs 需求匹配
- 相关性是指 d 能满足 q 的需求或回答 q 提出的问题
- 哪怕 q 和 d 在字面上完全不匹配,两者也可以判定为相关
- 即便 q 和 d 字面匹配,两者可能不想管
- 相关性标注只考虑相关性,不考虑内容质量,时效性等因素
- 查询词 q 可能有多种意图,文档 d 只需要命中一种意图就算相关
- 如果搜上位词,出下位词,判定为相关
- 搜下位词,出上位词,判定为不相关
- 丢失核心词,判定为不相关
- 丢失重要限定词,判定为不相关
- 丢失不重要限定词,判定为相关
- 具体看 d 能否满足 q 的主要需求或回答 q 提出的问题
档位细分
根据内容划分占比高,中档位
- 如果 (q,d) 相关,则进一步划分为高,中两党,细分规则:满足需求的内容篇幅占比是否超过 50%
根据参考价值划分为低,无档位
- 如果 (q,d) 不相关,则进一步划分为低,无两档。细分规则:文档是否具有参考价值
标注的流程
- 由算法团队抽取待标注样本
- 从搜索日志中随机抽取 n 条查询词。既有高频查询词,也有中频,低频查询词
- 给定 q ,从搜索结果中抽取 k 篇文档,组成二元组,4个相关性档位的样本数量尽可能平衡
- 不能直接取搜索结果页排名 top k的文档,否则高档位文档过多,低档位文档过少
- 由产品团队和算法团队减肚标注过程和验收结果
- 遇到难以界定档位 (q,d),由产品和算法团队做界定和解释
- 一条样本至少由两人标注,两人标注的结果需要有一致性
- 产品团队抽查标注结果,要求准确率高于某个阈值
- 可以事先往数据中埋雷(产品团队自己标注的样本),考察埋雷样本的标注准确率