心法利器[99] | 无监督字面相似度cqr/ctr源码

news2026/2/9 4:44:28

心法利器

本栏目主要和大家一起讨论近期自己学习的心得和体会，与大家一起成长。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。

2022年新一版的文章合集已经发布，累计已经60w字了，获取方式看这里：CS的陋室60w字原创算法经验分享-2022版。（2023在路上了！）

往期回顾

心法利器[89] | 实用文本生成中的解码方法
心法利器[90-95] | 谈校招：合集
心法利器[96] | 写了个向量检索的baseline
心法利器[97] | 判断问题是否真的需要大模型来解决
心法利器[98] | 除了训练，大模型还有很多重要工作

很早之前，我曾经分享过一套字面相似度的方案：心法利器[18] | cqr&ctr：文本匹配的破城长矛，这套方案其实在我的日常中是经常被用到的，效果也还凑合，相比于经典的BM25，这种可归一化的计算一定程度缓解了因为长度导致的计算准确性问题，这次我也写了一套代码，方便大家快速使用。

先回顾

快速起见，我直接给出加权的计算方法。

给定query，有对应的权重和title，以及对应权重，现在计算cqr和ctr：

有关词权重的计算，我之前是已经有写文章，给出一个baseline很高的方案，并附带源码了：心法利器[33] | 快速的关键词抽取baseline，这里就不赘述了，当然了，简单起见，其实直接用idf就可以，例如jieba的源码内就有一份用人民日报训练的idf词典数据（idf.txt）。

有关这块的优缺点，为方便大家做方案权衡选择，可以参考下：

首先说优点：

能够体现字面的相似度，在一些领域下体验比较好。
性能耗时比语义相似度模型好很多。
无监督甚至不用训练，词权重的话用语料就可以训练了。
效果稳定可追踪，也方便快速增加一些策略，灵活性高。
准确率其实挺高的。

当然，还是有缺点的。

文本层面的匹配无法体现语义，同义词、统一表达之类的无法体现，导致召回率会比较低。
对切词敏感，类似“充不进去电”和“充电”就完全匹配不上。

这类型的方法，非常适合前期在时间不足时做的baseline，毕竟前期开荒时间上很紧张，各个功能和基础工作需要花很多时间，且数据资源不够，别说训练集了，测试集都很难，此时模型很难做起来。先上cqrctr计算把baseline做好，然后进行深度学习实验，用加权的方式进行融合，然后加入模型中作为特征（在一些场景，尽量还是不要扔掉字面的特征的），整个流程十分顺滑，冷启动速度也比较快。

代码

终于到了代码环节，我这里直接上代码了，正式代码其实也没几行。

import jieba
import numpy as np

class TokenDistance():
    def __init__(self, idf_path):
        idf_dict = {}
        tmp_idx_list = []
        with open(idf_path, encoding="utf8") as f:
            for line in f:
                ll = line.strip().split(" ")
                idf_dict[ll[0]] = float(ll[1])
                tmp_idx_list.append(float(ll[1]))
        self._idf_dict = idf_dict
        self._median_idf = np.median(tmp_idx_list)
    
    def predict_jaccard(self, q1, q2):
        # jaccard距离，根据idf加权
        if len(q1) < 1 or len(q2) < 1:
            return 0

        q1 = set(list(jieba.cut(q1)))
        q2 = set(list(jieba.cut(q2)))
        print(q1.intersection(q2))
        print(q1.union(q2))

        numerator = sum([self._idf_dict.get(word, self._median_idf) for word in q1.intersection(q2)])
        denominator  = sum([self._idf_dict.get(word, self._median_idf) for word in q1.union(q2)])
        return numerator / denominator

    def predict_left(self, q1, q2):
        # 单向相似度，分母为q1，根据idf加权
        if len(q1) < 1 or len(q2) < 1:
            return 0
        
        q1 = set(list(jieba.cut(q1)))
        q2 = set(list(jieba.cut(q2)))

        numerator = sum([self._idf_dict.get(word, self._median_idf) for word in q1.intersection(q2)])
        denominator  = sum([self._idf_dict.get(word, self._median_idf) for word in q1])
        return numerator / denominator

    def predict_cqrctr(self, q1, q2):
        # cqr*ctr
        if len(q1) < 1 or len(q2) < 1:
            return 0

        cqr = self.predict_left(q1, q2)
        ctr = self.predict_left(q2, q1)

        return cqr * ctr
    
if __name__ == "__main__":
    import sys
    q1 = sys.argv[1]
    q2 = sys.argv[2]

    token_distance = TokenDistance("./data/idf.txt")
    print(q1, q2)
    print(token_distance.predict_jaccard(q1, q2))
    print(token_distance.predict_left(q1, q2))
    print(token_distance.predict_cqrctr(q1, q2))

说明：