心法利器[99] | 无监督字面相似度cqr/ctr源码

news2024/12/28 21:28:45

心法利器

本栏目主要和大家一起讨论近期自己学习的心得和体会,与大家一起成长。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。

2022年新一版的文章合集已经发布,累计已经60w字了,获取方式看这里:CS的陋室60w字原创算法经验分享-2022版。(2023在路上了!)

往期回顾

  • 心法利器[89] | 实用文本生成中的解码方法

  • 心法利器[90-95] | 谈校招:合集

  • 心法利器[96] | 写了个向量检索的baseline

  • 心法利器[97] | 判断问题是否真的需要大模型来解决

  • 心法利器[98] | 除了训练,大模型还有很多重要工作

很早之前,我曾经分享过一套字面相似度的方案:心法利器[18] | cqr&ctr:文本匹配的破城长矛,这套方案其实在我的日常中是经常被用到的,效果也还凑合,相比于经典的BM25,这种可归一化的计算一定程度缓解了因为长度导致的计算准确性问题,这次我也写了一套代码,方便大家快速使用。

先回顾

快速起见,我直接给出加权的计算方法。

给定query,有对应的权重和title,以及对应权重,现在计算cqr和ctr:

有关词权重的计算,我之前是已经有写文章,给出一个baseline很高的方案,并附带源码了:心法利器[33] | 快速的关键词抽取baseline,这里就不赘述了,当然了,简单起见,其实直接用idf就可以,例如jieba的源码内就有一份用人民日报训练的idf词典数据(idf.txt)。

有关这块的优缺点,为方便大家做方案权衡选择,可以参考下:

首先说优点:

  • 能够体现字面的相似度,在一些领域下体验比较好。

  • 性能耗时比语义相似度模型好很多。

  • 无监督甚至不用训练,词权重的话用语料就可以训练了。

  • 效果稳定可追踪,也方便快速增加一些策略,灵活性高。

  • 准确率其实挺高的。

当然,还是有缺点的。

  • 文本层面的匹配无法体现语义,同义词、统一表达之类的无法体现,导致召回率会比较低。

  • 对切词敏感,类似“充不进去电”和“充电”就完全匹配不上。

这类型的方法,非常适合前期在时间不足时做的baseline,毕竟前期开荒时间上很紧张,各个功能和基础工作需要花很多时间,且数据资源不够,别说训练集了,测试集都很难,此时模型很难做起来。先上cqrctr计算把baseline做好,然后进行深度学习实验,用加权的方式进行融合,然后加入模型中作为特征(在一些场景,尽量还是不要扔掉字面的特征的),整个流程十分顺滑,冷启动速度也比较快。

代码

终于到了代码环节,我这里直接上代码了,正式代码其实也没几行。

import jieba
import numpy as np

class TokenDistance():
    def __init__(self, idf_path):
        idf_dict = {}
        tmp_idx_list = []
        with open(idf_path, encoding="utf8") as f:
            for line in f:
                ll = line.strip().split(" ")
                idf_dict[ll[0]] = float(ll[1])
                tmp_idx_list.append(float(ll[1]))
        self._idf_dict = idf_dict
        self._median_idf = np.median(tmp_idx_list)
    
    def predict_jaccard(self, q1, q2):
        # jaccard距离,根据idf加权
        if len(q1) < 1 or len(q2) < 1:
            return 0

        q1 = set(list(jieba.cut(q1)))
        q2 = set(list(jieba.cut(q2)))
        print(q1.intersection(q2))
        print(q1.union(q2))

        numerator = sum([self._idf_dict.get(word, self._median_idf) for word in q1.intersection(q2)])
        denominator  = sum([self._idf_dict.get(word, self._median_idf) for word in q1.union(q2)])
        return numerator / denominator

    def predict_left(self, q1, q2):
        # 单向相似度,分母为q1,根据idf加权
        if len(q1) < 1 or len(q2) < 1:
            return 0
        
        q1 = set(list(jieba.cut(q1)))
        q2 = set(list(jieba.cut(q2)))

        numerator = sum([self._idf_dict.get(word, self._median_idf) for word in q1.intersection(q2)])
        denominator  = sum([self._idf_dict.get(word, self._median_idf) for word in q1])
        return numerator / denominator

    def predict_cqrctr(self, q1, q2):
        # cqr*ctr
        if len(q1) < 1 or len(q2) < 1:
            return 0

        cqr = self.predict_left(q1, q2)
        ctr = self.predict_left(q2, q1)

        return cqr * ctr
    
if __name__ == "__main__":
    import sys
    q1 = sys.argv[1]
    q2 = sys.argv[2]

    token_distance = TokenDistance("./data/idf.txt")
    print(q1, q2)
    print(token_distance.predict_jaccard(q1, q2))
    print(token_distance.predict_left(q1, q2))
    print(token_distance.predict_cqrctr(q1, q2))

说明:

  • 此处的加权,用的jieba的idf.txt,直接加载成dict就能查了。

  • 对于未登录词,词权重词典里没有的,一般用整个词典的中位数来计算。

  • 这里附上jaccard距离,和ctr、cqr不同的是,他的分母用的是q1和q2的并集,而不只是q1或者q2本身。

  • 因为cqr和ctr本质上只是分母的选择不同,所以我写成一个函数,要把谁做分母,就把谁放q1的位置就行。

  • cqrctr的计算,其实就是把两者相乘,这个是比较简单的。

后记

真不要小看每一个方法,很多时候这些看起来没什么技术含量的方法,其实会有奇效,而且在现阶段,可能反而是经验的体现,从现在的新人来看,往往对前沿的知识有比较好的了解,然而在实际应用中,会出现很多问题,导致新方法并不那么适合。最近是又重新用起来了这个方案,发现还挺适合,所以记录下来,希望对大家有帮助吧。

ac31582183c5dff390580cd1009f803d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/974768.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

非华为机型如何体验HarmonyOS鸿蒙系统 刷写HarmonyOS鸿蒙GSI系统以及一些初步的bug修复

最近很多视频网站有非华为机型使用HarmonyOS鸿蒙系统的演示。其实大都是刷了HarmonyOS鸿蒙系统gsi系统。体验还可以。有些刷入后bug较多。那么这些机型是如何刷写gsi&#xff1f;可以参考我以往帖子 安卓玩机搞机-----没有第三方包 刷写第三方各种GSI系统 体验非官方系统_gsi刷…

CSS 学习指导

CSS&#xff08;Cascading Style Sheets&#xff09;是一种用于定义网页样式的标记语言。以下是一些基本的CSS知识&#xff0c;可以作为入门教程&#xff1a; CSS语法包括选择器、属性和值。选择器用于选择要样式化的元素&#xff0c;属性是要修改的属性&#xff08;例如&…

二元Logistic回归分析

二元Logistic回归分析 logistic回归多重线性回归分析&#xff0c;该分析方法是研究一个因变量&#xff08;服从正态分布&#xff09;与多个自变量的数量关系。 在医学研究中&#xff0c;常常需要研究的结局变量不是连续型变量&#xff0c;而是二分类变量或多分类变量&#…

山西电力市场日前价格预测【2023-09-06】

日前价格预测 预测明日&#xff08;2023-09-06&#xff09;山西电力市场全天平均日前电价为263.83元/MWh。其中&#xff0c;最高日前电价为335.16元/MWh&#xff0c;预计出现在06:45。最低日前电价为0.00元/MWh&#xff0c;预计出现在12:15-14:30。 价差方向预测 1&#xff1a;…

冠达管理:创业板跟A股有什么区别?

创业板与A股是我国股市中的两种重要股票商场&#xff0c;它们之间存在许多明显的不同之处。本文将从几个角度剖析创业板和A股的区别。 一、商场属性 创业板是我国证券商场中最年青的板块之一&#xff0c;成立于2009年。它是专门为私募企业、创新式企业提供融资途径的股票商场。…

互联网时代,亿发数字化管理平台如何赋能长沙中小企业管理升级?

随着市场需求的不断变化&#xff0c;中小企业需要具备灵活度&#xff0c;能够迅速调整业务战略和生产计划。企业信息化管理平台作为一种集成化的软件系统&#xff0c;专门设计用于满足中小企业的信息技术需求&#xff0c;以增强其管理效率。帮助中小企业更方便地管理其业务流程…

说一说微信小程序开发的好处

在移动互联网日益普及的今天&#xff0c;微信小程序作为一种创新的商业模式&#xff0c;已经在各行各业中得到了广泛应用。对于企业和开发者来说&#xff0c;微信小程序开发具有诸多优势。本文将详细介绍微信小程序开发的好处&#xff0c;并从实战角度来分析如何进行微信小程序…

skywalking springgateway 全链路

环境 spring-cloud-gateway 3.1.0 springGateway整合skywalking skywalking 默认是不整合springGateway的,需要手动拷贝skywalking optional-plugins下的 apm-spring-cloud-gateway-N.x-plugin-8.13.0.jar 和 apm-spring-webflux-5.x-plugin-8.13.0.jar 架包拷贝到plugins目…

centos7环境使用yum源安装docker

目录 1.检查内核相关信息 2.完善yum源 3.开始安装docker 4.docker使用前最后的准备 5.最后运行一下hello-world 1.检查内核相关信息 cat /etc/*release*&#xff1a;查看centos版本&#xff0c;docker支持centos7及以上版本。 uname -a&#xff1a;查看linux的指令集&…

lv3 嵌入式开发-6 linux shell脚本编程(概念、变量、语句)

1 Shell脚本概述 1.1Shell脚本概述 Shell脚本是利用 shell 的功能所写的一个程序。这个程序是使用纯文本文件&#xff0c;将一些 shell 的语法与命令&#xff08;含外部命令&#xff09;写在里面&#xff0c;搭配正则表达式、管道命令与数据流重定向等功能 1.2Shell脚本编写流…

大数据平台数据安全具体措施有哪些?有推荐的吗?

大数据平台是企业处理和分析数据的重要工具之一&#xff0c;也是企业数据存储的重要载体&#xff0c;因此保障大数据平台安全至关重要。那你知道大数据平台数据安全具体措施有哪些&#xff1f;有推荐的吗&#xff1f; 大数据平台数据安全具体措施有哪些&#xff1f; 1、数据…

LeetCode 138. Copy List with Random Pointer【链表,DFS,迭代,哈希表】中等

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

四维纵横与用友达成战略合作,携手打造企业数据智能新基座

近日&#xff0c;北京四维纵横数据技术有限公司&#xff08;四维纵横 YMatrix&#xff09;与用友网络科技股份有限公司&#xff08;用友&#xff09;&#xff0c;宣布达成产品战略合作协议。双方将共同致力于为企业提供一站式数据智能解决方案&#xff0c;加速企业应用的全方位…

linux sed 删除空行、替换文本

假设文件&#xff1a;sed.txt first second third fourfive①删除four、five之间的空行 ②替换first为hsj is smart cat sed.txt | sed /^$/d | sed s/first/hsj is smart/g

【Unity-Cinemachine相机】相机跟随之Transposer属性

相机跟随和瞄准行为 Transposer&#xff1a;虚拟相机将在某个固定的偏移或距离上跟随目标移动 上面的偏移量就是Follow Offset Binding Mode决定Follow Offset是目标本地坐标系下的身后十米还是世界坐标系下的身后十米 Lock To Target On Assign&#xff1a;锁定自己和目标本地…

论文浅尝 | 训练语言模型遵循人类反馈的指令

笔记整理&#xff1a;吴亦珂&#xff0c;东南大学硕士&#xff0c;研究方向为大语言模型、知识图谱 链接&#xff1a;https://arxiv.org/abs/2203.02155 1. 动机 大型语言模型&#xff08;large language model, LLM&#xff09;可以根据提示完成各种自然语言处理任务。然而&am…

【LeetCode-中等题】208. 实现 Trie (前缀树)

文章目录 题目方法一&#xff1a;利用数组构建26叉树方法二&#xff1a;利用哈希表构建26叉树 题目 方法一&#xff1a;利用数组构建26叉树 插入图示&#xff1a; 全搜索和前缀搜索&#xff1a; 注意&#xff1a;全局匹配匹配完直接返回插入时的标志位 而前缀匹配时&#xff…

Vagrant命令

文章目录 1.介绍2.下载3. 配置3.1 配置环境变量3.2 在xshell中连接使用 4. 相关命令4.1 Box相关4.2 初始化环境4.4 虚拟机相关 1.介绍 Vagrant 是一个虚拟机管理工具 2.下载 https://www.vagrantup.com/ 3. 配置 3.1 配置环境变量 测试安装是否成功 3.2 在xshell中连接使…

MybatisPlus插件功能详细介绍 自动分页 通用分页实体

本课程全面讲解了Mybatis框架的使用&#xff0c;从快速入门到原理分析再到实战应用。每一个知识点都有案例进行演示学习&#xff0c;最终通过学习你将全面掌握&#xff0c;从而使Mybatis的开发更加的高效&#xff0c;系统学习 通过项目的开发大家应该能发现&#xff0c;单表的C…

同是卫星,华为Mate 60 pro的天通卫星和北斗卫星有何区别?

作为一个海钓爱好者&#xff0c;在看到华为Mate 60 Pro带有卫星通话功能那一刻&#xff0c;我就知道&#xff0c;我的钱包要-7000了——因为卫星通话功能&#xff0c;对于我们这类有着小众爱好的人群来说&#xff0c;实在太需要了。 对比北斗卫星短消息&#xff0c;Mate 60 Pr…