自然语言处理14-基于文本向量和欧氏距离相似度的文本匹配,用于找到与查询语句最相似的文本

news2025/1/10 20:35:23

大家好,我是微学AI,今天给大家介绍一下自然语言处理14-基于文本向量和欧氏距离相似度的文本匹配,用于找到与查询语句最相似的文本。NLP中的文本匹配是指通过计算文本之间的相似度来找到与查询语句最相似的文本。其中一种常用的方法是基于文本向量和欧氏距离相似度。将待匹配的文本和查询语句都转换为向量表示。可以使用词袋模型、tf-idf等方法将文本转换为向量。词袋模型将文本表示为每个词汇在文本中的出现次数,tf-idf则考虑了词汇在整个语料库中的重要性。 计算文本向量之间的欧氏距离。欧氏距离是一种常用的衡量向量相似度的方法,它表示两个向量之间的几何距离。 选择与查询语句具有最小欧氏距离的文本作为匹配结果。距离越小,表示两个文本越相似。

项目背景

基于文本向量和欧氏距离相似度进行文本匹配。通过将文本表示为向量,可以计算两个文本之间的欧氏距离相似度来衡量它们的语义相似程度。这种相似度匹配方法可以应用于各种文本相关的任务,如信息检索、句子匹配、推荐系统等。

该项目解决了文本匹配中的一个痛点,即如何找到与查询语句最相似的文本。在大规模的文本数据中,快速准确地找到与用户输入查询语句相关的文本对于提供高效的信息检索和推荐非常重要。传统的基于关键词匹配的方法往往无法处理语义相似度,而基于文本向量和欧氏距离相似度的方法可以更好地捕捉文本之间的语义关系,提高匹配的准确性。

通过该项目,可以实现快速地搜索和匹配与查询语句最相关的文本,从而提供更准确的搜索结果和个性化推荐,大大提高用户体验。同时,该方法还可以应用于其他领域,如自然语言处理、文本挖掘等,有着广泛的应用前景。

数学原理

基于文本向量和欧式距离相似度的文本相似度匹配是通过计算文本之间的向量表示之间的欧式距离来确定它们的相似程度。下面是相关的数学原理:

  1. 文本向量表示:将文本转化为向量表示通常使用词袋模型(Bag-of-Words)或者词嵌入(Word Embedding)、TF-IDF技术。在词袋模型中,文本被表示为一个向量,其中每个维度对应于一个单词或特征。词嵌入则通过将每个单词映射到一个低维连续向量空间中的向量来表示文本。

  2. 欧式距离:欧式距离是用来衡量两个向量直接的距离。对于两个向量x和y,其欧式距离可以通过以下公式计算:

    d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x, y) = \sqrt{\sum_{i=1}^{n}(x_i - y_i)^2} d(x,y)=i=1n(xiyi)2

    其中, n n n是向量的维度, x i x_i xi y i y_i yi 分别表示向量 x x x y y y 在第 i i i个维度上的取值。

  3. 相似度计算:根据欧式距离,我们可以计算文本之间的相似度得分。相似度计算方法通常是将欧式距离映射到一个相似度范围内,例如使用归一化公式:

    s i m i l a r i t y = 1 1 + d similarity = \frac{1}{1 + d} similarity=1+d1

    其中, d d d是欧式距离。

通过计算查询语句与其他文本之间的欧式距离,并根据相似度计算公式计算相似度得分,可以找到与查询语句最相似的文本。相似度得分越高,表示两个文本越相似。
在这里插入图片描述

实现步骤:

1.将样例数据存储在documents列表中,每个元素代表一个文本。

2.使用分词工具jieba对文本进行分词处理,生成分词后的文本列表documents_tokenized。

3.构建词汇表,使用TfidfVectorizer类来计算TF-IDF矩阵。TF-IDF是一种文本特征表示方法,它考虑了词频和逆文档频率,可以反映出词在文本中的重要程度。

4.将TF-IDF矩阵转换为DataFrame,其中行代表每个文本,列代表每个词汇。

5.定义查询语句并将其分词处理得到查询向量。

6.计算查询向量与库中各文本向量的余弦相似度,得到一个相似度矩阵。

7.找到相似度矩阵中相似度最高的文本索引,即为与查询语句最相似的文本。

8.最后,输出查询语句和最相似文本。

实现代码

现在用最清晰的代码实现文本相似度查找的功能:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import jieba

# 样例数据
documents = ['北京的天气挺好',
             '我要去北京玩',
             '我来自中国',
             "北京是比较好玩的地方",
             "北京有故宫这个景点",
             "这个假期去福州玩,感觉不错",
             '上海的天气很热',
             '我打算去上海旅游',
             '上海是一个现代化城市',
             '上海有很多高楼大厦',
             '上海的夜景非常美丽',
             '这个周末我要去上海参加活动',
             '广州的气温很高',
             '我喜欢广州的美食',
             '广州是一个繁华的城市',
            '广州有很多著名的旅游景点']

# 分词处理
tokenizer = lambda x: jieba.cut(x)

# 将文本进行分解
documents_tokenized = [" ".join(tokenizer(doc)) for doc in documents]

# 构建词汇表
vectorizer = TfidfVectorizer()
vectorizer.fit(documents_tokenized)
vocabulary = vectorizer.get_feature_names()

# 计算TF-IDF矩阵
tfidf_matrix = vectorizer.transform(documents_tokenized)

# 存储文本向量
df = pd.DataFrame(tfidf_matrix.toarray(), columns=vocabulary)



if __name__ == "__main__":

    # 查询相似度
    query = "你知道假期去福州,有什么景点推荐的"
    query_tokenized = " ".join(tokenizer(query))
    query_vector = vectorizer.transform([query_tokenized])

    # 计算查询向量与库中向量的相似度
    similarity_scores = cosine_similarity(query_vector, tfidf_matrix)

    print(similarity_scores)

    # 找到相似度最高的文本
    most_similar_index = similarity_scores.argmax()
    most_similar_text = documents[most_similar_index]

    print("查询语句:", query)
    print("最相似文本:", most_similar_text)

运行结果:

[[0.        0.        0.        0.        0.3319871 0.5341931]]
查询语句: 你知道假期去福州,有什么景点推荐的
最相似文本: 这个假期去福州玩,感觉不错

总结

本文介绍了一种基于文本向量和欧氏距离相似度的文本匹配方法,用于找到与查询语句最相似的文本。首先,通过将文本和查询语句转换为向量表示,使用词袋模型或tf-idf等方法进行向量化。然后,计算文本向量之间的欧氏距离,衡量它们之间的相似度。最后,选择具有最小欧氏距离的文本作为匹配结果。该方法强调了文本的语义信息,但忽略了上下文信息。在实际应用中,可以结合其他技术和算法以提高准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/786195.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MybatisPlus使用排序查询时,将null值放到最后

1用户需求 查询结果,按照某些字段进行排序,将为null的值放到最后。按照更新时间排序,但是更新时间可能为null,因此将null的数据放到最后。 2解决方案 最简单的方式,当然是下面这种直接在SQL最后面 NULLS LAST &…

FAPI,2471983-20-5,放射性示踪剂成纤维细胞激活蛋白抑制剂显像剂

资料编辑|陕西新研博美生物科技有限公司小编MISSwu​ 一、产品描述: 成纤维细胞激活蛋白抑制剂显像剂FAPI(CAS号:2471983-20-5),FAPI是一种放射性示踪剂,全称为成纤维细胞活化蛋白抑制剂。为小分子酶活性抑…

elasticsearch操作(API方式)

说明:es操作索引库、文档,除了使用它们自带的命令外(参考:http://t.csdn.cn/4zpmi),在IDEA中可以添加相关的依赖,使用对应的API来操作。 准备工作 搭建一个SpringBoot项目,DAO使用…

为什么 Linux 内核协议栈会丢弃 SYN 数据包

最近了解到 SYN 数据包丢弃的问题,网上有一些资料,这里记录分享一下。 serverfault上的重要信息 tcp - No SYN-ACK Packet from server - Server Fault 信息如下: My embedded system with LwIP is the client and I have server1 and ser…

微信小程序开发,小程序类目符合,线上版本无权限申请wx.getLocation接口

我开发 的小程序类目符合wx.getLocation接口的申请标准 但是却还是显示无权限申请 后来研究好久才发现,小程序需要在发布线上版本时提交用户隐私保护指引 如未设置也可以在 设置-服务内容声明-用户隐私保护指引-声明处理用户信息项并补充填写后提交用户隐私协议审核…

MURF20100CTR-ASEMI快恢复对管封装、尺寸、参数

编辑:ll MURF20100CTR-ASEMI快恢复对管封装、尺寸、参数 型号:MURF20100CTR 品牌:ASEMI 芯片个数:2 芯片尺寸:102MIL*2 封装:TO-220F 恢复时间:50ns 工作温度:-50C~150C 浪…

k8s集群环境的搭建

1.环境规划 1.1 集群类型 Kubernetes集群大致分为两类:一主多从和多主多从。 一主多从:一个Master节点和多台Node节点,搭建简单,但是有单机故障风险,适合用于测试环境。 多主多从:多台Master和多台Node节点…

CMU 15-445 -- Two Phase Locking - 14

CMU 15-445 -- Two Phase Locking - 14 引言Lock TypesTwo-Phase LockingDeadlock Detection & PreventionDeadlock DetectionDeadlock PreventionHierarchical Lockingintention locks加锁协议 锁升级最佳实践显式加锁的相关SQL语句小结 引言 本系列为 CMU 15-445 Fall 2…

剑指offer(C++)-JZ15:二进制中1的个数(算法-位运算)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 题目描述: 输入一个整数 n ,输出该数32位二进制表示中1的个数。其中负数用补码表示。 数据范围&#xf…

【运维】DevOps全流程笔记(未完成)

运维笔记 DevOps基本流程Code阶段工具(gitlab安装)Build阶段工具(Maven安装)Integrate阶段工具JenkinsJenkins介绍Jenkins安装Jenkins入门配置 CI/CD操作集成Sonar Qube集成HarborJenkins流水线Kubernetes编排工具 DevOps全流程笔…

OJ练习第144题——将数组和减半的最少操作次数

将数组和减半的最少操作次数 力扣链接:2208. 将数组和减半的最少操作次数 题目描述 给你一个正整数数组 nums 。每一次操作中,你可以从 nums 中选择 任意 一个数并将它减小到 恰好 一半。(注意,在后续操作中你可以对减半过的数…

基于YOLOv5的WiderFace人脸检测检测系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于YOLOv5的WiderFace人脸检测系统可用于日常生活中检测与定位人脸目标,利用深度学习算法可实现图片、视频、摄像头等方式的人脸目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检测模型训练数据集&…

ffplay播放器剖析(6)----音视频同步分析

文章目录 1. 音视频同步基础1.1 音视频同步策略1.2 音视频同步概念1.3 FFmpeg中的时间单位1.4 不同结构体的time_base/duration分析1.5 不同结构体的pts/dts分析1.6 ffplay中Frame结构体分析1.7 Vidoe Frame PTS获取及矫正1.8 Audio Frame PTS的获取 2.以音频为基准3.以视频为基…

了解Unity编辑器之组件篇Tilemap(五)

Tilemap:用于创建和编辑2D网格地图的工具。Tilemap的主要作用是简化2D游戏中地图的创建、编辑和渲染过程。以下是一些Tilemap的主要用途: 2D地图绘制:Tilemap提供了一个可视化的编辑器界面,可以快速绘制2D地图,例如迷…

jlink RTT调试 NRF52840

打开 J-Link RTT Viewer 搜索&#xff1a;**J-Link RTT Viewer ** 软件部分 代码部分 #include <stdbool.h> #include <stdint.h> #include "nrf_delay.h" #include "boards.h" //Log需要引用的头文件 #include "nrf_log.h"…

音频转换工具有很多,但是找到好用的还是得看这篇

在日常生活中&#xff0c;我们常常会遇到需要将音频文件转换成不同格式的情况。不过&#xff0c;有些音频转换软件可能需要安装繁琐的插件&#xff0c;这对于一些小伙伴来说可能不太方便。幸运的是&#xff0c;如今有许多免费的音频转换格式软件可供选择&#xff0c;让我们能够…

K3S 安装部署

一、方法1&#xff1a;利用官方源&#xff08;国外源&#xff09;直接一键安装 因 K3s 的核心组件镜像需从 gcr.io 拉取&#xff08;国内网络不通&#xff09;&#xff0c;所以需具备外网访问的环境&#xff0c;适用于服务器均在国外的环境选用&#xff0c;简单粗暴一键安装。…

mysql进阶1——proxysql中间件

文章目录 一、基本了解二、安装部署三、proxysql管理配置3.1 内置库3.1.1 main库表3.1.2 stats库表3.1.3 monitor库 3.2 常用管理变量3.2.1 添加管理用户3.2.2 添加普通用户3.2.3 修改监听套接字 四、多层配置系统4.1 系统结构4.2 修改变量加载配置4.3 启动加载流程 一、基本了…

聊一聊什么是JNDI数据源

大家好&#xff0c;我是G探险者。 我们平时开发项目&#xff0c;连接数据库那块&#xff0c;会采用连接池的方式连进行连接数据库&#xff0c;比如常见的durid,dbcp&#xff0c;c3p0等。那你有没有听过还有一个JNDI数据源呢&#xff0c;反正我以前是很少听说过。可能就是因为自…

梅尔频谱(Mel spectrum)简介及Python实现

梅尔频谱&#xff08;Mel spectrum&#xff09;简介及Python实现 1. 梅尔频谱&#xff08;Mel spectrum&#xff09;简介2. Python可视化测试3.频谱可视化3.1 Mel 频谱可视化3.2 STFT spectrum 参考文献资料 1. 梅尔频谱&#xff08;Mel spectrum&#xff09;简介 在信号处理上…