fuzzywuzzy,一个好用的 Python 库!

news2024/11/24 23:13:51

目录

前言

安装

基本功能

 1. 字符串相似度比较

 2. 模糊匹配与排序

实际应用场景

 1. 数据清洗

 2. 文本匹配与搜索

 3. 搜索引擎优化

总结


前言

大家好,今天为大家分享一个好用的 Python 库 - fuzzywuzzy

Github地址:https://github.com/seatgeek/fuzzywuzzy


Python的fuzzywuzzy库是一个强大的模糊字符串匹配工具,基于Levenshtein距离算法,可用于处理文本相似度匹配任务。本文将深入探讨fuzzywuzzy库的各种功能和用法,结合详细的描述和丰富的示例代码,带领大家全面了解这个工具的使用方法和实际应用场景。

安装

在开始使用fuzzywuzzy库之前,需要先安装它。

可以通过pip来进行安装:

pip install fuzzywuzzy

安装完成后,就可以开始使用了。

基本功能

fuzzywuzzy库提供了多种基本功能,包括字符串相似度比较、模糊匹配与排序等。

 1. 字符串相似度比较

fuzzywuzzy库中的fuzz.ratio函数可以计算两个字符串的相似度,返回一个介于0到100之间的数值,表示两个字符串的相似程度,数值越高表示相似度越高。例如:

from fuzzywuzzy import fuzz

# 计算两个字符串的相似度
similarity = fuzz.ratio("apple", "appel")
print(similarity)  # 输出结果为 91

在实际应用中,可以利用这个功能来进行文本匹配、查重等任务,尤其在处理数据时非常有用。

 2. 模糊匹配与排序

fuzzywuzzy库的process.extract函数可以对一个字符串在给定选择集合中进行模糊匹配,并返回匹配结果和相似度得分。例如:

from fuzzywuzzy import process

# 模糊匹配多个字符串
choices = ["apple", "banana", "orange", "grape"]
matches = process.extract("appl", choices, limit=2)
print(matches)  # 输出结果为 [("apple", 100), ("apple", 100)]

实际应用场景

fuzzywuzzy库在实际应用中有许多用途,包括数据清洗、文本匹配、搜索引擎优化等。

 1. 数据清洗

在处理大量文本数据时,常常会遇到数据中存在一些类似但不完全相同的字符串,这时可以利用fuzzywuzzy库进行数据清洗。例如,去除重复项或者将相似项合并成一项。

from fuzzywuzzy import process

# 去除重复项
data = ["apple", "aple", "banana", "bananna"]
cleaned_data = list(set(process.dedupe(data)))
print(cleaned_data)  # 输出结果为 ["apple", "banana"]

 2. 文本匹配与搜索

在搜索引擎或文本处理系统中,fuzzywuzzy库可以帮助进行模糊文本匹配和搜索,提高搜索结果的准确性和覆盖范围。

from fuzzywuzzy import process

# 模糊搜索
documents = ["apple juice", "banana smoothie", "orange juice", "grape juice"]
query = "apple"
results = process.extract(query, documents, limit=2)
print(results)  # 输出结果为 [("apple juice", 100), ("banana smoothie", 36)]

 3. 搜索引擎优化

在网站开发中,可以利用fuzzywuzzy库对用户输入的搜索关键词进行模糊匹配,提高搜索引擎的友好度和搜索结果的质量。

from fuzzywuzzy import process

# 用户搜索关键词
search_query = "appl"

# 匹配搜索关键词
choices = ["apple", "banana", "orange", "grape"]
matches = process.extract(search_query, choices, limit=2)
print(matches)  # 输出结果为 [("apple", 100), ("apple", 100)]

总结

Python的fuzzywuzzy库是一个功能强大、灵活多样的模糊字符串匹配工具。通过使用fuzzywuzzy库,开发者可以轻松地进行字符串相似度比较、模糊匹配与排序等操作,应用于数据清洗、文本匹配、搜索引擎优化等实际场景中。该库提供了简单易用的接口,能够有效提高开发效率和数据处理的准确性。总之,fuzzywuzzy库为处理文本数据和字符串匹配问题提供了一种便捷而有效的解决方案,是Python中不可或缺的重要工具之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1551409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nginx 不能访问的排查思路

场景: 在云主机上搭建了nginx服务,测试阶段nginx服务监听的81端口,但无法通过公网访问到nginx默认网页; Nginx安装路径:/www/nginx/ 尝试访问,发现81端口不通 允许访问81 允许81端口开放后,发现 于是查看n…

蓝鹏为何专注智能测量仪的加工定制?

在这个日新月异的科技时代,自动化工厂层出不穷,并且是在不断地升级改造,为了产品的高速高质高效的自动化生产,智能测量仪的重要性不言而喻。智能测量仪的种类很多,蓝鹏一直致力于专业仪器定制,但你有没有想…

python数据实时传给unity工程并绘制出来

python # 服务器端代码 import socket import random import struct import time# 创建一个服务器Socket server_socket socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 监听的地址和端口 host 127.0.0.1 port 12345# 绑定地址和端口 server_socket.bind((host, port…

UE4_官方动画内容示例1.2_动画蓝图——使用蓝图告知Actor播放动画

展示了两个示例:在其中一个示例中,使用蓝图告知Actor播放动画,在另外一个示例中,展示了告知Actor播放动画的动画蓝图(例如,此示例展示了如何将变量从蓝图传递给动画蓝图,并演示了如何将现有姿势…

如何使用Excel创建一个物品采购表

在企业的日常运营中,物品采购是一个常见且重要的活动。有效的采购管理不仅可以确保企业及时获得所需物资,还可以控制成本、提高效率。Microsoft Excel是一个功能强大的工具,它可以帮助我们创建和管理物品采购表。本文将详细介绍如何使用Excel…

IDEA2023版本整合SpringBoot热部署

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: 开发环境篇 ✨特色专栏: M…

【王道训练营】第3题 判断某个年份是不是闰年,如果是闰年,请输出“yes”,否则请输出“no”

文章目录 引言闰年初始代码代码改进改进1:添加提示信息改进2:代码格式改进3:变量命名 其他实现方式使用if-else语句使用函数使用三元操作符 结论 引言 在公历中,闰年的规则如下:如果某个年份能被4整除但不能被100整除…

Prometheus +Grafana +node_exporter可视化监控Linux虚机

1、介绍 待补充 2、架构图 待补充 Prometheus :主要是负责存储、抓取、聚合、查询方面。 node_exporter :主要是负责采集物理机、中间件的信息。 3、搭建过程 配置要求:1台主服务器 n台从服务器 (被监控的linux虚机&am…

洛谷_P3817 小A的糖果_python写法

P3817 小A的糖果 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 一开始有两个案例无法通过,然后看了一下测试案例发现其实是没有考虑到为0这个情况,因为如果为0那么无法吃掉任何一粒糖果,而按照之前的写法是到负数了,那后面的一个…

文献速递:基于SAM的医学图像分割---在医学图像中进行任何分割

Title 题目 Segment anything in medical images 在医学图像中进行任何分割 01 文献速递介绍 医学图像分割是临床实践中的关键组成部分,它促进了准确的诊断、治疗计划和疾病监测。 然而,现有的方法通常是针对特定的模态或疾病类型定制的&#xff0c…

穿越迷茫,寻找心中的灯塔

在人生的旅途中,我们有时会陷入一片迷茫的迷雾之中,不知道前方的路该如何走,每天似乎都在忙碌,却又感觉自己在假努力,仿佛一切都没有意义,没有目标。然而,正是这样的时刻,我们更需要…

16、OpenFeign和Sentinel集成实现fallback服务降级

注:本篇文章主要参考周阳老师讲解的cloud进行整理的! 1、需求说明 cloudalibaba-consumer-nacos-order83 通过OpenFeign调用 cloudalibaba-provider-payment9001 1、 83 通过OpenFeign调用 9001微服务,正常访问OK 2、 83 通过OpenFeign调用 …

zabbix监控vmware esxi

一、zabbix服务端配置 修改zabbix_server.conf配置文件 vim /etc/zabbix/zabbix_server.conf #######zabbix_server.conf底部第二行开始添加下面配置######## StartVMwareCollectors5 #StartVMwareCollectors - 预先启动Vmware collector收集器实例的数量。此值取决于要监控的…

阿里云CentOS7安装Hadoop3伪分布式

ECS准备 开通阿里云ECS 略 控制台设置密码 连接ECS 远程连接工具连接阿里云ECS实例,这里远程连接工具使用xshell 根据提示接受密钥 根据提示写用户名和密码 用户名:root 密码:在控制台设置的密码 修改主机名 将主机名从localhost改为需要…

react+vite+antD+reduce+echarts项目完整记录

reactviteantDreduceecharts项目完整记录 之前写前端项目,都是用的vue,从最开始的vue2到后来的vue3,断断续续写了3年,打包工具也从webpack转到了vite,全局数据管理工具从vuex转到了pinia。总体而言,vue3对…

msvcp100.dll是什么东西?电脑msvcp100.dll丢失的六种解决方法

最近,我在电脑上打开一款软件时,遇到了一个问题:找不到msvcp100.dll丢失问题,为了解决这个问题,我进行了深入的学习和研究,并在此分享msvcp100.dll丢失的解决方法。 一,msvcp100.dll是什么&…

机器学习:探索数据中的模式与智能

文章目录 导言介绍:机器学习的定义和重要性发展历程:从概念到现实应用 基础概念机器学习的基本原理监督学习、无监督学习和强化学习的区别与应用1.监督学习2.无监督学习3.强化学习 常见的机器学习任务和应用领域 结语 导言 当代科技领域中最为引人注目的…

HCIP的学习(6)

OSPF—开放式最短路径优先协议 动态路由的评判标准 1、占用资源 2、收敛速度 3、选路动态路由分类: IGP---内部网关协议DV型---距离矢量型---RIPLS型---链路状态型---OSPFEGP---外部网关协议OSPF---无类别的路由协议(携带真实掩码)组播224.0…

【C++初阶】之类和对象(下)

【C初阶】之类和对象(下) ✍ 再谈构造函数🏄 初始化列表的引入💘 初始化列表的语法💘 初始化列表初始化元素的顺序 🏄 explicit关键字 ✍ Static成员🏄 C语言中的静态变量🏄 C中的静…

Python入门练习 - 学生管理系统

Python 实现读书管理系统 """ 实现一个命令行版的读书管理系统 """ import os.path import sys# 使用这个全局变量,来管理所有的学生信息 # 这个列表的每个元素都是一个‘字典’,每 个 字典就分别表示了一个同学students …