Python字符串模糊匹配工具:TheFuzz 库详解

news2024/12/23 18:42:10

更多资料获取

📚 个人网站:ipengtao.com


在处理文本数据时,常常需要进行模糊字符串匹配来找到相似的字符串。Python的 TheFuzz 库提供了强大的方法用于解决这类问题。本文将深入介绍 TheFuzz 库,探讨其基本概念、常用方法和示例代码,帮助读者更全面地了解和应用模糊字符串匹配。

TheFuzz 库简介

TheFuzz 是一个提供多种字符串比较和模糊匹配算法的 Python 库。它提供了多种算法用于计算字符串相似度,如 Levenshtein 距离、Jaccard 系数、TF-IDF 等。这些方法能够帮助我们找到字符串之间的相似度,而不仅仅是精确匹配。

基本方法介绍

a. 计算字符串相似度

from fuzzywuzzy import fuzz

string1 = "Python is great"
string2 = "Python is awesome"
similarity_ratio = fuzz.ratio(string1, string2)
print(f"相似度:{similarity_ratio}%")

b. 查找最相似的字符串

choices = ["Python is amazing", "Python is incredible", "Java is cool", "C++ is fast"]
target = "Python is astonishing"
best_match, score = fuzz.process.extractOne(target, choices)
print(f"最相似的字符串:{best_match}, 相似度:{score}")

应用场景

  • 数据清洗与规范化:用于处理非精确匹配的数据,例如清理和规范化数据库中的文本字段。

数据清洗和规范化是 TheFuzz 库的一个重要应用场景。当处理大量文本数据时,往往会遇到非精确匹配的情况,这时 TheFuzz 可以发挥作用。例如,在清理和规范化数据库中的文本字段时,经常会出现不一致的数据,比如拼写错误、格式不统一或者词汇表达不同的情况。这就需要一种方法来处理这些非精确匹配的文本数据,使它们变得一致和规范。

举个例子,假设有一个数据库中存储着顾客姓名信息。由于输入错误、缩写、大小写问题或者简称等原因,同一个姓名可能以多种不同的形式出现。通过 TheFuzz 库,可以找到这些相似的姓名,并将它们规范化为统一的形式。

from fuzzywuzzy import fuzz

# 示例数据:包含非精确匹配的姓名
customer_names = ["John Doe", "Jon D.", "Jane Smith", "j. smith", "J. Doe", "Alice Johnson"]

# 对顾客姓名进行清洗与规范化
unique_names = set()  # 存储规范化后的唯一姓名

for name in customer_names:
    # 使用 TheFuzz 库找到最相似的姓名并规范化
    most_similar_name = max(unique_names, key=lambda x: fuzz.ratio(x, name), default=None)

    # 若找到最相似的姓名并且相似度高于阈值,则认定为同一个姓名
    if most_similar_name and fuzz.ratio(most_similar_name, name) > 80:
        unique_names.remove(most_similar_name)
        unique_names.add(name)
    else:
        unique_names.add(name)

print(unique_names)

在上述示例中,通过比较相似度来判断姓名是否相同,并将它们规范化为唯一的形式。这有助于清理和规范化数据库中的文本字段,使得数据更加一致和易于管理。

  • 搜索引擎和推荐系统:在搜索引擎中,提供模糊匹配功能;或在推荐系统中找到相似内容。

搜索引擎和推荐系统是 TheFuzz 库另一个重要的应用领域。在搜索引擎中,模糊匹配功能能够帮助用户找到即使输入存在轻微误差或不完整,但仍与搜索项高度相关的内容。而在推荐系统中,它有助于找到与用户过去喜欢的内容相似的其他内容。

举个例子,如果一个用户搜索“Python Tutorils”(拼写错误的 “Tutorials”),搜索引擎可以使用 TheFuzz 库来寻找与正确拼写最相似的结果。

from fuzzywuzzy import process

# 假设这是搜索引擎的内容列表
content_list = [
    "Python Tutorials for Beginners",
    "Intermediate Python Topics",
    "Advanced Python Programming"
]

# 用户输入的搜索项
user_query = "Python Tutorils"

# 使用 TheFuzz 库找到与用户查询最相似的内容
best_match = process.extractOne(user_query, content_list)
print(best_match)

在推荐系统中,TheFuzz 库可以帮助找到与用户已喜欢内容相似的其他内容,提供更加个性化的推荐。

from fuzzywuzzy import process

# 假设用户喜欢的内容
user_likes = "The Lord of the Rings"

# 假设这是推荐系统的内容列表
content_list = [
    "The Lord of the Flies",
    "The Hobbit",
    "Game of Thrones",
    "Harry Potter"
]

# 使用 TheFuzz 库找到与用户喜欢内容相似的其他内容
similar_content = process.extract(user_likes, content_list)
print(similar_content)

上述示例展示了 TheFuzz 库在推荐系统中的应用,它可以帮助推荐系统找到与用户已喜欢内容相似的其他内容,从而提供更加个性化的推荐体验。

  • 自然语言处理:用于比较文本中相似度较高的短语、句子或段落。

在自然语言处理领域,TheFuzz 库可以应用于比较文本中相似度较高的短语、句子或段落。这种比较在文本数据分析、信息提取和相似文本检测中具有重要意义。

TheFuzz 库可以帮助找到两个短语之间的相似度,甚至在它们之间存在拼写错误或格式不一致的情况下也能有效工作。

from fuzzywuzzy import fuzz

# 示例短语
phrase1 = "Natural Language Processing is interesting"
phrase2 = "Naturall Langauge Process is interestng"

# 比较两个短语的相似度
similarity_ratio = fuzz.ratio(phrase1, phrase2)
print(f"短语相似度:{similarity_ratio}%")

另一个常见任务是比较整个句子或段落之间的相似性。这在文本相似性比较、抄袭检测等领域有广泛的应用。

from fuzzywuzzy import fuzz

# 示例句子
sentence1 = "The cat is on the mat."
sentence2 = "A cat sits on the mat."

# 比较两个句子的相似度
similarity_ratio = fuzz.ratio(sentence1, sentence2)
print(f"句子相似度:{similarity_ratio}%")

TheFuzz 库提供了多种方法来比较文本之间的相似度,能够应对文本中存在的拼写错误、格式差异以及词汇表达不同的情况,帮助分析和处理自然语言文本数据。

高级功能

TheFuzz库还支持其他高级功能,例如部分字符串匹配和列表排序。

TheFuzz 库中的 partial_ratio 方法可以用于比较两个字符串的部分相似度。这在处理较长字符串时尤其有用,因为有时我们只需要比较字符串的部分内容。

from fuzzywuzzy import fuzz

string1 = "apple pie with ice cream"
string2 = "I like apple pie"
partial_similarity = fuzz.partial_ratio(string1, string2)
print(f"部分字符串相似度:{partial_similarity}%")

partial_ratio 方法将比较两个字符串的部分内容,找出它们之间的相似度。这在搜索引擎和信息提取任务中特别有用,因为不需要完全匹配,只需一部分内容相似就可以。

TheFuzz 库中的 process.extract 方法用于在列表中找到与目标字符串最相似的字符串,并按相似度降序排列返回结果。

from fuzzywuzzy import process

choices = ["apple", "ape", "apples", "mango", "banana"]
target = "app"

sorted_matches = process.extract(target, choices)
print(sorted_matches)

process.extract 方法将返回一个排序后的列表,列表中的每个元素是目标字符串与列表中字符串的相似度,按相似度高低排序。

注意事项

在使用 TheFuzz 库时,需要根据具体场景选择适合的比较算法。

TheFuzz 库提供了多种比较算法,每种算法适用于不同的比较场景。比如:

  • fuzz.ratio 用于比较整个字符串的相似度。
  • fuzz.partial_ratio 用于部分字符串的相似度比较。
  • fuzz.token_sort_ratio 用于对单词进行排序后的相似度比较。

正确选择适合场景的算法可以提高匹配的准确性。例如,在处理整个字符串时,fuzz.ratio可能更合适;而处理长文本或部分相似内容时,fuzz.partial_ratio 可能更加实用。

大数据量下的模糊匹配可能会耗费较多资源,需要考虑性能和效率问题。

在处理大量数据时,模糊匹配可能导致性能问题。因为计算字符串相似度是一项计算密集型任务,需要耗费大量的计算资源。特别是在对每个数据点进行匹配时,会造成额外的负担。

为了解决大数据量下的性能问题,可以考虑以下措施:

  • 预处理数据:在进行模糊匹配之前,对数据进行预处理和清洗,以减少不必要的比较量。
  • 设置相似度阈值:限制仅对高概率相似的数据进行匹配。
  • 选择合适的算法和参数:根据具体情况选择合适的算法和参数以优化匹配效率。

考虑性能和效率问题对于在大数据量下使用 TheFuzz 库非常重要。正确的优化方法可以提高程序效率,减少计算资源的使用,同时获得准确的匹配结果。

总结

TheFuzz库为Python开发者提供了一种强大的工具,用于模糊字符串匹配和相似度计算。通过选择合适的算法和方法,可以在各种场景下应用模糊字符串匹配。希望这些示例和信息能够帮助您更好地了解和使用TheFuzz库。


Python学习路线

在这里插入图片描述

更多资料获取

📚 个人网站:ipengtao.com

如果还想要领取更多更丰富的资料,可以点击文章下方名片,回复【优质资料】,即可获取 全方位学习资料包。

在这里插入图片描述
点击文章下方链接卡片,回复【优质资料】,可直接领取资料大礼包。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1284240.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ES6 import

这里 import 的文件是项目内自己 export 的对象,并非 package.json 里引用的包。 后者的打包策略和配置有关。 原理:彻底理解JavaScript ES6中的import和export - 知乎

Db2的Activity event monitor在Db2 MPP V2上收集ROWS_INSERTED信息

注:本文不是讲解Db2 Activity event monitor,只是一个用法实践。要了解Activity event monitor,请参考 https://www.ibm.com/docs/en/db2/11.5?topicevents-activity-event-monitoring 。 环境 Red Hat Enterprise Linux release 8.8 (Oot…

手把手教你搭建个人地图服务器(高德离线部署解决方案):获取地图瓦片数据、高德JS API、私有化部署和调用。。。

一、概述 众所周知,目前常见的地图(高德、百度、腾讯等)只提供在线API服务,对于一些内网应用而言,如果需要使用地图展示,则由于不能访问互联网而无法使用类似的第三方地图服务。 本文,通过将高…

【web安全】RCE漏洞原理

前言 菜某的笔记总结,如有错误请指正。 RCE漏洞介绍 简而言之,就是代码中使用了可以把字符串当做代码执行的函数,但是又没有对用户的输入内容做到充分的过滤,导致可以被远程执行一些命令。 RCE漏洞的分类 RCE漏洞分为代码执行…

【C语言】递归详解

目录 1.前言2. 递归的定义3. 递归的限制条件4. 递归举例4.1 求n的阶乘4.1.1 分析和代码实现4.1.2 画图演示 4.2 顺序打印一个整数的每一位4.2.1 分析和代码实现4.2.2 画图推演 4.3 求第n个斐波那契数 5. 递归与迭代5.1 迭代求第n个斐波那契数 1.前言 这次博客内容是与递归有关&…

日期类 - Java

知道怎么查,怎么用即可,不用每个方法都背 日期类 第一代日期类方法演示 第二代日期类方法演示 第三代日期类前面两代日期类的不足分析第三代日期类常见方法方法演示 第一代日期类 Date类:精确到毫秒,代表特定的瞬间SimpleDateFor…

51单片机开发——day01

1、软件安装: 2、单片机(Micro Controller Unit)MCU: 内部集成了cpu,RAM,ROM,定时器,中断系统,通讯接口, 用于信息采集处理硬件设备控制; 8051内核所以带了这…

手把手教你做基于stm32的红外、语音、按键智能灯光控制(上)

目录: 1.系统实现目标2.硬件选型和软件准备2.1. 硬件选型2.2 软件准备 3. 硬件IO表4.各个模块的驱动函数4.1. 红外遥控模块4.2. 按键模块4.3. LED灯4.4. BH1750光照度传感器4.5. 红外检测模块 1.系统实现目标 本文所设计的基于单片机的灯光控制系统主要由模式选择功…

【C++】树型结构关联式容器:map/multimap/set/multisetの使用指南(27)

前言 大家好吖,欢迎来到 YY 滴C系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! 目录 一.键值对二.关联式容器&序列…

国产API调试插件:Apipost-Helper

前言 Idea 是一款功能强大的集成开发环境(IDE),它可以帮助开发人员更加高效地编写、调试和部署软件应用程序,Idea 还具有许多插件和扩展,可以根据开发人员的需要进行定制和扩展,从而提高开发效率,今天我们就来介绍一款…

uniapp-距离distance数字太长,截取保留前3为数字

1.需求 将接口返回的距离的字段&#xff0c;保留三位数显示。 2.实现效果 3.代码&#xff1a; 1.这是接口返回的数据&#xff1a; 2.调取接口&#xff0c;赋值前先处理每条数据的distance <view class"left">距你{{item.distance}}km</view>listFun() …

C语言面试之旅:掌握基础,探索深度(面试实战之ARM架构一)

从前不会回头&#xff0c;往后不会将就。 ----小新 一.ARM采用32位架构 ARM约定一个Byte是8 bits&#xff0c;一个Halfword是16 bits (2 byte)&#xff0c;一个Word是32 bits (4 byte)。大部分ARM core …

回溯法及例题(C++实现)

回溯法概念 概念&#xff1a;在包含问题所有解的解空间树中&#xff0c;按照深度优先搜索的策略&#xff0c;根据根结点&#xff08;开始节点&#xff09;出发搜索解空间树。 流程&#xff1a;首先根结点成为活节点&#xff0c;同时也成为当前的扩展结点。在当前的扩展结点处…

蓝桥杯真题:四平方和-Java版

import java.io.*;/*先找后两个数for(int i 0; 2 * i * i < n;i)for(int j i; i * i j * j < n;j ) 再找前两个数 for(int i 0;4 * i * i < n; i )for(int j i;2 * (j * j i * i) < n;j )//这样就可以让后两个数尽量大,前两个数尽量小 这样就可以确定后…

Kubernetes学习笔记-Part.07 Harbor搭建

目录 Part.01 Kubernets与docker Part.02 Docker版本 Part.03 Kubernetes原理 Part.04 资源规划 Part.05 基础环境准备 Part.06 Docker安装 Part.07 Harbor搭建 Part.08 K8s环境安装 Part.09 K8s集群构建 Part.10 容器回退 第七章 Harbor搭建 Docker-Compose是用来管理容器的…

【React 开发】增强你的React 技能:2024年要掌握的4种高级模式

React由于其简单和灵活&#xff0c;近年来已成为最受欢迎的前端库之一。然而&#xff0c;当应用程序的复杂性扩展时&#xff0c;管理状态、处理异步输入和维护可扩展的体系结构可能会变得困难。我们将在本文中介绍四种高级React模式&#xff0c;它们将帮助您克服这些困难以及如…

Unity中C#使用协程控制Shader材质变化

文章目录 前言一、协程是什么二、在Unity中使用协程1、我们在 Start 中测试一下协程的执行顺序2、我们实现一个点击按钮实现角色受击效果 三、协程中的动画过渡1、首先&#xff0c;在协程内实现中毒并且消散的效果2、在 OnGUI 内&#xff0c;给一个新按钮使用刚刚定义的协程 四…

算法基础六

搜索插入位置 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返回其索引。如果目标值不存在于数组中&#xff0c;返回它将会被按顺序插入的位置。 示例 1: 输入: nums [1,3,5,6], target 5 输出: 2 示例 2: 输入: nums [1,3,5,6], target 2 输…

TCP 半连接队列和全连接队列

在 TCP 三次握手的时候&#xff0c;Linux 内核会维护两个队列&#xff0c;分别是&#xff1a; 半连接队列&#xff0c;也称 SYN 队列&#xff1b; 全连接队列&#xff0c;也称 accept 队列&#xff1b; 服务端收到客户端发起的 SYN 请求后&#xff0c;内核会把该连接存储到半连…

创新零售巨头:揭开山姆与Costco蓬勃发展背后的秘密

会员制商店这个冷门的业态突然之间硝烟弥漫&#xff0c;更多的资本开始涌向付费会员商店这一业态&#xff0c;本文即将探讨的是付费会员制的成功秘诀和零售企业可行的发展路径。Costco的发展经验对国内超市巨头的崛起具有显著的借鉴意义&#xff0c;以优质低价商品服务为中心&a…