使用Pandas计算两个系统客户名称的相似度

news2025/1/11 0:04:45

在这里插入图片描述


引言:

在日常业务处理中,我们经常会面临将不同系统中的数据进行匹配和比对的情况。特别是在涉及到客户管理的领域,我们需要确保两个系统中的客户记录是准确、一致和无重复的。

本文将介绍如何使用Python的Pandas库来处理这个问题。我们将以一个示例情景为例,假设我们有一个MR系统和一个客户系统,这两个系统都有一个客户ID和客户名称的列。我们的目标是根据客户ID匹配后,计算两列客户名称的相似度。

步骤1:导入必要的库

首先,我们需要导入必要的库。除了Pandas库,我们还将使用fuzzywuzzy库来计算字符串相似度。

import pandas as pd
from fuzzywuzzy import fuzz

步骤2:创建示例数据集

为了演示我们的方法,让我们创建一个简单的示例数据集。假设我们有一个包含MR系统客户信息的DataFrame,其中包括客户ID和客户姓名的列。同样地,我们还有一个包含客户系统客户信息的DataFrame,其中也包括客户ID和客户姓名的列。

mr_system = pd.DataFrame({
    '客户ID': ['1001', '1002', '1003', '1004', '1005'],
    '客户姓名': ['中国电信', '中石油股份有限公司', '中国工商银行', '阿里巴巴集团', '腾讯控股有限公司']
})

customer_system = pd.DataFrame({
    '客户ID': ['1001', '1002', '1003', '1004', '1005'],
    '客户姓名': ['中国电信通信集团', '中石化石油化工集团', '中国建设银行股份有限公司', '京东集团有限公司', '百度在线网络技术']
})

步骤3:数据匹配和相似度计算

现在,我们将根据客户ID将这两个数据集进行匹配,并计算两列客户名称的相似度。我们可以使用Pandas的merge()方法来合并两个数据集,并根据客户ID进行匹配。

matched_data = pd.merge(mr_system, customer_system, on='客户ID')

然后,我们可以使用fuzzywuzzy库的fuzz.ratio()方法来计算两列客户名称的相似度。该方法返回一个介于0到100之间的分数,表示两个字符串的相似程度。

matched_data['相似度'] = matched_data.apply(lambda row: fuzz.ratio(row['客户姓名_x'], row['客户姓名_y']), axis=1)

步骤4:结果展示

最后,我们可以打印出匹配后的数据和相似度结果。

print(matched_data[['客户ID', '客户姓名_x', '客户姓名_y', '相似度']])

结果示例:

	客户ID	客户姓名_x	客户姓名_y	相似度
0	1001	中国电信	中国电信通信集团	67
1	1002	中石油股份有限公司	中石化石油化工集团	33
2	1003	中国工商银行	中国建设银行股份有限公司	44
3	1004	阿里巴巴集团	京东集团有限公司	29
4	1005	腾讯控股有限公司	百度在线网络技术	0

步骤5:查询相似度大于40的客户

matched_data.loc[matched_data.相似度 > 40]

输出:

	客户ID	客户姓名_x	客户姓名_y	相似度
0	1001	中国电信	中国电信通信集团	67
2	1003	中国工商银行	中国建设银行股份有限公司	44

结论:

通过使用Pandas库和字符串相似度算法,我们可以方便地计算两个系统中客户名称的相似度。这有助于我们发现和处理重复或相似的客户记录,提高数据的准确性和

🚀💻 欢迎一起探索pandas的更多精彩博客!🌟
🔗1️⃣ Pandas特殊连接:模糊连接和有序变量表连接!
🔗2️⃣ pandas特征工程:线性变换
🔗3️⃣ Pandsa时间序列采样频率滑窗及重采样
🔗4️⃣ Pandas 日期处理:生成及去除工作日与节假日
🔗5️⃣ Python音频处理——pydub
🔗6️⃣Python使用XPath解析HTML:从入门到精通
🔗7️⃣Pandas:客户数据清洗

一起来学习吧!😄🎉 #编程 #CSDN #Python #Pandas #Astropy #Pydub 🎓💡🎯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/771615.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux: cannot read file data

报错: Could not load library libcudnn_cnn_infer.so.8. Error: /home/qc/miniconda3/envs/DNAqc/lib/python3.10/site-packages/torch/lib/libcudnn_cnn_infer.so.8: cannot read file data Please make sure libcudnn_cnn_infer.so.8 is in your library path! A…

淘宝商品详情数据接口(APP端,H5端),监控淘宝商品历史价格及价格走势,接口代码对接

淘宝商品详情数据接口APP端,H5端代码如下: 公共参数 名称类型必须描述交流中心18179014480keyString是调用key(必须以GET方式拼接在URL中)注册Key和secret接入secretString是调用密钥api_nameString是API接口名称(包括…

JMeter做http接口功能测试

1. 普通的以key-value传参的get请求 e.g. 获取用户信息 添加http请求;填写服务器域名或IP;方法选GET;填写路径;添加参数;运行并查看结果。 2. 以Json串传参的post请求 e.g. 获取用户余额 添加http请求;…

行业数据和报告到底应该如何去找?

信息时代,经常要对行业信息进行分析。这时首先就是要进行信息收集和筛选,如果我们懂得构建自己的工作工具和数据来源,效率会蹭蹭往上涨。 找行业报告、了解行业趋势,提高效率。 1. 国家权威 国家统计局:这个网站覆盖…

C++无锁编程——无锁队列(queue)

C无锁编程——无锁队列(queue) 贺志国 2023.7.11 上一篇博客给出了最简单的C数据结构——栈的几种无锁实现方法。队列的挑战与栈的有些不同,因为Push()和Pop()函数在队列中操作的不是同一个地方。因此同步的需求就不一样。需要保证对一端的修改是正确的&#xff0…

CRC校验原理全面解读

目录 1. 简介2. 原理2.1 CRC的发送与接收2.2 CRC校验码的生成2.3 CRC校验码的校验 3. 拓展问题3.1 模2除法为什么等同于异或运算?3.2 为什么除数的位数和被除数补充的位数相差为1?3.3 为什么CRC校验码不能纠正错误,只能检测错误? …

【数据结构】二叉树详解(2)

⭐️ 前言 ✨ 往期文章链接:二叉树的概念性质 上一篇我们讲了二叉树的结构定义,以及前序/中序/后序的递归遍历,还有一些二叉树的接口实现,本篇我们补充一个二叉树的接口 BinaryTreeDepth。✨上一篇文章链接:二叉树详…

第108天:免杀对抗-Python混淆算法反序列化打包生成器Py2exeNuitka

知识点 #知识点: 1、Python-对执行代码做文章 2、Python-对shellcode做文章 3、Python-对代码打包器做文章#章节点: 编译代码面-ShellCode-混淆 编译代码面-编辑执行器-编写 编译代码面-分离加载器-编写 程序文件面-特征码定位-修改 程序文件面-加壳花指…

SpringCloud学习路线(7)—— 统一网关Gateway

一、引言 (一)需求: 服务器中的微服务只允许内部人员调用或是内网人员进行调用,拒绝外网人员访问。 (二)如何实现需求? 网关 (三)网关的功能 身份认证和权限校验服务…

十八、Unity游戏引擎入门

1、下载 首先需要下载Unity Hub,下载网址:https://unity.com/cn。 然后在其中下载Unity编辑器并安装,可选择最新版本。 接着需要选择适合的开发环境,例如Android Studio或Xcode,以便进行手机游戏开发。在安装完Unity后,需要根据项目需求下载对应的模块和插件…

实训笔记7.19

实训笔记7.19 7.19一、座右铭二、Hadoop的HDFS分布式文件存储系统的相关原理性内容2.1 HDFS上传数据的流程2.2 HDFS下载数据的流程2.3 HDFS中NameNode和SecondaryNameNode工作机制(涉及到HDFS的元数据管理操作)2.4 HDFS中NameNode和DataNode的工作机制&a…

【C++】仿函数(less)

C中的仿函数 class Solution { public:struct cmp{bool operator()(const pair<string,int>&kv1,const pair<string,int>&kv2){if(kv1.second<kv2.second) return true;if(kv1.secondkv2.second&&kv1.first>kv2.first) return true;return …

JavaWeb01-Servlet-thymeleaf-mvd-dispatcher-controller

Servlet: servlet的基本作用 第一个servlet程序&#xff1a; //演示servlet的生命周期 public class Demo02Servlet extends HttpServlet {Overridepublic void init() throws ServletException {System.out.println("正在初始化。。。");}Overrideprotected void …

实例019 以图形按钮显示的界面

实例说明 菜单和工具栏虽然能方便用户操作程序的相应功能&#xff0c;但各有缺点。如果采用按钮式功能菜单&#xff0c;不但美观大方&#xff0c;而且操作灵活。当单击按钮时&#xff0c;用户区将显示相应的操作按钮组。下面介绍图形界面式菜单的设计方法。运行本例&#xff0…

【个人笔记】linux命令之cd

cd命令 cd&#xff08;英文全拼&#xff1a;change directory&#xff09;命令用于改变当前工作目录的命令&#xff0c;切换到指定的路径。 若目录名称省略&#xff0c;则变换至使用者的 home 目录 (也就是刚 login 时所在的目录)。 另外&#xff0c;~ 也表示为 home 目录 的…

恢复配置并减少网络停机时间

随着众多公司努力在商业世界中崭露头角&#xff0c;拥有可靠的 IT 基础架构比以往任何时候都更加重要。组织需要维护一个稳定的网络环境&#xff0c;避免不合时宜的网络中断以及网络连接中断、声誉受损、应用程序不可用和数据丢失。 Network Configuration Manager 提供了一种…

Debian 12上如何关闭nobody共享文件夹,一个能让INSCODE AI 创作助手不知所措的小问题

这个问题之前在Debian 10和11上都没有遇到过&#xff0c;换上Debian 12后Samba的设置就出现了状况&#xff0c;装上Samba后什么都没有设置就在局域网可以看到&#xff1a; 根据之前的经验在/etc/samba/smb.conf里查了很久也没有看出所以然来&#xff0c;后来又问了INSCODE AI…

ubuntu打开usb摄像头

文章目录 前言一、识别 usb 摄像头二、安装应用程序显示摄像头捕捉到的视频1、使用应用程序茄子&#xff08;cheese&#xff09;2、运行 cheese 捕捉视频 总结 前言 记录一下解决在 Linux 下打开 usb 摄像头界面黑屏的问题。 一、识别 usb 摄像头 1、保持在 ubuntu 界面&…

软件测试用例的八大步骤你都知道吗?

目录 第一步、UI体验测试 第二步、功能完整性测试 第三步、业务流程测试 第四步、容错机制测试 第五步、常规性测试 第六步、性能测试 第七步、交互体验测试 第八步、兼容性测试 总结&#xff1a; 第一步、UI体验测试 1.风格、样式、颜色是否协调 2. 界面布局是否整齐、…

【网站搭建】3 更换博客主题—butterfly

可以到官网选择想要更换的主题Themes | Hexo 我选用的是butterflyzhangzeli/hexo-theme-butterfly: A Hexo Theme: Butterfly (github.com) 在Hexo根目录打开终端执行拉去操作 下载配套文件 npm install hexo-renderer-pug hexo-renderer-stylus 打开_config.yml文件&#xf…