客户异常数据清洗详细教程——pandas

news2024/10/6 20:26:58

前言

在不同行业中,我们经常会遇到一个麻烦的问题:数据清洗。尤其是当我们需要处理客户编码异常数据时,这个问题变得尤为重要。想象一下,许多银行都是以客户为单位管理数据的,因此每个客户都有一个独特的编码。在处理这些数据时,我们常常会面临以下问题:

  1. 客户编码有一个为空,另一个不为空的情况。😕
  2. 客户编码存在多个不同的值。😮
  3. 客户编码为空。😔

针对这些令人头疼的问题,接下来我将详细介绍如何使用pandas清洗客户编码异常数据。🔍💻💡

创建一个新的数据集

首先我们要创建一个新的数据集,这个数据集的目的是用来对客户的编码进行清洗。

import pandas as pd
import numpy as np

data = {
    '主键': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'MDG编码': [np.nan, np.nan, 'A001', 'A002', np.nan, 'B001', 'B002', np.nan, 'C001', 'C002'],
    '客户名称': ['客户1', '客户1', '客户1', '客户2', '客户2', '客户3', '客户3', '客户4', '客户4', '客户4'],
    '证件号': ['111111', '111111', '111111', '222222', '222222', '333333', '333333', '444444', '444444', '444444'],
    '客户类型': ['类型1', '类型1', '类型1', '类型2', '类型2', '类型3', '类型3', '类型4', '类型4', '类型4']
}

yb = pd.DataFrame(data)
yb

输出
在这里插入图片描述

字符串空值转换

pandas识别空字符串为非空值,所以我们需要将编码为空的数据转换为pandas能识别的NaN。

yb.MDG编码.replace(to_replace=r'^\s*$', value=np.nan, regex=True, inplace=True)
cf = yb[(yb.duplicated(['客户名称'], keep=False))] #只获取有重复的客户,减少需要处理的数据量
cf

输出:同上

构造分组函数、不同异常数据进行分组

cf['count'] = np.nan
cf.sort_values(by=['客户名称','MDG编码'],inplace=True)
def abc(x):
    df = set(x[x.notnull()])
    if len(df)==1:
        if len(set(x))>1:
            return 2
        else:
            return 1
    elif len(df)>=2:
        return 3
cf['count'] = cf.groupby(['客户名称'])['MDG编码'].transform(abc)
cf

输出
在这里插入图片描述

这段代码的作用是在DataFrame(cf)中创建一个新的列count,然后根据'客户名称''MDG编码'对DataFrame进行排序。接下来,定义了一个函数abc(x)

该函数首先将非空值存储在一个集合df中。如果集合df中的元素个数为1,且字段x中的不同值个数多于1个,则返回2。如果集合df中的元素个数为1,且字段x中的不同值个数只有1个,则返回1。如果集合df中的元素个数大于等于2,则返回3。

最后,使用cf.groupby(['客户名称'])['MDG编码'].transform(abc)将函数abc应用到分组后的cf DataFrame的'MDG编码'列中,并将结果赋值给cf'count'列。

查询正确的客户编码

#查询mdg编码正确的数据
cf2 = cf[cf['count']==2]
cf1 = cf2.loc[cf2.MDG编码.notnull()]
cf1 = cf1.drop_duplicates('客户名称')  #mdg编码不为空,且mdg编码正确的数据
cf1

输出
在这里插入图片描述

获取需要修改的异常客户的id

将mdg编码为空的客户 与 正确MDG编码的客户进行匹配,获取需要修改的客户数据

cf3 = cf2[cf2.MDG编码.isnull()].merge(cf1[['客户名称','MDG编码']],how='left',on='客户名称')
cf3 = cf3[['主键','MDG编码_y','客户名称','证件号','客户类型','MDG编码_x']]
cf3  #MDG编码_y为正确编码,主键为需要修改的id

输出
在这里插入图片描述
上述情况是相同客户有一个正确编码和一个编码为空的情况,对于相同客户有两个及两个以上不同编码的情况,使用下述方法查询:

cf[cf['count']==3] #多个不相等mdg编码

输出
在这里插入图片描述

这类数据由于编码有多个不相同,需要根据业务进一步核实

总结

本文主要介绍了在 pandas中清洗客户编码异常数据的方法,使用这个方法我们可以快速的清洗客户编码异常数据。那么如果你想要对这个方法进行优化的话,我们还可以对数据进行清洗。比如说我们可以对原始数据进行一次排序,然后在排序后的数据中寻找是否存在空值、重复值和重复编码等问题。

🚀💻 欢迎一起探索pandas的更多精彩博客!🌟
🔗1️⃣ Pandas特殊连接:模糊连接和有序变量表连接!
🔗2️⃣ pandas特征工程:线性变换
🔗3️⃣ Pandsa时间序列采样频率滑窗及重采样
🔗4️⃣ Pandas 日期处理:生成及去除工作日与节假日
🔗5️⃣ Python音频处理——pydub
🔗6️⃣Python使用XPath解析HTML:从入门到精通
🔗7️⃣Python天文数据处理——Astropy

一起来学习吧!😄🎉 #编程 #CSDN #Python #Pandas #Astropy #Pydub 🎓💡🎯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/776373.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈医院综合电气管理与节能措施

摘要:随着我国经济建设的不断加快,我国能源消耗也越来越大,如何通过电气能源管理实现节能是各行各业都在研究的课题。医院作为我国重要的医疗服务机构,能源管理是医院管理中的重要组成部分。本文将针对医院电气能源管理与节能措施…

关于Qt For android第一次编译时出现的问题

搞了三四天,搞的快崩溃了,问题提示为 FAILURE: Build failed with an exception.* What went wrong: A problem occurred configuring root project android-build. > Could not resolve all artifacts for configuration :classpath.> Could not…

53从零开始学Java之Integer底层原理探究

作者:孙玉昌,昵称【一一哥】,另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在之前的两篇文章中,壹哥给大家介绍了Java中的包装类及其特点、用法,但是这些…

正则表达式——Java

1、简介 正则表达式(Regular Expression)又称正规表示法、常规表示法,在代码中常简写为 regex、regexp 或 RE,它是计算机科学的一个概念。 String 类里也提供了如下几个特殊的方法。 boolean matches(String regex)&#xff1a…

小研究 - 面向 Java 的高对抗内存型 Webshell 检测技术(四)

由于 Web 应用程序的复杂性和重要性, 导致其成为网络攻击的主要目标之一。攻击者在入侵一个网站后, 通常会植入一个 Webshell, 来持久化控制网站。但随着攻防双方的博弈, 各种检测技术、终端安全产品被广泛应用, 使得传统的以文件形式驻留的 Webshell 越来越容易被检测到, 内存…

视频做成GIF动图怎么做?分享超简单的制作方法

将视频制作GIF动图的好处在于它可以将原本较长的视频压缩成一个简短、易于分享的图像文件。这使得它们非常适合用于社交媒体、博客、电子邮件等场景,可以当做表情包来使用,尤其是看到一段搞笑的视频,想要把它做成GIF动图该怎么做呢&#xff1…

【System Verilog and UVM基础入门17】Using get_next_item()

从小父亲就教育我,做一个对社会有用的人! 关于握手协议的文章,网上有很多很多,这篇文章是最原滋原味的介绍,希望可以帮助到有缘人! uvm_driver #(REQ,RSP) The base class for drivers that initiate req…

CS 144 Lab One -- 流重组器

CS 144 Lab One -- 流重组器 实验结构如何调试StreamReassembler 实现 对应课程视频: 【计算机网络】 斯坦福大学CS144课程 Lab 1 对应的PDF: Lab Checkpoint 1: stitching substrings into a byte stream 实验结构 这幅图完整的说明了CS144 这门实验的结构: 其中…

MySQL约束和数据类型

目录 约束条件 MySQL数据类型 1、数值类型 2、字符串类型 3、日期时间类型 源码等资料获取方法 约束条件 约束条件就是在给字段加一些约束,使该字段存储的值更加符合我们的预期。 常用约束条件如下: UNSIGNED :无符号,值…

【数据结构与算法】哈夫曼编码(最优二叉树)实现

哈夫曼编码 等长编码:占的位置一样 变长编码(不等长编码):经常使用的编码比较短,不常用的比较短 最优:总长度最短 最优的要求:占用空间尽可能短,不占用多余空间,且不…

【MySQL】DML数据操纵语言(非常适合MySQL初学者学习)

🧑‍💻作者名称:DaenCode 🎤作者简介:啥技术都喜欢捣鼓捣鼓,喜欢分享技术、经验、生活。 😎人生感悟:尝尽人生百味,方知世间冷暖。 📖所属专栏:重…

清华大学携手蚂蚁集团,攻坚可信AI、安全通用大模型等关键技术

2023年4月7日,清华大学与蚂蚁集团签署合作协议,双方将在“下一代互联网应用安全技术”方向展开合作,聚焦智能风控、反欺诈等核心安全场景,携手攻坚可信AI、安全大模型等关键技术,并加速技术落地应用,以解决…

NodeJS内置模块 npm包管理工具 nvm版本管理工具 nrm镜像管理工具

Nodejs 下载 下载地址 node 是什么 node.js 是一个开源的,跨平台的 JavaScript 运行环境 运行 js 文件 node 文件.jsnodemon 监听文件变化 npm i nodemon -gnodemon 文件名全局变量 global globalThis node 中顶级对象为 global ,也可以使用 glo…

postgreSQL数据库的安装

文章目录 一、Linux 下安装 postgreSQL 数据库1.1、准备环境1.2、关闭防火墙跟SELinux1.2.1、关闭防火墙 firewalld1.2.2、关闭SELinux 1.3、挂载本地镜像1.4、软件包的下载postgreSQL 一、Linux 下安装 postgreSQL 数据库 1.1、准备环境 操作系统IP应用Red Hat 8192.168.192…

类加载的过程(简单介绍)

目录 一、类加载过程一览 加载: 验证: 准备: 解析: 初始化: 二:类加载器分类 启动类加载器(bootstrap class loader) 扩展类加载器(extensions class loader&…

Nginx外网访问内网如何实现

1、背景 项目要求:将甲方内网的项目能够对外访问,甲方提供一个中间过渡服务器,中间过渡服务器与外网互通,且中间服务器可以访问内网; 外网客户端->中间过渡服务器开放端口:80 中间过渡服务器->内网服…

Cadence Allegro PCB设计88问解析(三十一) 之 Allegro 中 打印(Plot)设置

一个学习信号完整性仿真的layout工程师 在PCB进行投板时,往往会打印一下装备层(Assembly),给贴片,用于核对器件的信息等。下面简单介绍Allegro中打印(Plot)设置。 1. 在Allegro的菜单下选择File命令,点击Plot Setup,会…

无线振弦采集仪应用于岩土工程安全监测的解决方案

无线振弦采集仪应用于岩土工程安全监测的解决方案 随着现代岩土工程的发展,工程规模越来越大,地质灾害频发,安全监测成为岩土工程的重要组成部分。传统的安全监测方法存在一些局限性,如无法实时监测,监测精度不高等问…

途乐证券-沪指震荡跌0.25%,半导体等板块走弱,地产等板块拉升

19日早盘,沪指窄幅震动下探,深成指、创业板指均走低;两市半日成交约4300亿元,北向资金净卖出超40亿元。 截至午间收盘,沪指跌0.25%报3189.81点,深成指跌0.51%,创业板指跌1%;两市合计…

《2023购物中心运营数字化白皮书》正式发布!|爱分析报告

在国家政策鼓励线下实体经济发展、鼓励消费的大背景下,购物中心的发展潜力巨大。但另一方面,随着行业进入存量时代,竞争愈发激烈,品牌扩张乏力,购物中心招商压力增大。以数字化手段加持的精细化运营,成为购…