常用字符串处理方法汇总--Pandas

news2024/11/17 5:52:21

字符串处理只能在Series上进行,不可以在DataFrame上操作,只能对字符串进行处理,不能对整数、日期进行处理

1. 元素统计

1.1 str.count()

1.1.1 函数功能

统计Series中每个元素中包含pat的次数

1.1.2 函数语法

Series.str.count(pat, flags=0)

1.1.3 函数参数

参数含义
pat表达式
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order)
print(order['订单编号'].str.count(pat='0'))

在这里插入图片描述

1.2 str.len()

1.2.1 函数功能

统计Series中每个元素的长度

1.2.2 函数语法

Series.str.len()
print(order['支付方式'].str.len())

在这里插入图片描述

2. 字符串内容判断

2.1 str.contains()

2.1.1 函数功能

检测Series或Index的每个元素中是否包含指定内容,返回结果为布尔值构成的Series或Index

2.1.2 函数语法

Series.str.contains(pat, case=True, flags=0, na=None, regex=True)

2.1.3 函数参数

参数含义
pat要查找的内容
case布尔值,是否区分大小写,默认True:区分
flags整数,默认值为0
na标量,可选参数,对缺失值进行填充
regex布尔值,默认值为True:以正则表达式看待pat中的内容,否则以普通字符串看待
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order)
print(order['所属行业'].str.contains('计算机'))

在这里插入图片描述

对缺失值以“unknown"填充

print(order['所属行业'].str.contains('计算机',na='unknown'))

在这里插入图片描述

2.2 str.endswith()

2.2.1 函数功能

检测Series中的每个元素或索引是否以指定内容结尾,返回值为布尔值组成的Series或者Index

2.2.2 函数语法

Series.str.endswith(pat, na=None)

2.2.3 函数参数

参数含义
pat查找内容,可以是字符串或者字符串组成的元组,不接收正则表达式
na缺失值返回内容,默认NaN
print(order['公司规模'].str.endswith('500人'))

在这里插入图片描述
包含空字符串时,认为空字符串中不包含指定内容,设置na=False

order.loc[4,'公司规模']=np.nan
print(order)
print(order['公司规模'].str.endswith('500人',na=False))

在这里插入图片描述

2.3 startswith()

2.3.1 函数功能

检测Series中的每个元素或索引是否以指定内容开始,返回值为布尔值组成的Series或者Index

2.3.2 函数语法

Series.str.startswith(pat, na=None)

2.3.3 函数参数

参数含义
pat查找内容,可以是字符串或者字符串组成的元组,不接收正则表达式
na缺失值返回内容,默认NaN

2.4 str.match()

2.3.1 函数功能

检测Series中的每个元素或索引是否以指定内容开始,返回值为布尔值组成的Series或者Index

2.3.2 函数语法

Series.str.match(pat, na=None)

2.3.3 函数参数

参数含义
pat要查找的内容,格式为正则表达式
case布尔值,是否区分大小写,默认True:区分
flags整数,默认值为0
na标量,可选参数,对缺失值进行填充

str.startwith()与str.match()都可以检测Serie或者Series的Index是否以指定内容开始,凡是str.match()支持正则表达式,适用范围更广。

3.字符串替换

3.1 str.replace()

3.1.1 函数功能

替换指定内容

3.1.2 函数语法

Series.str.replace(pat, repl, n=- 1, case=None, flags=0, regex=False)

3.1.3 函数参数

参数含义
pat要查找的内容,字符串或正则表达式
repl要被替换掉的字符串或可迭代对象
n整数,进行替换操作的数量,默认为-1:替换所有
case布尔值,是否区分大小写,默认True:区分
flags整数,默认值为0
regex布尔值,传入的pat是否是正则表达式,默认取值为False:不是正则表达式
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order.head())
print(order['获取日期'].str.replace('-', ''))
# 将\d+视为正则表达式而不是普通字符
print(order['职位id'].astype(str).str.replace('\d+', '职位', regex='True'))

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 字符串拼接

4.1 str.join()

4.1.1 函数功能

将Series或Index中的每个元素通过指定符号连接起来,当元素中有非字符串对象时,最终结果将为NaN

4.1.2 函数语法

Series.str.join(sep)[source]

4.1.3 函数参数

参数含义
sep连接符号
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')

print(order.head())
print(order['学历要求'].str.join('*'))

在这里插入图片描述

4.2 str.cat()

4.2.1 函数功能

用指定的分隔符连接Series或者Index中的元素。当指定others,将Series或者Index与others中的元素连接;否则将Series或者Index中的元素连接为一个字符串。

4.2.2 函数语法

Series.str.cat(others=None, sep=None, na_rep=None, join='left')

4.2.3 函数参数

参数含义
others取值为Series、Index、DataFrane、np.array或者list-like
sep字符串,默认为:‘’:空字符串
na_rep字符串或者None,默认为None,对缺失值的处理:当na_rep为None且当others没有时,连接结果将会忽略缺失值;如果na_rep为None,但是others有值,结果中将保留缺失值
join决定Series或Index与others之间的连接方式,默认为left:左连接

others为None,将Series中的元素连接为一个字符串

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')

print(order.head())
print(order['学历要求'].str.cat(sep='*'))

在这里插入图片描述
others存在,将Series与others中的值对应连接

print(order['学历要求'].str.cat(others=order['公司规模'], sep='*'))

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/730478.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

美日韩限制光刻机供应,中国正式亮剑,外媒:轮到美芯被卡脖子了

这几年美国频频对中国芯片采取措施,今年以来美国更是变本加厉,联合荷兰和日本限制对中国出售光刻机等芯片设备,试图将中国的芯片工艺限制在45纳米以上,近日我国商务部联合海关等部门宣布对镓、锗等稀有金属实施出口限制&#xff0…

Python实现某只股票的MACD、KDJ指标的单双金叉点判定

金叉理论介绍 在股票K线图中,短期的收盘价均线向上穿越长期均线即为金叉,但如果长期均线向下或变缓,同时短期均线向上穿越就不能称之为金叉。 对于MACD指标,若差离值线由下向上突破移动平均线,即DIF值前一天小于DEA值…

MySQL库表操作的作业

1.创建数据库 create database Market; mysql> show databases; -------------------- | Database | -------------------- | information_schema | | Market | | db1 | | mysql | | performance_schema | | …

消息队列 - RocketMQ

1. 名词解释和概念 NameServer: 是一个无状态节点,可集群部署,节点之间无任何信息同步用于服务注册和发现,为 MQ 集群提供服务协调与治理记录并维护 Topic 和 Broker 的信息为生产者和消费者提供 Topic 的路由信息 无状态和有状…

On the Properties of Neural Machine Translation: Encoder–DecoderApproaches

摘要 Neural machine translation : 神经机器翻译。 神经机器翻译模型经常包含编码器和解码器:an encoder and a decoder. 编码器: 从一个变长输入序列中提取固定长度的表示。a fixed-length representation. 解码器:从表示中…

抖音SEO矩阵系统源码开发部署(二)技术搭建+二次开发

抖音SEO矩阵系统源码开发 是一项技术密集型工作,需要对大数据处理、人工智能等领域有深入了解。该系统开发过程中需要用到多种编程语言,如Java、Python等。同时,需要使用一些框架和技术,如Hadoop、Spark、PyTorch等,以…

第五章 运输层【计算机网络】

第五章 运输层【计算机网络】 前言推荐第五章 运输层5.1运输层协议概述5.1.1 进程之间的通信5.1.2运输层的两个主要协议5.1.3运输层的端口 5.2用户数据报协议UDP5.2.1UDP概述5.2.2UDP的首部格式 5.3传输控制协议TCP概述5.3.1TCP最主要的特点5.3.2TCP的连接 5.4可靠传输的工作原…

手写操作系统--进入保护模式的开篇

之前我们讲的主引导扇区以及内核加载器等内容。都是在实模式下运行的。在实模式下寻址范围仅有1M,是远远不够我们用的。我们想要更大的内存空间,就得进入保护模式,实模式是一个历史遗留问题,本身是没有这个名字的。是因为有了保护…

【算法集训之线性表篇】Day 01

文章目录 题目知识点补充思路分析代码实现运行结果 题目 01.从顺序表中删除具有最小值元素(假设唯一)并返回被删元素的值。空出位置由最后一个元素填补,若顺序表为空,则显示出错信息并退出运行。 知识点补充 顺序表的特点是逻辑…

CRM系统中AI如何进行销售线索评分?有什么好处(上)

每个公司的TOP销售都是精明的猎手。他们善于从大量潜在客户中挑出最可能购买的,把最好的时间、精力和资源给到高意向客户。意向度差一些的排在后面,在资源分配上也会降低。现在,您可以通过AI来进行线索评分,可以说CRM销售线索评分…

SIP 协议的主要流程

目录 SIP 协议的呼叫模型图 基本呼叫建立流程 基本呼叫拆除流程 经过代理的呼叫建立流程 经过代理的呼叫拆除流程 SIP 协议在软交换 SoftX3000(华为推出的一个支持sip协议的交换机设备) 流程图 SIP 协议的呼叫模型图 MGC 负责将 PSTN 前向信令映射…

ETHERNET/IP转MODBUS-TCP协议网关

远创智控YC-EIP-TCP 是自主研发的一款 ETHERNET/IP 从站功能的通讯网关。该产品主要功能是将各种 MODBUS-TCP 设备接入到 ETHERNET/IP 网络中。 本网关连接到 ETHERNET/IP 总线中做为从站使用,连接到 MODBUS-TCP 总线中做为主站(客户端)或从站…

淘上拼/拼上拼/抖上拼分别是什么意思(操作玩法是怎样的及数据采集代码举例)

拼多多店群玩法最常见的就是淘上拼、拼上拼、抖上拼这三种,但是很多的商家都不了解这三种玩法是什么意思,更别提操作了,本期小编就来为你们详细介绍一下。 淘上拼: 传统玩法:通过蓝海词,采集类目爆款商品数…

若依前端,菜单栏切换时刷新问题[页面菜单切换时,页面总是重新刷新,导致页面输入的查询参数重载清空]...

前端页面菜单切换时,页面总是重新刷新,导致页面输入的查询参数重载清空 这样切换时,页面就刷新了,解决方法在这里 1,页面代码,这里指定name name: "Item", 注意 name的首字母必须大写 2&#xff…

密盾科技即将推出同态加密隐私计算开源平台Pinsehub!

密盾科技预计将于8月底正式推出同态加密隐私计算平台Pinsehub-Platform。Pinsehub隐私计算平台将涵盖匿踪查询、隐私求交、联合建模、联合统计、算法容器管理、数据资源管理、数据确权与定价(开发中)、异构平台互联互通(开发中)等…

Spring中@Autowired和@Resource的区别:

文章目录 一、Autowired二、Resource三、Autowired和Resource的区别: 一、Autowired Autowired 这个注解呢,是由 Spring 提供的,它可以用来对构造方法、成员变量以及方法参数上进行标注,能够根据对象类型完成自动注入。 public …

Podman下载安装说明以及通过下载mysql镜像

Podman下载地址 Releases containers/podman GitHub csdn下载地址:https://download.csdn.net/download/u010479989/88010018 下载exe会自动添加到环境变量中,下载zip需要手动设置环境变量 初始化命令 podman machine init 这个时候会提示安装wsl&…

[工业互联-15]:Linux操作与实时Linux操作系统RT Linux( PREEMPT-RT、Xenomai)

目录 第1章 Linux操作系统 1.1 什么是Linux操作系统 1.2 Linux操作系统架构 1.3 常见Linux操作系统发行版本 第2章 实时Linux操作系统 2.1 实时性要求 2.2 实时性实现技术的基本思想 2.2 常见发行版方案 2.3 Xenomai和PREEMPT-RT比较 第3章 PREEMPT-RT 3.1 概述 3…

java调用python脚本,json传参方式。

使用python的json.loads()进行解析json数据,如果没有包含双引号,则会解析出错 解决方案1 使用demjson.decode(),安装方式直接百度,就不做过多的说明了 解决方案2 使用json.loads()方式解析,…

Jetpack Compose与Accompanist:改变Android UI开发的方式

在Android开发中,UI开发一直是一个重要的部分。Google推出的Jetpack Compose库为开发者提供了一种全新的声明式UI工具,使得UI开发变得更加简单和直观。而Accompanist库则为Jetpack Compose提供了一系列有用的扩展,进一步提升了开发效率。 Jet…