python学习——文本数据处理

news2024/12/23 1:47:11

目录

  • 1 计算长度 len
  • 2 大小写 lower、upper、title、capitalize、swapcase
  • 3 字符检索 get、slice
  • 4 元素提取 findall、extract
  • 5 索引操作 find、index
  • 6 字符类型判断,结果一定是True或False
  • 7 字符判断 contains、startswith、endswith
  • 8 替换 replace
  • 9 字符的分割 split、partiton
  • 10 去除字符前后特殊字符 strip
  • 11 字符填充与对齐center、ljust、rjust、pad、zfill
  • 12 拼接 cat
  • 13 重复 repeat
  • 14 统计 count

pandas提供了一组字符串函数,这些函数忽略NaN值,可以将Series对象转换为String对象,然后使用字符串函数。除此之外panda还有一些功能强大的字符串方法。

1 计算长度 len

s1.str.len()  #字符串长度

在这里插入图片描述

2 大小写 lower、upper、title、capitalize、swapcase

 - .str.lower()  #小写
 - .str.upper()  #大写
 - .str.islower()  #判断是否小写
 - .str.isupper() #判断是否大写
 - .str.title()  #将每个单词的首字母大写,其他的小写
 - .str.capitalize() #将整个字符串的首字母大写,其他的小写
 - .str.swapcase()  #大小写互换

在这里插入图片描述
在这里插入图片描述

3 字符检索 get、slice

s1.str.get(0) #获取字符串中的单个元素,得到某个位置上到的元素值
s1.str.slice(0,2) #参数和参数之间是逗号分割,参数:起始位置,终止位置和步长

在这里插入图片描述

4 元素提取 findall、extract

  • .str.extract()
  • .str.findall()
s2.str.extract("([a-z])") #只能提取第一次出现

在这里插入图片描述

.str.findall("[\u4e00-\u9fa5]+") #提取中文

在这里插入图片描述

5 索引操作 find、index

.str.find() #返回对应的索引值,找不到返回-1,默认从左到右找首次出现的
.str.index(str, beg=0 end=len(string))#如果找到这个str,返回索引;如果没有找到则抛出一个异常
'''
str -- 此选项指定要搜索的字符串。
beg -- 这是开始索引,默认情况下是 0。
end -- 这是结束索引,默认情况下它等于该字符串的长度。
'''

在这里插入图片描述

在这里插入图片描述

6 字符类型判断,结果一定是True或False

  • .str.islower() #是否是小写 和 .str.isupper() #是否是大写
  • .str.isnumeric() #是否是数字、.str.isalnum() #是否是数字和字母的组合、.str.isdecimal() #是否是十进制数字、.str.isalpha() #是否是字母
  • .str.isspace() #是否是空格
  • .str.istitle() #判断字符串的的所有单词是否首字母(开头)是大写其他为小写。
    在这里插入图片描述

7 字符判断 contains、startswith、endswith

contains 包含 : 判断字符串中是否包含某个自字符
startswith :判断是否以子串开始
endswith : 判断是否以子串结束

在这里插入图片描述

8 替换 replace

.str.replace() #可以实现单个字符串的替换

在这里插入图片描述

9 字符的分割 split、partiton

.str.split() #结果的数据类型,每个单元格里的都是列表
.str.split(,expand=True) #结果的数据类型,每个单元格里的都是列表
s1.str.partition()  # 切割为三部分,分隔符前,分隔符,分隔符后

在这里插入图片描述
在这里插入图片描述

10 去除字符前后特殊字符 strip

.str.strip() #首尾字符交替去除

在这里插入图片描述

11 字符填充与对齐center、ljust、rjust、pad、zfill

  • .str.center()
  • .str.ljust() 和 .str.rjust()
  • .str.pad()
  • .str.zfill()
    在这里插入图片描述
    在这里插入图片描述

12 拼接 cat

.str.cat(sep = ' ')

在这里插入图片描述

13 重复 repeat

.str.repeat(repeats = 1) #repeats 设置重复次数

在这里插入图片描述

14 统计 count

.str.count() #计算给定字符出现的次数 

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/683302.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙HarmonyOS开发环境初识及搭建

一 鸿蒙简介 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。在传统的单设备系统能力基础上,HarmonyOS提出了基于同一套系统能力、适配多种终端形态的分布式理念,能够支持手机、平板、智能穿戴、智慧屏、车机等多种终端设备,提供…

A Sequence-to-Set Network for Nested Named Entity Recognition

原文链接: https://www.ijcai.org/proceedings/2021/0542.pdf IJCAI 2021 介绍 问题 将嵌套NER视为span分类任务存在两个缺陷,不仅搜索空间大还缺少了实体之间的交互。 IDEA 因此作者提出了sequence-to-set的模型,不再提前给定span&#x…

【数据分享】全国县市2000-2021年农业、工业数据(免费获取)

《中国县域统计年鉴》是一部全面反映我国县域社会经济发展状况的资料性年鉴,收录了上一年度全国2000多个县域单位的基本情况、综合经济、农业、工业、教育、卫生、社会保障等方面的资料。 之前基于《中国县域统计年鉴》我们分享了2000至2021年的综合经济数据&#…

详解eslint在vue中如何使用

ESLint在vue中的使用 阅读目录 .editorconfig文件(主要用于配置IDE).eslintignore文件(放置需要ESLint忽略的文件,只对.js文件有效).eslintrc.js 文件(用来配置ESLint的检查规则) ESLint的用途 1.审查代码是否符合编…

SwinTransformer与Vit细节总结

建议通过标题来快速跳转 Vit (Vision Transformer) Vit把图片打成了patch,然后过标准的TransformerEncoder,最后用CLS token来做分类 Vit的位置编码 作者在文中试了几种方式,发现这几种在分类上效果差不多 1-dimensional positional emb…

EMQ 明道云:零代码高效构建工业物联网设备管理平台

背景 智能物联网设备在 IIoT 场景中有着广泛的应用,但如何管理和监控这些设备是一个挑战。 明道云是一家专业的 hpaPaaS 平台服务商,其所开发的明道云平台(Mingdao Cloud)是一个企业软件设计和开发工具,让企业可以低…

[230608] 阅读TPO58汇总|7:30-9:00+17:05

目录 ​​​​​​​ TPO58 1 The Development of Instrumental Music [3]修辞目的题 举例说明的作用 [9]句子插入题 [10]小结题 2 Pinyon Pines and Pinyon Jays [4]否定事实信息题 [5]修辞目的题 段落在全篇的作用 [10]小结题 3 The Rise of Classic Maya Civi…

SecCertificate 解析

一、SecCertificate A digital certificate is a collection of data used to securely distribute the public half of a public/private key pair. 数字证书 1. 结构 2. 读取和存储 2.1 Identity var certificate: SecCertificate? let status SecIdentityCopyCertific…

12.分布式事务流程与事务消息源码分析

highlight: arduino-light Rocket事务流程&源码分析 Rocket解决分布式事务流程 事务消息分 2 个阶段: ① 正常事务消息的发送与提交: a.发送消息(half 消息) b.服务响应消息写入结果 c.根据发送结果执行本地事务(如果写入失败,此时half消…

Midjourney使用教程:三 图片风格提示

这里我根据现在的官方文档来继续我们的Midjourney的教程,看到这里如果你去实践的话,估计你已经有了好多张属于自己的图片。 这时候你不在满足简单的提示生成的Midjourney的默认风格图片,实际上你可以通过一些关键词做提示,来改变…

初始网络原理

目录 网络发展史 独立模式 网络互连 局域网LAN 广域网WAN 网络通信基础 IP地址 端口号 认识协议 五元组 协议分层 OSI七层模型 TCP/IP五层(或四层) 网络设备所在分层 封装和分用 网络发展史 独立模式 独立模式:计算机之间相互…

第八十三天学习记录:计算机硬件技术基础:汇编语言程序设计

一、汇编语言指令 汇编语言的语句是在指令系统的基础上形成的,按其作用与编译情况分为两大类:指令性语句(符号指令)和指示性语句(伪指令)。 指令性语句是可执行语句,与机器指令相对应&#xff…

USB转换方案介绍

随着科技的不断发展,我们的生活中出现了越来越多的电子设备。然而,这些设备通常具有不同的连接端口和协议,这可能会使它们之间的连接变得困难。这时候,使用USB转换就成为了一种非常方便和实用的解决方法。 无论是在家庭、办公室还…

自动化测试——处理场景自动化测试场景详细,跟着上高速

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、定位一组对象 …

城市消防应急通信三级作战网构建

项目背景 随着我国《消防信息化“十三五”总体规划》对消防信息化的发展规划做了统一部署,以城市为代表的消防通信成为专网通信行业重点关注的领域之一。目前,我国城市化发展面临高层建筑林立、地铁、人防工程分布密集,大型综合体不断涌现&a…

【运维】服务器系统安装 -- 服务器版

目录 一、环境 二、ubuntu 三、启动u盘制作 Stage 1:下载balena,制作U盘启动工具 Stage 2:下载Ubuntu 系统镜像(参考上一节:Ubuntu 22.04.2 LTS ) Stage 3:将镜像写入到U盘 四、设置开启…

FUZZ工具—Boofuzz框架实际使用

接着上一篇文章FUZZ工具—Boofuzz框架来对框架进行实际的使用; 官方提供了很多案例模板,且网上关于boofuzz的使用介绍很多,也比较成熟,在各个领域都有,可以通过官方提供的案例也看得出来,然后覆盖的面也非常…

西门子变频器G120XA的快速调试方法分享

以西门子变频器G120XA为例,接着为大家介绍一下G120X和G120XA系列变频器的快速调试方法。 西门子发布的Sinamics G120X和G120XA系列变频器,专为风机和泵的应用而设计,实现高效节能、可靠稳定和简单易用。以G120XA为例,通过下面的调…

locust学习教程(9)- event 事件

目录 1、对请求的测试前置、后置处理 2、在web界面添加新内容 3、监听测试的失败率或阀值 4、汇总总结 ​🎁更多干货 1、对请求的测试前置、后置处理 请求有一个上下文参数,通过数据有关的请求(之类的用户名,标签等&#xff…

双路高速 DA 实验

目录 双路高速 DA 实验 1、简介 2、实验任务 3、程序设计 3.1、hs_dual_da顶层模块代码 3.2、ROM 波形存储模块(rom_1024x10b) 创建单端口 ROM IP核 3.2、DA 数据发送模块(da_wave_send)代码 4、硬件设计 4.1、添加.xdc…