机器学习与数据科学-专题1 Python正则表达式-【正则表达式入门-1】

news2025/1/17 0:03:23

文章目录

  • 第一关
    • 相关知识
    • 任务要求
    • 代码
  • 第二关
    • 相关知识
    • 任务要求
    • 代码
  • 第三关
    • 相关知识
    • 注意
    • 任务描述
    • 代码

第一关

相关知识

为了完成本关任务,你需要掌握:

在 Python 中使用正则表达式;
最基础正则表达式;
正则匹配函数。
在 Python 中使用正则表达式
正可谓人生苦短,我用 Python。Python 有个特点就是库非常多,自然拥有正则匹配这种常见的库,并且此库已经嵌入在 Python 标准库中,使用起来非常方便,只需要在代码中导入 re 模块即可。

import re
Python 的 re 模块,使得 Python 具备了使用全部正则表达式的功能。为了让我们灵活的使用正则表达式,现在咱们的任务就是学习正则在 re 库中的使用。

最基础正则表达式
正则表达式是一个以简单直观的方式通过寻找模式匹配文本的工具。
听起来比较复杂,实际非常简单,下面开始体验最简单的正则表达式。最简单的正则表达式是些仅包含简单字母数字字符的表达式——不包含任何其他字符,在这种情况下正则表达式完完全全就是一个正常的字符串。

举例说明,我们要匹配 张明,那么 张明 这两个字符就是我们需要的正则表达式。

正则匹配函数
知道了最基础正则表达式,可是如何在 python 中使用了?首先我们学习第一个函数,search() 函数,它的目的是接收一个正则表达式和一个字符串,并返回发现的第一个匹配的字符串。

import re
a = re.search(r'fox','the quick brown fox jumpred')  #第一个参数为正则表达式,第二个参数为要处理的字符串
print(a.span())      # span方法获取的是正则表达式匹配到的位置
b =  re.search(r'www','the quick brown fox jumpred') 
print(b)   #如果匹配不到则会返回None
输出如下:

(16, 19)
None
如何匹配到了,我们输出他在正则表达式中的位置,如果没有匹配到,则输出为空。

字符串前缀
在这里插入图片描述

任务要求

本关任务:学会导入 python 的正则表达式库,使用该库方法的 search 方法编写一个匹配小程序。该方法能查看某个学生名字是否在此学生信息中。

根据提示,具体任务如下:

  1. 导入相关包;

  2. 查看此信息是不是 张明 的信息,查找结果存储在 is_zhangming 变量中。

补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。

测试输入:张伟 86-14870293148;
预期输出:
None

测试输入:张明;
预期输出:
(0,2)

代码

# coding=utf-8
import re
# 在此导入python正则库

check_name = input()
# 在此使用正则匹配'张明'的信息,结果存储到is_zhangming中
########## Begin ##########
is_zhangming=re.search(r"张明",check_name)
########## End ##########

if is_zhangming is not None:
    print(is_zhangming.span())
else:
    print(is_zhangming)

第二关

相关知识

为了完成本关任务,你需要掌握:

获得多个匹配信息;
字符组。
在上一个任务中,已经了解了只包含简单字母数字的正则表达式,但如果仅仅如此,那么太小瞧正则表达式的威力了。正则表达式强大的地方在于能够指定用于匹配的文本模式。本关来学习正则表达式的字符组匹配。

获得多个匹配信息
在很多常见的场景中需要进行多个匹配,比如在学生名单中过滤出所有的张姓学生的个数。

如果有这种需求咱们可以使用 re 模块中的 findall 或者 finditer方法。两个方法的区别在于 findall 返回的是一个列表,finditer 返回的是一个生成器。

l = re.findall(r'张','张三 张三丰 张无忌 张小凡')
print(l)
['张', '张', '张', '张']
在这个例子中,我们会发现 findall 返回了 4 个“张”,这是因为“张”字在后面的字符串中出现了 4 次。即 findall 返回了所有的匹配信息。

字符组
字符组允许匹配一组可能出现的字符,在正则表达式中用[]表示字符组标志,举个例子。

'I like Python3 and I like python2.7 '
在这句话中,既有大写的 Python,又有全部是小写的 python 。如果我要求都匹配出来,这时候该怎么操作了?这就是正则匹配中字符组的威力了。下面看下示例。

a = re.findall(r'[Pp]ython','I like Python3 and I like python2.7 ')
print(a)
['Python', 'python']
可以发现 [Pp] 既可以匹配大写的 P 也可以匹配小写的 p ,这里值的我们注意的是 [Pp] 仅匹配一个字符,他表示匹配在这个[]内的某一个。

任务要求

本关任务:运用正则表达式的字符组表示方法,编写一个能从文本中快速匹配到 python 和 Python 的小程序。
编程要求
根据提示,在右侧编辑器 Begin-End 部分补充代码,具体任务如下:

从文本中快速匹配到 python 和 Python 的小程序,输出匹配到的所有内容。
测试说明
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。

测试输入:I LIKE Python3 and i like python2.7;
预期输出:
[Python, python]

代码

# coding=utf-8

import re

input_str = input()

# 编写获取python和Python的正则,并存储到match_python变量中

########## Begin ##########
match_python=re.findall(r"[Pp]ython",input_str)

########## End ##########

print(match_python)


第三关

相关知识

为了完成本关任务,你需要掌握:

区间;
区间取反。
本关来学习正则表达式区间与区间取反的相关知识。

区间
有一些常见的字符组非常大,比如,我们要匹配的是任意数字,如果依照上述代码,每次我们都需要使用 [0123456789] 这种方式明显很不明智,而如果要匹配从 a-z 的字母,我们也这样编写代码的话,肯定会让我们崩溃。

为了适应这一点,正则表达式引擎在字符组中使用连字符(-)代表区间,所以我们匹配任意数字可以使用 [0-9],所以如果我们想要匹配所有小写字母,可以写成 [a-z],想要匹配所有大写字母可以写成 [A-Z]。

可能我们还有个需求:匹配连字符。因为-会被正则表达式引擎理解为代表连接区间,所以这个时候我们需要对-进行转义。

示例:


a = re.findall(r'[0-9]','xxx007abc')
b = re.findall(r'[a-z]','abc001ABC')
c = re.findall(r'[A-Za-z0-9]','abc007ABC')
d = re.findall(r'[0-9\-]','0edu 007-edu')
print(a)
print(b)
print(c)
print(d)
执行结果如下:

['0', '0', '7']
['a', 'b', 'c']
['a', 'b', 'c', '0', '0', '7', 'A', 'B', 'C']
['0', '0', '0', '7', '-']

区间取反
到目前为止,我们定义的字符组都是由可能出现的字符定义,不过有时候我们可能希望根据不会出现的字符定义字符组,例如:匹配不包含数字的字符组。


a = re.findall(r'[^0-9]','xxx007abc')
b = re.search(r'[^0-9]','xxx007abc')
print(a)
print(b)
执行结果如下:

['x', 'x', 'x', 'a', 'b', 'c']
<re.Match object; span=(0, 1), match='x'>

可以通过在字符数组开头使用 ^ 字符实现取反操作,从而可以反转一个字符组(意味着会匹配任何指定字符之外的所有字符)。

接下来再看一个表达式:n[^e] 这意味着字符 n 接下来的字符是除了 e 之外所有的字符。


a = re.findall(r'n[^e]','final')
b = re.search(r'n[^e]','final')
c = re.findall('r[n[^e]]','Python')
print(a)
print(b)
print(c)
执行结果如下:

['na']
<re.Match object; span=(2, 4), match='na'>
[]

这里我们可以发现 a 和 b 匹配的是 na,字符 a 因为不是 e 所以可以被匹配,而变量 c 的值为空,在这里正则表达式引擎只匹配到了字符串 n 的位置,而 n 之后没有任何可以匹配 [^e] 的字符了,所以这里也匹配失败。

注意

search是找到第一个匹配的地方,而findall是所有匹配的地方

任务描述

本关任务:运用正则表达式的区间表示方法,编写一个能从文本中快速匹配到数字与不是数字字符的小程序。

编程要求
请仔细阅读右侧代码,根据提示,在右侧编辑器 Begin-End 部分补充代码,具体任务如下:

匹配数字字符信息;

匹配不是数字字符的信息。

测试说明
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。

测试输入:Python3 and python2.7;
预期输出:
[‘3’, ‘2’, ‘7’]
[‘P’, ‘y’, ‘t’, ‘h’, ‘o’, ‘n’, ’ ', ‘a’, ‘n’, ‘d’, ’ ', ‘p’, ‘y’, ‘t’, ‘h’, ‘o’, ‘n’, ‘.’]

代码

# coding=utf-8

import re

input_str = input()

# 1、编写获取到数字的正则,并输出匹配到的信息
########## Begin #re#########
a=re.findall(r"[0-9]",input_str)
########## End ##########
print(a)
# 2、编写获取到不是数字的正则,并输出匹配到的信息
########## Begin ##########
b=re.findall(r"[^0-9]",input_str)
########## End ##########
print(b)



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1392429.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

grep 在运维中的常用可选项

一、对比两个文件 vim -d <filename1> <filename2> 演示&#xff1a; 需求&#xff1a;&#xff5e;目录下有两个文件一个test.txt 以及 text2.txt,需求对比两个文件的内容。 执行后会显示如图&#xff0c;不同会高亮。 二、两次过滤 场景&#xff1a;当需要多…

为什么有些赤霞珠葡萄酒会出现“青椒”的味道?

有几种著名的赤霞珠口味与葡萄栽培和气候影响密切相关&#xff0c;最广为人知的是吡嗪引起的草本或青椒味&#xff0c;在未成熟的葡萄中更普遍。所有赤霞珠葡萄中都存在吡嗪化合物&#xff0c;随着葡萄的继续成熟&#xff0c;它们逐渐被阳光破坏。 对于人类口感来说&#xff0…

vue3-事件处理

事件监听 DOM 事件监听指令 v-on 简写 v-on:click"handler" 或者 click"handler"事件处理器 (handler) 的值可以是&#xff1a; 内联事件处理器&#xff1a;比如 click 方法事件处理器&#xff1a;一个指向组件上定义的方法的属性名或是路径。 在内联…

Python爬虫实战:IP代理池助你突破限制,高效采集数据

当今互联网环境中&#xff0c;为了应对反爬虫、匿名访问或绕过某些地域限制等需求&#xff0c;IP代理池成为了一种常用的解决方案。IP代理池是一个包含多个可用代理IP地址的集合&#xff0c;可以通过该代理池随机选择可用IP地址来进行网络请求。 IP代理池是一组可用的代理IP地址…

[Linux 进程(四)] 再谈环境变量,程序地址空间初识

文章目录 1、前言2、环境变量2.1 main函数第三个参数 -- 环境参数表2.2 本地环境变量和env中的环境变量2.3 配置文件与环境变量的全局性2.4 内建命令与常规命令2.5 环境变量相关的命令 3、程序地址空间 1、前言 上一篇我们讲了环境变量&#xff0c;如果有不明白的先读一下上一…

IOS-高德地图路径绘制-Swift

本文展示的是在IOS开发中调用高德地图进行驾车路径绘制&#xff0c;开发语言是Swift。 IOS高德地图集成请看&#xff1a;IOS集成高德地图Api 使用路径规划功能需要集成高德地图的搜索功能。 pod AMapSearch定义AMapSearchAPI 定义主搜索对象 AMapSearchAPI &#xff0c;并继承…

2023年第十四届蓝桥杯软件赛省赛总评

报名明年4月蓝桥杯软件赛的同学们&#xff0c;如果你是大一零基础&#xff0c;目前懵懂中&#xff0c;不知该怎么办&#xff0c;可以看看本博客系列&#xff1a;备赛20周合集 20周的完整安排请点击&#xff1a;20周计划 每周发1个博客&#xff0c;共20周。 在QQ群上交流答疑&am…

K8s(一)Pod资源——Pod介绍、创建Pod、Pod简单资源配额

目录 Pod概述 pod网络 pod存储 pod和容器对比 创建pod的方式 pod运行方式分类 Pod的创建 Pod的创建过程 通过kubectl run来创建pod 通过yaml文件创建&#xff0c;yaml文件简单写法 Pod简单操作 Pod的标签labels Pod的资源配额resource 测试 Pod概述 Kubernetes …

类加载器和双亲委派

java默认的类加载机制是委派机制&#xff0c;委派过程如下&#xff1a; 从缓存中加载如果缓存中没有&#xff0c;则从父类加载器中加载。如果父类加载器中的没有&#xff0c;则从当前加载器加载如果没有&#xff0c;则抛出异常 类加载器只能加载在自己的指定目录下的二进制类流…

使用虚拟机安装AIX7.2【re】

背景 同事的项目需要在aix上安装和配置db2&#xff0c;然而客户还没有将PowerPC端末开通使用&#xff0c;所以项目的设计阶段打算在虚拟机上进行检证&#xff0c;让我帮忙准备环境。 这是什么 AIX 7.2 是 IBM 开发的一款高级交互式执行系统&#xff08;Unix系统&#xff09;&a…

[GN] nodejs16.13.0版本完美解决node-sass和sass-loader版本冲突问题

项目场景&#xff1a; npm install 运行vue项目时候 问题描述 项目场景&#xff1a;sass-loader &#xff0c;node-sass出错 ! ERESOLVE unable to resolve dependency tree npm ERR! npm ERR! While resolving: smoore-mes-web1.4.0 npm ERR! Found: webpack3.12.0 npm ER…

数字电源简介

数字电源简介 定义主要应用场景数字电源的基本组成常见算法常见电源拓扑PFCLLC 数字电源与模拟电源对比参考链接 定义 常见定义有以下四种&#xff1a; 通过数字接口控制的开关电源&#xff0c;强调的是数字电源的“通信”功能。可通过I2C或类似的数字总线来对数字信号进行控…

MySQL的Explain详解(查询计划)

MySQL中的EXPLAIN语句用于分析SELECT语句的执行计划。通过使用EXPLAIN&#xff0c;我们可以了解到MySQL如何处理查询、选择索引等信息&#xff0c;从而优化查询性能。 Expain出来的信息总共有10列&#xff0c;分别是id、select_type、table、type、possible_keys、key、key_le…

接口测试 01 -- 基础与原理

接口概述 什么是接口 接口是计算机系统中不同组件之间进行交流和互动的一种方式。 在软件开发中&#xff0c;接口通常指的是一组定义了输入、输出、功能和规范的方法、函数或协议。接口定义了组件之间的通信协议&#xff0c;使得它们可以相互协作&#xff0c;实现特定的功能。…

【教程】集群搭建准备工作全流程

基于VMware创建虚拟机进行集群搭建&#xff0c;适用于hadoop/GreenPlum等集群 之前已经创建了三台虚拟机hadoop102&#xff0c;hadoop103&#xff0c;hadoop104来搭建hadoop集群&#xff0c;因为目前学习到了greemplum&#xff0c;因此新建三台虚拟机hadoop105&#xff0c;had…

选择安全数据交换系统时 要考虑哪些因素?

安全数据交换系统是一种专门设计用于在不同的网络环境&#xff08;如内部不同网络&#xff0c;内部网络和外部网络&#xff09;之间安全传输数据的解决方案。它通常包括一系列的技术和流程&#xff0c;旨在确保数据在传输过程中的完整性、机密性和可用性。 安全数据交换系统可以…

乐意购项目前端开发 #4

一、Home页面组件结构 结构拆分 创建组件 在 views/Home 目录下创建component 目录, 然后在该目录下创建5个组件: 左侧分类(HomeCategory.vue)、Banner(HomeBanner.vue)、精选商品(HomeHot.vue)、低价商品(Homecheap.vue)、最新上架(HomeNew.vue) 引用组件 修改 views/Home…

【计算机网络】网络层——详解IP协议

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【网络编程】 本专栏旨在分享学习计算机网络的一点学习心得&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目录 &#x1f431;一、I…

django rest_framework 部署doc文档

1.背景 在实际开发过程中&#xff0c;前后端分离的项目&#xff0c;是需要将一份完整的接口文档交付给前端开发人员&#xff0c;这样有利于开发速度和开发质量&#xff0c;以及有可能减少协同时间。 2.内容 本项目是以Pythondjangorest_framework作为技术框架&#xff0c;在这…

使用muduo库编写网络server端

muduo库源码编译安装和环境搭建 C muduo网络库知识分享01 - Linux平台下muduo网络库源码编译安装-CSDN博客 #include<iostream> #include<muduo/net/TcpServer.h> #include<muduo/net/EventLoop.h> using namespace std; using namespace muduo; using name…