Python正则表达式:从基础到高级应用的全面总结与实战【第103篇—JSON模块】

news2025/1/16 8:07:06

Python正则表达式:从基础到高级应用的全面总结与实战

正则表达式是一种强大的文本匹配和处理工具,广泛应用于文本处理、数据抽取、表单验证等领域。本文将从正则表达式的基础知识出发,逐步深入,最终结合代码实战,带你全面了解正则表达式的奥妙。

在这里插入图片描述

正则表达式基础

1. 什么是正则表达式?

正则表达式是一种描述字符串匹配规则的文本模式,可以用来检索、替换、验证等操作。它由一系列字符和操作符组成,表示一种匹配规则。

2. 基础语法

  • 字符匹配: 使用普通字符直接匹配文本,如 abc 匹配字符串中的 “abc”。
  • 元字符: 具有特殊意义的字符,如 . 表示匹配任意字符,^ 表示匹配字符串的开头。
  • 字符类: 用方括号表示,如 [aeiou] 匹配任何一个元音字母。

3. 量词和边界

  • 量词: 用于指定匹配的次数,如 * 表示零次或多次,+ 表示一次或多次,? 表示零次或一次。
  • 边界: 使用 ^ 表示字符串的开头,$ 表示字符串的结尾。

正则表达式代码实战

1. 使用正则表达式验证邮箱

import re

def validate_email(email):
    pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    if re.match(pattern, email):
        print(f"{email} 是一个有效的邮箱地址")
    else:
        print(f"{email} 不是一个有效的邮箱地址")

# 测试
validate_email("user@example.com")
validate_email("invalid_email@.com")

2. 提取HTML中的链接

import re

html_content = '<a href="https://www.example.com">Visit our website</a>'

# 提取链接
links = re.findall(r'href="([^"]*)"', html_content)

# 输出链接
for link in links:
    print(f"链接: {link}")

3. 替换文本中的日期格式

import re

text = "今天是2024年2月27日,明天是2024-02-28。"

# 替换日期格式
formatted_text = re.sub(r'(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', text)

print(f"替换前: {text}")
print(f"替换后: {formatted_text}")

4. 使用正则表达式判断密码强度

import re

def check_password_strength(password):
    # 至少8个字符,包含至少一个大写字母、一个小写字母、一个数字和一个特殊字符
    pattern = r'^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$'
    
    if re.match(pattern, password):
        print("密码强度符合要求")
    else:
        print("密码强度不够")

# 测试
check_password_strength("StrongPass123!")
check_password_strength("weakpassword")

5. 从文本中提取手机号码

import re

text = "请联系客户:+86 13812345678 或者发送邮件至info@example.com"

# 提取手机号码
phone_numbers = re.findall(r'(?:(?:\+|00)86)?1[345789]\d{9}', text)

# 输出手机号码
for number in phone_numbers:
    print(f"手机号码: {number}")

6. 拆分逗号分隔的字符串

import re

csv_data = "apple,orange,banana,grape"

# 使用正则表达式拆分
items = re.split(r',', csv_data)

# 输出拆分结果
print("拆分后的结果:", items)

7. 使用正则表达式验证URL

import re

def validate_url(url):
    # 简单的URL验证,以http或https开头,后面跟着域名
    pattern = r'^(https?://)?[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}(?:/[^/#?]+)*(?:\?[^#]*)?(?:#(.*))?$'
    
    if re.match(pattern, url):
        print(f"{url} 是一个有效的URL")
    else:
        print(f"{url} 不是一个有效的URL")

# 测试
validate_url("https://www.example.com")
validate_url("ftp://invalid-url.com")

8. 从HTML中提取文本内容

import re

html_content = '<p>This is a <b>sample</b> HTML content.</p>'

# 提取纯文本内容
text_content = re.sub(r'<[^>]+>', '', html_content)

print(f"HTML内容: {html_content}")
print(f"提取后的文本内容: {text_content}")

9. 匹配重复字符

import re

text = "这个单词是重复重复的,但是它们都是有意义的重复。"

# 匹配连续重复的单词
repeated_words = re.findall(r'\b(\w+)\s+\1\b', text)

# 输出匹配结果
print("连续重复的单词:", repeated_words)

10. 使用正则表达式提取日志信息

import re

log_data = """
2024-02-27 10:15: Error in module A
2024-02-27 11:30: Warning in module B
2024-02-27 12:45: Info: Application started
"""

# 提取日志信息
log_entries = re.findall(r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}): (Error|Warning|Info): (.+)', log_data)

# 输出提取结果
for entry in log_entries:
    timestamp, log_level, message = entry
    print(f"{timestamp} - [{log_level}] {message}")

11. 使用正则表达式进行文本替换

import re

text = "这是一个示例文本,包含一些需要替换的词汇,例如apple和orange。"

# 替换文本中的水果名称
replaced_text = re.sub(r'\b(apple|orange)\b', 'fruit', text)

print(f"替换前: {text}")
print(f"替换后: {replaced_text}")

12. 匹配多行文本

import re

multiline_text = """
This is line 1.
Another line here.
And a third line.
"""

# 匹配包含"line"的行
matching_lines = re.findall(r'.*line.*', multiline_text, re.MULTILINE)

# 输出匹配结果
for line in matching_lines:
    print(f"匹配的行: {line}")

我们深入了解了正则表达式在处理日志、进行文本替换等实际场景中的应用。正则表达式的强大之处在于它的灵活性和通用性,可以适应各种文本处理需求。希望这些例子能够进一步拓展你对正则表达式的认识,并激发你在实际项目中更广泛地应用它的兴趣。如果有其他关于正则表达式的问题或者需要更多的实例,欢迎继续提问。

13. 正则表达式分组与捕获

在正则表达式中,使用括号可以创建分组,通过分组可以实现更精细的匹配和捕获。

import re

text = "2024-02-27 08:30: Process A started, Process B started"

# 匹配并捕获时间和进程名称
pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}): (Process [A-Z]) started'
matches = re.findall(pattern, text)

# 输出捕获结果
for match in matches:
    timestamp, process_name = match
    print(f"时间: {timestamp}, 进程: {process_name}")

14. 非贪婪匹配

正则表达式默认是贪婪匹配,即尽可能匹配更多的字符。在量词后加上?可以实现非贪婪匹配。

import re

text = "<b>bold text</b> and <i>italic text</i>"

# 贪婪匹配
greedy_match = re.search(r'<.*>', text).group()

# 非贪婪匹配
non_greedy_match = re.search(r'<.*?>', text).group()

print(f"贪婪匹配: {greedy_match}")
print(f"非贪婪匹配: {non_greedy_match}")

15. 使用正则表达式验证IP地址

import re

def validate_ip_address(ip):
    pattern = r'^(25[0-5]|2[0-4]\d|1\d{2}|[1-9]\d|\d)(\.(25[0-5]|2[0-4]\d|1\d{2}|[1-9]\d|\d)){3}$'
    
    if re.match(pattern, ip):
        print(f"{ip} 是一个有效的IP地址")
    else:
        print(f"{ip} 不是一个有效的IP地址")

# 测试
validate_ip_address("192.168.0.1")
validate_ip_address("256.0.0.1")

通过这些高级的正则表达式实例,我们进一步提升了对正则表达式功能的理解和应用。分组、非贪婪匹配等特性使得正则表达式更加灵活和强大,能够满足更复杂的匹配需求。希望这些例子有助于你更深入地理解和运用正则表达式。如果你还有其他关于正则表达式的问题,欢迎提出。

16. 零宽断言

零宽断言是一种特殊的正则表达式结构,用于在匹配位置上添加条件,但并不消耗字符。常见的零宽断言包括正向先行断言((?=...))、负向先行断言((?!...))、正向后行断言((?<=...))、负向后行断言((?<!...))等。

import re

text = "apple orange banana"

# 匹配单词前面是"apple"的空格
positive_lookahead = re.search(r'apple(?=\s)', text).group()

# 匹配单词前面不是"apple"的空格
negative_lookahead = re.search(r'(?<!apple)\s', text).group()

print(f"正向先行断言: {positive_lookahead}")
print(f"负向先行断言: {negative_lookahead}")

17. 使用正则表达式验证日期格式

import re

def validate_date(date):
    pattern = r'^(19|20)\d{2}-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])$'
    
    if re.match(pattern, date):
        print(f"{date} 是一个有效的日期格式")
    else:
        print(f"{date} 不是一个有效的日期格式")

# 测试
validate_date("2024-02-27")
validate_date("2024/02/27")

18. 正则表达式的替换与回调函数

利用正则表达式进行替换时,可以结合回调函数,实现更复杂的替换逻辑。

import re

def multiply(match):
    number = int(match.group(1))
    return str(number * 2)

text = "Numbers: 2, 5, 8, 12"

# 使用回调函数替换数字
result = re.sub(r'\b(\d+)\b', multiply, text)

print(f"替换前: {text}")
print(f"替换后: {result}")

通过这些高级的正则表达式实例,我们深入了解了零宽断言、日期格式验证以及替换与回调函数的应用。这些功能强大的特性使得正则表达式成为处理复杂文本匹配和替换任务的得力工具。希望这些例子有助于你更灵活地运用正则表达式解决实际问题。如果你还有其他关于正则表达式的疑问或需求,欢迎继续提问。

总结:

通过本文的内容,我们全面深入地探讨了正则表达式的基础知识和高级应用。在基础部分,我们学习了正则表达式的基本概念、语法元素以及常见的匹配规则。随后,我们通过多个实例展示了正则表达式在不同场景的代码应用,包括邮箱验证、HTML链接提取、文本替换、密码强度验证等。

在高级部分,我们介绍了正则表达式的进阶特性,包括分组与捕获、非贪婪匹配、零宽断言等。这些特性使得正则表达式更加灵活,能够应对更复杂的文本匹配需求。同时,我们还探讨了如何使用正则表达式验证日期格式、IP地址,以及利用回调函数实现更复杂的替换逻辑。

通过这篇文章,读者不仅学到了正则表达式的基础知识,还深入了解了它在实际编程中的广泛应用。正则表达式作为文本处理的得力工具,能够提高开发效率,简化代码逻辑。希望本文的内容能够帮助读者更自信、更灵活地运用正则表达式解决实际问题,同时也鼓励进一步深入学习和探索这一强大工具。如有任何问题或疑问,欢迎随时提问,共同学习进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1476180.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【代码随想录python笔记整理】第十四课 · 链表的基础操作 2

前言:本笔记仅仅只是对内容的整理和自行消化&#xff0c;并不是完整内容&#xff0c;如有侵权&#xff0c;联系立删。 一、分析题目要求 在前面一课中&#xff0c;我们学习了链表的创建以及新元素的插入&#xff0c;并且我们学会了打印链表中的元素。这节课我们依托上节课的基础…

DataGrip 2023:让数据库开发变得更简单、更高效 mac/win版

JetBrains DataGrip 2023是一款功能强大的数据库IDE&#xff0c;专为数据库开发和管理而设计。通过DataGrip&#xff0c;您可以连接到各种关系型数据库管理系统(RDBMS)&#xff0c;并使用其提供的一组工具来查询、管理、编辑和开发数据库。 DataGrip 2023 软件获取 DataGrip …

2024深度学习主流框架对比

tensorFlow 是最受欢迎和广泛使用的深度学习框架之一&#xff0c;目前在github的start数为181k。 TensorFlow是一个由Google Brain团队开发的开源深度学习框架。它允许开发者创建多种机器学习模型&#xff0c;包括卷积神经网络、循环神经网络和深度神经网络等&#xff0c;该框架…

如何在服务器正确读取resources目录下的文件

1、错误代码 InputStream is new BufferedInputStream(new ClassPathResource("fonts/SourceHanSans-Normal.ttc").getInputStream());文件位置 2、正确代码 ClassPathResource classPathResource new ClassPathResource("fonts/SourceHanSans-Normal.ttc…

Python语言基础与应用-北京大学-陈斌-P29-28-计算和控制流:控制流:上机:基本计算程序-给定y和m,计算y年m月有几天?-上机代码

Python语言基础与应用-北京大学-陈斌-P29-28-计算和控制流&#xff1a;控制流&#xff1a;上机&#xff1a;基本计算程序-给定y和m&#xff0c;计算y年m月有几天?-上机代码 # 给定y和m&#xff0c;计算y年m月有几天? run_y_m_day { # 把闰年的每月天数存入字典 1:31, 2:29, …

导览系统厂家|景区电子导览|手绘地图|AR导览|语音导览系统

随着元宇宙、VR、AR等新技术的快速发展&#xff0c;旅游服务也更加多元化、智能化。景区导览系统作为旅游服务的重要组成部分&#xff0c;其形式更加多元化智能化。智能导览系统作为一种新的服务方式&#xff0c;能够为游客提供更加便捷的旅游服务和游览体验&#xff0c;也逐渐…

django运行项目NameError: name ‘_mysql‘ is not defined

Django运行项目时报错 Django运行项目时报错NameError: name ‘_mysql’ is not defined 安装的mysqlclient 是 2.1.1版本 切换成mysqlclient-2.1.0 运行&#xff0c;解决

高并发数据采集:Ebay商家信息多进程爬虫的进阶实践

背景 Ebay作为全球最大的电子商务平台之一&#xff0c;其商家信息包含丰富的市场洞察。然而&#xff0c;要高效获取这些信息&#xff0c;就需要利用先进的技术手段。本文将深入探讨如何通过并发加速技术&#xff0c;实现Ebay商家信息多进程爬虫的最佳实践方法&#xff0c;并附…

基于Redo log Undo log的MySQL的崩溃恢复

基于Redo log & Undo log的MySQL的崩溃恢复 Redo log Undo log Redo log 重做日志,记录,修改过的数据 Undo log 回滚日志,记录修改之前的数据 两个我不做详细的介绍了,redo log就是记录哪些地方被修改了 undo log是记录修改之前我们的数据长什么样 更新流程 我们来捋一…

springboot-基础-thymeleaf配置+YAML语法

备份笔记。所有代码都是2019年测试通过的&#xff0c;如有问题请自行搜索解决&#xff01; 目录 配置thymeleafthymeleaf举例参数设置yaml基础知识YAML语法报错&#xff1a;Expecting a Mapping node but got 其他语法 spring boot不推荐使用jsp。thymeleaf是一个XML/XHTML/HTM…

算法沉淀——动态规划之回文串问题(上)(leetcode真题剖析)

算法沉淀——动态规划之回文串问题 01.回文子串02.最长回文子串03.分割回文串 IV04.分割回文串 II05.最长回文子序列06.让字符串成为回文串的最少插入次数 01.回文子串 题目链接&#xff1a;https://leetcode.cn/problems/palindromic-substrings/ 给你一个字符串 s &#xf…

SpringMVC 学习(九)之拦截器

目录 1 拦截器介绍 2 创建一个拦截器类 3 配置拦截器 1 拦截器介绍 在 SpringMVC 中&#xff0c;拦截器 (Interceptor) 是一种用于拦截 HTTP 请求并在请求处理之前或之后执行自定义逻辑的组件。拦截器可以用于实现以下功能&#xff1a; 权限验证&#xff1a;在请求处理之前…

python学习笔记-内置异常

概述 Python 中的异常&#xff08;Exception&#xff09;是指在程序执行过程中遇到的错误或异常情况。当程序出现异常时&#xff0c;解释器会停止当前代码的执行&#xff0c;并试图找到匹配的异常处理器来处理异常。如果没有找到合适的异常处理器&#xff0c;程序就会终止并打…

【MySQL】DCL

DCL英文全称是Data Control Language(数据控制语言)&#xff0c;用来管理数据库用户、控制数据库的访问权限。 1. 管理用户 在MySQL数据库中&#xff0c;DCL&#xff08;数据控制语言&#xff09;是用来管理用户和权限的语句集合。通过DCL语句&#xff0c;可以创建、修改、删…

高性能Server的基石:reactor反应堆模式

业务开发同学只关心业务处理流程。但是我们开发的程序都是运行服务端server上&#xff0c;服务端server接收到IO请求后&#xff0c;是如何处理请求并最终进入业务流程的呢&#xff1f;这里不得不提到reactor反应堆模型。reactor反应堆模型来源于大师Doug Lea在 《Sacalable io …

基于51单片机烟雾报警器数码管显示( proteus仿真+程序+设计报告+讲解视频)

基于51单片机烟雾报警器数码管显示( proteus仿真程序设计报告讲解视频&#xff09; 仿真图proteus7.8及以上 程序编译器&#xff1a;keil 4/keil 5 编程语言&#xff1a;C语言 设计编号&#xff1a;S0067 1. 主要功能&#xff1a; 基于51单片机的烟雾报警器proteus仿真设…

AxureCloud配置文件详细介绍

AxureCloud配置文件详细介绍 原文地址&#xff1a;https://docs.axure.com/axure-cloud/business/custom-settings-json/ 通过修改 customsettings.json 可以修改AxureCloud私有部署的域名、端口、HTTPS、存储目录、是否开启插件等, 默认安装的路径为: C:\Program Files\Axure…

milvus Upsert api数据结构源码分析

Upsert api数据结构 该方法将实体更新插入到 Milvus 中。如果集合中已存在指定字段&#xff0c;则该操作将覆盖现有实体&#xff1b;如果指定值尚不存在&#xff0c;则插入新实体。 实现:先insert再delete&#xff0c;并限制不能修改主键列。 限制:主键的autoid必须是false。…

【JS逆向学习】猿人学 第三题 罗生门

逆向目标 网址&#xff1a; 目标&#xff1a;session请求 逆向分析 首先分析网络请求&#xff0c;我们发现每次的翻页请求都会有一个jssm请求 从启动器进去跟栈进去 现在观察一下cookie是否有变化&#xff0c;经观察没有发生变化&#xff0c;参数也没有加密&#xff0c;所…

Python打发无聊时光:10.用flask创造按键控制的网页小游戏

第一步&#xff1a;装flask库 在终端输入: pip install flask 第二步&#xff1a;完整代码 为了方便大家移植&#xff0c;我将HTML、CSS和JavaScript直接嵌到一个py文件中。 from flask import Flask, render_template_stringapp Flask(__name__)app.route(/) def game()…