〖Python网络爬虫实战⑨〗- 正则表达式基本原理

news2025/3/1 22:02:59
  • 订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+ 

                python项目实战

                Python编程基础教程系列(零基础小白搬砖逆袭)

  • 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销(名额有限,先到先得)
  • 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。

 最近更新

〖Python网络爬虫实战⑥〗- 多线程和多进程

〖Python网络爬虫实战⑦〗- requests的使用(一)

〖Python网络爬虫实战⑧〗- requests的使用(二)

上节回顾

        我们已经可以使用requests库来获取网页源代码,得到HTML代码、但是,我们想要的数据就在里面。我们怎么样才可以获取我们想要的数据呢。正则表达式就是其中一个有效的办法。本文,我们就来了解一下正则表达式的用法。

⭐️正则表达式

        大家好,大家都听过正则表达式,却不知道正则表达式干什么的。正则表达式是一个特殊的符号系列,它可以帮助我们检查某个字符串和某种模式匹配。在python中,re库拥有全部的正则表达式的功能。

        今天,我们来深入的了解一下。我们知道正则表达式是处理字符串的强大工具,它有自己的语法结构,什么匹配啊,都不算什么。

正则表达式是什么?

        正则表达式,又称规则表达式,(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),它是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式的文本。 许多程序设计语言都支持利用正则表达式进行字符串操作。例如在 Perl 中内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 Unix 中的工具软件普及开的。正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。

🌟1.实例引入

        说了一大堆废话,大家可能还是云里雾里的,我们通过实例来说明一下,我们可以用正则表达式测试工具,或者python都可以,首先,我们输入一段文本。

hello,my name is Tina,my phone number is 123456 and my web is http://tina.com.

 我们接下来尝试用正则表达式提取出来;

                               [a-zA-z]+://[^\s]*

我们就可以获取网页链接,也就是文本中的url,是不是很神奇?

这是因为它有自己的匹配规则,部分如下。

模式描述
.任意字符
*0个或者多个表达式
+一个或者多个表达式

 关于更多的匹配规则可自行查阅。

?,*,+,\d,\w 都是等价字符

?等价于匹配长度{0,1}

*等价于匹配长度{0,}

+等价于匹配长度{1,}

\d 等价于[0-9]

\D 等价于[^0-9]

\w 等价于[A-Za-z_0-9]

\W 等价于[^A-Za-z_0-9]

🌟2.match()

        这里介绍一个常用的匹配方法——match(),向他传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。

✨匹配目标

res = re.match('hello\s(\d+)sword')

✨贪婪匹配

res = re.match('hello.*(\d+)sword')

🌟3.findall()

        我们最常用的就是这个,我们看看这个是如何使用的。

import re

useData = str(input('请输入字符串数据:'))

'''
匹配字符串中的数字,+是匹配前面的子表达式一次或多次
'''
digital = re.findall('\d+',useData)

print(digital)

我们看看运行结果

13829eb8d9c2f7f3fba83eff81346e4e.png

findall()函数是返回所有匹配到的字符串,返回值的数据类型为列表。

🌟常用符号

我们再来说说正则表达式的常用符号吧。

“.”字符为匹配任意单个字符。

“\”字符为转义字符。

“[…]”为字符集。

“(.*?)” 是python爬虫最常用的一个字符,叫贪心算法,可以匹配任意的字符。

下面我们看一个示例代码。

import re

a=‘xxixxjshdxxlovexxsfhxxpythonxx’

data=re.findall(‘xx(.*?)xx’)

print(data)

我们运行一下,看下效果。

运行结果
[‘I’ ,‘love’,‘python’]

🌟特殊字符

        所谓特殊字符,就是一些有特殊含义的字符,比如讲 runoo*b 中的 ,简单的说就是表示任何字符串的意思。如果要查找字符串中的 * 符号,则需要对 * 进行转义,即在其前加一个 \,runo*ob 匹配字符串 runo\*ob。

        许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:

特别字符描述
$

匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。

()标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。
*匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 *。
+匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 +。
.匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 . 。

        概念说了一大堆,大家可能也记不住,我直接说几个案例,大家就能明白其他的道理。

        这是某网的HTML,部分片段如下:

<span class=“price”>§<i>123</i></span>

<span class=“price”>§<i>133</i></span>

<span class=“price”>§<i>156</i></span>

<span class=“price”>§<i>189</i></span>

        大家会发现只有中间的一段不一样,而不一样的数据就是我们想要的,我们怎么用正则表达式提取出来呢.

<span class=“price”>§<i>(.*?)</i></span> 

就可以了,我们看看效果吧。

123
133
156
189

🌟总结

        我们可以从HTML代码提取我们想要的数据。我们知道正则表达式就是其中一个有效的办法。通过本文我们基本了解了其中的原理。后面我们将通过两个具体案例来加深对正则表达式的理解。

e8d2b7db23d9436a9453c58099e08431.jpeg

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/412335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】用户命令(创建,修改,切换,删除,密码)

目录 1.创建 查看用户信息 查看id 2.修改 修改用户名 修改用户uid 操作前&#xff1a; 操作后 修改组名 操作前&#xff1a; 操作后: 修改组id 操作前&#xff1a; 操作后&#xff1a; 操作前&#xff1a; 操作后: 3.切换用户 4.删除 操作前&#xff1a; 操作…

如何在Spring Boot中使用Spring MVC

目录 1.MVC 2.Spring MVC 3.Spring Boot中使用Spring MVC 3.1.配置 3.1.1.文件配置 3.1.2.代码配置 3.2.使用 3.2.1.映射处理器 3.2.2.传参 3.2.3.参数转换 3.2.4.数据校验 3.2.5.数据模型 3.2.6.视图和解析器 3.2.7.拦截器 1.MVC MVC 是一种常见的软件设计模式…

企业级信息系统开发讲课笔记2.4 利用MyBatis实现条件查询

文章目录零、本节学习目标一、查询需求二、打开MyBatisDemo项目三、对学生表实现条件查询&#xff08;一&#xff09;创建学生映射器配置文件&#xff08;二&#xff09;在MyBatis配置文件里注册学生映射器配置文件&#xff08;三&#xff09;创建学生映射器接口&#xff08;四…

macOS Ventura 13.3.1 (22E261) Boot ISO 原版可引导镜像

本站下载的 macOS 软件包&#xff0c;既可以拖拽到 Applications&#xff08;应用程序&#xff09;下直接安装&#xff0c;也可以制作启动 U 盘安装&#xff0c;或者在虚拟机中启动安装。另外也支持在 Windows 和 Linux 中创建可引导介质。 macOS Ventura 13.3.1 为 Mac 提供下…

os库的使用与第三方库安装脚本

os库基本介绍 os 顾名思义&#xff0c;就是与操作系统相关的标准库。如&#xff1a;文件&#xff0c;目录&#xff0c;执行系统命令等。 os库是Python标准库&#xff0c;包含几百个函数 常用路径操作、进程管理、环境参数等几类 路径操作&#xff1a;os.path子库&#xff0…

安捷伦34970A

18320918653 34970A Agilent 34970A 数据采集器|安捷伦数据采集器|34970A 您可信任的测量&#xff1a; 我们把销售良好数字多用表测量引擎嵌入在3槽主机箱中。您能获得优异的测量能力&#xff0c;带有内置信号调整的通用输入&#xff0c;模块化的灵活性&#xff0c;低廉的售…

Ubuntu20.04配置CuckooSandbox环境

Ubuntu20.04配置CuckooSandbox环境 因为最近要做恶意软件分析&#xff0c;阅读论文发现动态分析的效果普遍比静态分析的效果要好一些&#xff0c;所以需要搭建一个动态分析的环境&#xff0c;查阅资料发现Cuckoo Sandbox是不错的自动化分析环境&#xff0c;但是搭建起来还是比…

机器学习相关建议

1、开发机器学习系统或者优化的路径 训练数据量的增加对机器学习系统的影响增加特征集或减少特征集改变正则化参数尝试增加多项式特征 | 高偏差、欠拟合 | 高方差、过拟合 | | ------------------ | ------------------------------ | | 尝试增加多项式特征 | 尝试减少特征的数…

30-60K,转型云原生架构师和SRE需要哪些能力?

你好&#xff0c;我是王炜&#xff0c;欢迎和我一起学习云原生的核心技术。 先来简单介绍一下我自己吧。作为前腾讯云 CODING 架构师&#xff0c;现在深圳氦三科技的联合创始人&#xff0c;同时也是中国云原生社区深圳站的负责人&#xff0c;我见证了云原生在国内从萌芽到蓬勃…

【k8s完整实战教程6】完整实践-部署一个federated_download项目

系列文章&#xff1a;这个系列已完结&#xff0c;如对您有帮助&#xff0c;求点赞收藏评论。 读者寄语&#xff1a;再小的帆&#xff0c;也能远航&#xff01; 【k8s完整实战教程0】前言【k8s完整实战教程1】源码管理-Coding【k8s完整实战教程2】腾讯云搭建k8s托管集群【k8s完…

【算法的复杂度】

算法的时间复杂度和空间复杂度一、算法效率二、时间复杂度1. 时间复杂度的概念2. 大O的渐进表示法3. 常见时间复杂度计算举例三、空间复杂度一、算法效率 算法在编写成可执行程序后&#xff0c;运行时需要耗费时间资源和空间(内存)资源 。因此衡量一个算法的好坏&#xff0c;一…

采用多种方式实现项目的查询多级缓存(六)

4.7.Nginx本地缓存 现在&#xff0c;整个多级缓存中只差最后一环&#xff0c;也就是nginx的本地缓存了。如图&#xff1a; 4.7.1.本地缓存API OpenResty为Nginx提供了shard dict的功能&#xff0c;可以在nginx的多个worker之间共享数据&#xff0c;实现缓存功能。 1&#xf…

【创建者模式】原型模式

文章目录优秀借鉴1、简介2、结构3、浅拷贝和深拷贝4、浅拷贝实现4.1、实现步骤4.2、结果分析5、深拷贝思路5.1、clone方法5.2、序列化与反序列化6、应用场景优秀借鉴 什么是原型模式&#xff08;Prototype&#xff09;&#xff1f;应用场景是什么&#xff1f; 【设计模式】原…

PointNN:一种无参数化的高效点云特征提取方法

前言 本文需要一些三维点云相关基础&#xff0c;非常适合深蓝学院修过相关课程的同学阅读。 点云处理从最早期的手工设计特征&#xff0c;到之后渐渐有一些深度学习的尝试&#xff0c;经历了 multi-view或者3D卷积等等的混沌时期&#xff0c;知道 pointnet 的横空出世&#x…

微服务治理框架(Istio)的认证服务与访问控制

本博客地址&#xff1a;https://security.blog.csdn.net/article/details/130152887 一、认证服务 1.1、基于JWT的认证 在微服务架构下&#xff0c;每个服务是无状态的&#xff0c;由于服务端需要存储客户端的登录状态&#xff0c;因此传统的session认证方式在微服务中不再适…

分享:前端开发使用基于 ChatGPT 的各类 AI Copilot 辅助开发

前言 现在谁还没听过 ChatGPT&#xff0c;通没通网我不确定&#xff0c;但一定不是搞开发的 网上各种教注册OpenAI账号的、卖key的&#xff0c;然后就可以去各类基于ChatGPT api的插件、应用使用。但是这类都属于不合规的方式&#xff0c;这里不推荐 虽然因为种种原因&#x…

nuxt.js - 【最新】简单快捷的 element ui 组件库的主题色更改,批量统一覆盖替换解决方法,无需npm装包。(适用于新手小白的方法,很简单)

效果图 最新解决方案,简单便捷且不用npm安装任何第三方包就能搞定。 原来的主题色是蓝色 ,可以通过本篇博客提供的方法,统一变成其他主题颜色,比如下面的紫色: 下面就是真实的运行效果,保证可行~ 这样就不用每个组件单独去写样式覆盖颜色了! 定制主

【C++】STL理解【容器】

【C】STL理解【容器】 1. STL概念引入 长久以来&#xff0c;软件界一直希望建立一种可重复利用的东西&#xff0c;以及一种得以制造出”可重复运用的东西”的方法&#xff0c;从函数(functions)&#xff0c;类别(classes),函数库(function libraries),类别库(class libraries…

Python中的type与isinstance的区别

Python中的type()函数和isinstance()函数是两个常用的类型判断函数&#xff0c;它们可以用来判断变量的类型&#xff0c;接下来让我们一起来看一下它们的用法。type()函数type()函数用于获取一个变量的类型&#xff0c;它的语法是&#xff1a;type(变量)。调之后会返回变变量的…

关于修改压缩包内的文件(Excel...)内容的解决方法

关于修改压缩包内的文件&#xff08;Excel…&#xff09;内容的解决方法 前提&#xff1a; &#x1f4a9; 如果能在压缩前就修改完成就不需要修改压缩包内的文件 &#x1f4a9; 如果能在压缩前就修改完成就不需要修改压缩包内的文件 &#x1f4a9; 如果能在压缩前就修改完成…