python-网络爬虫.regular

news2024/11/24 13:04:55

regular

正则表达式 (regular expression)

正则表达式(regular expression)描述了一种字符串匹配的模式 (pattern),

可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串 中取出符合某个条件的子串等。

正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字 符") 组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正 则 表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

网上有的网上找

网上无的自己写

电话号码匹配

邮箱地址匹配

身份证号匹配

指定字符匹配

\d 匹配数字    \D 匹配非数字

\w 匹配字符    \W 匹配非字符

\s 匹配空白    \S 匹配非空白

\b 匹配边界

百度搜索: 史上最全正则表达式

 

 

(一) 常用正则

1、字符组 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示

 2、字符

 

3、量词

 

(二)正则表达式的使用

 

 

 

 

 

 

.+ 是贪婪的 - 它匹配,直到它不再匹配,只返回所需的数量.

.+? 不是贪婪的,它在第一次机会匹配即停止.

例子:

 

(二)常用方法

re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是 基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配, 提取自己需要的字符串部分,他对所有的语言都通用。注意:

• re模块是python独有的

• 正则表达式所有编程语言都可以使用

• re模块、正则表达式是对字符串进行操作

因为,re模块中的方法大都借助于正则表达式,故先学习正则表达式。

 

 

第一步: import re

第二步: pat= re.compile(r'◎片名:(.*)\n') #r内的字符串就是正则表达 式的规则字符串

第三步: ret =re.findall(pat,html) #开始在目标html字符串中按照正则表 达式来依次匹配

第四步: print(ret) #将匹配成功的信息打印输出

1、re.compile(pattern,flags = 0 ) 将正则表达式模式编译为正则表达式对象,可使用match(),search()以及 下面所述的其他方法将其用于匹配

>>> prog = re.compile('\d{2}') # 正则对象

>>> prog.search('12abc')

  >>> prog.search('12abc').group()

# 通过调用group()方法得到匹配的字符 串,如果字符串没有匹配,则返回None。

'12'

>>> prog.match('123abc')

 >>> prog.match('123abc').group() '12'

>>>

2、re.search(pattern,string,flags = 0 )

扫描字符串以查找正则表达式模式产生匹配项的第一个位置 , 然后返回相应的match对象。None如果字符串中没有位置与模式匹配,则 返回;

否则返回false。请注意,这与在字符串中的某个点找到零长度匹配不同。

#在这个字符串进行匹配,只会匹配一个对象

>>> re.search('\w+','abcde').group()

'abcde'

>>> re.search('a','abcde').group()

'a'

>>>

3、re.match(pattern,string,flags = 0 )

如果字符串开头的零个或多个字符与正则表达式模式匹配,则返回相应的 匹配对象。

None如果字符串与模式不匹配,则返回;否则返回false。

请注 意,这与零长度匹配不同。

# 同search,不过在字符串开始处进行匹配,只会匹配一个对象

>>> re.match('a','abcade').group()

'a'

>>> re.match('\w+','abc123de').group()

'abc123de'

>>> re.match('\D+','abc123de').group()         #非数字

'abc'

>>>

4、re.fullmatch(pattern,string,flags = 0 )

如果整个字符串与正则表达式模式匹配,则返回相应的match对象。None

如果字符串与模式不匹配,则返回;否则返回false。请注意,这与零长度 匹配不同。

>>> re.fullmatch('\w+','abcade').group()

'abcade'

>>> re.fullmatch('abcade','abcade').group()

'abcade'

>>>

5、re.split(pattern,string,maxsplit = 0,flags = 0 )

  通过出现模式来拆分字符串。如果在pattern中使用了捕获括号,那么 模式中所有组的文本也将作为结果列表的一部分返回。如果maxsplit不为 零,则最多会发生maxsplit分割,并将字符串的其余部分作为列表的最后一 个元素返回。

>>> re.split('[ab]', 'abcd')         # 先按'a'分割得到''和'bcd',在对''和'bcd'分别 按'b'分割

['', '', 'cd']

>>> re.split(r'\W+', 'Words, words, words.')

['Words', 'words', 'words', ''] >>> re.split(r'(\W+)', 'Words, words, words.') ['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

如果分隔符中有捕获组,并且该匹配组在字符串的开头匹配,则结果将从 空字符串开始。字符串的末尾也是如此:

>>> re.split(r'(\W+)', '...words, words...')

['', '...', 'words', ', ', 'words', '...', '']

6、re.findall(pattern,string,flags = 0 )

  以string列表形式返回string中pattern的所有非重叠匹配项。从左到右 扫描该字符串,并以找到的顺序返回匹配项。如果该模式中存在一个或多 个组,则返回一个组列表;否则,返回一个列表。如果模式包含多个组, 则这将是一个元组列表。空匹配项包含在结果中。

>>> re.findall('a', 'This is a beautiful place!')

['a', 'a', 'a']

>>>

7、re.finditer(pattern,string,flags = 0 )

返回一个迭代器,该迭代器在string类型的RE 模式的所有非重叠匹配中产 生匹配对象。 从左到右扫描该字符串,并以找到的顺序返回匹配项。空匹 配项包含在结果中。

>>> re.finditer('[ab]', 'This is a beautiful place!')

 >>> ret=re.finditer('[ab]', 'This is a beautiful place!')

>>> next(ret).group() #查看下一个匹配值

'a'

>>> [i.group() for i in ret]         #查看剩下所有匹配的值

['b', 'a', 'a']

>>>

8、re.sub(pattern,repl,string,count = 0,flags = 0 )   

        返回通过用替换repl替换字符串中最左边的不重叠模式所获得的字符 串。如果找不到该模式, 则返回的字符串不变。 repl可以是字符串或函 数;如果是字符串,则处理其中的任何反斜杠转义。即,将其转换为单个 换行符,将其转换为回车,依此类推。count参数表示将匹配到的内容进行 替换的次数

>>> re.sub('\d', 'S', 'abc12jh45li78', 2)         #将匹配到的数字替换成S,替换2个

'abcSSjh45li78'

>>> re.sub('\d', 'S', 'abc12jh45li78')         #将匹配到所有的数字替换成S

'abcSSjhSSliSS'

>>>

9、re.subn(pattern,repl,string,count = 0,flags = 0 )

执行与相同的操作sub(),但返回一个元组。(new_string, number_of_subs_made)

>>> re.subn('\d', 'S', 'abc12jh45li78', 3)

('abcSSjhS5li78', 3)

>>>

10、re.escape(pattern)

escape中的所有字符图案,除了ASCII字母,数字和'_'。如果要匹配可能包含正则表达式元字符的任意文字字符串,这将很有用。

>>> re.escape('python.exe\n')

'python\\.exe\\\n'

>>>

11、search()与match()方法

Python提供了两种基于正则表达式的原始操作: re.match()仅在字符串的 开头匹配,re.search()检查匹配项,在字符串中的任何位置检查匹配项(这 是Perl的默认设置)。

>>> re.match("c", "abcdef")         #Not match

>>> re.search("c", "abcdef")         #match

 >>>

以开头的正则表达式'^'可用于search()限制字符串开头的匹配项:

>>> re.match("c", "abcdef") #Not match

>>> re.search("^c", "abcdef") #Not match

>>> re.search("^a", "abcdef") #match

 

>>>

参考:

https://docs.python.org/3.6/library/re.html

https://www.cnblogs.com/Eva-J/articles/7228075.html#_label7

https://www.cnblogs.com/shenjianping/p/11647473.html

\xa0 是不间断空白符

str.replace(u’\xa0’, u’ ‘)

\u3000 是全角的空白符

str.replace(u’\u3000’,u’ ‘)

title.strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘) content.strip(“”).strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/820151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gitlab配置webhook

一.前言 当需要做jenkins的自动化触发构建时,就需要配置gitlab的webhook功能,以下来展示以下如何配置gitlab的webhook,jenkins的配置就不在这里展示了,可以去看我devops文章的完整配置 二.配置 在新版本的gitlab中&#xff0c…

MySQL对表的操作以及数据类型

文章目录 创建删除表查看修改重命名表新增列修改列的属性删除列修改列名插入数据 数据类型enum和setenum和set的查找 创建 create table table_name ( field1 datatype, field2 datatype, field3 datatype ) charset 字符集 collate 校验规则 engine 存储引擎;其中field 表示列…

Linux - 环境变量

1.基本概念 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数 如:我们在编写C/C代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但 是照样可以链接成功,生…

超级个体新时代Web3space西南旗舰合伙人招募活动圆满落幕

7月30日,一场备受瞩目的超级个体新时代—Web3space西南旗舰合伙人招募活动在四川省成都市G1咖啡馆会议室成功举办。本次活动吸引了30余位Web3领域的从业者和爱好者参与,现场氛围十分热烈。 首先,CyberDAO执行合伙人JR老师主持了Web3space商业…

【AI实战】开源中文 llama2 来了,30 分钟搭建 130 亿参数大模型 Llama2-Chinese-13b-Chat

【AI实战】开源中文 llama2 来了,30 分钟搭建 130 亿参数大模型 Llama2-Chinese-13b-Chat 简介环境配置环境搭建依赖安装 代码及模型权重拉取拉取 Llama2-Chinese拉取 Llama2-Chinese-13b-Chat 模型权重及代码 终端测试页面测试安装 gradio加载模型并启动服务 国内 …

配置VS Code 使其支持vue项目断点调试

起因 每个应用,不论大小,都需要理解程序是如何运行失败的。当我们写的程序没有按照自己写的逻辑走的时候,我们就会逐步一一排查问题。在平常开发过程中我们可能会借助 console.log 来排查,但是现在我们可以借助 VS Code 断点来调试项目。 前…

Linux下查阅帮助文档必学命令 man

Linux操作系统的使用中,我们经常会遇到很多问题,这个时候查询文档的能力至关重要,黄老师来推荐大家使用man,这时我们必须掌握的查阅能力: 最常用的命令: man 名称 man 数字(1~9) 名称 这里的数字分别代表:

JavaWeb 项目实现(四) 验证旧密码

1.验证旧密码 步骤很简单,从Session中取到当前密码,和修改密码界面得到的旧密码对比,判断是否相等。 特别之处在于实现用到了Ajax,可以不刷新整个页面的情况下与Web服务器进行通信。 2.Ajax Ajax(Asynchronous Java…

使用Gunicorn+Nginx部署Flask项目

部署-开发机上的准备工作 确认项目没有bug。用pip freeze > requirements.txt将当前环境的包导出到requirements.txt文件中,方便部署的时候安装。将项目上传到服务器上的/srv目录下。这里以git为例。使用git比其他上传方式(比如使用pycharm&#xff…

深度学习之用PyTorch实现线性回归

代码 # 调用库 import torch# 数据准备 x_data torch.Tensor([[1.0], [2.0], [3.0]]) # 训练集输入值 y_data torch.Tensor([[2.0], [4.0], [6.0]]) # 训练集输出值# 定义线性回归模型 class LinearModel(torch.nn.Module):def __init__(self):super(LinearModel, self)._…

nodejs安装及多版本安装与TS环境搭建

nodejs安装及多版本安装与TS环境搭建 方法一: 普通安装nodejs,确定只能安装一个。网址:链接: 官网 不同系统下安装:不同系统下的nodejs 方法二: 借助工具nvm,安装多个nodejs,随时切换nodejs版本 什么是…

禁止别人调试自己的前端页面代码

✨ 目录 🎈 为啥要禁止?🎈 无限 debugger🎈 无限 debugger 的对策🎈 禁止断点的对策🎈 忽略执行的代码🎈 忽略执行代码的对策🎈 终极增强防调试代码 🎈 为啥要禁止&#…

简约好看的帮助中心创建案例,赶紧点赞收藏!

在线帮助中心创建案例是提供用户支持和解决问题的有效方式之一。一个简约好看的帮助中心案例能够帮助用户快速找到需要的信息并解决问题,同时也能提升用户体验,增加点赞和收藏的可能性。 帮助中心创建案例分享: 酷学院: 酷渲&a…

item_get-KS-获取商品详情

一、接口参数说明: item_get-根据ID取商品详情 ,点击更多API调试,请移步注册API账号点击获取测试key和secret 公共参数 请求地址: https://api-gw.onebound.cn/ks/item_get 名称类型必须描述keyString是调用key(http://o0b.cn/…

‘vite‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件。

1.切换到工程目录下 2.执行npm install(最关键的一步了!!) 3. 最后直接运行:npm run dev 4.浏览器直接打开就行了!

断网监测网关可以自动重启路由器

网络设备监测系统是一种用于监测远程网络设备状态的设备,它可以通过断网、断电和网线监测等多种方式进行监测。该系统支持同时监测7台网络设备,并且具有1路继电器输出,可以用于自动重启或者远程重启网络设备。 网络设备监测系统内置微型处理器…

VR 变电站事故追忆反演——正泰电力携手图扑

VR(Virtual Reality,虚拟现实)技术作为近年来快速发展的一项新技术,具有广泛的应用前景,支持融合人工智能、机器学习、大数据等技术,实现更加智能化、个性化的应用。在电力能源领域,VR 技术在高性能计算机和专有设备支…

前端代码注释率

nodejs差代码注释率 /*** author duan* source https://editor.csdn.net/md/?not_checkout1&spm1011.2124.3001.6192* date 2023-7-7* * 统计指定目录下代码行数及注释率* * 用法: node count.js <路径> [后缀名]...* 后缀名不填的话默认为统计 .js 和 .ts 文件* *…

类Blip2的视觉文本多模态算法

一、Blip2出现的意义不比ChatGPT差 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 论文链接&#xff1a;https://arxiv.org/abs/2301.12597 代码仓库&#xff1a;https://github.com/salesforce/LAVIS/tree/mai…

解密GIS系统:数字化地球的智慧导航之道

作为现代科技与地理信息的完美结合&#xff0c;地理信息系统&#xff08;GIS&#xff09;在如今的社会中发挥着越来越重要的作用。GIS系统通过整合地理数据、分析空间关系和可视化信息&#xff0c;为我们呈现了一个数字化的地球&#xff0c;带来了许多令人惊叹的功能与作用。 ①…