〖Python网络爬虫实战⑪〗- 正则表达式实战(二)

news2025/1/22 17:52:23
  • 订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+

                python项目实战

                Python编程基础教程系列(零基础小白搬砖逆袭)

  • 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销(名额有限,先到先得)
  • 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。

 最近更新

〖Python网络爬虫实战⑦〗- requests的使用(一)

〖Python网络爬虫实战⑧〗- requests的使用(二)
〖Python网络爬虫实战⑨〗- 正则表达式基本原理

〖Python网络爬虫实战⑩〗- 正则表达式实战(一)

上节回顾

        上一节我们先通过一个简单的小案例,来学习正则表达式是如何使用的。学会了如何使用正则表达式,本文,我们通过一个图片网站,我们来练习正则表达式的使用。

⭐️正则表达式实战(一)

🌟环境使用

  • python 3.9
  • pycharm

🌟模块使用

  • requests

🌟模块介绍

  • requests

        requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

  • re

        re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。

🌟模块安装问题:

  • 如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

在pycharm中点击Terminal(终端) 输入安装命令

  • 安装失败原因:

  • 失败一: pip 不是内部命令

                解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out)

                解决方法: 因为是网络链接超时, 需要切换镜像源

   

    清华:https://pypi.tuna.tsinghua.edu.cn/simple
    阿里云:https://mirrors.aliyun.com/pypi/simple/
    中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
    华中理工大学:https://pypi.hustunique.com/
    山东理工大学:https://pypi.sdutlinux.org/
    豆瓣:https://pypi.douban.com/simple/
    例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入

                解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好,或者你pycharm里面python解释器没有设置好。

🌟案例实战

        我们前面通过一个简单的网站,学习了正则表达式。今天,我们来通过官方的网站,我们来获取其简单的数据,我们就用我们刚刚学习的正则表达式来获取,当然,我们也可以使用xpath和css获取,这个我们以后也会教学的。下面就按照爬虫的思路,一步一步的进行。

✨一、发送请求

        进入主页后,我们随便点击一个标签,我们已这个为例,其他的思路一样,后面,你会发现网址差不多,只要改部分内容即可。

import requests

url = 'https://wallhaven.cc/toplist' #toplist是可以改动的

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

response = requests.get(url=url,headers=headers)
print(response)

        这段代码将使用 requests 模块来获取 https://wallhaven.cc/toplist 网站上的数据。首先,它定义了一个变量 url,它将用于构建 HTTP 请求的 URL。接下来,它定义了一个字典 headers,它将用于设置 HTTP 请求的头部。最后,它使用 requests.get() 函数来发送 HTTP 请求,并将 response 变量作为参数传递。最后,它打印出 response 变量的值。

        运行之后,会返回<Response [200]>,说明我们请求到了网页,接下来就是获取数据。

知识穿插

        有的同学就好奇了,为什么加headers。为什么上一篇没有加,这里就加了。因为,绝大多数网站都有反爬措施,比如,对请求头的检查,看你是浏览器还是爬虫程序。这里,我们还是用上一篇的代码,不加请求头,访问另外一个网站,看看能不能得到我们想要的数据。

import requests
url = 'https://ssr2.scrape.center/'
res  = requests.get(url)
print(res)

我们运行之后就会报错。

requests.exceptions.SSLError: HTTPSConnectionPool(host='ssr2.scrape.center', port=443): Max retries exceeded with url: / (Caused by SSLError

 我们加上请求头,就可以正常获取数据,相信这个案例对比,可以加深大家的印象。

✨二、获取数据

我们用开发者工具,查找我们要的源代码。

         这样,我们就找到了源地址,一个是小图(分辨率比较低),一个是图片真实的网址(高分辨率),这里我们用正则表达式去匹配它。

html_url = re.findall('class="preview" href="(.*?)"',response.text,re.S)

        这段代码将使用正则表达式 re.findall() 在 HTTP 响应中查找所有类名为 preview 的链接,并将其返回给变量 html_url。正则表达式的模式 'class="preview" href="(.*?)"' 其中,class="preview" 表示链接的类名为 previewhref="(.*?)" 表示链接的 URL 为任意字符串,.*? 表示匹配任意数量的任意字符,但是尽可能少地匹配。re.S 表示换行匹配。

         通过观察我们发现,所有图片的源地址的位置都差不多。这样我们就获得了图片原网页的列表。

🌟总结

        大家就会发现我们就把每个链接地址获取了下来。正则表达式是不是很神奇。大家可以尝试获取其他的数据。我们获取到了图片地址,我们还可以保存下来,在后面的教学过程中,会教大家如何保存下来,这里重点是练习正则表达式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《LeetCode 热题 HOT 100》——寻找两个正序数组的中位数

本期给大家带来的是是《LeetCode 热题 HOT 100》第四题——寻找两个正序数组的中位数的题目讲解&#xff01;&#xff01;&#xff01;&#xff08;&#xff09; 本文目录 &#x1f4a5;题意分析 &#x1f4a5;解题思路&#xff1a; 1、直接法 &#xff08;❌&#xff09; …

2023年证券、基金、银行从业资格证考试计划

一、证券从业&#xff1a; 考试时间&#xff1a;统一测试拟于6月3日-4日举办1次&#xff0c;在全国41个城市举办。 报名网站&#xff1a;考试报名-中国证券业协会 (sac.net.cn) 目标&#xff1a;一般从业资格考试(入门资格考试) 考试人群&#xff1a;即将进入证券业从业的人…

Linux命令·ping

Linux系统的ping命令是常用的网络命令&#xff0c;它通常用来测试与目标主机的连通性&#xff0c;我们经常会说“ping一下某机器&#xff0c;看是不是开着”、不能打开网页时会说“你先ping网关地址192.168.1.1试试”。它通过发送ICMP ECHO_REQUEST数据包到网络主机&#xff08…

【ROS2指南-5】理解ROS2服务

目标&#xff1a;使用命令行工具了解 ROS 2 中的服务。 教程级别&#xff1a;初学者 时间&#xff1a; 10分钟 内容 背景 先决条件 任务 1 设置 2 ros2服务列表 3 ros2服务类型 4 ros2 服务查找 5 ros2界面展示 6 ros2 服务调用 概括 下一步 相关内容 背景 服务是 …

Ubuntu18.04安装linux-lab

Ubuntu18.04安装linux-lab 文章目录Ubuntu18.04安装linux-labdocker安装linux-lab安装意外事件流处理参考资料本文主要目的是搭建linux内核实验环境 因为工作需要所以学习linux内核&#xff0c;目前主要根据《linux内核完全注释》和《自己动手写操作系统》进行学习&#xff0c…

代码随想录【链表】---->反转链表、两两交换链表中的节点

文章目录206. 反转链表思路双指针实现递归写法24. 两两交换链表中的节点思路代码实现206. 反转链表 题目LeetCode206. 反转链表 思路 翻转链表实际上只需要将每一个节点的指针域指向前一个节点即可&#xff0c;原来第一个节点的指针域指向NULL指针 原头节点是1&#xff0c…

前端的性能对业务数据的影响

性能总论 一切没有 profiling 的性能都是耍流氓。凡是真正有价值的性能优化&#xff0c;必定是从端到端的业务场景建立体系来考虑的。 性能体系的建立可以分成以下几部分&#xff1a; 现状评估和建立指标&#xff1b;技术方案&#xff1b;执行&#xff1b;结果评估和监控。 …

【博学谷学习记录】超强总结,用心分享 | 架构师 Redis学习总结

文章目录1.Redis概述&安装配置安装启动2.Redis的Key的设计规范1、key名设计2、避免bigkey**string字符串类型**hash类型&#xff08;散列表&#xff09;list列表类型set集合类型sortedset有序集合类型bitmap位图 类型geo地理位置类型1.Redis概述&安装配置 官网&#x…

SQL SERVER数据库生成数据字典并且导出方法

SQL SERVER数据库生成数据字典并且导出方法打开SQL SERVER 2014找到你所需要建立数据字典的数据库在代码区输入如下SQL语句点击运行&#xff0c;导出或者带标题复制出来打开SQL SERVER 2014找到你所需要建立数据字典的数据库 右键→点击 新建查询 在代码区输入如下SQL语句 S…

椭圆型偏微分方程和格林函数

一、本文先简单地介绍一下Green 函数&#xff0c; 第一部分内容来自于文献 [0]BI-GreenNet: Learning Green’s Functions by Boundary Integral Network [1] Evans, L.C.: Partial Differential Equations. American Mathematical Society, Providence, R.I. (2010) [2]Learn…

Redis数据库的安装和命令使用以及python的调用

Redis 简介 Redis是完全开源免费的&#xff0c;是一个高性能的key-value数据库。 Redis与其他 key- value 缓存产品有以下三个特点&#xff1a; Redis支持数据的持久化&#xff0c;可将内存中的数据保存在磁盘中&#xff0c;重启时再次加载使用。Redis不仅支持简单的key-val…

故障定级和定责

故障管理的第一步是对故障的理解&#xff0c;只有正确地面对故障&#xff0c;我们才能够找到更合理的处理方式。 这便需要做两个工作&#xff1a;一是跟踪线上故障处理和组织故障复盘&#xff0c;二是制定故障定级定责标准&#xff0c;同时有权对故障做出定级和定责。 所以&a…

网上选课系统——管理员子系统的设计与实现

本系统是C/S&#xff08;客户端/服务器&#xff09;两层结构。采用C#数据库编程语言。服务器部分是SQL Server2000 关系数据库。客户端分为学生选课子系统和管理员管理子系统&#xff0c;它们通过存于后台数据库的数据产生联系。 无论是学生子系统还是管理员子系统&#xff0c…

Follow My Heart Of Apirl. 2023

This article will tell all my story in my daily file to make some deep memories in my heart for Apirl.2023. The line template: The template will be used as the mark of the storys start. 2023.04.10 Commodity n. 货物、商品、日用品 1. Global commodity prices …

《OpenCV3和Qt5计算机视觉应用开发》学习笔记

Qt Creator中使用opencv 在.pro文件中添加 INCLUDEPATH D:\MajorSoftware\opencv\opencv\build\include LIBS D:\MajorSoftware\opencv\opencv\mingw_build\lib\libopencv_*.a一个插件就是一个简单的库&#xff0c;如.dll&#xff0c;可以在运行时加载和使用插件&#xff…

基于模型预测控制(MPC)的微电网调度优化的研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

7针0.96寸OLED的HAL库代码(硬件SPI/全代码/stm32f1/CubeMX配置/包含有正负浮点数/100%一次点亮)

系列文章链接 HC-SR04超声波模块的使用 编码电机以及双电机驱动 4针 0.96OLED的使用 更多有意思的文章点击“我的主页” --------&#x1f610; 更多有意思的视频 -----> B站 想要亿只独角兽 --------&#x1f610; 前言 之前发布了一篇硬件I2C的0.96 OLED驱动代码&#…

全国计算机等级考试——二级JAVA完整大题题库【五十三道】

全国计算机等级考试二级 JAVA 题目内容 编写于2023.04.10 分为40道选择题和3道大题&#xff08;大题是程序填空类型&#xff09; 其中选择题只能进去做一次&#xff0c;一旦退出来则不可再进&#xff08;注意&#xff01;&#xff09;。大题可以重复进入&#xff0c;重复做。…

JavaScript【七】JavaScript中的内置顶层函数

文章目录&#x1f31f;前言&#x1f31f;内置&#x1f31f;顶层&#x1f31f;内置顶层函数&#x1f31f; Number()&#x1f31f; parseInt()&#x1f31f;parseFloat()&#x1f31f;String()&#x1f31f;Boolean()&#x1f31f; isNaN()&#x1f31f;eval()&#x1f31f;Numbe…

(详细)《美国节日》:某月的第几个星期几

目录 一、题目描述&#xff1a; 二、思路&#xff1a; 1、给定 年月日&#xff0c;如何知道这天是星期几&#xff1f; 2、已知这个月的第一天是星期几&#xff0c;如何知道第三个星期一是几号&#xff1f; 3、最后一个星期一 三、思路总结 四、代码 一、题目描述&#xf…