用python写网络爬虫:3.urllib库进一步的使用方法

news2024/11/19 17:40:11

文章目录

  • 异常处理
    • URLError
    • HTTPError
    • 设置超时时间
  • 链接的解析、构造、合并
    • urlparse方法
    • urlsplit方法
    • urljoin方法
    • urlencode方法
    • parse_qs方法
    • quote方法
  • Robots 协议
    • Robots 协议的结构
    • 解析协议
  • 参考书籍

在上一篇文章:用python写网络爬虫:2.urllib库的基本用法 已经介绍了如何使用urllib库的requests模块发送简单的请求,如果想方便地实现更多东西,还得学习新的东西

异常处理

使用urllib库中的error模块可以帮我们处理异常情况

URLError

如果我们打开一个不存在的网页,程序应该会报错,这时可以使用URLError命令返回错误原因,避免程序异常终止

from urllib import request, error 

try: 
    response = request.urlopen('https://cuiqingcai.com/index.htm')
except error.URLError as e: 
    print(e.reason)

HTTPError

是URLError错误的子类,专门处理HTTP请求错误,它有三个属性

  • code:返回HTTP状态码
  • reason:返回错误原因
  • headers:返回请求头
    代码示例:
from urllib import request,error 

try: 
    response = request.urlopen('https://cuiqingcai.com/index.htm') 
except error.HTTPError as e: 
    print(e.reason,e.code,e.headers)

输出结果如下
在这里插入图片描述
在一些情况下,e.reason,e.code 和 e.headers 也可能为 None。此时可以代替使用 e 本身来输出完整的异常信息。

print(e)

为了使代码更有效率,一般我们先使用HTTPError检查是否存在HTTPError,再使用父类的URLError检查是否存在URLError,即

from urllib import request, error

try: 
    response = request.urlopen('https://cuiqingcai.com/index.htm') 
except error.HTTPError as e: 
    print(e.reason, e.code, e.headers) 
except error.URLError as e: 
    print(e .reason) 
else: 
    print('Request Successfully')

设置超时时间

通过设置一个超时时间,防止程序因异常而长时间循环

import socket 
import urllib.request 
import urllib.error 

try: 
    response = urllib.request.urlopen('https://www.baidu.com',timeout = 0.01)
except urllib.error.URLError as e: 
    print(type(e.reason)) 
    if isinstance(e.reason,socket.timeout):
        print('TIME OUT')

链接的解析、构造、合并

urlparse方法

使用urlparse方法可以进行链接的解析

from urllib.parse import urlparse 

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(type(result), result)

返回结果是一个 ParseResult 类型的对象,它包含6个部分,分别是协议scheme、域名netloc、访问路径path、参数params、查询条件query、锚点fragment

<class ‘urllib.parse.ParseResult’> ParseResult(scheme=‘http’, netloc=‘www.baidu.com’, path=‘/index.html’, params=‘user’, query=‘id=5’, fragment=‘comment’)

这也暗示着,一个标准的URL链接格式应该是

scheme://netloc/path;params?query#fragment

urlparse方法的参数
urlparse(urlstring,scheme=‘’,allow_fragments=True)

  • urlstring:待解析的URL,必填参数
  • scheme:若原链接不含有协议信息,则为其指定协议(例如HTTP)。若原链接含有协议scheme,则失效
  • allow_fragments:是否带有fragments。是:正常解析fragments;否:忽略fragments,将其作为query、params或path的一部分

使用urlunparse方法按照URL的标准结构可以构造一个链接

from urllib.parse import urlunparse 

data =['http','www.baidu.com','index.html','user','a=6','comment'] 
print(urlunparse(data))

输出结果即为 http://www.baidu.com/index.html;user?a=6#comment

urlsplit方法

urlsplit方法大体与urlparse类似,区别在于urlsplit不解析params的部分,而将其与path合并

from urllib.parse import urlsplit

result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment') 
print(result)

结果即

SplitResult(scheme=‘http’, netloc=‘www.baidu.com’, path=‘/index.html;user’, query=‘id=5’, fragment=‘comment’)

类似地,可以使用urlunsplit方法构造链接,只需注意元素为5个

from urllib.parse import urlunsplit 

data =['http','www.baidu.com','index.html','a=6','comment']
print(urlunsplit(data))

urljoin方法

以上介绍了链接的解析和构造,下面介绍用urljoin方法进行链接的合并,一般输入两个参数,第一个参数为基础链接,第二个参数为新链接;urljoin会将基础链接拆分,将新链接没有的部分给补全,如下例

from urllib.parse import urljoin 

print(urljoin('http://www.baidu.com','FAQ.html')) 
print(urljoin('http://www.baidu.com','https://cuiqingcai.com/FAQ.html')) 
print(urljoin('http://www.baidu.com/about.html','https://cuiqingcai.com/FAQ.html')) 
print(urljoin('http://www.baidu.com/about.html','https://cuiqingcai.com/FAQ.html?question=2')) 
print(urljoin('http://www.baidu.com?wd=abc','https://cuiqingcai.com/index.php'))
print(urljoin('http://www.baidu.com','?category=2#comment')) 
print(urljoin('www.baidu.com','?category=2#comment')) 
print(urljoin('www.baidu.com#conent','?category=2'))

运行结果如下
在这里插入图片描述

urlencode方法

构造GET请求时,常常需要先声明一个字典,再将其化为请求的参数,这时需要urlencode方法

from urllib.parse import urlencode

params = {
    'name' : 'germey',
    'age': 22
}
base_url = 'http://www.baidu.com?'
url = base_url + urlencode(params)
print(url)

运行结果为 http://www.baidu.com?name=germey&age=22

parse_qs方法

若想将URL中的参数转回字典,可以使用parse_qs方法

from urllib.parse import parse_qs 

query= 'name=germey&age=22' 
print(parse_qs(query))

运行结果:{‘name’: [‘germey’], ‘age’: [‘22’]}

若想将参数转化为列表,则使用parse_qsl方法

from urllib.parse import parse_qsl 

query= 'name=germey&age=22' 
print(parse_qsl(query))

运行结果:[(‘name’, ‘germey’), (‘age’, ‘22’)]

quote方法

URL中带有中文参数时,有时可能会导致乱码的问题,此时用quote方法可以将中文字符转化为 URL 编码

from urllib.parse import quote 

keyword = '壁纸'
url = 'https://www.baidu.com/s?wd='+ quote(keyword) 
print(url)

输出结果:https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8

若想将编码转回文字,则使用unquote方法

from urllib .parse import unquote 
url = 'http://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8' 
print(unquote(url))

运行结果:http://www.baidu.com/s?wd=壁纸

Robots 协议

Robots 协议( Robots Exclusion Protocol ),也称作爬虫协议、机器人协议,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。 它通常是一个叫作 robots.txt的文本文件,一般放在网站的根目录下。

当爬虫访问一个站点时,它首先会检查这个站点根目录下是否存在 robots.txt 文件,如果存在,搜索爬虫会根据其中的规则来爬取,否则搜索爬虫便会访问所有可直接访问的页面。

Robots 协议的结构

robots.txt一般由三部分组成,User-agent、Disallow、Allow,分别代表对哪些爬虫生效,禁止爬取的范围,允许爬取的范围。

常见的爬虫名称

名称含义
*所有爬虫
BaiduSpider百度
Googlebot谷歌
360Spider360
YodaoBot有道

下面举几个 robots.txt 的例子

禁止所有爬虫访问任何目录:

User-agent: *
Disallow: /

允许所有爬虫访问所有目录

User-agent: *
Allow:

禁止所有爬虫访问网站某些目录:

User-agent: *
Disallow: /private/
Disallow: /tmp/

只允许某一爬虫访问:

User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /

解析协议

使用robotparser模块的RobotFileParser类进行解析robots.txt文件,只需要输入URL即可

urllib.robotparser.RobotFileParser(url='')

或者在声明时输入为空,并选择以下设置

  • set_url:传入URL链接
  • read:读取robots.txt文件,必须设置
  • parse:解析 robots. txt 文件,传入的参数是 robots.txt 部分行的内容,按照robots.txt的语法规则来分析这些内容
  • can_fetch:判断爬虫是否可以抓取这个 URL,返回结果是 True 或 False
  • mtime: 返回的是上次抓取和分析 robots.txt 的时间,利于定期检查来抓取最新的 robots.txt
  • modified:将当前时间设置为上次抓取和分析 robots.txt 的时间,避免频繁地获取 robots.txt 文件,节省网络资源并提高爬虫效率

示例:

from urllib.robotparser import RobotFileParser 
rp = RobotFileParser() 
rp.set_url('http://www.jianshu.com/robots.txt') 
rp. read() 

print(rp.can_fetch ('*','http://www.jianshu.com/p/b67554025d7d')) 
print(rp.can_fetch ('*','http://www.jianshu.com/search?q=python&page=l&type=collections'))

上述代码说明以上两个URL均不可被爬取

参考书籍

《python3 网络爬虫开发实战》崔庆才著

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1525439.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot3整合Knife4j4.x版本(Swagger3、OpenApi3)

&#x1f60a; 作者&#xff1a; 一恍过去 &#x1f496; 主页&#xff1a; https://blog.csdn.net/zhuocailing3390 &#x1f38a; 社区&#xff1a; Java技术栈交流 &#x1f389; 主题&#xff1a; SpringBoot3整合Knife4j4.x版本(Swagger3、OpenApi3) ⏱️ 创作时间&a…

【每日力扣】131.分割回文串与450.删除二叉搜索树中的节点

&#x1f525; 个人主页: 黑洞晓威 &#x1f600;你不必等到非常厉害&#xff0c;才敢开始&#xff0c;你需要开始&#xff0c;才会变的非常厉害。 131.分割回文串 给你一个字符串 s&#xff0c;请你将 s 分割成一些子串&#xff0c;使每个子串都是 回文串 。返回 s 所有可能的…

C#使用MiniExcel读取excel表格文件

使用MiniExcel读取excel表格文件 MiniExecl提供了几种读取方法。 准备测试数据 测试类&#xff1a; public class Person{public int Id { get; set; }public string Name { get; set; }public string Description { get; set; }public double Value { get; set; }}测试数据…

伦敦数据科学与Scikit-learn:一次探索与实践的旅程

1.题目 Data Science London正在举办一场关于Scikit-learn的聚会。 这个比赛是尝试、分享和创建 sklearn 分类能力示例的练习场&#xff08;如果这变成了有用的东西&#xff0c;我们可以跟进回归或更复杂的分类问题&#xff09;。Scikit-learn&#xff08;sklearn&#xff09;…

Django项目不显示图片,路径找不到

1.问题 创建Django项目简单写一个网页&#xff0c;文字能显示&#xff0c;图片却无法加载&#xff0c;路径错误&#xff0c;找不到图片。 2.背景 我的项目结构 C:. ├─.idea │ └─inspectionProfiles ├─app01 │ ├─migrations │ ├─templates │ │ ├─app0…

postgres让别人连接自己本地的库

本地安装了postgres&#xff0c;一般只能自己连接&#xff0c;如果别人想要连接我们自己的库&#xff0c;需要修改postgres的配置。 找到pg.gba.conf&#xff0c;路径是&#xff1a;postgres安装路径/PostgreSQL/data 使用记事本打开这个文件&#xff0c;将别人的ip填入其中即…

Python数学建模-2.5Pandas库介绍

2.5.1Pandas基本操作 Pandas是一个强大的Python数据分析库&#xff0c;它提供了快速、灵活且富有表现力的数据结构&#xff0c;设计初衷是为了处理关系型或标记型数据。Pandas的基本操作涵盖了数据的读取、处理、筛选、排序、分组、合并以及可视化等多个方面。 以下是一些Pan…

CentOS7环境——yum安装nginx

目录 1.修改yum源为阿里云 2.下载wget 3.下载阿里云的 CentOS-Base.repo 到/etc/yum.repos.d/ 4.清空原本yum缓存 5.生成新的阿里云的yum缓存&#xff0c;加速下载预热数据 6.下载epel-release 7.下载nginx 8.启动并检查nginx状态 1.修改yum源为阿里云 cp /etc/yum.re…

QQ 截图工具独立版安装使用

前言 之前截图一直使用的QQ截图&#xff0c;相比于微信截图&#xff0c;QQ截图还支持长截图&#xff0c;总体来说&#xff0c;QQ截图是我使用过的最好的截图工具 。但是现在公司不让用微信、QQ、钉钉等通讯软件&#xff0c;要求使用公司自研的通讯软件&#xff0c;这样就不能使…

EMQX 实践

MQTT 核心概念 发布订阅 MQTT 基于发布订阅模式&#xff0c;它解耦了消息的发送方&#xff08;发布者&#xff09;和接收方&#xff08;订阅者&#xff09;&#xff0c;引入了一个中间代理的角色来完成消息的路由和分发。发布者和订阅者不需要知道彼此的存在&#xff0c;他们…

IIS上部署.netcore WebApi项目及swagger

.netcore项目一般是直接双击exe文件&#xff0c;运行服务&#xff0c;今天有个需求&#xff0c;需要把.netcore项目运行在IIS上&#xff0c;遇到了一个小坑&#xff0c;在这里记录一下。 安装IIS&#xff0c;怎么部署站点&#xff0c;这些过于简单就不细说了&#xff0c;不知道…

java学习之路-方法讲解

目录 1.方法概念及使用 1.1什么是方法 1.2方法定义 1.3 方法调用的执行过程 1.4 实参和形参的关系(重要) 1.5 没有返回值的方法 2.方法重载 3.方法递归 3.1递归概念 3.2递归执行过程分析 3.3递归练习 代码示例1 代码示例2 1.方法概念及使用 1.1什么是方法 方法就是…

ipad电容笔有必要买吗?怎么选?四大缺陷弊端要严防!

电容笔有没有必要买还是得看我们个人的使用需求&#xff0c;如果平时做笔记、画画比较多的话&#xff0c;还是值得入手的&#xff0c;原装笔是好&#xff0c;但对于一些预算不多的朋友来说&#xff0c;价格还是过于高了&#xff0c;不是很划算。而且我们国内市场的平替电容笔也…

【Linux】基础 IO(文件系统 inode 软硬链接)-- 详解

一、理解文件系统 1、前言 我们一直都在说打开的文件&#xff0c;磁盘中包含了上百万个文件&#xff0c;肯定不可能都是以打开的方式存在。其实文件包含打开的文件和普通的未打开的文件&#xff0c;下面重点谈谈未打开的文件。 我们知道打开的文件是通过操作系统被进程打开&am…

在线BLOG网|基于springboot框架+ Mysql+Java+JSP技术的在线BLOG网设计与实现(可运行源码+数据库+设计文档)

推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 目录 前台功能效果图 管理员功能登录前台功能效果图 系统功能设计 数据库E-R图设计 lunwen参考 摘要 研究…

【Oracle篇】一文搞清exp/imp逻辑迁移工具的用法(第一篇,总共四篇)

☘️博主介绍☘️&#xff1a; ✨又是一天没白过&#xff0c;我是奈斯&#xff0c;DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、Linux&#xff0c;也在积极的扩展IT方向的其他知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章&#xff0c;并且也会默默的点赞收藏加关注❣…

{“message“:“Expecting value (near 1:1)“,“status“:400}

按照网页请求数据的方式无法获取数据 {“message”:“Expecting value (near 1:1)”,“status”:400} 将content-type改为以下请求数据方式 content-type: application-json,参考:https://stackoverflow.com/questions/72333040/why-400-response-status-code-when-send-post…

组建对等网

一、概念 对等网络&#xff08;Peer-to-Peer, P2P&#xff09;是一种分布式网络架构&#xff0c;其中每个参与节点&#xff08;称为"对等体"或"节点"&#xff09;既可以作为客户端也可以作为服务器&#xff0c;直接与网络中的其他节点分享资源&#xff08…

【Ubuntu20.04】Clion 配置 Libtorch + OpenCV

首先根据自己的CUDA版本安装正确对应的cuda和cudnn并进行配置。 这里安装的是cuda-11.3版本&#xff0c;以下基于这个版本进行安装。 1. 安装 Clion 因为Clion更容易直接编写CMakelists.txt&#xff0c;所以使用Clion作为IDE。 需要在File -> Setting -> CMake的CMake…

汽车电子零部件(6):DMS/OMS、CMS

前言: 有一个部件过去不曾有,而如今有可能要标准化标配化,那就是Driver Monitoring System (DMS)驾驶员监控系统、Occupant Monitoring System (OMS)乘客监控系统和Camera Monitor System(CMS)摄像头监控系统。 汽车视觉技术的创新推动先进驾驶辅助系统的变革(ADAS),并…