接上篇《21、爬虫相关概念介绍》
上一篇我们介绍了爬虫的相关概念,本篇我们来介绍一下用Python实现爬虫的必备基础,urllib库的学习。
一、Python库的概念
我们今后的学习可能需要用到很多python库(library),及引用其他已经编写好的程序代码模块,来提高我们的开发效率。
python库(library)是指一组相关的模块和函数,用于提供特定领域或功能的支持。Python标准库和第三方库都属于Python库。
Python库通常是经过开发人员编写和测试的可重用代码集合。这些库提供了各种常用的函数、类、工具和算法,能够快速解决实际问题和加速开发过程。Python库主要有以下几类:
●标准库:Python官方提供的库,已经包含在Python解释器中,无需安装。Python标准库是指Python官方提供的、包含在Python解释器里的多个模块和包。这些模块和包提供了许多常用的功能,例如文件操作、网络通信、GUI开发、数据处理等等,可以直接在代码中使用。
Python标准库中的模块和函数都经过严格测试和验证,确保其稳定性和可靠性。因此,在实际开发中,我们通常会优先使用Python标准库提供的功能,而不是自己编写代码实现同样的功能。这不仅可以节省时间和精力,还可以提高代码的可维护性和可重用性。
●第三方库:由其他开发者提供的库,需要通过pip等包管理工具单独安装。
●框架:封装了一系列库和工具,提供了更高层次的抽象和专业化的功能,例如Django、Flask、Pygame等。
使用Python库可以大大提升开发效率,减少重复工作和错误率。如果某个功能没有现成的库,我们也可以自行编写并发布自己的库,方便其它人复用。
二、urllib简介
urllib是Python标准库中的一个模块,它包含了很多用于处理URL的功能。常见的用法包括发送HTTP请求、读取和解析网页内容等。具体来说,urllib模块中包含以下子模块:
●urllib.request: 用于发送HTTP请求和获取响应,支持HTTP、HTTPS和FTP协议。
●urllib.error: 包含与HTTP错误相关的异常类。
●urllib.parse: 用于解析和操作URL,例如解析URL参数。
●urllib.robotparser: 用于解析robots.txt文件,该文件告诉网络爬虫哪些页面可以访问。
三、发送HTTP请求
urllib.request模块提供了以下函数用于发送HTTP请求:
1、urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None): 打开一个URL并返回响应对象。可选参数包括POST数据、超时时间、证书文件等。
参数解释:
●url:必需,表示请求的URL地址,可以是一个字符串类型或者一个请求对象。
●data:可选,表示要发送的POST数据,需要以字节流(bytes)形式传递。如果不指定该参数,则默认为GET请求。
●timeout:可选,表示请求超时时间,单位为秒,默认值为None,即永远等待服务器响应。
●cafile:可选,表示SSL证书认证文件路径,通常为.pem文件,用于验证HTTPS请求的合法性。如果不指定该参数,则使用系统默认设置。
●capath:可选,表示SSL证书认证文件夹路径,通常为.pem文件夹,用于验证HTTPS请求的合法性。如果不指定该参数,则使用系统默认设置。
●cadefault:可选,如果设置为True,则使用系统默认的证书位置进行认证,否则需要指定cafile或capath参数。
●context:可选,表示SSL上下文,在处理HTTPS请求时需要使用,用于指定证书和协议等信息。
除了以上参数之外,urllib.request.urlopen()函数还支持一些其他的关键字参数,例如method、headers、origin_req_host、unverifiable等。这些参数可以用于自定义HTTP请求头、指定原始请求主机名、禁用危险的重定向等功能。
2、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None): 构造一个HTTP请求对象。可选参数包括POST数据、请求头信息等。
参数解释:
●url:必需,表示请求的URL地址,可以是一个字符串类型或者一个请求对象。
●data:可选,表示要发送的POST数据,需要以字节流(bytes)形式传递。如果不指定该参数,则默认为GET请求。
●headers:可选,表示请求头信息,需要以字典类型传递。如果不指定该参数,则使用默认的请求头。
●origin_req_host:可选,表示原始请求主机名,通常用于跨站点请求时设置。如果不指定该参数,则使用目标URL的主机名。
●unverifiable:可选,如果设置为True,则表示请求是否被视为不可验证的。这个参数通常由支持协议处理器设置。
●method:可选,表示HTTP请求方法,可以是GET、POST、PUT、DELETE等。如果不指定该参数,则默认为GET请求。
除了以上参数之外,urllib.request.Request()函数还支持其他的关键字参数,例如version、host、urlencoded等。这些参数可以用于自定义HTTP请求方法、指定请求主机名、编码URL参数等功能。在实际使用中,我们可以根据具体需求选择合适的参数来构造HTTP请求对象。
3、urllib.request.build_opener(*handlers): 创建一个自定义的URL打开器对象,可以通过添加处理器(handler)实现定制化的HTTP请求处理流程。
4、urllib.request.install_opener(opener): 安装一个自定义的URL打开器对象,使其成为默认打开URL的方法。
四、解析HTTP响应
urllib.request.urlopen()函数返回的响应对象包含了以下方法和属性:
●response.read([size]): 读取响应内容,可选参数指定最多读取的字节数。
●response.readline(): 读取一行响应内容。
●response.readlines([sizehint]): 读取所有响应内容并以列表形式返回,每个元素是一行响应内容。
●response.getcode(): 获取HTTP状态码。
HTTP响应状态码指示与HTTP请求相关的返回结果,通常由三位数字组成。其中,第一位数字表示响应类型,后面两位数字表示具体的响应含义。
以下是一些常见的HTTP响应状态码及其含义:
200 OK:请求成功
201 Created:成功创建新资源
204 No Content:请求已成功处理,但没有内容返回
301 Moved Permanently:请求的URL已移动到新地址
302 Found:请求的URL临时转移到其他地址
304 Not Modified:请求的资源未被修改,可以直接使用缓存数据
400 Bad Request:请求参数有误,服务器无法解析请求
401 Unauthorized:请求需要用户认证或者认证失败
403 Forbidden:请求被拒绝访问,通常是因为权限不足
404 Not Found:请求的资源不存在
500 Internal Server Error:服务器出现内部错误
除了以上状态码之外,HTTP协议还定义了很多其他的状态码,例如502 Bad Gateway、503 Service Unavailable等等。在处理HTTP请求和响应时,我们需要通过判断响应状态码来确定HTTP请求是否成功,并根据响应状态码进行下一步操作。
●response.headers: 响应头信息,是一个类字典对象,提供了各种方法来访问头信息。
●response.info(): 获取响应头信息,等价于response.headers。
●response.geturl(): 获取实际请求的URL,可能与原始请求的URL不同。
五、下载文本、图片和视频等文件
urllib.request.retrieve()是Python标准库中的一个函数,用于下载文件并保存到本地。该函数有两个参数:
●url:必需,表示要下载的文件的URL地址。
●filename:可选,表示文件保存路径和名称。如果不指定该参数,则使用默认的文件名。
除了以上参数之外,urllib.request.retrieve()函数还支持以下两个参数:
●reporthook: 可选,回调函数,每次读取块时都会调用此函数。该函数通常用于显示下载进度等信息。
●data:可选,POST数据,需要以字节流(bytes)形式传递。
使用urllib.request.retrieve()函数可以方便地下载文件并保存到本地,例如:
import urllib.request
url = 'https://www.baidu.com/img/PCfb_5bf082d29588c07f842ccde3f97243ea.png'
filename = 'baidu_logo.png'
urllib.request.urlretrieve(url, filename)
这段代码将下载位于url变量中的文件,并保存在名为filename的文件中。如此便实现了文件下载功能。
效果:
六、urllib其他常用函数
下面主要介绍一下urllib.parse模块的函数。
urllib.parse是Python标准库中的一个模块,用于URL解析、编码和构造相关的操作。该模块包含了各种与URL相关的函数和类,可以方便地进行URL参数解析、拼接、编码和反编码等操作。
1、quote函数
urllib.parse.quote()是Python标准库中的一个函数,用于将字符串编码为URL安全的格式。在HTTP请求和URL参数传递过程中,某些字符可能会被解释为特殊含义或不安全字符,此时需要使用quote()函数进行编码,以避免这些字符对数据产生影响。
该函数有一个必需参数string,表示要编码的字符串。除此之外,还有两个可选参数:
●safe:表示不需要编码的字符,可以是字符串类型或者字节流(bytes)类型。默认值为/,表示/字符不需要编码。
●encoding:表示原始字符串的编码方式,默认值为utf-8。
urllib.parse.quote()函数将原始字符串中所有非ASCII字符、保留字符(如:、/、?等)和不安全字符(如空格、换行符等)都转换为%后跟两位十六进制数的形式,表示其在URL中的编码格式。例如:
import urllib.parse
url = 'https://example.com/search?q='
query = 'python 编程'
encoded_query = urllib.parse.quote(query)
full_url = url + encoded_query
print(full_url)
结果:
https://example.com/search?q=python%20%E7%BC%96%E7%A8%8B
以上代码将字符串query中的空格编码成%20,汉字也被编码成%十六进制数的形式,生成了一个URL地址,其中搜索关键词已经被正确编码。在构造URL时,我们通常需要使用urllib.parse.quote()函数将URL参数进行编码,以确保URL的正确性和安全性。
2、urlencode函数
urllib.parse.urlencode()是Python标准库中的一个函数,用于将字典类型或包含键值对元组的可迭代对象编码为URL参数。在HTTP请求和URL参数传递过程中,我们需要将数据转换为URL安全格式,并拼接到URL地址后面进行传递,此时就可以使用urlencode()函数进行编码。
该函数有一个必需参数params,表示要编码的字典类型或可迭代对象(如列表、元组等)。除此之外,还有三个可选参数:
●doseq:表示是否需要将相同参数名的多个值都编码并拼接到URL参数中,默认值为False。
●safe:表示不需要编码的字符,可以是字符串类型或者字节流(bytes)类型。默认值为/,表示/字符不需要编码。
●encoding:表示原始字符串的编码方式,默认值为utf-8。
urllib.parse.urlencode()函数将字典类型或可迭代对象中所有的键值对按照key=value的格式进行拼接,并将其编码为URL安全格式。例如:
import urllib.parse
params = {'name': 'Alice', 'age': 20}
encoded_params = urllib.parse.urlencode(params)
url = 'https://example.com/search?' + encoded_params
print(url)
结果:
https://example.com/search?name=Alice&age=20
以上代码将params字典类型的数据编码为URL参数,并拼接到URL地址后面,生成了一个完整的URL地址。在构造URL时,我们通常需要使用urllib.parse.urlencode()函数将URL参数进行编码,以确保URL的正确性和安全性。
3、urlencode.encode函数
urllib.parse.urlencode(params).encode()方法将字符串类型的数据编码为bytes类型,例如:
data = 'name=Alice&age=20'
encoded_data = data.encode()
print(encoded_data)
结果:
b'name=Alice&age=20'
当我们需要使用POST方法向服务器传递数据时,通常需要将数据编码为bytes类型。因此,可以将urlencode()函数和encode()方法结合使用,将字典类型的数据编码为bytes类型的数据,例如:
import urllib.parse
params = {'name': 'Alice', 'age': 20}
encoded_params = urllib.parse.urlencode(params).encode()
以上代码将字典类型的params数据编码为URL参数形式的字符串,并将其转换为bytes类型的数据encoded_params。在实际开发中,我们可以根据具体需求选择合适的参数和方式,完成HTTP请求和URL参数的编码和解码工作。
七、示例代码
下面是一个简单的使用urllib.request模块发送HTTP请求并获取响应的示例代码:
import urllib.request
# 下面模拟浏览器向服务器发送请求
# 发送HTTP GET请求
response = urllib.request.urlopen('http://www.baidu.com/')
print(response.getcode())
# 发送HTTP POST请求
# city 是搜索城市名,date是要查询的天气日期
data = {'city': '郑州', 'date': '2023-05-31'}
# urlencode 将字典类型的数据data转换为URL参数形式的字符串(city=郑州&date=2023-05-31)
# .encode():将字符串类型的URL参数编码为bytes类型。由于HTTP请求中需要传递bytes类型的数据,因此需要使用该方法进行编码。
data = urllib.parse.urlencode(data).encode()
req = urllib.request.Request(url='https://api.asilu.com/weather/', data=data)
# 添加自定义请求头
req.add_header('User-Agent', 'Mozilla/5.0')
response = urllib.request.urlopen(req)
print(response.read().decode())
这个示例代码首先使用urllib.request.urlopen()函数发送HTTP GET请求,并打印响应状态码。接着,它构造了一个HTTP POST请求,并添加了自定义的User-Agent请求头,最后发送请求并打印响应内容。
结果:
200
{
"city": "郑州",
"update_time": "11:30",
"date": "5月31日",
"weather": [{
"date": "31日(今天)",
"weather": "阴转多云",
"icon1": "02",
"icon2": "01",
"temp": "28/19℃",
"w": "",
"wind": "东风转西风",
"icond": "104",
"iconn": "151"
}, {
"date": "1日(明天)",
"weather": "晴转多云",
"icon1": "00",
"icon2": "01",
"temp": "31/20℃",
"w": "3-4级",
"wind": "西北风转西南风",
"icond": "100",
"iconn": "151"
}, {
"date": "2日(后天)",
"weather": "阴",
"icon1": "02",
"icon2": "02",
"temp": "27/19℃",
"w": "3-4级转",
"wind": "北风转西北风",
"icond": "104",
"iconn": "104"
}, {
"date": "3日(周六)",
"weather": "小雨",
"icon1": "07",
"icon2": "07",
"temp": "25/19℃",
"w": "",
"wind": "西南风",
"icond": "305",
"iconn": "305"
}, {
"date": "4日(周日)",
"weather": "小雨转多云",
"icon1": "07",
"icon2": "01",
"temp": "23/18℃",
"w": "",
"wind": "西南风转西风",
"iconn": "151",
"icond": "305"
}, {
"date": "5日(周一)",
"weather": "多云转晴",
"icon1": "01",
"icon2": "00",
"temp": "30/20℃",
"w": "",
"wind": "南风转西南风",
"icond": "101",
"iconn": "150"
}, {
"date": "6日(周二)",
"weather": "阴",
"icon1": "02",
"icon2": "02",
"temp": "30/21℃",
"w": "3-4级",
"wind": "南风",
"icond": "104",
"iconn": "104"
}]
}
以上就是关于urllib库的基本使用,下一篇我们来学习通过urllib的post请求实现百度翻译的效果。
参考:尚硅谷Python爬虫教程小白零基础速通教学视频
转载请注明出处:https://blog.csdn.net/acmman/article/details/130975114