【零基础一看就会】Python爬虫从入门到应用（下）

一、urllib的学习

1.1 urllib介绍

1.2 urllib的基本方法介绍

urllib.Request

（1）构造简单请求

（2）传入headers参数

（3）传入data参数实现发送post请求（示例）

response.read()

1.3 urllib请求百度首页的完整例子

二、requests模块的入门使用

2.1 为什么要重点学习requests模块，而不是urllib

2.2 requests的作用与安装

2.3 requests模块发送简单的get请求、获取响应

response.text 和response.content的区别

练习：把网络上的图片保存到本地

2.4 发送带header的请求

思考

为什么请求需要带上header？

用法

完整的代码

2.5 发送带参数的请求

什么叫做请求参数

请求参数的形式：字典

请求参数的用法

关于参数的注意点

两种方式：发送带参数的请求

三、requests模块的深入使用

3.1 使用requests发送POST请求

requests发送post请求语法

POST请求练习

思路分析

（1）抓包确定请求的url地址

编辑

（2）确定请求的参数

（3）确定返回数据的位置

（4）模拟浏览器获取数据

一、urllib的学习

1.1 urllib介绍

除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同!

urllib在python中分为urllib和urllib2，在python3中为urllib

下面以python3的urllib为例进行讲解

1.2 urllib的基本方法介绍

urllib.Request

（1）构造简单请求

import urllib
#构造请求
request = urllib.request.Request("http://www.baidu.com")
#发送请求获取响应
response = urllib.request.urlopen(request)

（2）传入headers参数

import urllib
#构造headers
headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"} 
#构造请求
request = urllib.request.Request(url, headers = headers)
#发送请求
response = urllib.request.urlopen(request)

（3）传入data参数实现发送post请求（示例）

import urllib.request
import urllib.parse
import json

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.0 Safari/605.1.15',

}
data = {
    'cname': '',
    'pid': '',
    'keyword': '北京',
    'pageIndex': 1,
    'pageSize': 10,
}
# 使用post方式
# 需要
data = urllib.parse.urlencode(data).encode('utf-8')
req = urllib.request.Request(url, data=data, headers=headers)
res = urllib.request.urlopen(req)
print(res.getcode())
print(res.geturl())
data = json.loads(res.read().decode('utf-8'))
# print(data)
for i in data['Table1']:
	print(i)

response.read()

获取响应的html字符串，bytes类型

#发送请求
response = urllib.request.urlopen("http://www.baidu.com")
#获取响应
response.read()

1.3 urllib请求百度首页的完整例子

import urllib
import json

url = 'http://www.baidu.com'
#构造headers
headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"}
#构造请求
request = urllib.request.Request(url, headers = headers)
#发送请求
response = urllib.request.urlopen(request)
#获取html字符串
html_str = response.read().decode('utf-8')
print(html_str)

二、requests模块的入门使用

2.1 为什么要重点学习requests模块，而不是urllib

企业中用的最多的就是requests
requests的底层实现就是urllib
requests在python2 和python3中通用，方法完全一样
requests简单易用

2.2 requests的作用与安装

作用：发送网络请求，返回响应数据

安装：pip install requests

2.3 requests模块发送简单的get请求、获取响应

需求：通过requests向百度首页发送请求，获取百度首页的数据

import requests

# 目标url
url = 'https://www.baidu.com'

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)

response的常用属性：

response.text 响应体 str类型
response.encoding 从HTTP　header中猜测的响应内容的编码方式
respones.content 响应体 bytes类型
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request.cookies 响应对应请求的cookie
response.cookies 响应的cookie（经过了set-cookie动作）
response.url 获取访问的url
response.json() 获取json数据得到内容为字典 (如果接口响应体的格式是json格式时)
response.ok

如果status_code小于200，response.ok返回True。

如果status_code大于200，response.ok返回False。

思考：text是response的属性还是方法呢？

一般来说名词，往往都是对象的属性，对应的动词是对象的方法

response.text 和response.content的区别

response.text
- 类型：str
- 解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
- 如何修改编码方式：response.encoding="gbk/UTF-8"
response.content
- 类型：bytes
- 解码类型：没有指定
- 如何修改编码方式：response.content.deocde("utf8")

获取网页源码的通用方式：

response.content.decode()
response.content.decode("UTF-8")
response.text

以上三种方法从前往后尝试，能够100%的解决所有网页解码的问题

所以：更推荐使用response.content.deocde()的方式获取响应的html页面

练习：把网络上的图片保存到本地

我们来把www.baidu.com的图片保存到本地

思考：

以什么方式打开文件
保存什么格式的内容

分析：

图片的url：https://www.baidu.com/img/bd_logo1.png
利用requests模块发送请求获取响应
以二进制写入的方式打开文件，并将response响应的二进制内容写入

import requests

# 图片的url
url = 'https://www.baidu.com/img/bd_logo1.png'

# 响应本身就是一个图片,并且是二进制类型
response = requests.get(url)

# print(response.content)

# 以二进制+写入的方式打开文件
with open('baidu.png', 'wb') as f:
    # 写入response.content bytes二进制类型
    f.write(response.content)

2.4 发送带header的请求

我们先写一个获取百度首页的代码

import requests

url = 'https://www.baidu.com'

response = requests.get(url)

print(response.content)

# 打印响应对应请求的请求头信息
print(response.request.headers)

思考

对比浏览器上百度首页的网页源码和代码中的百度首页的源码，有什么不同？

代码中的百度首页的源码非常少，为什么？

为什么请求需要带上header？

模拟浏览器，欺骗服务器，获取和浏览器一致的内容

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

用法

requests.get(url, headers=headers)

完整的代码

import requests

url = 'https://www.baidu.com'

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 在请求头中带上User-Agent，模拟浏览器发送请求
response = requests.get(url, headers=headers)

# print(response.content)

# 打印请求头信息
print(response.request.headers)

2.5 发送带参数的请求

我们在使用百度搜索的时候经常发现url地址中会有一个 ?，那么该问号后边的就是请求参数，又叫做查询字符串

什么叫做请求参数

例1： gzip和deflate的几点区别 - 服务器技术_卡卡网

例2：百度安全验证

例1中没有请求参数！例2中?后边的就是请求参数

请求参数的形式：字典

kw = {'wd':'长城'}

请求参数的用法

requests.get(url,params=kw)

关于参数的注意点

在url地址中，很多参数是没有用的，比如百度搜索的url地址，其中参数只有一个字段有用，其他的都可以删除如何确定那些请求参数有用或者没用：挨个尝试！对应的,在后续的爬虫中，越到很多参数的url地址，都可以尝试删除参数

两种方式：发送带参数的请求

对https://www.baidu.com/s?wd=python发起请求可以使用requests.get(url, params=kw)的方式

# 方式一：利用params参数发送带参数的请求
import requests

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'

# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'

# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}

# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)

# 当有多个请求参数时，requests接收的params参数为多个键值对的字典，比如 '?wd=python&a=c'-->{'wd': 'python', 'a': 'c'}

print(response.content)

也可以直接对https://www.baidu.com/s?wd=python完整的url直接发送请求，不使用params参数

# 方式二：直接发送带参数的url的请求
import requests

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

url = 'https://www.baidu.com/s?wd=python'

# kw = {'wd': 'python'}

# url中包含了请求参数，所以此时无需params
response = requests.get(url, headers=headers)

三、requests模块的深入使用

3.1 使用requests发送POST请求

思考：哪些地方我们会用到POST请求？

登录注册（ POST 比 GET 更安全）
需要传输大文本内容的时候（ POST 请求对数据长度没有要求）

所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求。