Python爬虫—requests模块简介
requests的作用与安装
作用:发送网络请求,返回响应数据
安装:pip install requests
requests模块发送简单的get请求、获取响应
需求:通过requests向百度首页发送请求,获取百度首页的数据
import requests
# 目标url
url = 'https://www.baidu.com'
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
print(response.text)
# 获取响应
res = requests.get(url, headers=headers)
print(res)
print(type(res))
# 获取请求的url, 响应的编码方式
print(res.url)
res.encoding = 'utf-8'
# 获取响应内容,会使用默认编码(有时候会乱码, 需要指定编码)
print(res.encoding)
print(res.text)
print(res.content.decode('utf-8'))
# 获取请求状态码
print(res.status_code)
# 获取响应对应的请求头
print(res.request.headers)
# 获取相应的cookie
print(res.cookies)
response的常用属性:
- response.text 响应体str类型
- response.encoding 从HTTP header中猜测的响应内容的编码方式
- response.content 响应体bytes类型
- response.status_code 响应状态码
- response.requests.headers 响应对应的请求头
- response.headers 响应头
- response.cookies 响应的cookie(经过了set-cookie动作)
- response.url 获取访问的url
- response.json() 获取json数据得到内容为字典(如果接口响应体的格式是json格式时)
- response.ok
如果status_code小于200,response.ok返回True。
如果status_code大于200,response.ok返回False。
response.text和response.content的区别
- response.text
- 类型:str
- 解码类型:requests模块自动根据HTTP头部对响应的编码作出有根据的推测,推测的文本编码
- 如何修改编码方式:response.encoding=“gbk/UTF-8”
- response.content
- 类型:bytes
- 解码类型:没有指定
- 如何修改编码方式:response.content.decode(‘utf-8’)
获取网页源码的通用方式:
response.content.decode()
response.content.decode('utf-8')
response.text
requests下载图片
# 在百度首页搜索李小龙图片,然后下载到本地
import requests
url = 'https://photocdn.sohu.com/20080725/Img258368622.jpg'
res = requests.get(url)
with open('李小龙.jpg', 'wb') as f:
f.write(res.content)
import requests
url = 'https://photocdn.sohu.com/20080725/Img258368622.jpg'
# 请求
res = requests.get(url)
# 写入
with open('李小龙.jpg', 'wb') as f:
# 写入文件 注意:必须二进制形式
f.write(res.content)
发送带header请求头的请求
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
url = 'https://i3.sinaimg.cn/ent/m/c/2010-11-26/U3987P28T3D3159293F326DT20101126121845.jpg'
# 请求
res = requests.get(url, headers=headers)
# 写入
with open('李小龙1.jpg', 'wb') as f:
f.write(res.content)
发送带参数的请求
- GET请求
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
kw = {
'wd': '李小龙'
}
url = 'https://www.baidu.com/s?'
res = requests.get(url, params=kw, headers=headers)
print(res.content.decode('utf-8'))
- POST请求
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
url = 'https://ifanyi.iciba.com/index.php?c=trans&m=fy&client=6&auth_user=key_web_new_fanyi&sign=NyHAgRlbDg6%2BBbQIiKcntdRriqVIAJSQ%2BxmfU0q7dIE%3D'
# post 携带表单数据
form_data = {
'from': 'zh',
'to': 'en',
'q': '我爱你中国'
}
# 发送post请求
res = requests.post(url, data=form_data, headers=headers)
print(res.json())