文章目录
- requests模块
- 链接拼接(params参数)
- UA伪装(headers参数)
- POST请求
- 页面局部信息爬取(GET)
- 爬取国家药品监督管理监督总局中基于中华人民共和国化妆品生产许可证相关数据
- 爬取图片
爬虫分类
通用爬虫:爬取系统重要组成部分,抓取的是一整张页面
聚焦爬虫:是建立在通用爬虫的基础上,爬取的是页面中特定的局部内容
增量式爬虫:检测网站中数据更新的情况,只会爬取网站中最新更新出来的内容
requests模块
requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高
requests模块下载:pip install requests
请求流程
:指定url,发起请求,获取响应数据,数据解析,持久化存储
import requests
# 制定URL
url = 'https://www.baidu.com/'
# 发起请求,获取请求数据
r = requests.get(url)
print(r.text) # 输出网页内容
# 保存源码为baidu.htmnl
with open('./baidu.html', 'w', encoding='utf-8') as fp:
fp.write(r.text)
print(r.status_code) #状态码,200表示成功
# 200
链接拼接(params参数)
如果GET请求还需要添加额外的信息,可以利用params参数,比如url为http://httpbin.org/get
,需要访问的是http://httpbin.org/get?name=gremey&age=22
,则可以利用params参数,代码如下:
import requests
data = {
'name':'gremey',
'age':22
}
url = 'http://httpbin.org/get'
r = requests.get(url, params=data)
UA伪装(headers参数)
UA:USer-Agent请求载体的身份
UA检测:门户网站的服务器会检测对应请求的载体身份,如果监测到请求身份为某一款浏览器,说明该请求是一个正常请求 但是如果检测到请求的载体身份标识不是基于某一款浏览器,则标识该浏览为不正常的请求(爬虫),则服务器很可能拒接该请求
UA伪装:让爬虫对应得请求身份标识伪装成某一款浏览器
import requests
# UA伪装:将对应的User-Agent封装到一个字典
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
url = 'https://www.baidu.com/'
r = requests.get(url,headers=headers)
POST请求
以百度翻译为例,在左上方输入单词,左下方会立马实时出现翻译(页面局部刷新,ajax请求),目标是获取左下方红方框的内容
在左边选择找到右边kw内容是上面输入的单词内容
在下面图中可以看出这是POST请求,请求的URL是https://fanyi.baidu.com/sug,请求的数据是json格式,json格式爬出来的数据可以使用json()方法转化为字典格式,不是json格式不能使用json()方法
import requests
import json
url = 'https://fanyi.baidu.com/sug'
# post请求参数处理(同get请求)
data = {
'kw': 'pig'
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, data=data,headers=headers)
print(r.text)
#如果服务器是json类型才可以使用json方法
print(r.json())
# 保存json格式文本
f = open('./pig.json', 'w', encoding='utf-8')
json.dump(r.json(), fp=f, ensure_ascii=False)
再以肯德基店铺查询为例,他的data数据如下:
keywoed代表查询地点,pageIndex参数代表页码数
页面局部信息爬取(GET)
以爬取豆瓣电影评分为例,到豆瓣官网查看电影排行榜,选择喜剧,不断往下滑动,下面会不断刷新出新的内容
该请求的URL为https://movie.douban.com/j/chart/top_list,加上其下方的几个data参数,可以看到这个请求的数据也是json格式,也可以用json方法
import requests
import json
url = 'https://movie.douban.com/j/chart/top_list'
data = {
'type': '24',
'interval_id': '100:90',
'action': '',
'start': '1', # 从库中的第几部开始的位置
'limit': '20' # 一次取多少个
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.get(url=url, params=data, headers=headers)
print(r.json())
# 保存json格式文本
f = open('./pig.json', 'w', encoding='utf-8')
json.dump(r.json(), fp=f, ensure_ascii=False)
爬取国家药品监督管理监督总局中基于中华人民共和国化妆品生产许可证相关数据
URL:http://125.35.6.84:81/xk/
到该网站点击红方框内的会显示信息详情页面
详情页面如下,我们需要的就是这里面的数据
import requests
url = 'http://125.35.6.84:81/xk/'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.get(url=url, headers=headers)
with open('./a.html', 'w', encoding='utf-8') as fp:
fp.write(r.text)
通过上面代码爬取保存的页面和浏览器的相比,首页中没有企业名称等信息,截图如下:
不显示企业信息,则该信息不是通过http://125.35.6.84:81/xk/这个URL获取的,而是通过其他方法加载出来的数据,称为动态加载的数据(通过ajax请求得到的)
按F12打开页面详细信息,从新进入页面,页面下方XHR里面会显示一个数据包,如下:
这里面有请求的URL,该请求为POST请求,数据类型为json格式,请求的data数据如下:这里可以爬取获得后面需要的id值
进入企业详情页面,按F12打开页面详情,刷新该页面,发现左下方有个数据包,右边有URL请求方式,以及id参数等信息
所有企业详情页面的URL都相同,只有id参数不同
如果我们可以批量获取多家企业的id后,就可以讲id和url形成一个完整的详情页面对应数据的Ajax请求的url
import requests
# 批量获取企业id值
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
# 参数封装
data = {
'on': 'true',
'page': '1', # 页面,通过这里可以便利获取每页所有企业信息
'pageSize': '15', # 页面显示企业数量
'productName': '',
'conditionType': '1',
'applyname': '',
'applysn': '',
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, headers=headers, data=data)
jsons = r.json()
# 存储id
id_list = []
for dic in jsons['list']:
id_list.append(dic['ID'])
# 获取企业详情数据
post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
for id in id_list:
data = {
'id': id
}
js = requests.post(url=post_url, headers=headers, data=data)
# 输出企业详情页面的具体信息数据
print(js.json())
爬取图片
在百度图片中找一张图片,复制图片的链接,然后爬取该链接即可获取其图片(浏览该链接会有图片)
import requests
url = 'https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2021%2F0919%2F2bb40aecj00qzo05j000dd200jg00etg00jg00et.jpg&thumbnail=650x2147483647&quality=80&type=jpg'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, headers=headers)
with open('baidu.jpg', 'wb') as f:
f.write(r.content)
# text(字符串) content(二进制) json(对象)