文章目录
- 一 需求
- 二 分析
- 三 代码
- 四 补充说明
一 需求
爬取豆瓣电影的“纪录片”的电影信息数据
二 分析
老规矩,先在网页的“检查”中提取我们需要的信息
如下图所示。在“纪录片”那一页面,选择"network"----“XHR”----“preview”。
我们需要在3个文件中选择,罗列出如图页面电影数据的那个文件。
通过点开1-19数字前面的三角形,我们可以查看到每部电影的具体信息,这就是我们要爬取的数据内容。
然后从“preview"切换到”headers",可以得到URL与访问网站请求的方式get
,于是明白了在下面的代码中应该是requests.get()
不难发现,在代码中赋值给URL变量的内容显得十分冗长(问号后面的内容都是参数),一方面笔者希望将其缩短;
另一方面,由于把网页下拉,会出现新的电影信息,我们为了获取更多更新的电影数据,也需要通过修改参数的方式,从而爬取新的数据。
所以我们将页面下拉,找到其他代码编写时需要的信息。
提前剧透一下,由于网站设立了反爬机制,所以我们需要User-Agent
进行伪装。
而最下面的一系列参数就是我们需要的信息。
另外,这些参数会以字典的形式体现,因此需要将其全部加上双引号括起来,所以要在pycharm中如下图设置。将圈中的内容打勾后(意思是,单引号或双引号会悬浮环绕在周围),我们将某一段字符选中,直接打出双引号或者单引号符号,就可以为该段字符加上单引号或双引号。
三 代码
import requests
# 找到的url
url = "https://movie.douban.com/j/chart/top_list"
# 要封装的参数
# 原本url的问号后面的都是参数,我们将这部分内容封装成下面的参数
param = {
"type": "1",
"interval_id": "100:90",
"action": "",
"start": "0",
"limit": "20"
}
# 伪装成正常浏览器用户访问
headers = {
"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Mobile Safari/537.36"
}
# 发送的get请求,封装参数,并伪装成浏览器
response = requests.get(url=url,params=param,headers=headers)
# 将服务器返回的数据直接返回成json格式
print(response.json())
# 关闭访问的链接,防止以后访问其他网页报错
response.close()
四 补充说明
当我们把网页内容往下拉取,希望看到更多的电影资源时,我们代码中封装的参数会发生改变。经过对比,只有start
变化。所以如果想看到更多的电影信息,只需要改变start
后面的值即可。