一需求

爬取豆瓣电影的“纪录片”的电影信息数据

二分析

老规矩，先在网页的“检查”中提取我们需要的信息

如下图所示。在“纪录片”那一页面，选择"network"----“XHR”----“preview”。
我们需要在3个文件中选择，罗列出如图页面电影数据的那个文件。

在这里插入图片描述
通过点开1-19数字前面的三角形，我们可以查看到每部电影的具体信息，这就是我们要爬取的数据内容。

然后从“preview"切换到”headers"，可以得到URL与访问网站请求的方式get，于是明白了在下面的代码中应该是requests.get()

在这里插入图片描述

不难发现，在代码中赋值给URL变量的内容显得十分冗长（问号后面的内容都是参数），一方面笔者希望将其缩短；
另一方面，由于把网页下拉，会出现新的电影信息，我们为了获取更多更新的电影数据，也需要通过修改参数的方式，从而爬取新的数据。

所以我们将页面下拉，找到其他代码编写时需要的信息。

在这里插入图片描述

提前剧透一下，由于网站设立了反爬机制，所以我们需要User-Agent进行伪装。

而最下面的一系列参数就是我们需要的信息。

另外，这些参数会以字典的形式体现，因此需要将其全部加上双引号括起来，所以要在pycharm中如下图设置。将圈中的内容打勾后（意思是，单引号或双引号会悬浮环绕在周围），我们将某一段字符选中，直接打出双引号或者单引号符号，就可以为该段字符加上单引号或双引号。

在这里插入图片描述

三代码

import requests

# 找到的url
url = "https://movie.douban.com/j/chart/top_list"

# 要封装的参数
# 原本url的问号后面的都是参数，我们将这部分内容封装成下面的参数
param = {
    "type": "1",
    "interval_id": "100:90",
    "action": "",
    "start": "0",
    "limit": "20"
}

# 伪装成正常浏览器用户访问
headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Mobile Safari/537.36"
}

# 发送的get请求，封装参数，并伪装成浏览器
response = requests.get(url=url,params=param,headers=headers)

# 将服务器返回的数据直接返回成json格式
print(response.json())

# 关闭访问的链接，防止以后访问其他网页报错
response.close()