第五章爬虫小程序-实例43-获取网页内容

news2025/4/16 0:39:23

1、准备工作

用Python编写的访问网页的程序中，有很多是调用 requests 库模块中的函数来进行操作，这个库模块把网页请求和操作等多项功能进行了高度封装，使其可以轻而易举完成浏览器的许多操作。

requests库是第三方模块，需要进行安装，安装命令如下所示。

pip install requests

2、网络爬虫基础知识

（1）robots 协议：网站往往通过授权，声明允许用户爬取哪部门数据、不允许爬取哪些数据，这些授权写在robots.txt 中，称为 robots 协议。

（2）HTTP协议

（3）HTTPS协议：该协议被称为是安全的HTTP协议，就是在HTTP协议增加了安全协议。HTTPS采取证书密钥加密方式，加密方式有对称密钥加密、非对称密钥和证书加密三种方式。

3、利用 get() 函数获取网页的内容

本节编程实例主要利用 Requests 库中的 get() 函数发送 GET 请求，获取网页的内容。样例代码如下所示。

import requests
if __name__=="__main__":
    vprotocol="https"
    url =vprotocol+"://www.baidu.com/s"
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1;WOW64) AppleWebKit/537.3.6(KHTML,like Gecko) Chrome/63.0.3239.132 Safari/537 QIHU 360SE'}
    queryword = input("请录入查询内容：")
    parm={'q':queryword}
    res=requests.get(url,params=parm,headers=headers)
    txt=res.text
    with open("./test1.html","w",encoding="utf-8") as fs:
        fs.write(txt)
    print("程序运行完成")

4、运行结果