前言
本文是该专栏的第1篇,后面会持续分享python爬虫案例干货,记得关注。
地址:aHR0cDovL3d3dy5oZWJlaS5nb3YuY24vc2VhcmNoL3BjUmVuZGVyP3BhZ2VJZD1iOTdhMzg4MzNmNzM0M2NlYmMzMWRlYzQ0NTQ0ZjY4NA==
需求:以某政务网网站为例,采集其正文内容,并将其正文内容以docx格式保存为word。
废话不多说,跟着笔者直接往下看详细内容。(附带完整代码)
正文
1. 参数分析
将上述地址进行base64.b64decode转码获取url之后,使用浏览器(笔者这里用的google浏览器)打开之后,直接F12启动开发者工具。直接选中Network并点击Fetch/XHR,紧接着,鼠标滑到最底部的翻页按钮处。如下所示:
随机点击某个页数,比如第2或第3页,观察右侧控制台区域是否有刷新数据信息,如下所示: