爬虫获取静态网页数据

news2026/2/8 2:49:11

自动爬取网页数据

正常情况下是我们使用浏览器输入指定url，对服务器发送访问请求，服务器返回请求信息，浏览器进行解析为我们看到的界面，爬虫就是使用python脚本取代正常的浏览器，获取相应服务器的返回请求信息，并配合python强大的库进行解析分析，能够快速高效地帮助我们进行大数据分析。

不需要登录即可返回请求

以爬取虎牙交友频道每个直播封面图片为例

请求服务器
```
    url = 'https://www.huya.com/g/4079'
    result = requests.get(url=url).text
```
其实就是与cmd命令的 curl url一样，他们两个的返回是一样的，都是返回请求网页的源代码

curl url的返回太长，可以直接保存到文件中，方便比较 curl https://www.huya.com/g/4079 > C:\Users\72403\Desktop\py\cmdRes.txt
在网站源码内筛选我们需要的数据，这里用到xpath

我们可以在网站要爬取的内容右键选检查，就会看到对应内容的标签等信息
```
    data = etree.HTML(result)
    imgs = data.xpath('//img[@class="pic"]')
```

保存数据

  for img in imgs:
        imgUrl = img.xpath('./@data-original')[0]
        imgName = img.xpath('./@alt')[0]
        request.urlretrieve(imgUrl, r'C:/Users/72403/Pictures/video/huya/' + imgName + '.jpg')

都被爬到了本地：

需要登录才可返回请求

有的网站访客请求不能成功返回请求，这里以小b站为例

其他的都是一样的，就是要加上一个cookie，来告诉服务端我不是访客，我是你们尊贵的vip用户，快给我返回请求

获取自己已经登录账户的cookie

打开小b站，登录
按下F12进入调试窗口
选中网络
按下 alt+r 刷新界面
滑动到界面的最上方，找到www.bilibili.com这条

cookie就在图下方所示位置

请求的时候请求头加上cookie

headers = {
    # 假装自己是浏览器
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 			Chrome/73.0.3683.75 Safari/537.36',
    # 把你刚刚拿到的Cookie塞进来
	'Cookie':'把上一步得到的Cookie复制到此处'
}
session = requests.Session()
result = session.get('https://www.bilibili.com', headers=headers).text

完整代码

headers = {
    # 假装自己是浏览器
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 			Chrome/73.0.3683.75 Safari/537.36',
    # 把你刚刚拿到的Cookie塞进来
	'Cookie':'把上一步得到的Cookie复制到此处'
}
if __name__ == '__main__':
    url = 'https://www.bilibili.com'
    session = requests.Session()
    result = session.get('https://www.bilibili.com', headers=headers).text
    #result = requests.get(url=url).text
    data = etree.HTML(result)
    imgs = data.xpath('//img')
    for img in imgs:
        imgUrl = img.xpath('./@src')[0]
        imgName = img.xpath('./@alt')[0]
        print(imgName+":"+imgUrl)
		# 会出现有的图片路径不带https，加下面的判断
        if imgUrl.find("https://") !=-1:
            request.urlretrieve(imgUrl, r'C:/Users/72403/Pictures/video/bilibili/' + imgName + '.jpg')
        else:
            request.urlretrieve("https:"+imgUrl, r'C:/Users/72403/Pictures/video/bilibili/' + imgName + '.jpg')
        print("{%s}下载完毕!" % imgName)