目录
- 一、安装知识
- (1)Python环境变量
- (2)Pycharm开发工具
- (3)requests模块
- 1、安装下载好Pycharm之后,找到终端进行下载requests模块
- 2、输入下载语法:
- 3、此次项目还需用到正则(re),
- 二、代码部分
- 1、导入下载好的requests模块
- 2、输入需要爬取网站的网址
- 3、通过请求网址拿到网页中所有的数据
大家好,我是辣条哥!
相信大家对于现在聊天的一些图片,表情包这些并不陌生,甚至现在还有专门互相斗图的!辣条有不不少爱斗图的朋友,但个人表情包储备量着实很少,但是架不住我有技术,于是乎我动起了我的小手,这里也告诉大家怎么操作,让大家在斗图路上一去不回头!
一、安装知识
(1)Python环境变量
网址:https://www.python.org/
下载与自己电脑版本相对应的环境即可
(2)Pycharm开发工具
网址:https://www.jetbrains.com/pycharm/download/#section=windows
(3)requests模块
1、安装下载好Pycharm之后,找到终端进行下载requests模块
2、输入下载语法:
pip install requests点击回车等待下载完成即可
3、此次项目还需用到正则(re),
但正则模块不需要下载,因为正则是Python自带的模块,我们不需要下载只需导入即可使用(如何导入模块在下方)
二、代码部分
1、导入下载好的requests模块
2、输入需要爬取网站的网址
(1)此次项目为斗图啦
(2)网址为字符串类型,在Pycharm中得需要用变量名来接收
3、通过请求网址拿到网页中所有的数据
(1)用到前面早已下载好的requests模块进行请求网址
(2)进行打印输出看数据有没有全部获取下来
打印内容:
(3)数据未获取完整,为什么呢?
① 浏览器也不蠢,浏览器检测出我们是使用爬虫进行抓取该网站信息,所以给我们进行反爬处理了,那么我们想达到“反反爬”的机制该如何来实现呢?——加“请求头”
② 那么请求头在哪呢?
1)在目标网页的空白处右键检查
2)找到请求头
3)CV进我们的项目中
我们所CV进来的请求头是属于字典类型,所以我们得遵循字典类型的规范,用花括号包含起来,并区分key与value值
4)写入之后需把请求头加到请求语句中去
5)进行重新打印输入
这样就拿到目标网页中所有的数据
6)拿到数据之后利用正则进行数据清洗,拿到我们想要图片的网址
a、目标网址在我们所获取到所有的代码中(如下图)
b、通过正则表达式拿到网址
c、打印输出
这样我们就能拿到所有目标图片的网址了,但是现在的网址是在列表中,那么我们如何才能从列表中把每一张图片的网址拿出来呢?
下周辣条会继续更新