Python爬虫请求库安装

news2024/12/26 0:07:49

请求库的安装

爬虫可以简单分为几步:抓取页面、分析页面和存储数据。

在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实现 HTTP 请求操作。在本教程中,我们用到的第三方库有 requests、Selenium 和 aiohttp 等。

在本节中,我们介绍一下这些请求库的安装方法。

requests 的安装

由于 requests 属于第三方库,也就是 Python 默认不会自带这个库,所以需要我们手动安装。下面我们首先看一下它的安装过程。

1. 相关链接

  • GitHub:https://github.com/requests/requests

  • PyPI:https://pypi.python.org/pypi/requests

  • 官方文档:http://www.python-requests.org

  • 中文文档:http://docs.python-requests.org/zh_CN/latest

2. pip 安装

无论是 Windows、Linux 还是 Mac,都可以通过 pip 这个包管理工具来安装。

在命令行界面中运行如下命令,即可完成 requests 库的安装:

pip3 install requests

这是最简单的安装方式,推荐使用这种方法安装。

3. wheel 安装

wheel 是 Python 的一种安装包,其后缀为 .whl,在网速较差的情况下可以选择下载 wheel 文件再安装,然后直接用 pip3 命令加文件名安装即可。

不过在这之前需要先安装 wheel 库,安装命令如下:

pip3 install wheel

然后到 PyPI 上下载对应的 wheel 文件,如最新版本为 2.17.3,则打开:requests · PyPI,下载 requests-2.17.3-py2.py3-none-any.whl 到本地。

随后在命令行界面进入 wheel 文件目录,利用 pip 安装即可:

pip3 install requests-2.17.3-py2.py3-none-any.whl

这样我们也可以完成 requests 的安装。

4. 源码安装

如果你不想用 pip 来安装,或者想获取某一特定版本,可以选择下载源码安装。

此种方式需要先找到此库的源码地址,然后下载下来再用命令安装。

requests 项目的地址是:https://github.com/kennethreitz/requests

可以通过 Git 来下载源代码:

git clone git://github.com/kennethreitz/requests.git

或通过 curl 下载:

curl -OL https://github.com/kennethreitz/requests/tarball/master

下载下来之后,进入目录,执行如下命令即可安装:

cd requests
python3 setup.py install

命令执行结束后即可完成 requests 的安装。由于这种安装方式比较烦琐,后面不再赘述。

5. 验证安装

为了验证库是否已经安装成功,可以在命令行模式测试一下:

$ python3
>>> import requests

首先输入 python3,进入命令行模式,然后输入上述内容,如果什么错误提示也没有,就证明已经成功安装了 requests。

Selenium 的安装

Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些 JavaScript 渲染的页面来说,这种抓取方式非常有效。下面我们来看看 Selenium 的安装过程。

1. 相关链接

  • 官方网站:Selenium

  • GitHub:https://github.com/SeleniumHQ/selenium/tree/master/py

  • PyPI:selenium · PyPI

  • 官方文档:Selenium with Python — Selenium Python Bindings 2 documentation

  • 中文文档:Selenium with Python中文翻译文档 — Selenium-Python中文文档 2 documentation

2. pip 安装

这里推荐直接使用 pip 安装,执行如下命令即可:

pip3 install selenium

3. wheel 安装

此外,也可以到 PyPI 下载对应的 wheel 文件进行安装,下载地址为 selenium · PyPI,如最新版本为 3.4.3,则下载 selenium-3.4.3-py2.py3-none-any.whl 即可。

然后进入 wheel 文件目录,使用 pip 安装:

pip3 install selenium-3.4.3-py2.py3-none-any.whl

4. 验证安装

进入 Python 命令行交互模式,导入 Selenium 包,如果没有报错,则证明安装成功:

$ python3
>>> import selenium

但这样做还不够,因为我们还需要用浏览器(如 Chrome、Firefox 等)来配合 Selenium 工作。

后面我们会介绍 Chrome、Firefox、PhantomJS 三种浏览器的配置方式。有了浏览器,我们才可以配合 Selenium 进行页面的抓取。

ChromeDriver 的安装

前面我们成功安装好了 Selenium 库,但是它是一个自动化测试工具,需要浏览器来配合使用,本节中我们就介绍一下 Chrome 浏览器及 ChromeDriver 驱动的配置。

首先,下载 Chrome 浏览器,方法有很多,在此不再赘述。

随后安装 ChromeDriver。因为只有安装 ChromeDriver,才能驱动 Chrome 浏览器完成相应的操作。下面我们来介绍下怎样安装 ChromeDriver。

1. 相关链接

  • 官方网站:https://sites.google.com/a/chromium.org/chromedriver

  • 下载地址:https://chromedriver.storage.googleapis.com/index.html

2. 准备工作

在这之前请确保已经正确安装好了 Chrome 浏览器并可以正常运行,安装过程不再赘述。

3. 查看版本

点击 Chrome 菜单 “帮助”→“关于 Google Chrome”,即可查看 Chrome 的版本号,如图

edeab89ec0b0428683f228ccb073f8be.png

这里我的 Chrome 版本是 58.0。

请记住 Chrome 版本号,因为选择 ChromeDriver 版本时需要用到。

4. 下载 ChromeDriver

打开 ChromeDriver 的官方网站,可以看到最新版本为 2.31,其支持的 Chrome 浏览器版本为 58~60,官网页面如图。

b7384c6250c4418c9b6223d9b1647cf0.png

 

如果你的 Chrome 版本号是 58~60,那么可以选择此版本下载。

如果你的 Chrome 版本号不在此范围,可以继续查看之前的 ChromeDriver 版本。每个版本都有相应的支持 Chrome 版本的介绍,请找好自己的 Chrome 浏览器版本对应的 ChromeDriver 版本再下载,否则可能无法正常工作。

找好对应的版本号后,随后到 ChromeDriver 镜像站下载对应的安装包即可,链接为 https://chromedriver.storage.googleapis.com/index.html。在不同平台下,可以下载不同的安装包。

5. 环境变量配置

下载完成后,将 ChromeDriver 的可执行文件配置到环境变量下。

在 Windows 下,建议直接将 chromedriver.exe 文件拖到 Python 的 Scripts 目录下,如图所示。

dfb85f98cb944fbbbb8c06804b832c7d.png

 

此外,也可以单独将其所在路径配置到环境变量。

在 Linux 和 Mac 下,需要将可执行文件配置到环境变量或将文件移动到属于环境变量的目录里。

例如,要移动文件到 /usr/bin 目录。首先,需要在命令行模式下进入其所在路径,然后将其移动到 /usr/bin 目录:

sudo mv chromedriver /usr/bin

另外,如果你的系统是 Mac OS X El Capitan 10.11 及更新的系统版本的话,需要先关闭 Rootless 内核保护机制,具体可参考:苹果OSX 10.11关闭rootless内核保护教程_Mac关闭rootless教程 _pc6苹果网MAC资讯。

当然,也可以将 ChromeDriver 配置到 $PATH。首先,可以将可执行文件放到某一目录,目录可以任意选择,例如将当前可执行文件放在 /usr/local/chromedriver 目录下,接下来在 Linux 下可以修改~/.profile 文件,在 Mac 下可以修改~/.bash_profile 文件,添加如下内容:

export PATH="$PATH:/usr/local/chromedriver"

保存后在 Linux 下执行如下命令:

source ~/.profile

在 Mac 下执行如下命令:

source ~/.bash_profile

即可完成环境变量的添加。

6. 验证安装

配置完成后,就可以在命令行下直接执行 chromedriver 命令了:

chromedriver

控制台所示的输出,则证明 ChromeDriver 的环境变量配置好了。

455880c67f324a7f97180ac0ded8eee4.png

 

随后再在程序中测试。执行如下 Python 代码:

from selenium import webdriver
browser = webdriver.Chrome()

运行之后,如果弹出一个空白的 Chrome 浏览器,则证明所有的配置都没有问题。如果没有弹出,请检查之前的每一步配置。

如果弹出后闪退,则可能是 ChromeDriver 版本和 Chrome 版本不兼容,请更换 ChromeDriver 版本。

如果没有问题,接下来就可以利用 Chrome 来做网页抓取了。

GeckoDriver 的安装

上一节中,我们了解了 ChromeDriver 的配置方法,配置完成之后便可以用 Selenium 驱动 Chrome 浏览器来做相应网页的抓取。

那么对于 Firefox 来说,也可以使用同样的方式完成 Selenium 的对接,这时需要安装另一个驱动 GeckoDriver。

本节中,我们来介绍一下 GeckoDriver 的安装过程。

1. 相关链接

  • GitHub:https://github.com/mozilla/geckodriver

  • 下载地址:https://github.com/mozilla/geckodriver/releases

2. 准备工作

在这之前请确保已经正确安装好了 Firefox 浏览器并可以正常运行,安装过程不再赘述。

3. 下载 GeckoDriver

我们可以在 GitHub 上找到 GeckoDriver 的发行版本,当前最新版本为 0.18,下载页面如图所示。

GeckoDriver 下载页面

c8ef84d85cb148d9ba722a63d2f24754.png

 

这里可以在不同的平台上下载,如 Windows、Mac、Linux、ARM 等平台,我们可以根据自己的系统和位数选择对应的驱动下载,若是 Windows 64 位,就下载 geckodriver-v0.18.0-win64.zip。

4. 环境变量配置

在 Windows 下,可以直接将 geckodriver.exe 文件拖到 Python 的 Scripts 目录下,如图所示。

0c0067cd5d024835bfc066cb30c80376.png

将 geckodriver.exe 文件拖到 Python Scripts 目录

 

此外,也可以单独将其所在路径配置到环境变量

在 Linux 和 Mac 下,需要将可执行文件配置到环境变量或将文件移动到属于环境变量的目录里。

例如,要移动文件到 /usr/bin 目录。首先在命令行模式下进入其所在路径,然后将其移动到 /usr/bin:

sudo mv geckodriver /usr/bin

当然,也可以将 GeckoDriver 配置到 $PATH。首先,可以将可执行文件放到某一目录,目录可以任意选择,例如将当前可执行文件放在 /usr/local/geckodriver 目录下。接下来可以修改~/.profile 文件,然后添加如下一句配置:

export PATH="$PATH:/usr/local/geckodriver"

保存后执行如下命令即可完成配置:

source ~/.profile

5. 验证安装

配置完成后,就可以在命令行下直接执行 geckodriver 命令测试:

geckodriver

控制所示的输出,则证明 GeckoDriver 的环境变量配置好了。

控制台输出

56750bc607d94c5b97ea8ed086d717fe.png

随后执行如下 Python 代码。在程序中测试一下:

from selenium import webdriver  
browser = webdriver.Firefox()

运行之后,若弹出一个空白的 Firefox 浏览器,则证明所有的配置都没有问题;如果没有弹出,请检查之前的每一步配置。

如果没有问题,接下来就可以利用 Firefox 配合 Selenium 来做网页抓取了。

现在我们就可以使用 Chrome 或 Firefox 进行网页抓取了,但是这样可能有个不方便之处:因为程序运行过程中需要一直开着浏览器,在爬取网页的过程中浏览器可能一直动来动去。目前最新的 Chrome 浏览器版本已经支持无界面模式了,但如果版本较旧的话,就不支持。所以这里还有另一种选择,那就是安装一个无界面浏览器 PhantomJS,此时抓取过程会在后台运行,不会再有窗口出现。在下一节中,我们就来了解一下 PhantomJS 的相关安装方法。

PhantomJS 的安装

PhantomJS 是一个无界面的、可脚本编程的 WebKit 浏览器引擎,它原生支持多种 Web 标准:DOM 操作、CSS 选择器、JSON、Canvas 以及 SVG。

Selenium 支持 PhantomJS,这样在运行的时候就不会再弹出一个浏览器了。而且 PhantomJS 的运行效率也很高,还支持各种参数配置,使用非常方便。下面我们就来了解一下 PhantomJS 的安装过程。

1. 相关链接

  • 官方网站:PhantomJS - Scriptable Headless Browser

  • 官方文档:Quick Start with PhantomJS

  • 下载地址:Download PhantomJS

  • API 接口说明:Command Line Interface | PhantomJS

2. 下载 PhantomJS

我们需要在官方网站下载对应的安装包,PhantomJS 支持多种操作系统,比如 Windows、Linux、Mac、FreeBSD 等,我们可以选择对应的平台并将安装包下载下来。

下载完成后,将 PhantomJS 可执行文件所在的路径配置到环境变量里。比如在 Windows 下,将下载的文件解压之后并打开,会看到一个 bin 文件夹,里面包括一个可执行文件 phantomjs.exe,我们需要将它直接放在配置好环境变量的路径下或者将它所在的路径配置到环境变量里。比如,我们既可以将它直接复制到 Python 的 Scripts 文件夹,也可以将它所在的 bin 目录加入到环境变量。

Windows ,Linux 及 Mac 环境变量的配置自行安装,关键在于将 PhantomJS 的可执行文件所在路径配置到环境变量里。

配置成功后,可以在命令行下测试一下,输入:

phantomjs

如果可以进入到 PhantomJS 的命令行,那就证明配置完成了,如图 所示。

f9e7fd16638541508202f2d2a7af13e8.png

 

3. 验证安装

在 Selenium 中使用的话,我们只需要将 Chrome 切换为 PhantomJS 即可:

from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get('https://www.baidu.com')
print(browser.current_url)

运行之后,我们就不会发现有浏览器弹出了,但实际上 PhantomJS 已经运行起来了。这里我们访问了百度,然后将当前的 URL 打印出来。

控制台的输出如下:

https://www.baidu.com/

如此一来,我们便完成了 PhantomJS 的配置,后面可以利用它来完成一些页面的抓取。

这里我们介绍了 Selenium 对应的三大主流浏览器的对接方式,后面我们会对 Selenium 及各个浏览器的对接方法进行更加深入的探究。

aiohttp 的安装

之前介绍的 requests 库是一个阻塞式 HTTP 请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。其实,这个过程比较耗费时间。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、响应的处理等,那么爬取效率一定会大大提高。

aiohttp 就是这样一个提供异步 Web 服务的库,从 Python 3.5 版本开始,Python 中加入了 async/await 关键字,使得回调的写法更加直观和人性化。aiohttp 的异步操作借助于 async/await 关键字的写法变得更加简洁,架构更加清晰。使用异步请求库进行数据抓取时,会大大提高效率,下面我们来看一下这个库的安装方法。

1. 相关链接

  • 官方文档:Welcome to AIOHTTP — aiohttp 3.9.1 documentation

  • GitHub:https://github.com/aio-libs/aiohttp

  • PyPI:aiohttp · PyPI

2. pip 安装

这里推荐使用 pip 安装,命令如下:

pip3 install aiohttp

另外,官方还推荐安装如下两个库:一个是字符编码检测库 cchardet,另一个是加速 DNS 的解析库 aiodns。安装命令如下:

pip3 install cchardet aiodns

3. 测试安装

安装完成之后,可以在 Python 命令行下测试:

$ python3
>>> import aiohttp

如果没有错误报出,则证明库已经安装好了。

我们会在后面的实例中用到这个库,比如维护一个代理池时,利用异步方式检测大量代理的运行状况,会极大地提升效率。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1418427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于vue实现待办清单案例

一、需求 新增内容; 删除内容; 统计操作; 清空数据。 示例图: 二、代码演示 1、基础准备 index.css代码 html, body {margin: 0;padding: 0; } body {background: #fff ; } button {margin: 0;padding: 0;border: 0;backgr…

BF16与FP16的区别

参考 BF16 与 FP16 在模型上哪个精度更高呢BF16 与 FP16 在模型上哪个精度更高呢【bf16更适合深度学习计算,精度更高】: 两者差异图示如下: BF16 是对FP32单精度浮点数截断数据,即用8bit 表示指数,7bit 表示小数。…

微博怎么把客户引流到私域?(引流技巧)

微博 1)背景banner图 在微博主页顶部的背景图里,可以引导添加个人微信、公众号等信息,通常配合福利引导用户添加。 2)个人简介 微博中比较常见的引流方式,可以直接在简介区内留下微信号、公众号名称、邮箱等信息&#…

差异性分析汇总

在做科研写论文的时候,我们总会听说要对数据进行差异性分析,那么何为差异性分析?差异性分析常用的方法有哪些?这些方法应该如何进行分类?如何选择?差异性分析的数据格式是怎么样的?软件如何操作…

MarkDown快速入门-以Obsidian编辑器为例

直接上图,左右对应。 首先是基础语法。 # 标题,几个就代表几级标题;* 单个是序号,两个在一起就是斜体;- [ ] 代表任务,注意其中的空格; 然后是表格按钮代码 | 使用中竖线代表表格&#xff0c…

Bean的注入方法和区别

Bean有几种注入方式?它们有什么区别? Bean对象中有以下几种注入方式: 属性注入Setter注入构造方法注入 属性注入 属性注入是我们最熟悉的,也是日常开发最常使用的一种注入方式,它的实现代码如下: Rest…

HTML小白入门学习-表单标签

一、前言 HTML标签千千万,要学习的占一半。上篇文章中我们学习了列表标签,针对有序列表、无序列表、自定义列表和嵌套列表进行简单的学习了解和实操。本篇文章将为大家介绍另一种常用标签,那就是表单类标签。 我们在网页中经常会看到表单的…

JavaScript版数据结构与算法(二)图、堆、搜索排序算法、算法设计思想

一、图 (一)图是什么 图是网络结构的抽象模型,是一组由边连接的节点。图可以表示任何二元关系,比如道路、航班… JS中没有图,但是可以用 Object 和 Array 构建图。图的表示法:邻接矩阵、邻接表… 1、邻接…

SOME/IP 协议介绍(七)传输 CAN 和 FlexRay 帧

SOME/IP 不应仅用于传输 CAN 或 FlexRay 帧。但是,消息 ID 空间需要在两种用例之间进行协调。 传输 CAN/FlexRay 应使用完整的 SOME/IP 标头。 AUTOSAR Socket-Adapter 使用消息 ID 和长度来构建所需的内部 PDU,但不会查看其他字段。因此,必…

如何发现帕鲁私服漏洞

白天当帕鲁、晚上抓帕鲁 相信所有的帕鲁玩家都不希望辛辛苦苦肝了几百小时抓的帕鲁因为网络入侵消失,除了抵御游戏内的强盗入侵,还要抵御现实世界的网络入侵,原本单纯的帕鲁变的复杂无比。 服务器弱口令、服务漏洞、未授权访问等入侵手段&a…

怎样自行搭建幻兽帕鲁游戏联机服务器?

幻兽帕鲁是一款深受玩家喜爱的多人在线游戏,为了获取更好的游戏体验,许多玩家希望能够自行搭建幻兽帕鲁游戏联机服务器,本文将指导大家如何自行搭建幻兽帕鲁游戏联机服务器。 自行搭建幻兽帕鲁游戏联机服务器,阿里云是一个不错的选…

【UVM源码】UVM Config_db机制使用总结与源码解析

UVM Config_db机制使用总结与源码解析 UVM Config_db机制介绍UVM Config_db 机制引入的背景基本介绍使用方法优缺点: UVM Config_db机制使用示例:UVM Config_db使用高阶规则Config_db资源优先级 UVM Config_db 源码解析 UVM Config_db机制介绍 UVM Conf…

合作文章(IF=13.6)| 神经损伤修复:“多效气体发射器”凝胶的妙用”

研究背景 周围神经损伤(PNI)包括对周围神经的形态学结构或生理功能的所有损伤。由于周围神经的结构和功能复杂,PNI往往导致预后不良和高致残率。药物递送移植物因其重建周围神经微环境的潜力而备受关注,但调节微环境的适当调控时…

2024年自动化测试岗位需求的 7 项必备技能 (最新版)

随着敏捷和DevOps等新时代项目开发方法逐渐取代旧的瀑布模型,测试需求在业界不断增长。测试人员现在正在与开发人员一起工作,自动化测试在许多方面极大地取代了手动测试。 如果您是自动化测试领域的新手,刚雇用您的组织将期望您快速&#xf…

ES 分词器

概述 分词器的主要作用将用户输入的一段文本,按照一定逻辑,分析成多个词语的一种工具 什么是分词器 顾名思义,文本分析就是把全文本转换成一系列单词(term/token)的过程,也叫分词。在 ES 中,Ana…

【网络项目】基于SSM的227闪烁物业管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

分表过多引起的问题/Apache ShardingSphere元数据加载慢

目录 环境 背景 探寻 元数据的加载策略 如何解决 升级版本到5.x 调大max.connections.size.per.query max.connections.size.per.query分析 服务启动阶段相关源码 服务运行阶段相关源码 受到的影响 注意事项(重要) 其他 环境 Spring Boot 2…

如何本地搭建Tale博客网站并发布到公网分享好友远程访问——“cpolar内网穿透”

文章目录 前言1. Tale网站搭建1.1 检查本地环境1.2 部署Tale个人博客系统1.3 启动Tale服务1.4 访问博客地址 2. Linux安装Cpolar内网穿透3. 创建Tale博客公网地址4. 使用公网地址访问Tale 前言 今天给大家带来一款基于 Java 语言的轻量级博客开源项目——Tale,Tale…

什么是协程goroutine?

文章目录 一、进程和线程进程和线程的痛点为什么 Java 坚持多线程不选择协程? 二、什么是协程CSP并发模型golang 线程模型和GMP一直创建协程会出什么问题 三、参考 一、进程和线程 进程就是应用程序的启动实例,进程拥有代码和打开的文件资源、数据资源、…

Pytest中doctests的测试方法应用!

在 Python 的测试生态中,Pytest 提供了多种灵活且强大的测试工具。其中,doctests 是一种独特而直观的测试方法,通过直接从文档注释中提取和执行测试用例,确保代码示例的正确性。本文将深入介绍 Pytest 中 doctests 的测试方法&…