Python爬虫--Scrapy框架安装

news2024/11/18 9:33:50

Scrapy框架安装 ,

Scrapy 是 Python 领域专业的爬虫开发框架,已经完成爬虫程序的大部分通用工具

它使用了 Twisted 异步网络库来处理网络通讯。整体架构大致如下

images

第一步:挂小灰机或者将要安装的文件下载到本地

Scrapy 框架安装踩坑中

为什么要挂小灰机呢??

因为有些扩展包需要科学上网才能下载,不挂的话会出错

如果确实挂不了的话,可以考虑才其他地方下载安装包到本地,

然后在本地进行安装。


第二步:升级pip

pip 是一个现代的,通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。

在安装扩展包的时候,可会因为 pip 版本过低安装不了

例如出现如下错误

images


这个时候我们可以考虑先升级 pip ,然后再安装扩展包

升级命令:

python -m pip install --upgrade pip

这样就成功升级了

images


第三步:安装wheel

Python的第一个主流打包格式是 .egg 文件,

现在大家庭中又有了一个叫做 Wheel(*.whl) 的新成员。

wheel 被设计成包含PEP 376兼容安装(一种非常接近于磁盘上的格式)的所有文件。

你可以这么理解,source是源代码,如果包含C++的化需要编译,

而 wheel 是编译后的,可以直接安装。 pip 默认的也是先下载 wheel 文件安装,没有的话再源码编译安装


安装 wheel 的话,我们采用网络安装,不需要挂小灰机

出现这个就表示已经安装好了

images


第四步:安装lxml

lxml 是 python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高

XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,

它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索


现在来安装 lxml ,我们采用下载安装,就是将安装包下载到本地进行安装

打开这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

然后找到 lxml 下载

这里 cp37 表示 python 版本 ,win_amd64 表示 Windows 位数是 64 位的

下载对应的版本就好了

images


然后下载到了 D 盘 ,Python37 文件夹下了

然后进入这个文件夹下安装即可

命令:

pip install lxml-4.4.1-cp37-cp37m-win_amd64.whl  #  pip install 文件全名

这样就安装成功了

images


第五步:安装Twisted

Twisted 介绍:


1.Twisted 是用 Python 实现的基于事件驱动的网络引擎框架。 Twisted 诞生于2000年初,

2.在当时的网络游戏开发者看来,无论他们使用哪种语言,手中都鲜有可兼顾扩展性及跨平台的网络库。

3.Twisted 的作者试图在当时现有的环境下开发游戏,这一步走的非常艰难,

4.他们迫切地需要一个可扩展性高、基于事件驱动、跨平台的网络开发框架,

5.为此他们决定自己实现一个,并从那些之前的游戏和网络应用程序的开发者中学习,汲取他们的经验教训。

6.Twisted 支持许多常见的传输及应用层协议,

7.包括 TCP 、 UDP 、 SSL/TLS 、HTTP 、IMAP 、SSH 、IRC 以及 FTP 。

8.就像python一样,Twisted 也具有“内置电池”(batteries-included)的特点。

9.Twisted对于其支持的所有协议都带有客户端和服务器实现,

10.同时附带有基于命令行的工具,使得配置和部署产品级的 Twisted 应用变得非常方便。

安装 Twisted ,我们也使用本地安装的方法

还是这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

还是跟之前一样,找到对应的版本下载

然后安装

这样就安装成功了,如果这样都安装不了的话,建议挂个小灰机再安装

images


第六步:安装Scrapy

前面的准备工作完成了

最后一步就是安装 Scrapy 了

这一步无需挂小灰机,如果确实怕出错,挂上也无所谓

命令:

pip install scrapy

出现这个就表示成功安装了

images


如果不确定是否安装成功,可以输入 scrapy

如果能够显示出信息,就说明成功了

images


总结:

到这里 Scrapy 就安装结束了

接下来开启新的爬虫之旅了!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1629855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【delphi 】常用资源网站

在Delphi的日常开发中,经常会用到第三方资源,本文收集的是开源的资源,建议收藏,以备不时之需! 目录 一、通用资源 1. JCL 2. JVCL 3. Alcinoe (mirror at GH) 4. Fundamentals Code Library 5. Spring4D 6. The…

IDEA实现Springboot项目自动热部署

每当我们在修改代码时,往往需要重新启动项目,这样不仅浪费时间而且很麻烦,我们可以通过IDEA的热部署来提高效率 1、首先点file >> settings >> Build Excution >> Compire,选择Build project auto matically 2.…

获取1年免费的SSL证书

之所以写这篇帖子是因为一直使用的阿里云和腾讯云免费的ssl证书由一年有效期相继改为了3个月,3个月换一次证书想太过麻烦了,还是需要一年有效期的证书更为适合 有两个站点推荐:(本次以FreeSSL为例) .JoySSL一个提供免费HTTPS证书申请的网站 FreeSSL.c…

25.Feign的最佳用法

将feignClient抽取为独立模块,并把接口有关的entity,默认feign的配置都放到这个模块中,提供给所有的消费者。 1.首先创建一个module,命名为feign-client,然后引入feigh的starter依赖。 2.将order-service中编写的UserCllient、User都移动到feign-clien…

【STM32+HAL】读取电池电量

一、准备工作 有关CUBEMX的初始化配置,参见我的另一篇blog:【STM32HAL】CUBEMX初始化配置 有关定时器触发ADC模式配置,详见【STM32HAL】ADC采集波形实现 有关软件触发ADC模式配置,详见【STM32HAL】三轴按键PS2摇杆 二、所用工具…

C++高级特性:C/C++内存结构模型(十一)

1、内存结构 C/C语言一只被认为是一种底层语言,与其他语言不一样,对内存结构理解是C/C程序员从入门到入土的开端。 其他编程语言对内存管理是透明的,程序员无序关心可以认为是一个黑盒;而C/C不一样理解好内存结构有利于编写健壮性…

day-26 查询网格图中每一列的宽度

思路: 利用两个for循环,外层for用于遍历列数,内层for用于计算每一列的宽度 解题方法: 内层for循环时: 1.当前所在位置的值为0 则宽度为1 2.当前所在位置的值大于0 则宽度通过不断取商得到 3.当前所在位置的值大于0 则…

Vitis HLS 学习笔记--IDE软件高效操作指引

目录 1. 简介 2. 实用软件操作 2.1 C/RTL Cosimulation 选项 2.2 Do not show this dialog again 2.3 New Solution 2.4 对比 Solution 2.5 以命令行方式运行(windows) 2.6 文本缩放快捷键 2.7 查看和修改快捷键 2.8 将Vitis HLS RTL 导入 Viv…

SpikingJelly笔记之梯度替代

文章目录 前言一、梯度替代二、网络结构三、MNIST分类1、单步模式2、多步模式 总结 前言 在SpikingJelly使用梯度替代训练SNN,构建单层全连接SNN实现MNIST分类任务。 一、梯度替代 1、梯度替代: 阶跃函数不可微,无法进行反向传播 g ( x ) …

自动驾驶新书“五一”节马上上市了

我和杨子江教授合写的《自动驾驶系统开发》终于在清华大学出版社三校稿之后即将在五一节后出版。 清华大学汽车学院的李克强教授和工程院院士撰写了序言。 该书得到了唯一华人图灵奖获得者姚期智院士、西安交大管晓宏教授和科学院院士以及杨强教授和院士等的推荐,…

java:SpringBootWeb请求响应

Servlet 用java编写的服务器端程序 客户端发送请求至服务器 服务器启动并调用Servlet,Servlet根据客户端请求生成响应内容并将其传给服务器 服务器将响应返回给客户端 javaweb的工作原理 在SpringBoot进行web程序开发时,内置了一个核心的Servlet程序DispatcherServlet,称之…

前端用a标签实现静态资源文件(excel/word/pdf)下载

接上文实现的 前端实现将二进制文件流,并下载为excel文件后, 实际项目中一般都会有一个模版下载的功能,一般都由服务端提供一个下载接口,返回文件流或url地址,然后前端再处理成对应需要的类型的文件。 但是&#xff…

从3秒飞降至25毫秒:揭秘惊艳的接口优化策略!

大家好,最近看到京东云的一位大佬分享的接口优化方案,感觉挺不错的,拿来即用。建议收藏一波或者整理到自己的笔记本中,随时查阅! 下面是正文。 一、背景 针对老项目,去年做了许多降本增效的事情&#xf…

如何学习思考能力?如何训练思考能力?思考不一样?问到底 对新敏感 主动 不怕试错 预测 独特一套

简单易行的方法:问到底 一个简单而有效的方法是使用"五个为什么"技术。当面临问题时,反复问自己为什么,至少问五次,以深入了解问题的根本原因。这有助于培养深入思考和分析问题的能力。 对新敏感 学习思考能力的关键…

PotatoPie 4.0 实验教程(23) —— FPGA实现摄像头图像伽马(Gamma)变换

为什么要进行Gamma校正 图像的 gamma 校正是一种图像处理技术,用于调整图像的亮度和对比度,让显示设备显示的亮度和对比度更符合人眼的感知。Gamma 校正主要用于修正显示设备的非线性响应,以及在图像处理中进行色彩校正和图像增强。 以前&am…

JAVA 中间件之 Mycat2

Mycat2应用与实战教程 1.Mycat2概述 1.1 什么是MyCat 官网: http://mycatone.top/ Mycat 是基于 java 语言编写的数据库中间件,是一个实现了 MySQL 协议的服务器,前端用户可以把它看作是一个数据库代理,用 MySQL 客户端工具和…

1. 房屋租赁管理系统(基于springboot/vue的Java项目)

1.此系统的受众 1.1 在校学习的学生,可用于日常学习使用或是毕业设计使用 1.2 毕业一到两年的开发人员,用于锻炼自己的独立功能模块设计能力,增强代码编写能力。 1.3 亦可以部署为商化项目使用。 2. 技术栈 jdk8springbootvue2mysq5.7&8…

C++ 动态链接库DLL创建及使用

一、动态链接库DLL创建 使用VS2022 创建 1、创建新解决方案 创建即可 2、创建动态链接库新项目 右键解决方案 语言选择C,选择动态链接库 填入项目名称,勾选:将解决方案和项目放在同一目录中 点击创建 3、创建后,显示dllmai…

西湖大学赵世钰老师【强化学习的数学原理】学习笔记2节

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部…

使用frp实现内网穿透教程

文章目录 简介frp 是什么?为什么选择 frp? 概念工作原理代理类型 内网穿透教程服务端安装和配置本地Windows(客户端)安装和配置本地Linux虚拟机(客户端)安装和配置使用 systemd 管理服务端注意事项 简介 f…