Python 爬虫(七):pyspider 使用

news2024/11/20 14:39:02

1 简介

pyspider 是一个支持任务监控、项目管理、多种数据库,具有 WebUI 的爬虫框架,它采用 Python 语言编写,分布式架构。详细特性如下:

  • 拥有 Web 脚本编辑界面,任务监控器,项目管理器和结构查看器;

  • 数据库支持 MySQL、MongoDB、Redis、SQLite、Elasticsearch、PostgreSQL、SQLAlchemy;

  • 队列服务支持 RabbitMQ、Beanstalk、Redis、Kombu;

  • 支持抓取 JavaScript 的页面;

  • 组件可替换,支持单机、分布式部署,支持 Docker 部署;

  • 强大的调度控制,支持超时重爬及优先级设置;

  • 支持 Python2&3。

pyspider 主要分为 Scheduler(调度器)、 Fetcher(抓取器)、 Processer(处理器)三个部分,整个爬取过程受到 Monitor(监控器)的监控,抓取的结果被 Result Worker(结果处理器)处理。基本流程为:Scheduler 发起任务调度,Fetcher 抓取网页内容,Processer 解析网页内容,再将新生成的 Request 发给 Scheduler 进行调度,将生成的提取结果输出保存。

2 pyspider vs scrapy

  • pyspider 拥有 WebUI,爬虫的编写、调试可在 WebUI 中进行;Scrapy 采用采用代码、命令行操作,实现可视化需对接 Portia。

  • pyspider 支持使用 PhantomJS 对 JavaScript 渲染页面的采集 ;Scrapy 需对接 Scrapy-Splash 组件。

  • pyspider 内置了 PyQuery(Python 爬虫(五):PyQuery 框架) 作为选择器;Scrapy 对接了 XPath、CSS 选择器、正则匹配。

  • pyspider 扩展性弱;Scrapy 模块之间耦合度低,扩展性强,如:对接 Middleware、 Pipeline 等组件实现更强功能。

总的来说,pyspider 更加便捷,Scrapy 扩展性更强,如果要快速实现爬取优选 pyspider,如果爬取规模较大、反爬机制较强,优选 scrapy。

3 安装

方式一

pip install pyspider

这种方式比较简单,不过在 Windows 系统上可能会出现错误:Command "python setup.py egg_info" failed with error ...,我在自己的 Windows 系统上安装时就遇到了该问题,因此,选择了下面第二种方式进行了安装。

方式二

使用 wheel 方式安装。步骤如下:

  • pip install wheel 安装 wheel

  • 打开网址 https://www.lfd.uci.edu/~gohlke/pythonlibs/,使用 Ctrl + F 搜索 pycurl,根据自己安装的 Python 版本,选择合适的版本下载,比如:我用的 Python3.6,就选择带有 cp36 标识的版本。如下图红框所示:

  • 使用 pip 安装下载文件,如:pip install E:\pycurl-7.43.0.3-cp36-cp36m-win_amd64.whl

  • 最后还是使用 pip install pyspider 安装。

执行以上安装步骤后,我们在控制台输入 pyspider,如图所示:

出现上述结果说明启动成功,如果启动时一直卡在 result_worker starting...,我们可以再打开一个控制台窗口,同样输入 pyspider 进行启动,启动成功后关掉之前的窗口即可。

启动成功后,我们再验证一下,打开浏览器,输入 http://localhost:5000 访问,如图所示:

我们发现确实启动成功了。

4 快速上手

4.1 创建项目

首先,我们点击图形界面中的 Create 按钮开始创建项目,如图中红框所示:

然后会跳出信息填写窗口,如图所示:

  • Project Name:项目名

  • Start URL(s):爬取链接地址

我们需要填写 Project Name 和 Start URL(s),这里以链家网二手房信息为例:https://hz.lianjia.com/ershoufang,填写完成后点击 Create 按钮。结果如图所示:

4.2 爬虫实现

pyspider 访问 https 协议的网站时会提示证书问题(通常为 HTTP 599),因此我们需要在 crawl 方法中添加参数 validate_cert=False 来屏蔽证书验证。如图所示:

我们计划获取房子的单价(unit_price)、描述标题(title)、卖点信息(sell_point),编写具体实现如下所示:

from pyspider.libs.base_handler import *

class Handler(BaseHandler):    crawl_config = {    }
    @every(minutes=24 * 60)    def on_start(self):        self.crawl('https://hz.lianjia.com/ershoufang/', callback=self.index_page,validate_cert=False)
    @config(age=10 * 24 * 60 * 60)    def index_page(self, response):        for each in response.doc('.title').items():            self.crawl(each.attr.href, callback=self.detail_page,validate_cert=False)                @config(priority=2)    def detail_page(self, response):        yield {            'unit_price':response.doc('.unitPrice').text(),            'title': response.doc('.main').text(),            'sell_point': response.doc('.baseattribute > .content').text()        }
  • @every(minutes=24 * 60):通知 Scheduler 每天运行一次。

  • @config(age=10 * 24 * 60 * 60):设置任务的有效期限。

  • @config(priority=2):设定任务优先级

  • on_start(self):程序的入口。

  • self.crawl(url, callback):主方法,用于创建一个爬取任务。

  • index_page(self, response):用来抓取返回的 html 文档中对应标签的数据。

  • detail_page(self, response):返回一个 dict 对象作为结果。

我们点击运行按钮,如图所示:

点击之后,我们发现 follows 按钮处出现了提示信息,如图所示:

点击 follows 按钮,结果如图所示:

点击上图中红框圈起来的三角号按钮,结果如图所示:

我们随意选一条 detail_page,点击其右侧三角号按钮,结果如图所示:

从结果来看,已经可以爬取到我们需要的信息了。

4.3 数据存储

获取到信息之后,需要将信息存储起来,我们计划将数据存储到 MySQL 数据库。

首先,安装 pymysql,命令如下:

pip install pymysql

接着添加保存代码,完整代码如下:

​​​​​​​​​​​​​​

from pyspider.libs.base_handler import *import pymysql
class Handler(BaseHandler):    crawl_config = {    }
    def __init__(self):        # 下面参数修改成自己对应的 MySQL 信息         self.db = MySQLdb.connect(ip, username, password, db, charset='utf8')                 def add_Mysql(self, title, unit_price, sell_point):        try:            cursor = self.db.cursor()            sql = 'insert into house(title, unit_price, sell_point) values ("%s","%s","%s")' % (title[0],unit_price[0],sell_point);              print(sql)            cursor.execute(sql)            self.db.commit()        except Exception as e:            print(e)            self.db.rollback()        @every(minutes=24 * 60)    def on_start(self):        self.crawl('https://hz.lianjia.com/ershoufang/', callback=self.index_page,validate_cert=False)
    @config(age=10 * 24 * 60 * 60)    def index_page(self, response):        for each in response.doc('.title').items():            self.crawl(each.attr.href, callback=self.detail_page,validate_cert=False)
    @config(priority=2)    def detail_page(self, response):        title = response.doc('.main').text(),        unit_price = response.doc('.unitPrice').text(),        sell_point = response.doc('.baseattribute > .content').text()        self.add_Mysql(title, unit_price, sell_point)        yield {            'title': response.doc('.main').text(),            'unit_price':response.doc('.unitPrice').text(),            'sell_point': response.doc('.baseattribute > .content').text()        }

先测试一下是否能将数据保存到 MySQL 中,还是选一条 detail_page,如图所示:

点击其右侧三角号按钮,结果如图所示:

从输出结果来看是执行了保存操作,我们再到 MySQL 中看一下,如图所示:

数据已经存到了 MySQL 中了。

上面我们是手动操作保存的数据,接下来看一下如何通过设置任务保存。

点击当前页左上角的 pyspider 按钮,如图所示:

返回 dashboard 界面,如图所示:

我们点击 status 下方红框圈住的位置,将状态修改为 RUNNING 或 DEBUG,然后点击 actions 下方的 run 按钮即可。

参考:

http://docs.pyspider.org/en/latest/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/542586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能Python-python3_8_6怎么用

Python 3.8.6 全面介绍及使用指南 Python是一种高级编程语言,广泛应用于Web开发、数据科学、人工智能等领域。Python 3.8.6是Python 3.x系列的最新版本,在性能、稳定性、开发效率等方面有了重大的提升。本文将对Python3.8.6进行全面介绍,并给…

【野火启明_瑞萨RA6M5】梦的开始 ---- 点灯(FSP库)

文章目录 一、FSP配置二、hal_entry入口函数三、封装 LED 设备驱动程序下载验证 一、FSP配置 对于 Keil 开发环境: 拷贝一份之前的 Keil 工程模板 “06_Template”, 然后将工程文件夹重命名为 “11_GPIO_LED”,并进入该文件夹里面双击 Keil …

2023关于ES中的数据聚合相关操作

1.ES数据聚合 聚合(aggregation)可以实现对文档数据的统计、分析、运算。聚合常见有三大类。 桶(Bucket)聚合:用来对文档做分组 常用的方法 语句描述TermAggregation按照文档字段值分组Date Histogram按照日期阶梯分组,列如一周或一月为一组 度量(Me…

【走进Linux的世界】Linux---基本指令(1)

个人主页:平行线也会相交 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 平行线也会相交 原创 收录于专栏【Linux专栏】🎈 本专栏旨在分享学习Linux的一点学习心得,欢迎大家在评论区讨论💌 目录 ls指令pwd指令…

IS420UCSBH4A 用于高速应用中的Mark VIe系列

控制器IS420UCSBH4A由通用电气公司设计,用于高速应用中的Mark VIe系列,采用1066 MHz EP80579英特尔处理器。该控制器可与Mark VIe系列一起用于EX2100e和LS2100e应用。 IS420UCSBH4A技术规格 系列马克维处理机类型1066兆赫EP80579英特尔型号IS420UCSBH4A…

chatgpt赋能Python-python3_8_5怎么打开

Python3.8.5 是如何打开的? Python3.8.5 是近期发布的 Python 编程语言的一个版本,它具有很多新的功能和性能的改进。对于想要学习或者使用 Python3.8.5 的人,本文将介绍如何打开 Python3.8.5 环境。 步骤1:下载 Python3.8.5 首…

chatgpt赋能Python-python3_8怎么用

Python 3.8是什么? Python 3.8是一种编程语言版本,是在2019年10月发布的,它提供了许多新的功能和改进,其中包括优化的性能、新的语法糖,以及一些新的标准库模块,使Python 3.8成为了Python 3.x系列中最受欢…

你可能不需要担心,AI对你的工作造成威胁:万字长文解读科技革命与人类发展

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 上周,AI似乎成为全互联网的焦点了。谷歌在2023IO开发者大会上&#xff0c…

chatgpt赋能Python-python3_8怎么换行

Python是一种高级编程语言,其易用性和简洁语法深受程序员的喜爱。而在Python中,换行是一项必不可少的操作。今天,我们将介绍如何在Python3.8中进行换行,并提供一些有用的技巧。 Python3.8中的换行操作 在Python中,我…

一星期学sql day1

文章目录 了解部分(详细部分google一下)mysql的下载和安装mysql的启动MySQL的客户端的链接MySQL数据模型sql的通用语法sql 分类DDL:数据定义语言表操作数值类型字符串类型日期时间类型 DML(数据操作语言)添加数据 了解…

微信小程序 Vue+uniapp电脑手机笔记本预约维修系统 java python

系统具有专门的供用户使用的前台和专门供管理人员使用的后台。 前台用户使用小程序,后台信息处理使用基 MySql进行管理﹔通过后台添加手机信息、管理用户信息、管理预约信息﹔前台用户通过小程序登录,查看维修信息、发起预约。 管理员后端;首…

mysql入门(二)——函数与约束

mysql入门——函数与约束 mysql中的函数字符串函数字符串函数的基本应用 数值函数日期函数流程函数 约束概述约束的演示外键约束建立外键关联:删除外键外键的删除/更新行为为什么要采取外键约束 mysql中的函数 之前我们介绍过聚合函数,在MySQL中&#x…

chatgpt赋能Python-python3_7字体大小调整

Python3.7字体大小调整指南 您是否在使用Python3.7时遇到字体大小问题?本文将为您提供一份全面的Python3.7字体大小调整指南,帮助您轻松解决这一问题。 什么是字体大小问题 字体大小问题指的是当我们在使用Python3.7编辑器时,发现字体太小…

chatgpt赋能Python-python3_8字体大小

Python3.8 字体大小对程序员的重要性 在编写 Python 代码时,设置字体大小可能是最基本的操作之一,特别是对于长期进行编码工作的程序员来说。Python 3.8 为程序员提供了更好的字体调节能力,可以将字体大小设置为适合自己的大小,使…

chatgpt赋能Python-python3_9_4怎么用

介绍 Python是目前最为流行的编程语言之一,用途非常广泛,可以应用于各个领域。Python 3.9.4是Python最新版本,其中包含了很多新功能和改进,让Python编程更加简单和高效。 此文将解释Python 3.9.4的一些主要的功能,以…

JAVA-SE-异常

在JAVA中,将程序执行过程中发生的不正常行为称为异常。简单来说就是我们在运行或编译一段代码时所报的错误。 一,异常的体系结构 在JAVA中不同类型的异常,都有与其对应的类来进行描述。 …

实验三、数据高级查询实验

实验名称:实验3 数据高级查询实验 实验目的和要求: 实验目的和要求 掌握SQL嵌套查询和集合查询等各种高级查询的设计方法等。 实验软硬件要求: 计算机、MySQL,Navicat 实验内容、实验过程、所遇问题及其解决方法 实验内容:针…

Discourse 的用户信息中的 IP 地址显示的是 CloudFlare 的 IP 地址

因为使用了 CloudFlare 的反向地址。 所有 Discourse 获得的用户的 IP 地址其实是 CloudFlare 的服务器地址。 修改 好在 Discourse 已经提供了相关的解决方案。 需要在 Discourse 的配置文件中,添加下面的内容: “templates/cloudflare.template.ym…

分布式系统概念和设计——协调和协定

分布式系统概念和设计 协调和协定 分布式系统中的进程如何协调它们的动作和对共享值达成协议? 算法在分布式系统中的基本目的是:供一组进程来协调它们的动作或对一个或多个值达成协议 避免固定的主-从关系的主要原因是,经常需要系统即使在系统故障的情…

日志文件的轮循(logrotate)

文章目录 日志文件的轮循(logrotate)轮循基本原理轮循的基本配置实际测试logrotate的操作使用案例 自定义日志文件的轮循功能 日志文件的轮循(logrotate) 日志轮循(logrotate)是一种用于管理日志文件的工具,它可以帮助我们自动地对日志文件进…