如何自己搭建Scrapy爬虫框架

news2026/4/10 14:21:25

前言
当你学了一段时间爬虫后，就会知道各种功能太多而且麻烦。还不如自己整理个框架方便的多。因此，从开始写爬虫程序开始，就会慢慢的接触到一些有关爬虫的框架、效率提升而且扩展也很方便。接下来我将会以Scrapy爬虫框架将我的学习过程记录下供大家参考指正。

Python惊喜福利点击跳转

这里写目录标题

一、安装
- 二、创建爬虫工程
- - 三、爬虫工程目录结构
  - 四、定义需要爬取数据字段
  - 五、创建一个爬虫文件

一、安装

$ pip install scrapy

二、创建爬虫工程

$ scrapy startproject wikiSpider

三、爬虫工程目录结构

wikiSpider项目文件夹的目录结构如下所示:

scrapy.cfg
- wikiSpider
    - __init__.py
  - items.py  
  - pipelines.py
  - settings.py
  - spiders
       - __init__.py

四、定义需要爬取数据字段

我们准备爬取页面的标题在items.py文件中，定义一个Article类，然后编写如下代码：

from scrapy import Item,Field
class Article(Item):
    title = Field()

五、创建一个爬虫文件

为了创建一个爬虫，我们需要在wikiSpider/wikiSpider/spiders/文件夹里增加一个 articleSpider.py文件。

在新建的articleSpider.py文件里面，写如下代码：

from scrapy.selector import Selector
from scrapy import Spider
from wikiSpider.items import Article

class ArticleSpider(Spider):
    name = 'article'
    allowd_domains = ["en.wikipedia.org"]
    start_urls = ['http://en.wikipedia.org/wiki/Main_Page','http://en.wikipedia.org/wiki/Python_%28programming_language%29']

    def parse(self,response):
        item = Article()
        title = response.xpath('//h1/text()')[0].extract()
        print("Title is : "+title)
        item['title'] = title
        return item

这个类的名称(ArticleSpider )与爬虫文件的名称(wikiSpider)是不同的，这个类只是在 wikiSpider 目录里的一员，仅仅用于维基词条页面的采集。

运行爬虫

你可以在wikiSpider主目录中用如下命令运行 ArticleSpider :

$ scrapy crawl article

这行命令会用ArticleSpider类中的定义的name调用爬虫。这个爬虫先进入start_urls里面的两个页面，收集信息，然后停止。

Scrapy支持用不同的输出格式来保存这些信息，比如CSV、JSON 或XML文件格式，对应命令如下所示：

$ scrapy crawl article -o articles.csv -t csv 
$ scrapy crawl article -o articles.json -t json 
$ scrapy crawl article -o articles.xml -t xml

当然，你也可以自定义 Item 对象，把结果写入你需要的一个文件或数据库中，只要在爬虫的parse部分增加相应的代码即可。如果觉得内容还不错，分享给更多朋友，一起提升编程技能。

请添加图片描述

↓ ↓ ↓ 加下方名片找我，直接拿源码还有案例 ↓ ↓ ↓

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/518753.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

如何自己搭建Scrapy爬虫框架

这里写目录标题

一、安装

二、创建爬虫工程

三、爬虫工程目录结构

四、定义需要爬取数据字段

五、创建一个爬虫文件

相关文章

查找符合条件，且不重复的数据 +++ EXCEL的数组公式（未完成）

【数据结构】和栈一样简单的结构——队列

Android工程师复盘小米、滴滴的面试全过程，网易offer已收入囊中

四、Eureka注册中心集群配置

五、基于服务发现获取并访问远程接口

5/12日作业

WiFi（Wireless Fidelity）基础（十一）

python进阶--月考二

xormplus是xorm的增强版，为xorm提供类似ibatis的配置文件及动态SQL支持

荷兰国旗问题与快速排序

存在comsumer group且存在消费行为，但AdminClient获取不到消费offset值

ABAP SAT使用说明

【LeetCode: 279. 完全平方数 | 暴力递归=＞记忆化搜索=＞动态规划 | 背包模型】

Goby 漏洞更新｜商混ERP系统 DictionaryEdit.aspx 页面存在SQL注入

开发板和虚拟机socket报错“connect error: No route to host”

易智编译EaseEditing：计算机顶会不一定比SCI期刊更权威！

【Linux】8. 环境变量

洛谷P5717-三角形分类

ChatGPT有意识吗？

ROS 下激光扫描仪 YDLidar-G4 使用