python爬虫之Scrapy框架--测试调试--保存数据

news2025/4/17 8:23:53

ScrapyShell

启动ScrapyShell

基本方法

注意

保存数据到文件

方法一

使用python原生方式保存

方法二

使用Scrapy内置方式

方法三

Item Pipeline的使用

功能

ScrapyShell

ScrapyShell是Scrapy框架提供的一个交互式的开发工具，用于调试和测试爬虫（可以在不运行spider项目时，快速调试 scrapy 代码。）。它提供了一个类似Python交互式解释器的环境，在这个环境中，可以实时执行Scrapy的命令和代码，并查看抓取到的数据和网页的解析结果。ScrapyShell是一个强大的工具，可以快速验证和调整爬虫的逻辑，以及检查和提取目标网站的数据。

一般用于测试xpath或css表达式，查看它们是否能提取想要的数据

启动ScrapyShell

打开命令行终端或命令提示符窗口。

win+r 输入cmd

cd 根目录

运行以下命令：

scrapy shell

这就成功启动ScrapyShell，将自动加载你的Scrapy项目的配置和代码。

基本方法

使用fetch(url)命令来下载指定URL的网页并查看其内容。
使用response变量来访问最近下载的网页的响应对象，您可以查看它的状态码、头部信息等。
使用view(response)命令来在浏览器中打开最近下载的网页，以便更方便地查看其结构和样式。
使用sel = Selector(response)命令来创建一个Scrapy选择器对象，您可以使用该对象来提取网页中的数据。
使用sel.xpath()或sel.css()方法来编写XPath或CSS选择器来定位和提取特定元素或数据。
使用Python代码编写自定义的数据提取逻辑，并使用Scrapy提供的各种工具和方法来处理和保存数据。

注意

当从命令行运行Scrapy Shell时，记住总是用引号括住url，否则url包含参数（即 & 字符）不起作用。

在Windows上，使用双引号：

scrapy shell "https://scrapy.org"

保存数据到文件

想要保存数据到文件中，这里我们讲三种方法：

方法一

使用python原生方式保存

这是python原始的保存数据的方法。

with open("movie.txt", 'wb') as f:
  for n, c in zip(movie_name, movie_core):
    str = n+":"+c+"\n"
    f.write(str.encode())

方法二

使用Scrapy内置方式

scrapy 内置主要有四种：JSON，JSON lines，CSV，XML

最常用的导出结果格为JSON，命令如下：

scrapy crawl dmoz -o douban.json -t json

参数设置：

-o 后面导出文件名
-t 后面导出的类型

可以省略，但要保存的文件名后缀，写清楚类型

将数据解析完，返回数据，才可以用命令保存，代码如下，格式为dict或item类型

return data
yield data

方法三

Item Pipeline的使用

当数据在Spider中被收集之后，可以传递到Item Pipeline中统一进行处理

在Scrapy项目中的pipelines.py文件中定义一个自定义的管道类，该类需要继承scrapy.pipelines.Pipeline。
在管道类中实现process_item方法，该方法会在每个数据项(Item)被爬虫处理时被调用。
在process_item方法中，您可以将数据写入文件，可以使用内置的Python文件操作函数（如open()和write()）或其他第三方库来实现数据的写入。

每个item pipeline就是一个普通的python类，包含的方法名如下：

方法名	含义	是否必须实现
process_item(self,item,spider)	用于处理接收到的item	是
open_spider(self,spider)	表示当spider被开启的时候调用这个方法	否
close_spider(self,spider)	当spider关闭时候这个方法被调用	否

功能

接收item

在process_item方法中保存

是否要保存数据

取决于是否编写代码用于保存数据

决定此Item是否进入下一个pipeline

return item 数据进入下一个pipeline
drop item 抛弃数据

示例

# pipelines.py

class MyPipeline(object):
    def __init__(self):
        self.file = open('data.txt', 'w')  # 打开文件以写入数据

    def process_item(self, item, spider):
        data = item['data']  # 假设数据项中的键为'data'
        self.file.write(data + '\n')  # 写入数据到文件
        return item

    def close_spider(self, spider):
        self.file.close()  # 关闭文件

要启用这个自定义的管道，您需要在Scrapy项目的设置文件(settings.py)中进行配置：

# settings.py

ITEM_PIPELINES = {
    'yourproject.pipelines.MyPipeline': 300,  # 将自定义管道添加到管道设置中
}

在上面的配置中，300表示管道的优先级，数字越小表示优先级越高。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/685019.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python爬虫之Scrapy框架--测试调试--保存数据

ScrapyShell

启动ScrapyShell

基本方法

注意

保存数据到文件

方法一

使用python原生方式保存

方法二

使用Scrapy内置方式

方法三

Item Pipeline的使用

功能

相关文章

数学建模-数据的处理

K8S 使用（1）- 基本命令

2.2、IOC容器的实现流程

数学内容的概述

linux系统LAMP架构

《面试1v1》Redis主从架构

crossover虚拟机软件好用吗?22.1.1版本有哪些优点

使用HTTP/2实现服务端主动推送消息给客户端

华为OD机试真题（Java），素数伴侣（100%通过+复盘思路）

老鸟是这样实现springboot日志打印的~

Nik Silver Efex 黑白胶片效果滤镜

银行数字化转型导师坚鹏：兴业银行《天才与算法》读书拆解培训

【MySQL 高级（进阶）SQL 语句】

最短路径算法（Python数学建模）

Python对csv文件一键多值保存为json本地文件再读取加速效率(3)

D351周赛复盘：美丽下标对数目（互质/数学运算）+数组划分若干子数组

java 版本企业招标投标管理系统源码，多个行业+及时准确+全程电子化

谷歌浏览器无法翻译成中文，谷歌翻译，最新（沉浸式翻译和划词翻译，chrome无法翻译，谷歌浏览器无法翻译此网页）

如何用ChatGPT使开发效率提高50%以上？

搭建个人音乐库-navidrome