【Python_Scrapy学习笔记（七）】基于Scrapy框架实现数据持久化

news2025/10/15 4:14:25

基于 Scrapy框架实现数据持久化

前言

本文中介绍如何基于 Scrapy 框架实现数据持久化，包括 Scrapy 数据持久化到 MySQL 数据库、MangoDB数据库和本地 csv 文件、json 文件。

正文

1、Scrapy数据持久化到MySQL数据库

在 settings.py 中定义 MySQL 相关变量

# 定义MySQL数据库的相关变量
MYSQL_HOST = 'xxxxxxxxx'
MYSQL_USER = 'xxxx'
MYSQL_PWD = 'xxxxxx'
MYSQL_DB = 'xxxxx'
CHARSET = 'utf8'

pipelines.py 中导入 settings 来创建数据库连接并处理数据

import pymysql
from .settings import *

# 管道2：把数据存入Mysql数据库
# 提前建库建表
# create database cardb charset utf8;
# use cardb;
# create table cattab(
# name varchar(200),
# price varchar(100),
# link varchar(300)
# )charset=utf8;
class CarMysqlPipeline(object):
    def __init__(self):
        self.db = None
        self.cur = None

    def open_spider(self, spider):
        """
        爬虫程序开始时，只执行一次，一般用于数据库的连接
        :param spider:
        :return:
        """
        self.db = pymysql.connect(host=MYSQL_HOST, user=MYSQL_USER, password=MYSQL_PWD, database=MYSQL_DB,
                                  charset=CHARSET) # 连接数据库
        self.cur = self.db.cursor()  # 创建游标对象

    def process_item(self, item, spider):
        ins = 'insert into cartab values(%s,%s,%s)'
        li = [
            item["name"].strip(),
            item["price"].strip(),
            item["link"].strip()
        ]
        self.cur.execute(ins, li)
        self.db.commit()  # 提交到数据库执行
        # 只做插入数据操作
        return item

    def close_spider(self, spider):
        """
        爬虫程序结束时，只执行一次，一般用于数据库的断开
        :param spider:
        :return:
        """
        self.cur.close()
        self.db.close()

settings.py 中添加管道

# 开启管道
ITEM_PIPELINES = {
    # 项目目录名.模块名.类名:优先级(1-1000不等)
    "CarSpider.pipelines.CarspiderPipeline": 300,
    "CarSpider.pipelines.CarMysqlPipeline": 400
}

2、Scrapy数据持久化到MangoDB数据库

在 settings.py 中定义 MangoDB 相关变量

# 定义MangoDB相关变量
MANGO_HOST = 'xxxxxxxx'
MANGO_PORT = 'xxxxx'
MANGO_DB = 'xxxxx'
MANGO_SET = 'carset'

pipelines.py 中导入 settings 来创建数据库连接并处理数据

# 管道3：存入MongoDB数据库管道
import pymongo
from .settings import *

class CarMangoPipeline(object):
    def __init__(self):
        self.conn = None
        self.db = None
        self.myset = None

    def open_spider(self, spider):
        """
        连接MangoDB数据库
        :param spider:
        :return:
        """
        self.conn = pymongo.MongoClient(MYSQL_HOST, MANGO_PORT)
        self.db = self.conn[MANGO_DB]
        self.myset = self.dbp[MANGO_SET]  # 集合

    def process_item(self, item, spider):
        d = dict(item)
        self.myset.insert_one(d)
        # 只做插入数据操作
        return item

settings.py 中添加管道

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# 开启管道
ITEM_PIPELINES = {
    # 项目目录名.模块名.类名:优先级(1-1000不等)
    "CarSpider.pipelines.CarspiderPipeline": 300,
    "CarSpider.pipelines.CarMangoPipeline": 400
}

3、将数据存入本地的csv文件、json文件中

将数据存入本地的csv文件、json文件中可以直接在执行语句中添加

存入本地的 csv 文件：scrapy crawl 爬虫文件名 -o 爬虫文件名.csv

from scrapy import cmdline

cmdline.execute('scrapy crawl car -o car.csv'.split())
# -o car.json : 保存json文件
# -o car.csv : 保存csv文件

在这里插入图片描述

针对 csv 文件设置导出编码：settings.py文件中添加：FEED_EXPORT_ENCODING = "gb18030"

存入本地的 json文件：scrapy crawl 爬虫文件名 -o 爬虫文件名.json

from scrapy import cmdline

cmdline.execute('scrapy crawl car -o car.json'.split())
# -o car.json : 保存json文件
# -o car.csv : 保存csv文件

在这里插入图片描述

针对json文件设置导出编码：settings.py文件中添加：FEED_EXPORT_ENCODING = "utf-8"

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/425062.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【Python_Scrapy学习笔记（七）】基于Scrapy框架实现数据持久化

基于 Scrapy框架实现数据持久化

前言

正文

1、Scrapy数据持久化到MySQL数据库

2、Scrapy数据持久化到MangoDB数据库

3、将数据存入本地的csv文件、json文件中

相关文章

cuda-gdb 基础使用指南

GDOUCTF2023 Reverse题解

Flutter开发日常练习-小猫咪杂货店

Unity --- 枪类与子弹类的设计初探与 Physics Material

STM32-高级定时器输出比较模式实验

使用putty在云服务器上安装jdk

leetcode-1041. 困于环中的机器人

Level_2(2)题目整理

统信 UOS 20 初体验

[Java]面向对象高级篇

【AIGC】Visual ChatGPT 视觉模型深度解析

Distilling Knowledge via Knowledge Review（引言翻译）

人工智能交互系统界面设计（Tkinter界面设计）

SpringBoot——Scheduled定时任务

【springcloud 微服务】Spring Cloud Alibaba Nacos使用详解

【分享NVIDIA GTC 23大会干货】加速生成式AI在生物学和医疗领域的应用

互联网医院源码|互联网医院软件体现智慧医疗的优势

【ApiPost】实现【gRPC】调试【上手篇】

中核科技：科技匠心智启未来

Parcel 实践指南