scrapy的数据保存到数据库

news2025/12/27 17:19:27

将数据保存到数据库

mysql数据库

下载链接数据库的依赖

 Conda/pip install pymysql

在piplines.py 文件中

重写open_spider方法

连接到mysql数据库

    def open_spider(self, spider):
        self.conn = pymysql.Connect(
            host='localhost',
            port=3306,
            user='root',
            password='20020115',
            db='scrapy',
        )
        self.cursor = self.conn.cursor()

重写process_item方法

将数据保存到数据库中

    def process_item(self, item, spider):
        sql = "INSERT INTO  scrapy.srr1(movie_name,movie_dates,movie_times,movie_scores,movie_adds,movie_pq) values ('%s','%s','%s','%s','%s','%s')"
        self.cursor.execute(
            sql % (
                item['movie_name'],
                item['movie_dates'],
                item['movie_times'],
                item['movie_scores'],
                item['movie_adds'],
                item['movie_pd'],
            )
        )
        self.conn.commit()
        return item

重写close_spider()

关闭爬虫时关闭数据库连接

    def close_spider(self, spider):
        self.conn.close()
        self.cursor.close()

代码解析

请添加图片描述

最后找到setting.py文件中的以下内容并且取消注释并且将指定优先级（优先级是一个）

ITEM_PIPELINES = {
   "ss1_miove.pipelines.Ss1MiovePipeline": 300,
}

请添加图片描述

在native中查看数据验证程序是否成功运行

请添加图片描述

mongoDB数据库

数据库的安装参考：MongoDB数据库安装_阿龙的代码在报错的博客-CSDN博客

在Python环境中下载pymongo的库用来连接数据库并且写入数据

pip install pymongo

在其他内容不变的前提下载piplines.py文件中创建一个新的类并且重写open_spider、process_item、close_spider这三个方法

# 将数据写入MongoDB数据库
class Scrapyssr1Miovemongopipline(object):

    def open_spider(self, spider):
        self.conn = pymongo.MongoClient('localhost', 27017)
        self.db = self.conn.ssr1_movie
        self.mioves = self.db.mioves

    def process_item(self, item, spider):
        self.mioves.insert_one(
            {
                "name": item['movie_name'],
                "date": item['movie_dates'],
                "time": item['movie_times'],
                "score": item['movie_scores'],
                "location": item['movie_adds'],
                "pq": item['movie_pd'],
            }
        )

    def close_spider(self, spider):
        self.conn.close()

代码解析
请添加图片描述

需要注意的是:pymongo 4.0.2 不再使用 insert () 而使用 insert_one () 或 insert_many ()

最后一步就是去setting.py文件中注册并且设置优先级

这里需要将其他的持久化存储方式注释掉

ITEM_PIPELINES = {
    # "ss1_miove.pipelines.Ss1MiovePipeline": 300,
    'ss1_miove.pipelines.Scrapyssr1Miovemongopipline': 300,
}

在MongoDB图形化程序中查看数据验证程序是否成功运行

请添加图片描述

数据库中有数据并且数据正确，证明数据采集成功，并且完成数据的持久化存储

上一篇文章：创建完整的scrapy

个人笔记仅供参考，部分电脑可能因为环境不用代码无法运行，见谅。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/685371.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

scrapy的数据保存到数据库

将数据保存到数据库

mysql数据库

mongoDB数据库

相关文章

go系列-读取文件

chatgpt赋能python：Python编程语言制作的著名游戏

【Python】python入门篇

FFmpeg 解码 AAC 格式的音频

【软考网络管理员】2023年软考网管初级常见知识考点（12）-应用层协议

我的内网渗透-代理转发（2）

NCI Core Control Messages

同比增长超300%，「手势识别」前装赛道借势多模态座舱交互

Linux下的free、uname、uptime、netstat、dmesg指令

C++进阶—二叉搜索树

c++读取文件之---yaml-cpp使用

openfeign实现远程调用

chatgpt赋能python：Python编译成SO文件和反编译的介绍

chatgpt赋能python：Python编译成可执行文件：让你的代码更加优雅高效

Qt实现自定义控件能够以插件的方式加载到Qt设计师

认识@Validated 和 @Valid

手机移动 APP测试流程及测试点

移动云智能算力调度平台，谱写算力互联互通新篇章

linux系统LNMP架构部署

chatgpt赋能python：用Python编程计算BMI，轻松掌握健康