【Python_Scrapy学习笔记(七)】基于Scrapy框架实现数据持久化

news2025/1/22 12:36:08

基于 Scrapy框架实现数据持久化

前言

本文中介绍 如何基于 Scrapy 框架实现数据持久化,包括 Scrapy 数据持久化到 MySQL 数据库、MangoDB数据库和本地 csv 文件、json 文件。

正文

1、Scrapy数据持久化到MySQL数据库

  1. 在 settings.py 中定义 MySQL 相关变量

    # 定义MySQL数据库的相关变量
    MYSQL_HOST = 'xxxxxxxxx'
    MYSQL_USER = 'xxxx'
    MYSQL_PWD = 'xxxxxx'
    MYSQL_DB = 'xxxxx'
    CHARSET = 'utf8'
    
  2. pipelines.py 中导入 settings 来创建数据库连接并处理数据

    import pymysql
    from .settings import *
    
    # 管道2:把数据存入Mysql数据库
    # 提前建库建表
    # create database cardb charset utf8;
    # use cardb;
    # create table cattab(
    # name varchar(200),
    # price varchar(100),
    # link varchar(300)
    # )charset=utf8;
    class CarMysqlPipeline(object):
        def __init__(self):
            self.db = None
            self.cur = None
    
        def open_spider(self, spider):
            """
            爬虫程序开始时,只执行一次,一般用于数据库的连接
            :param spider:
            :return:
            """
            self.db = pymysql.connect(host=MYSQL_HOST, user=MYSQL_USER, password=MYSQL_PWD, database=MYSQL_DB,
                                      charset=CHARSET) # 连接数据库
            self.cur = self.db.cursor()  # 创建游标对象
    
        def process_item(self, item, spider):
            ins = 'insert into cartab values(%s,%s,%s)'
            li = [
                item["name"].strip(),
                item["price"].strip(),
                item["link"].strip()
            ]
            self.cur.execute(ins, li)
            self.db.commit()  # 提交到数据库执行
            # 只做插入数据操作
            return item
    
        def close_spider(self, spider):
            """
            爬虫程序结束时,只执行一次,一般用于数据库的断开
            :param spider:
            :return:
            """
            self.cur.close()
            self.db.close()
    
  3. settings.py 中添加管道

    # 开启管道
    ITEM_PIPELINES = {
        # 项目目录名.模块名.类名:优先级(1-1000不等)
        "CarSpider.pipelines.CarspiderPipeline": 300,
        "CarSpider.pipelines.CarMysqlPipeline": 400
    }
    

2、Scrapy数据持久化到MangoDB数据库

  1. 在 settings.py 中定义 MangoDB 相关变量

    # 定义MangoDB相关变量
    MANGO_HOST = 'xxxxxxxx'
    MANGO_PORT = 'xxxxx'
    MANGO_DB = 'xxxxx'
    MANGO_SET = 'carset'
    
  2. pipelines.py 中导入 settings 来创建数据库连接并处理数据

    # 管道3:存入MongoDB数据库管道
    import pymongo
    from .settings import *
    
    class CarMangoPipeline(object):
        def __init__(self):
            self.conn = None
            self.db = None
            self.myset = None
    
        def open_spider(self, spider):
            """
            连接MangoDB数据库
            :param spider:
            :return:
            """
            self.conn = pymongo.MongoClient(MYSQL_HOST, MANGO_PORT)
            self.db = self.conn[MANGO_DB]
            self.myset = self.dbp[MANGO_SET]  # 集合
    
        def process_item(self, item, spider):
            d = dict(item)
            self.myset.insert_one(d)
            # 只做插入数据操作
            return item
    
  3. settings.py 中添加管道

    # Configure item pipelines
    # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
    # 开启管道
    ITEM_PIPELINES = {
        # 项目目录名.模块名.类名:优先级(1-1000不等)
        "CarSpider.pipelines.CarspiderPipeline": 300,
        "CarSpider.pipelines.CarMangoPipeline": 400
    }
    

3、将数据存入本地的csv文件、json文件中

将数据存入本地的csv文件、json文件中可以直接在执行语句中添加

  1. 存入本地的 csv 文件:scrapy crawl 爬虫文件名 -o 爬虫文件名.csv

    from scrapy import cmdline
    
    cmdline.execute('scrapy crawl car -o car.csv'.split())
    # -o car.json : 保存json文件
    # -o car.csv : 保存csv文件
    

    在这里插入图片描述

  2. 针对 csv 文件设置导出编码:settings.py文件中添加:FEED_EXPORT_ENCODING = "gb18030"

  3. 存入本地的 json文件:scrapy crawl 爬虫文件名 -o 爬虫文件名.json

    from scrapy import cmdline
    
    cmdline.execute('scrapy crawl car -o car.json'.split())
    # -o car.json : 保存json文件
    # -o car.csv : 保存csv文件
    

    在这里插入图片描述

  4. 针对json文件设置导出编码:settings.py文件中添加:FEED_EXPORT_ENCODING = "utf-8"

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/425062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

cuda-gdb 基础使用指南

cuda-gdb 基础使用指南 本文的cuda-gdb的简单入门指导,主要的参考是官方文档.但是原文是英文,又找了腾讯家的文档翻译机器,可惜水平着实一般.如果在使用过程中有更细的要求,可以看文档,本文最后贴出原文的目录,可以自己按图索骥,看看有没有其他的需求. 入门要求 …

GDOUCTF2023 Reverse题解

文章目录题目附件Check_Your_LuckTEA基本逻辑:show函数setKey函数encode函数(tea算法):judge函数解题脚本doublegamesnakefun迷宫关键循环题目附件 链接:https://pan.baidu.com/s/1W0GisS4R-rHYHK4Bu167_g?pwdnw4c Check_Your_Luck 可以看到五条方程,根据方程可…

Flutter开发日常练习-小猫咪杂货店

贴三张效果图 1.欢迎页面 2.商品展示列表 3.购物车页面 因为数据是本地的所以创建本地数据 final List _shopItems [["ZaoShui.", "25.00", "assets/8b10de68e58cfef6bd5f22e5321537.jpg", Colors.green],["ZaoQi.", "25.0…

Unity --- 枪类与子弹类的设计初探 与 Physics Material

1.类的设计方法 --- 首先将不同的对象相同的行为和方法做到一个类A中,然后再给每个对象各创建一个类,并且都继承大类A,同时在自己的类中创建自己独有的方法或者属性 1.一般子弹的射击都是用射线检测的方式去做的 --- 用碰撞器会出现我们不想要…

STM32-高级定时器输出比较模式实验

比较输出功能:定时器通过对预设的比较值与定时器特定寄存器的值做比较之后,并依据相应的输出模式从而实现各类输出,如PWM输出、电平翻转、单脉冲模式等。一般来说,STM32的通用定时器和高级定时器都具有比较输出功能,不…

使用putty在云服务器上安装jdk

在云服务器上安装jdk的步骤: 1. 登录到云服务器,打开putty终端,并使用root账户登录。 2. 在终端中输入以下命令,更新软件包列表: sudo apt-get update 3. 安装OpenJDK 8,请在终端中输入以下命令&#…

leetcode-1041. 困于环中的机器人

leetcode-1041. 困于环中的机器人1. 算法题目2 . 实现思路3. 参考代码1. 算法题目 题目如下: 在无限的平面上,机器人最初位于 (0, 0) 处,面朝北方。注意: 北方向 是y轴的正方向。南方向 是y轴的负方向。东方向 是x轴的正方向。西方向 是x轴的…

Level_2(2)题目整理

文章目录L2-022 重排链表(模拟❗)L2-023 图着色问题L2-024 部落(并查集)L2-025 分而治之(与 L2-023差不多,邻接表遍历)L2-026 小字辈(求树的深度)L2-027 名人堂与代金券(💡处理&…

统信 UOS 20 初体验

统信 UOS 20 初体验1、下载UOS 202、安装UOS 202.1、发行版选择debian 10 64位2.2、选择Graphic2.3、语言中文2.4、开始安装2.5、安装完后重启2.6、登录UOS 206、使用UOS6.1、包管理器1、下载UOS 20 下载的是服务器免费授权版 https://www.chinauos.com/resource/download-ser…

[Java]面向对象高级篇

文章目录包装类包装类层次结构基本类型包装类特殊包装类数组一维数组多维数组可变长参数字符串String类StringBuilder类内部类成员内部类静态内部类局部内部类匿名内部类Lambda表达式方法引用异常机制自定义异常抛出异常异常的处理常用工具类数学工具类随机数数组工具类包装类 …

【AIGC】Visual ChatGPT 视觉模型深度解析

欢迎关注【youcans的AGI学习笔记】原创作品 【AIGC】Visual ChatGPT 视觉模型深度解析1. 【Visual- ChatGPT】火热来袭2. 【Visual-GPT】操作实例2.1 处理流程2.2 操作实例3. 【Visual-GPT】技术原理分析3.1 技术原理3.2 系统架构3.3 模块说明3.4 Prompt Manager 功能与规则3.5…

Distilling Knowledge via Knowledge Review(引言翻译)

翻译得可能不太准确,希望有能力的各位批评指正! Introduction 第一段 深度卷积神经网络(CNN)在计算机视觉多数任务中取得了显著的成功。 然而,卷积网络的成功往往伴随着相当大的计算和内存消耗, 使得将…

人工智能交互系统界面设计(Tkinter界面设计)

文章目录前言一、项目介绍二、项目准备三、项目实施1.导入相关库文件2.人脸信息验证功能3.语音交互与TCP数据通信4.数据信息可视化四、相关附件前言 在现代信息化时代,图形化用户界面(Graphical User Interface, GUI)已经成为各种软件应用和…

SpringBoot——Scheduled定时任务

目录 1.静态定时任务 2.动态定时任务 在一些业务场景中,我们需要定义一些任务在我们指定的时间或是每隔一个时间段就自动执行,来作为任务的前提,保证业务的执行。比如:我们需要一个定时任务,每天早上6点执行&#xf…

【springcloud 微服务】Spring Cloud Alibaba Nacos使用详解

目录 一、前言 二、nacos介绍 2.1 什么是 Nacos 2.2 nacos 核心能力 2.2.1 服务发现和服务健康监测 2.2.2 动态配置服务 2.2.3 动态 DNS 服务 2.2.4 服务及其元数据管理 2.2.5 nacos生态地图 2.3 与其他配置中心对比 三、nacos快速部署 3.1 获取安装包 3.2 修改脚…

【分享NVIDIA GTC 23大会干货】加速生成式AI在生物学和医疗领域的应用

【分享NVIDIA GTC 23大会干货】加速生成式AI在生物学和医疗领域的应用1. NVIDIA医疗领域AI计算平台——NVIDIA CLARA2. NVIDIA CLARA医学影像子平台——MONAI3. NVIDIA CLARA医疗设备子平台——Holoscan4. NVIDIA基因组学解决方案Parabricks5. NVIDIA药物研发解决方案6. 个人思…

互联网医院源码|互联网医院软件体现智慧医疗的优势

现在大家看病一般都会直接在互联网医院平台上去就诊,每次大家需要看病时,可以在手机上直接去预约指定的医生,同城周边的所有医院都是可以去直接选择的,这样也可以去帮助大家节省很多的看病时间,在互联网医院软件中所具…

【ApiPost】实现【gRPC】调试【上手篇】

ApiPost下载地址 下载中心-Apipost-中文版接口调试与文档管理工具Apipost官方下载中心为您提供Apipost软件最新版本,其中包括Windows、Mac、Linux等多个客户端的安装包,Apipost下载就上Apipost.cn,国内专业的接口测试软件,一键生成API文档。https://www…

中核科技:科技匠心 智启未来

​  2023 年4月 13—15 日,2023年易派客工业品展览会、石油石化工业展览会、第七届中国石油和化工行业采购年会,在苏州国际博览中心胜利召开。本次展会展览面积53000平方米,参展企业500余家,汇集了中国工业制造领域的大型国企央…

Parcel 实践指南

Parcel 是一个极速零配置的 Web 应用程序打包器。它的零配置特性使得开发者可以更快速地进行项目的构建。本文将向你展示如何在项目中实践 Parcel,并讨论一些性能优化策略以及不同场景下的最佳实践。 总结 Parcel 是一个强大而灵活的打包工具,它可以让你…