python爬虫基于管道持久化存储操作

news2024/11/25 18:39:12

文章目录

  • 基于管道持久化存储操作
  • scrapy的使用步骤
    • 1.先转到想创建工程的目录下:cd ...
    • 2.创建一个工程
    • 3.创建之后要转到工程目录下
    • 4.在spiders子目录中创建一个爬虫文件
    • 5.执行工程
    • setting文件中的参数
  • 基于管道持久化存储的步骤:
  • 持久化存储1:保存到本地txt文档。
      • 1. 数据解析
      • 2. 在item类中定义相关的属性
      • 3. 将解析的数据封装存储到item类型的对象
      • 4. 将item类型的对象提交给管道进行持久化存储的操作
      • 5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
      • 6. 在配置文件中开启管道
      • 运行结果:
  • 持久化存储2:保存到数据库中。
      • 前言
        • 安装mysql
        • 安装navicat
        • 使用终端操作数据库
        • 如何使用navicat新建数据库&新建表
      • 1234步与持久化存储1完全相同。
      • 5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
      • 6. 在配置文件中开启管道
      • 运行结果

基于管道持久化存储操作

这个也是在基于scrapy框架的基础上实现的,所以scrapy的基本使用命令也是需要遵从的

scrapy的使用步骤

1.先转到想创建工程的目录下:cd …

2.创建一个工程

scrapy startproject 工程名  (XXPro:XXproject)

3.创建之后要转到工程目录下

cd 工程名

4.在spiders子目录中创建一个爬虫文件

这里不需要切换目录,在项目目录下即可。
www.xxx.com是要爬取的网站。

scrapy genspider 爬虫文件名 www.xxx.com

5.执行工程

在pycharm中直接执行是不管用的,无效。应该再在终端中执行

scrapy crawl 爬虫文件名				# 执行的是爬虫文件

setting文件中的参数

项目下有一个settings文件,里面的文件介绍如下:

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

#显示指定类型的日志信息 而不显示其他乱七八糟的
LOG_LEVEL = 'ERROR'

# 设置用户代理 浏览器类型
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"

# 取消注释改行,意味着开启管道存储。
# 300表示优先级,数值越小优先级越高	
ITEM_PIPELINES = {
   "weiboPro.pipelines.WeiboproPipeline": 300,
}

基于管道持久化存储的步骤:

1. 数据解析
2. 在item类中定义相关的属性
3. 将解析的数据封装存储到item类型的对象
4. 将item类型的对象提交给管道进行持久化存储的操作
5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
6. 在配置文件中开启管道

持久化存储1:保存到本地txt文档。

这个并不是很难。主要是理清他的思路是什么。
在工程目录下的爬虫文件(这里是weibo.py)写好保证能够爬取到信息之后,主要是将管道文件写好(pipelines.py)。
按照上面的6步走:

1. 数据解析

即爬取数据的过程

# (weibo.py爬虫文件)
# 不使用数据库,只保存到本地

import scrapy
from weiboPro.items import WeiboproItem
# 导包失败:右键项目目录 => 将目标标记为 => 源代码根目录

# 爬取微博失败了,返回为空。改为爬取B站了。
# 爬取B站的视频的名称和作者
class WeiboSpider(scrapy.Spider):
    name = "weibo"
    # allowed_domains = ["weibo.com"]
    start_urls = ["https://www.bilibili.com/"]
    def parse(self, response):
        author = []
        title = []
        div_list = response.xpath('//*[@id="i_cecream"]/div[2]/main/div[2]/div/div[1]/div')
        print("数据长度为", len(div_list))
        for div in div_list:
            # xpath返回的是列表,但是列表元素一定是Selector类型的对象
            # extract可以将Selector对象中data参数存储的字符串提取出来
            author = div.xpath('.//div[@class="bili-video-card__info--right"]//a/span[@class="bili-video-card__info--author"]/text()').extract()    # xpath要从上一层的xpath开始找,必须在最前面加个. !!
            # 对列表调用extract后,将列表的每一个Selector对象中的data对应的字符串提取了出来
            title=div.xpath('.//div[@class="bili-video-card__info--right"]/h3/a/text()').extract()

            # author, title解析到的为list,将其转为str
            # 将列表转为字符串: .join方法
            author = ''.join(author)
            title = ''.join(title)
            print('当前抽取的author', author)
            print('当前抽取的title', title)
            print(len(author), len(title))

			# 3,4两步都在循环内,所以是每执行一次循环将item对象提交给管道并存储到本地
            # 3.将解析的数据封装存储到item类型的对象
            item = WeiboproItem()
            item['author'] = author
            item['title'] = title
            # 4. 将item类型的对象提交给管道进行持久化存储的操作
            yield item

2. 在item类中定义相关的属性

找到项目目录下的items.py文件,在里面定义相关的属性
在这里插入图片描述

class WeiboproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 在item类中定义相关的属性
    author = scrapy.Field()
    title = scrapy.Field()

3. 将解析的数据封装存储到item类型的对象

4. 将item类型的对象提交给管道进行持久化存储的操作

3,4两步在1.中已经体现,具体代码为:

            # 3.将解析的数据封装存储到item类型的对象
            item = WeiboproItem()
            item['author'] = author
            item['title'] = title
            # 4. 将item类型的对象提交给管道进行持久化存储的操作
            yield item

5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

在这里重写了父类的两个方法:open_spider()和close_spider()方法。
open_spider()方法在开始爬虫时被调用一次,close_spider()方法在爬虫结束时被调用一次。这样实现了yield多次时,只打开关闭一次文件。
process_item()是将得到的item对象中的数据保存到本地。

# pipelines.py 管道文件
class WeiboproPipeline:
    fp = None

    def open_spider(self, spider):
        # 重写父类的方法,只在开始爬虫时被调用一次
        print("开始爬虫")
        self.fp = open('./B站.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        author = item['author']
        title = item['title']
        print("当前写入的是:" + author + ":" + title + "\n")
        self.fp.write(author + ":" + title + "\n")
        return item

    def close_spider(self, spider):
        # 重写父类的方法,在爬虫结束时被调用一次
        print("结束爬虫")
        self.fp.close()

6. 在配置文件中开启管道

打开项目weiboPro路径下的settings.py文件,将ITEM_PIPELINES字典取消注释,即可开启管道。

ITEM_PIPELINES = {

   "weiboPro.pipelines.WeiboproPipeline": 300,
}

运行结果:

运行结束之后,会在本地生成B站.txt文件,其中包含爬取的author和title
在这里插入图片描述

持久化存储2:保存到数据库中。

前言

安装mysql
安装navicat

这里需要安装mysql,我还另外安装了navicat。安装好mysql之后,要新建连接,按照步骤操作即可。

使用终端操作数据库

这里需要mysql库。这个库是用来对数据库进行远程连接的,所以必须要有打开的数据库,打开的表才可以。
在这里插入图片描述

如何使用navicat新建数据库&新建表

建立好之后,再按照上面的6步按部就班来就可以。

1234步与持久化存储1完全相同。

5. 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

这里的管道文件中的每一个管道类(如持久化存储1的WeiboproPipeline)对应将一组数据存储到一个平台或者载体中。上面的是保存到本地,所以我们还需要将再写一个类来将数据持久化存储到数据库中。

我也有好多东西不理解为什么要这么写

# 管道文件中一个管道类对应将一组数据存储到一个平台或者载体中
class mysqlPileLine:
    # 每写一个管道类要将这个类写到settings.py的ITEM_PIPELINES中。
    connect = None
    cursor = None
    def open_spider(self, spider):
        # 重写父类的方法,在爬虫开始时调用一次

        # 创建连接:pymysql.Connect
        self.connect = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='liu1457154996', db='bzhan', charset='utf8')	# db表示数据库的名称,我上面创建的数据库名称叫bzhan,即上图中的绿色圆柱

    def process_item(self, item, spider):
        # 创建游标
        self.cursor = self.connect.cursor()

        try:
            self.cursor.execute('INSERT INTO bzhan (author, title) VALUES ("%s", "%s")' % (item['author'], item['title']))	# 这里的bzhan是bzhan数据库下的表的名称
            self.connect.commit()
            print("成功写入数据库", item['author'], item['title'])
        except Exception as e:
            print(e)
            self.connect.rollback()

        return item

    def close_item(self, spider):
        self.cursor.close()     # 关闭游标
        self.connect.close()    # 关闭连接

6. 在配置文件中开启管道

在上面的基础上开启mysqlPileLine管道。

ITEM_PIPELINES = {

   "weiboPro.pipelines.WeiboproPipeline": 300,
   "weiboPro.pipelines.mysqlPileLine": 301,
}

运行结果

在终端中输入scrapy crwal weibo后,得到数据库中的结果如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1050533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux学习】05-1Linux上安装部署各类软件

Linux(B站黑马)学习笔记 01Linux初识与安装 02Linux基础命令 03Linux用户和权限 04Linux实用操作 05-1Linux上安装部署各类软件 文章目录 Linux(B站黑马)学习笔记前言05-1Linux上安装部署各类软件JDK安装部署Tomcat安装部署maven…

Matlab绘图函数subplot、tiledlayout、plot和scatter

一、绘图函数subplot subplot(m,n,p)将当前图窗划分为 mn 网格,并在 p 指定的位置创建坐标区。MATLAB按行号对子图位置进行编号。第一个子图是第一行的第一列,第二个子图是第一行的第二列,依此类推。如果指定的位置已存在坐标区,…

ahk系列——ahk_v2实现win10任意界面ocr

前言: 不依赖外部api接口,界面简洁,翻译快速,操作简单, 有网络就能用 、还可以把ocr结果非中文翻译成中文、同样可以识别中英日韩等60多个国家语言并翻译成中文,十分的nice 1、所需环境 windows10及其以上…

【小沐学C++】C++ 基于Premake构建工程项目(Windows)

文章目录 1、简介2、下载和安装2.1 下载2.3 快速入门 3、使用3.1 支持的工程文件Project Files3.2 构建设置Build Settings3.3 链接Linking3.4 配置Configurations3.5 平台Platforms3.6 过滤Filters3.7 预设值Tokens 4、测试4.1 测试1:入门例子4.2 测试2&#xff1a…

STL upper_bound和lower_bound函数

声明&#xff1a; 首先包含头文件#include<algorithm> 这里的两个函数所运用的对象必须是非递减的序列&#xff08;也就是数组&#xff0c;数组必须是非递减的&#xff09;&#xff0c;只有这样才可以使用upper_bound和lower_bound这两个函数。 还有一点&#xff0c;就…

手摸手带你 在Windows系统中安装Istio

Istio简介 通过负载均衡、服务间的身份验证、监控等方法&#xff0c;Istio 可以轻松地创建一个已经部署了服务的网络&#xff0c;而服务的代码只需很少更改甚至无需更改。 通过在整个环境中部署一个特殊的 sidecar 代理为服务添加 Istio 的支持&#xff0c;而代理会拦截微服务…

【C++】string 之 find、rfind、replace、compare函数的学习

前言 上篇文章&#xff0c;我们学习了assign、at、append这三个函数 今天&#xff0c;我们来学习find、 函数 find函数 引入 我们都知道&#xff0c;find函数可以是string类中&#xff0c;用于查找字符或者字符串的函数 也可以是&#xff0c;<algorithm>头文件中&am…

帝国CMS插件-最全免费帝国CMS插件大全

在如今的数字时代&#xff0c;网站管理员和内容创作者面临着一个共同的挑战&#xff1a;如何快速而有效地生成并发布大量内容&#xff0c;以吸引更多的用户和读者。帝国CMS&#xff08;Empire CMS&#xff09;是一个备受欢迎的内容管理系统&#xff0c;许多网站使用它来创建和管…

3.物联网射频识别,RFID

一。ISO14443-2协议简介 1.ISO14443协议组成及部分缩略语 &#xff08;1&#xff09;14443协议组成 14443-1 物理特性 14443-2 射频功率和信号接口 14443-3 初始化和防冲突 14443-4 传输协议 &#xff08;2&#xff09;针对前两节的名词&#xff0c;对应的英语缩略语 PCD&…

解决webpack报错:You forgot to add ‘mini-css-extract-plugin‘ plugin

现象&#xff1a; 原因&#xff1a; webpack5.72跟mini-css-extract-plugin有兼容性问题 解决办法&#xff1a;把 new MiniCssExtractPlugin()放在webpack配置文件中plugins数组的第一项&#xff1a; plugins: [ // 此处解决报错&#xff1a;You forgot to add mini-css-extra…

Lua表公共操作

--表的公共操作 t1 {{age 1,name "123"},{age 2,name "456"}} t2 {name "Holens" , sex true} --插入 print(#t1) table.insert(t1,t2) print(#t1) print(t1[3].sex) print("*************************************")--删除 -…

媒体编解码器MediaCodec

目录 1.介绍MediaCodec类 2.创建MediaCodec的方式 3.MediaCodec流程 &#xff08;1&#xff09;配置编码参数 &#xff08;2&#xff09;创建编码器 &#xff08;3&#xff09;创建混合器 &#xff08;4&#xff09;开始编码 4.MediaCodec编码的工作方式 5.MediaCodec…

整型提升——(巩固提高——字符截取oneNote笔记详解)

文章目录 前言一、整型提升是什么&#xff1f;二、详细图解1.图解展示 总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 整型提升是数据存储的重要题型&#xff0c;也是计算机组成原理的核心知识点。学习c语言进阶的时候,了解内存中数据怎么存&#…

Lua表实现类

--类 Student { name "Holens",age 1,sex true,Say1 function()print(Student.name.."说话了")end,Say2 function(t)print(t.name.."说话了2")end } Student.Say1() print("*************************************")--声明后添加…

Python大数据之pandas快速入门(一)

文章目录 pandas快速入门学习目标1. DataFrame 和 Series 简介2. 加载数据集(csv和tsv)2.1 csv和tsv文件格式简介2.2 加载数据集(tsv和csv) pandas快速入门 学习目标 能够知道 DataFrame 和 Series 数据结构能够加载 csv 和 tsv 数据集能够区分 DataFrame 的行列标签和行列位…

Windows11安装MySQL8.1

安装过程中遇到任何问题均可以参考(这个博客只是单纯升级个版本和简化流程) Windows安装MySQL8教程-CSDN博客 到官网下载mysql8数据库软件 MySQL :: Download MySQL Community Server 下载完后,解压到你需要安装的文件夹 其中的配置文件内容了如下 [mysqld]# 设置3306端口po…

设计模式4、建造者模式 Builder

解释说明&#xff1a;将一个复杂对象的构建与它的表示分离&#xff0c;使得同样的构建过程可以创建不同的表示 UML 结构图&#xff1a; 抽象建造者&#xff08;Builder&#xff09;&#xff1a;这个接口规定要实现复杂对象的那些部分的创建&#xff0c;并不设计具体部件对象的创…

【Spring Cloud】Ribbon 实现负载均衡的原理,策略以及饥饿加载

文章目录 前言一、什么是 Ribbon二、Ribbon 实现负载均衡的原理2.1 负载均衡的流程2.2 Ribbon 实现负载均衡的源码剖析 三、Ribbon 负载均衡策略3.1 负载均衡策略3.2 演示 Ribbon 负载均衡策略的更改 四、Ribbon 的饥饿加载4.1查看 Ribbon 的懒加载4.2 Ribbon 的饥饿加载模式 前…

《The Rise and Potential of Large Language Model Based Agents: A Survey》全文翻译

The Rise and Potential of Large Language Model Based Agents: A Surve - 基于 LLMs 的代理的兴起和潜力&#xff1a;一项调查 论文信息摘要1. 介绍2. 背景2.1 AI 代理的起源2.2 代理研究的技术趋势2.3 为什么大语言模型适合作为代理大脑的主要组件 3. 代理的诞生&#xff1a…

【文档智能】:GeoLayoutLM:一种用于视觉信息提取(VIE)的预训练模型

前言 文章介绍了一种用于视觉信息提取&#xff08;VIE&#xff09;的预训练模型&#xff1a;GeoLayoutLM。GeoLayoutLM通过显式建模几何关系和特殊的预训练任务来提高文本和布局的特征表示。该模型能够提高文档信息抽取的性能。 一、提出背景 当前多模态预训练模型在 SER 任…