Python爬虫---scrapy框架---当当网管道封装

news2024/11/30 2:36:30

项目结构: 

dang.py文件:自己创建,实现爬虫核心功能的文件

import scrapy
from scrapy_dangdang_20240113.items import ScrapyDangdang20240113Item


class DangSpider(scrapy.Spider):
    name = "dang"  # 名字
    # 如果是多页下载的话, 那么必须要调整的是allowed_domains的范围 一般情况下只写城名
    # allowed_domains = ["https://category.dangdang.com/cp01.01.00.00.00.00.html"]
    allowed_domains = ["category.dangdang.com"]
    start_urls = ["https://category.dangdang.com/cp01.01.00.00.00.00.html"]

    # 第1页:"https://category.dangdang.com/cp01.01.00.00.00.00.html"
    # 第2页: "https://category.dangdang.com/pg2-cp01.01.00.00.00.00.html"
    # 第3页: "https://category.dangdang.com/pg3-cp01.01.00.00.00.00.html"

    base_url = "https://category.dangdang.com/pg"
    page = 1

    def parse(self, response):
        print("========================================================================")

        # pipelines: 下载数据
        # items: 定义数据结构

        # xpath语法
        # src = //ul[@id='component_59']/li/a/img/@src
        # 除了第一张,其他做了懒加载 所以不能使用src,要使用这个data-original
        # src = //ul[@id='component_59']/li/a/img/@data-original
        # alt = //ul[@id='component_59']/li/a/img/@alt
        # price = //ul[@id='component_59']/li/p[@class='price']/span[1]/text()

        # 所有的seletor的对象都可以再次调用xpath语法
        li_list = response.xpath("//ul[@id='component_59']/li")

        for li in li_list:

            src = li.xpath(".//img/@data-original").extract_first()
            if src:
                src = src
            else:
                src = li.xpath(".//img/@src").extract_first()

            name = li.xpath(".//img/@alt").extract_first()
            price = li.xpath(".//p[@class='price']/span[1]/text()").extract_first()

            print(src, name, price)

            # 将爬取的数据放在对象里
            book = ScrapyDangdang20240113Item(src=src, name=name, price=price)

            # 获取一个book将book交给pipelines,将对象放在管道里
            yield book

            # 每一页的爬取业务的逻辑全都是一样的,所以我们只需要将执行的那个页的请求再次调用
        if self.page < 100:
            self.page = self.page + 1

            url = self.base_url + str(self.page) + "-cp01.01.00.00.00.00.html"
            # 调用parse万法
            # scrapy.Request就是scrpay的get请求 url就是请求地址
            # callback是你要执行的那个函数注意不需要加()
            yield scrapy.Request(url=url, callback=self.parse)

 items文件:定义数据结构的地方

import scrapy


class ScrapyDangdang20240113Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 通俗的说就是你要下载的数据都有什么
    src = scrapy.Field()
    name = scrapy.Field()
    price = scrapy.Field()

settings文件:配置文件,例如开启管道

# 开启管道
ITEM_PIPELINES = {
    # 管道可以有很多个,那么管道是有优先级的,优先级的范围是1到1000,值越小优先级越高
    "scrapy_dangdang_20240113.pipelines.ScrapyDangdang20240113Pipeline": 300,
    "scrapy_dangdang_20240113.pipelines.DangdangDownloadPipeline": 301,
}

 pipelines.py文件:管道文件,里面只有一个类,用于处理下载数据的,值越小优先级越高

# 下载数据

# 如果想使用管道的话 那么就必须在settings中开启管道
class ScrapyDangdang20240113Pipeline:
    # item就是yield后面的book对象

    # 方式一:
    # 以下这种模式不推荐,因为每传递过来一个对象,那么就打开一次文件,对文件的作过于频繁
    # def process_item(self, item, spider):
    # (1)write万法必须要写一个字符串,而不能是其他的对象,使用str()强转
    # (2)w模式 会每一个对象都打开一次文件 覆盖之前的内容
    # with open("book.json","a",encoding="utf-8")as fp:
    #     fp.write(str(item))
    # return item

    # 方式二:
    # 在爬虫文件开始之前就执行的方法
    def open_spider(self, spider):
        print("++++++++++++++++++++++++++++++++++++++++++++++++++")
        self.fp = open("book.json", "w", encoding="utf-8")

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    # 在爬虫文件开始之后就执行的方法
    def close_spider(self, spider):
        print("----------------------------------------------------")
        self.fp.close()


# 多条管道同时开启
# (1)定义管道类
# (2)在settings中开启管道
import urllib.request
class DangdangDownloadPipeline:
    def process_item(self, item, spider):
        # 下载图片
        url = "https:" + item.get("src")
        filename = "./books/" + item.get("name")[0:6] + ".jpg"

        urllib.request.urlretrieve(url=url, filename=filename)

        return item

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1392137.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动图搞懂三极管的工作原理

三极管的电流放大作用应该算是模拟电路里面的一个难点内容&#xff0c;我想用这几个动画简单的解释下为什么小电流Ib能控制大电流Ic的大小&#xff0c;以及放大电路的原理。 这里的三极管也叫双极型晶体管&#xff0c;模电的放大电路和数电的简单逻辑电路里面都会用到。有集电…

2. Git

2. Git Git简介 Git是什么&#xff1f; Git是目前世界上最先进的分布式版本控制系统&#xff08;没有之一&#xff09;。 Git有什么特点&#xff1f;简单来说就是&#xff1a;高端大气上档次&#xff01; 那什么是版本控制系统&#xff1f; 如果你用Microsoft Word写过长篇大…

HTML---Jquery选择器

文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 本章目标 会使用基本选择器获取元素会使用层次选择器获取元素会使用属性选择器获取元素会使用过滤选择器获取元素 …

rust跟我学二:模块编写与使用

图为RUST吉祥物 大家好,我是get_local_info作者带剑书生,这里用一篇文章讲解get_local_info中模块的使用。 首先,先要了解get_local_info是什么? get_local_info是一个获取linux系统信息的rust三方库,并提供一些常用功能,目前版本0.2.4。详细介绍地址:[我的Rust库更新]g…

yum仓库及NFS共享

目录 一、yum仓库 &#xff08;一&#xff09;yum仓库简介 &#xff08;二&#xff09;实现过程 &#xff08;三&#xff09;yum命令 &#xff08;四&#xff09;搭建内网yum仓库 1.FTP服务搭建yum仓库 ①服务端操作 ②客户端操作 2.http服务搭建yum仓库 ①服务端操作…

电路原理1-线性电阻

前言&#xff1a;整理笔记基于清华大学于歆杰老师的《电路原理》&#xff0c;电路原理是基于无源负载和电源组成电路的分析方法。 1.基础数学知识 算术&#xff1a;数字之间的运算 代数&#xff1a;用变量和函数来代替数字 微积分&#xff1a;描述函数的累积效应&#xff0…

【Python数据可视化】matplotlib之设置子图:绘制子图、子图共享x轴坐标、调整子图间距、设置图片大小

文章传送门 Python 数据可视化matplotlib之绘制常用图形&#xff1a;折线图、柱状图&#xff08;条形图&#xff09;、饼图和直方图matplotlib之设置坐标&#xff1a;添加坐标轴名字、设置坐标范围、设置主次刻度、坐标轴文字旋转并标出坐标值matplotlib之增加图形内容&#x…

Informer简单理解

一、输入层Encoder改进&#xff1a; 1、ProbAttention算法计算权值&#xff1a; 原Transformer中的注意力机制时间复杂度N^2&#xff0c;而Informer作为实时性要求高的长时间序列预测算法必然需要提高效率&#xff0c;降低时间开销。 1.简化K&#xff1a; 对每个Q不再与所有…

073:vue+mapbox 加载here地图(影像瓦片图 v3版)

第073个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+mapbox中加载here地图的影像瓦片图。 直接复制下面的 vue+mapbox源代码,操作2分钟即可运行实现效果 文章目录 示例效果配置方式示例源代码(共77行)相关API参考:专栏目标示例效果

Rust-Panic

什么是panic 在Rust中&#xff0c;有一类错误叫作panic。示例如下&#xff1a; 编译&#xff0c;没有错误&#xff0c;执行这段程序&#xff0c;输出为&#xff1a; 这种情况就引发了一个panic。在这段代码中&#xff0c;我们调用了Option::unwrap()方法&#xff0c;正是这个方…

Softmax回归(多类分类模型)

目录 1.对真实值类别编码&#xff1a;2.预测值&#xff1a;3.目标函数要求&#xff1a;4.使用Softmax模型将输出置信度Oi计算转换为输出匹配概率y^i&#xff1a;5.使用交叉熵作为损失函数&#xff1a;6.代码实现&#xff1a; 1.对真实值类别编码&#xff1a; y为真实值&#xf…

Java顺序表(2)

&#x1f435;本篇文章将对ArrayList类进行讲解 一、ArrayList类介绍 上篇文章我们对顺序表的增删查改等方法进行了模拟实现&#xff0c;实际上Java提供了ArrayList类&#xff0c;而在这个类中就包含了顺序表的一系列方法&#xff0c;这样在用顺序表解决问题时就不用每次都去实…

smartgit选择30天试用后需要输入可执行文件

突然有一天smartgit提示到期了&#xff0c;我按照以往那样删除license和preferences文件后&#xff0c;选择30天试用&#xff0c;弹出了需要选择git可执行文件。 我尝试选择了我的git.exe&#xff0c;发现根本不行&#xff0c;提示让我执行下git --version 执行过后提示我的.gi…

【Shell编程练习】编写 shell 脚本,打印 9*9 乘法表

系列文章目录 输出Hello World 通过位置变量创建 Linux 系统账户及密码 监控内存和磁盘容量&#xff0c;小于给定值时报警 猜大小 输入三个数并进行升序排序 编写脚本测试 192.168.4.0/24 整个网段中哪些主机处于开机状态,哪些主机处于关机状态 系列文章目录编写 shell 脚本,打…

Vue3响应式系统(二)

Vue3响应式系统(一)https://blog.csdn.net/qq_55806761/article/details/135587077 六、嵌套的effect与effect栈。 什么场景会用到effect嵌套呢&#xff1f;听我娓娓道来。 就用Vue.js来说吧&#xff0c;Vue.js的渲染函数就是在effect中执行的&#xff1a; /*Foo组件*/ const…

动态路由协议

一、动态路由协议 动态路由协议&#xff0c;用在多个 Router 之间定期的、自动的、互相交换 Routes&#xff08;路由信息&#xff0c;包含了网段信息、可达性信息、路径信息等&#xff09;&#xff0c;动态生成 Routing Table Entries&#xff0c;并最终达到全网的路由收敛&am…

Java项目:123SSM高校运动会信息管理系统

博主主页&#xff1a;Java旅途 简介&#xff1a;分享计算机知识、学习路线、系统源码及教程 文末获取源码 一、项目介绍 高校运动会信息管理系统基于SpringSpringMVCMybatis开发&#xff0c;主要用来管理高校运动会信息&#xff0c;系统分为管理员何运动员两种角色。系统主要功…

AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前&#xff0c;从而增加他们购买的可能性。随着时间的推移&#xff0c;营销人员能够深入挖掘越来越精准的客户细分市场&#xff0c;他们不仅具备了实现上述目标的能力&#xff0c;而且这种能力还在呈指数级提升。在AI…

如何将github copilot当gpt4用

现在写代码已经离不开ai辅助了我用的是github copilot&#xff0c;一方面是因为它和vscode结合得比较好&#xff0c;另一方面就是copilot chat了。可以在不切换工具的情况下&#xff0c;问它问题&#xff0c;在copilot chat还在内测阶段的时候我就申请使用了&#xff08;现在已…

【现代密码学】笔记9-10.3-- 公钥(非对称加密)、混合加密理论《introduction to modern cryphtography》

【现代密码学】笔记9-10.3-- 公钥&#xff08;非对称加密&#xff09;、混合加密理论《introduction to modern cryphtography》 写在最前面8.1 公钥加密理论随机预言机模型&#xff08;Random Oracle Model&#xff0c;ROM&#xff09; 写在最前面 主要在 哈工大密码学课程 张…