Python爬虫之Scrapy框架系列(3)——项目实战【某瓣top250电影信息获取】

news2024/12/23 13:52:23

目录:

  • 1. 某瓣电影top250首页电影信息的获取!
    • 1.创建项目:
    • 2.创建爬虫文件:
    • 3.运行爬虫文件:
    • 4.设置请求头:
    • 5.获取到电影名字:
      • 5.1 使用shell交互式平台:
        • 5.1.1 首先:打开我们的shell交互式平台。
        • 5.2.2 第二步:在shell交互式平台中匹配我们所需的电影数据。
        • 5.2.3 第三步:从selector对象中提取电影名字
    • 6.将获取到的电影的信息存储到text文本中
      • 6.1 首先:操作items.py文件
      • 6.2 第二步:在爬虫文件中操作数据,使其与管道建立桥梁
      • 6.3 第三步:我们要将数据提交给管道,所以需要打开管道
      • 6.4 第四步:现在数据已经可以交给管道,那么管道就要对数据进行处理
    • 7.实现效果:

1. 某瓣电影top250首页电影信息的获取!

1.创建项目:

scrapy startproject douban

2.创建爬虫文件:

scrapy genspider db www.summer.com

(注意:这个域名是可以随便写的【但是必须要写哦!】,等爬虫文件生成之后再更改为我们所需的即可!)

# -*- coding: utf-8 -*-
import scrapy


class DbSpider(scrapy.Spider):
    name = 'db'
    allowed_domains = ['评论区有']
    start_urls = ['评论区有']

    def parse(self, response):
        print("*********")
        print("*********")
        print("*********")
        print("*********")
        print("*********")
        print(response.text)

3.运行爬虫文件:

scrapy crawl db

但是,我们运行之后发现又没有获取到数据哎!
在这里插入图片描述

造成这样的原因是:回想爬虫的基础,我们如果直接这样向网页发送请求进行爬取,那服务端一眼就看到咱是scrapy了,它还会理咱嘛?所以我们要设置请求头!

4.设置请求头:

在配置文件settings.py中找到如下代码取消注释并加入爬取网页请求头的User-Agent即可!
在这里插入图片描述

5.获取到电影名字:

到现在,我们运行爬虫文件,Scrapy框架已经可以获取到网页的首页数据。那么,我们如何筛选出我们想要的电影的名字呢?
考虑到我们如果利用xpath匹配,可能要多次尝试才能正确匹配到,那就需要我们一次又一次的运行咱的项目,多麻烦啊!咱都这样想了,人家大牛也这样想啊,所以,在这里有个贼帅贼帅的牛皮的方法:

5.1 使用shell交互式平台:

(注意1:它是遵循settings设置的;2:一定要到咱的项目文件夹下运行)

具体操作步骤如下:

  • 首先:cd到我们项目的文件路径下。
  • 然后:输入命令scrapy shell url (start_urls) 即可!
    这样:它其实就请求到了此url的数据(跟上面运行爬虫文件得到的数据一模一样)!!!

5.1.1 首先:打开我们的shell交互式平台。

  • 在此项目的terminal中:输入命令scrapy shell 评论区的start urls

5.2.2 第二步:在shell交互式平台中匹配我们所需的电影数据。

  • 输入:response.xpath('//div[@class="info"]/div/a/span[1]/text()')

在这里插入图片描述
会发现:这得到的是一个selector对象!
而我们得到的数据就是用的response对象自带的xpath匹配到的(生成了response之后就会自动生成selector对象)!
与我们正常用的xpath不同,它获取到的数据在selector对象里,如上图:

5.2.3 第三步:从selector对象中提取电影名字

使用selector对象的方法.extract()。这个方法可以提取到selector对象中data对应的数据。

response.xpath('//div[@class="info"]/div/a/span[1]/text()').extract()

在这里插入图片描述

6.将获取到的电影的信息存储到text文本中

注意:如果想要存储数据,就要用到管道。
这就涉及到了items.py文件(定义结构化数据字段)和pipelines.py文件(管道文件)。

6.1 首先:操作items.py文件

  • 因为我们只需要存储一个信息,所以定义一个字段名即可!

  • 定义公共输出数据格式,Scrapy提供了Item类。Item对象是用于收集剪贴数据的简单容器。它们提供了一个类似词典的API,提供了一种方便的语法来声明它们的可用字段。 scray.Item对象是用于收集抓取数据的简单容器,使用方法和python的字典类似。编辑项目目录下items.py文件。

  • 然后我们只需要在爬虫中导入我们定义的Item类,实例化后用它进行数据结构化。

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #需要定义字段名  就像数据库那样,有字段名,才能插入数据(即存储数据)
    # Field代表的是字符串类型!!!
    films_name=scrapy.Field()   #定义字段名

6.2 第二步:在爬虫文件中操作数据,使其与管道建立桥梁

到目前为止,我们通过scrapy写出的爬虫还看不出优越性在哪里,并且上面的爬虫还有个很严重的问题,就是对文件的操作。每次调用parse方法会打开文件关闭文件,这极大的浪费了资源。parse函数在解析出我们需要的信息之后,可以将这些信息打包成一个字典对象或scray.Item对象(一般都是item对象),然后返回。这个对象会被发送到item管道,该管道会通过顺序执行几个组件处理它。每个item管道组件是一个实现简单方法的Python类。他们收到一个item并对其执行操作,同时决定该item是否应该继续通过管道或者被丢弃并且不再处理。

item管道的典型用途是:

  • 清理HTML数据
  • 验证已删除的数据(检查项目是否包含某些字段)
  • 检查重复项(并删除它们)
  • 将已爬取的item进行数据持久化
# -*- coding: utf-8 -*-
import scrapy

from ..items import DoubanItem      #因为我们要使用包含定义字段名的类,所以需要导入

class DbSpider(scrapy.Spider):
    name = 'db'
    allowed_domains = ['评论区']
    start_urls = ['评论区']

    def parse(self, response):
        # 获取电影信息数据
        films1_name=response.xpath('//div[@class="info"]/div/a/span[1]/text()').extract()
        # 交给管道存储
        # 使用DoubanItem
        item=DoubanItem()  #创建对象
        item["films_name"]=films1_name      #值是个列表,因为xpath匹配到的数据都扔到列表里了!
        # item可以理解为一个安全的字典  用法与字典相同
        print("item里面是:",dict(item))  #可以转换为字典
        return item     #交给引擎  引擎要交给管道,需要打开管道

6.3 第三步:我们要将数据提交给管道,所以需要打开管道

  • 要激活这个管道组件,必须将其添加到ITEM_PIPELINES设置中,在settings.py文件中:

(在此设置中为类分配的整数值决定了它们运行的顺序:按照从较低值到较高值的顺序进行。
注意:这个管道的目的只是介绍如何编写项目管道,如果要将所有爬取的item存储到json文件中,则应使用Feed导出,在运行爬虫时加上如下参数:
scrapy crawl bd -o films.json)

在这里插入图片描述

6.4 第四步:现在数据已经可以交给管道,那么管道就要对数据进行处理

就是操作pipelines.py文件

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import json
class DoubanPipeline(object):
    def process_item(self, item, spider):
        #为了能写进text  json.dumps将dic数据转换为str
        json_str=json.dumps(dict(item),ensure_ascii=False)
        with open("films.text","w",encoding="utf-8") as f:
            f.write(json_str)
        return item

7.实现效果:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/164456.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

239页10万字“联、管、用”三位一体雪亮工程整体建设方案

【版权声明】本资料来源网络,知识分享,仅供个人学习,请勿商用。【侵删致歉】如有侵权请联系小编,将在收到信息后第一时间删除!完整资料领取见文末,部分资料内容: 目录 1、 项目概述 1.1 项目背…

用R语言绘制泰勒级数的逼近过程

文章目录泰勒级数是如何被发现的用图像理解Taylor级数的逼近过程前情提要 R语言微积分极限π,e,γ\pi, e, \gammaπ,e,γ洛必达法则连续性和导数数值导数差商与牛顿插值方向导数 泰勒级数是如何被发现的 如果我是泰勒,我会把思考的起点建立在这样的一个等式上 f(n…

Windows10电脑重装系统详细步骤(纯净版)

目录 前言: 一、准备工作 二、下载pe工具 三、下载系统镜像ISO文件 获取方式一 获取方式二 获取方式三 四、进入pe系统 1.检查以上的准备工作是否完成 2.然后拔出来u盘插入要重装的电脑上面 3.然后按电源键开机(不能点击重启!&…

【Git 从入门到精通】使用Git将本地代码推送到Github

文章目录一、创建远程库二、Git操作远程库1.推送代码2.克隆代码3.拉取代码4.Pull request5.常用命令总结一、创建远程库 打开github.com,点击右上角加号,点击第一个选项。 填写库的基本信息,如果你想代码开源就选择public,否则就…

开发模型和测试模型

开发模型瀑布模型特点:线性结构,每个阶段只执行一次,必须完成上一个才能执行下一个。是其他模型的基础框架缺点:测试后置,1)前面各个阶段的遗留的风险推迟到测试阶段才被发现,导致项目大面积返工…

【7】SCI易中期刊推荐——图像处理领域(中科院4区)

🚀🚀🚀NEW!!!SCI易中期刊推荐栏目来啦 ~ 📚🍀 SCI即《科学引文索引》(Science Citation Index, SCI),是1961年由美国科学信息研究所(Institute for Scientific Information, ISI)创办的文献检索工具,创始人是美国著名情报专家尤金加菲尔德(Eugene Garfield…

【LGR-(-17)】洛谷入门赛 #8个人思考

T306713 Hello, 2023 题目背景 Goodbye, 2022 Hello, 2023 题目描述 某 E 在 2022 年的幸运数字是 xxx,这个数可能是正的,也可能是负的。 某 E 想要知道 xmod2023x \bmod 2023xmod2023 的值。其中,mod\bmodmod 是取模操作。也就是说&am…

数据结构:线性表的顺序表示和实现

在实际应用程序中涉及的线性表的基本操作都需要针对线性表的具体存储结构加以实现。线性表可以有两种存储表示方法:顺序存储表示和链式存储表示。下面我们先说说顺序存储表示。 1、顺序表——线性表的顺序存储表示 在计算机中表示线性表的最简单的方法是用一组地址连续的存储…

Linux:自动化构建工具make/Makefile

文章目录一.前言二.Makefile如何写入/make命令使用2.1清楚依赖关系和依赖方法2.2删除文件2.3Makefile中的关键字.PHONY2.4一个小补充一.前言 在此之前我们已经可以用vim编写代码和用gcc编译代码。但是如果现在要写一个大型项目,一下子写了很多源文件,在…

C. Zero Path(DP)

Problem - 1695C - Codeforces 给你一个有n行和m列的网格。我们用(i,j)表示第i(1≤i≤n)行和第j(1≤j≤m)列的方格,用aij表示那里的数字。所有的数字都等于1或等于-1。 你从方格(1,1)开始,每次可以向下或向右移动一个方格。最后&…

基于结点的数据结构——链表(单链表双向循环链表)| 附完整源码 | C语言版

本章内容 1.什么是链表 2.链表常见几种形式 3.无头单向非循环链表的实现 3.1结点结构的定义 3.2函数接口的实现 3.2.1尾插 3.2.2尾删 4. 带头双向循环链表的实现 4.1结点结构的定义 4.2函数接口的实现 5.两种链表的差异 ①尾插与尾删的时间复杂度 ②头插与头删的时…

Ai 作图 stable-diffusion-webui prompt

文章参考了 prompt指导手册 : https://strikingloo.github.io/stable-diffusion-vs-dalle-2 https://prompthero.com/stable-diffusion-prompt-guide 一般来说,最好的稳定扩散提示会有这样的形式: “ [主要主题]的[图片类型] &#xff0…

C语言-文件操作(13.1)

目录 思维导图: 1. 为什么使用文件 2. 什么是文件 2.1 程序文件 2.2 数据文件 2.3 文件名 3. 文件的打开和关闭 3.1 文件指针 3.2 文件的打开和关闭 4. 文件的顺序读写 4.1 对比一组函数 5. 文件的随机读写 5.1 fseek 5.2 ftell 5.3 rewind 6. 文本…

FeignClient调用源码解析

文章目录一、FeignClient二、整体流程1.使用FeignClient2.FeignClient整体调用流程三、源码解析1. 注解EnableFeignClients2. FeignClientsRegistrar3. Feign其他配置4. FactoryBean5. 方法调用一、FeignClient FeignClient作为SrpingCloud进行http请求的一个基础组件&#xf…

IP地址和MAC地址是什么?Dhcp和arp又是什么?

本期武汉海翎光电的小编和大家聊聊 计算机是如何通信的?IP地址和MAC地址是什么?Dhcp和arp又是什么?在我们的家庭网络中,有许多的网络设备,比如我们可以有两台计算机A和B, 一台手机一台电视机,他们都连接到了…

【尚硅谷】Java数据结构与算法笔记09 - 哈希表

文章目录一、哈希表引入二、基本介绍三、Google公司的一个上机题3.1 题目描述3.2 代码实现一、哈希表引入 1)看一个实际需求, google 公司的一个上机题: 2)有一个公司, 当有新的员工来报道时, 要求将该员工的信息加入(id,性别,年龄, 住址…), 当输入该员…

【Linux】理解文件系统——软硬链接

我们之前讨论的都是进程和被打开文件的关系,而如果一个文件是没有被打开呢?没有被打开的文件操作系统如何管理? 没有被打开的文件在磁盘上,所以磁盘上有大量的文件,这些文件要被静态管理起来,方便我们随时…

1588_AURIX_TC275_PMU简介

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) PMU是编程存储单元的缩写,但是落实到了具体的硬件模块上其实是一个Flash模块。在TC275中,只有一个PMU模块。在所有的AURIX芯片中,只有PMU0支持BootROM的…

React--》React组件的三大核心属性

目录 state 事件绑定 props 函数式组件使用props refs state state是组件对象最重要的属性,值是对象(可以包含多个 key-value的组合);组件被称为“状态机”,通过更新组件来对应页面显示(重新渲染组件),也就是有状态组件&…

ASP.NET Core 3.1系列(29)——System.Text.Json实现JSON的序列化和反序列化

1、前言 在Web开发中,JSON数据可以说是无处不在。由于具有轻量、易读等优点,JSON已经成为当前主流的数据传输格式。在ASP.NET Core 3.0之前,大多数项目都会使用Newtonsoft.Json组件来实现JSON的序列化和反序列化操作,而从ASP.NET…