爬虫实战之使用 Python 的 Scrapy 库开发网络爬虫详解

news2024/12/23 14:58:47

    


关键词 - Python, Scrapy, 网络爬虫

在信息爆炸时代,我们每天都要面对海量的数据和信息。有时候我们需要从互联网上获取特定的数据来进行分析和应用。今天我将向大家介绍如何使用 Python 的 Scrapy 库进行网络爬虫,获取所需数据。


1. Scrapy 简介

1.1 什么是网络爬虫?

网络爬虫就是一种自动化程序,能够模拟人的行为,在互联网上浏览并提取网页中的数据。通过网络爬虫,我们可以快速获取大量的数据,而不需要手动访问每个网页。

1.2 Scrapy 是什么?

Scrapy 是一个用于构建网络爬虫的强大框架。它提供了一套简单而灵活的方式来定义爬虫的行为。借助 Scrapy,我们可以轻松地编写爬虫代码,处理网页的下载解析数据提取等任务。

2. 安装和配置 Scrapy

在开始使用 Scrapy 之前,我们需要先安装并配置好相关的环境。

2.1 安装 Scrapy

打开终端或命令提示符,执行以下命令:

pip install scrapy

2.2 创建 Scrapy 项目

安装完成后,我们可以使用 Scrapy 命令行工具创建一个新的 Scrapy 项目。在终端或命令提示符中,进入你想要创建项目的目录执行以下命令:

scrapy startproject myproject

这里是初始化 Scrapy 项目结构。

3. 编写第一个爬虫

现在来编写一个爬虫。在 Scrapy 项目中,爬虫代码位于 spiders 文件夹下的 Python 文件中。

3.1 创建爬虫文件

首先创建一个新的爬虫文件。

scrapy genspider myspider example.com

执行后在 spiders 文件夹下创建一个名为 myspider.py 的文件,同时指定要爬取的网站为 example.com

3.2 编写爬虫代码

打开 myspider.py 文件,可以看到一个基本的爬虫模板。在这个模板中,我们可以定义爬虫的名称、起始 URL、数据提取规则等。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://www.example.com']

    def parse(self, response):
        # 在这里编写数据提取代码
        pass

在 parse 方法中可以编写代码来提取需要的数据。通过使用 Scrapy 提供的选择器和XPath表达式,我们可以轻松地定位和提取网页中的元素。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://www.example.com/post-1.html']

    def parse(self, response):
        # 提取标题和链接
        titles = response.css('h1::text').getall()
```python
        links = response.css('a::attr(href)').getall()

        # 打印标题和链接
        for title, link in zip(titles, links):
            print(f"标题:{title}")
            print(f"链接:{link}")

3.3 运行爬虫

编写完爬虫代码后,我们可以在终端或命令提示符中进入项目根目录,并执行以下命令来运行爬虫:

scrapy crawl myspider

爬虫将会开始运行,并从指定的起始 URL 开始爬取数据。提取到的数据将会在终端或命令提示符中显示出来。

4. 数据存储与处理

提取到的数据通常需要进行存储和处理。Scrapy 提供了多种方式来实现数据的存储和处理,包括保存为文件、存储到数据库等。

4.1 保存为文件

我们可以使用 Scrapy 提供的 Feed Exporter 来将数据保存为文件。在 settings.py 文件中,我们可以配置导出数据的格式和存储路径。

FEED_FORMAT = 'csv'
FEED_URI = 'data.csv'

在爬虫代码中,我们可以通过在 parse 方法中使用 yield 关键字返回提取到的数据,并将其保存到文件中。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://www.example.com/post-1.html']

    def parse(self, response):
        # 提取标题和链接
        titles = response.css('h1::text').getall()
        links = response.css('a::attr(href)').getall()

        # 保存为文件
        for title, link in zip(titles, links):
            yield {
                '标题': title,
                '链接': link
            }

4.2 存储到数据库

如果我们希望将数据存储到数据库中,可以使用 Scrapy 提供的 Item Pipeline。在 settings.py 文件中,我们可以启用 Item Pipeline 并配置数据库连接信息。

ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

DATABASE = {
    'drivername': 'postgresql',
    'host': 'localhost',
    'port': '5432',
    'username': 'myuser',
    'password': 'mypassword',
    'database': 'mydatabase'
}

在爬虫代码中,我们可以定义一个 Item 类来表示要存储的数据,并在 parse 方法中使用 yield 关键字返回 Item 对象。

import scrapy

class MyItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://www.example.com/post-1.html']

    def parse(self, response):
        # 提取标题和链接
        titles = response.css('h1::text').getall()
        links = response.css('a::attr(href)').getall()

        # 存储到数据库
        for title, link in zip(titles, links):
            item = MyItem()
            item['title'] = title
            item['link'] = link
            yield item

yield item 将数据项(item)生成为一个生成器(generator),并将其返回给Scrapy引擎。引擎会根据配置的管道设置,将生成器中的数据项传递给相应的管道进行处理。每个管道可以对接收到的数据项进行自定义的操作,例如验证、清洗、转换等,并最终将数据存储到指定的位置。

通过使用yield item语句,可以实现数据的流式处理和异步操作,从而提高爬虫的效率和性能。

5. 继续爬取下一页

当我们需要爬取多页数据时,通常需要提取文章列表页面上的“下一页”URL,并继续执行下一页的爬取任务,直到最后一页。在 Scrapy 中,我们可以通过在 parse 方法中提取“下一页”URL,并使用 scrapy.Request 发起新的请求来实现这一功能。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://www.example.com/list']

    def parse(self, response):
        # 提取当前页面的数据

        # 提取下一页的URL
        next_page_url = response.css('a.next-page::attr(href)').get()

        if next_page_url:
            # 构造下一页的请求
            next_page_request = scrapy.Request(response.urljoin(next_page_url), callback=self.parse)

            # 将请求传递给 Scrapy 引擎
            yield next_page_request

通过使用 yield,我们可以实现异步的、逐步的数据处理和请求发送。当 Scrapy 引擎接收到一个请求对象时,它会根据请求对象的设置,发送网络请求并等待响应。一旦响应返回,引擎会根据请求对象的回调函数,调用相应的方法来处理数据。这种异步的处理方式可以提高爬取效率,并且节省内存的使用。

通过循环执行以上代码,可以持续进行爬取任务,直到最后一页为止。

技术总结

今天我们详细介绍了如何使用 Scrapy 库进行网络爬虫,这个强大的工具极大地提升了获取新闻、电商商品信息以及进行数据分析和挖掘的效率,希望对你有所启发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/929055.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Jmeter压测测试

Jmeter安装启动 1、Jmeter下载安装 模拟真正的大量并发请求 下载Jmeter:Apache JMeter - Download Apache JMeter 解压apache-jmeter-5.4.1.zip文件至目录下(不要有空格和中文) 2、配置JMETER_HOME 我的电脑----》属性----》高级----》环…

CleanMyMac2024永久版Mac清理工具

Mac电脑作为相对封闭的一个系统,它会中毒吗?如果有一天Mac电脑产生了疑似中毒或者遭到恶意不知名攻击的现象,那又应该如何从容应对呢?这些问题都是小编使用Mac系统一段时间后产生的疑惑,通过一番搜索研究,小…

若依移动端Ruoyi-App 入门

后端项目运行 运行报错 Error creating bean with name sysConfigServiceImpl: Invocation of init method failed 数据库创建了。 代码连接数据库地方了也匹配上了。但是还是报错。 分析 : 想起来我电脑从来没有安装过redis 下载安装redis到windows 链接&…

Vue2向Vue3过度核心技术watch侦听器

目录 1 watch侦听器1.1 作用:1.2 语法:1.3 侦听器代码准备 2 翻译案例-代码实现3 watch侦听器3.1 语法3.2 需求3.3 代码实现3.4 总结 1 watch侦听器 1.1 作用: ​ 监视数据变化,执行一些业务逻辑或异步操作 1.2 语法&#xff1a…

Spring与Mybatis集成且Aop整合

目录 一、集成 1.1 集成的概述 1.2 集成的优点 1.3 代码示例 二、整合 2.1 整合概述 2.2 整合进行分页 一、集成 1.1 集成的概述 集成是指将不同的组件、部分或系统组合在一起,以形成一个整体功能完整的解决方案。它是通过连接、交互和协调组件之间的关系来实…

CSS实现内凹圆角,从而实现圆角边框

1、代码 <!DOCTYPE html> <html><head><style>.uu {position: relative;width: 400px;height: 300px;}img {width: 100%;height: 100%;z-index: 1;}.box_right_top {background-image: radial-gradient(circle at left bottom, transparent 50px, whi…

vue ui 创建项目没有反应

问题 cmd中输入 vue ui 没有反应 解决办法 vue ui命令需要vue3.0以上的版本才可以 1、查看当前版本 vue --version vue版本在3.0以下是没有ui命令的 2、查看版本所拥有的命令 vue -h 3、卸载之前版本的vue npm uninstall vue-cli -g 卸载完成&#xff0c;检查是否已经…

Notepad++正则匹配

Notepad正则匹配 Notepad正则表达式字符串最长不能超过69个字符一、支持的语法二、正则表达式诀窍三、案例3.1、匹配时间戳3.2、提取指定字符串3.3、提取单词3.4、查找中文字符 四、示例4.1、示例1&#xff1a;把含目标字符串及之后的字符串全部替换4.2、示例2&#xff1a;4.3、…

WPF读取dicom序列:实现上一帧、下一帧、自动播放、暂停

一、整体设计概况 创建WPF程序使用.Net Framework4.8定义Image控件展示图像增加标签展示dcm文件信息规划按钮触发对应的事件:上一帧、下一帧、自动播放、暂停、缩放、播放速率二、页面展示 三、代码逻辑分析 Windows窗体加载Loaded事件:生成初始图像信息Windows窗体加载Mous…

搭建产品知识库:正确构建和使用产品知识库,做好知识沉淀

对于产品来说&#xff0c;通过设立产品知识库将用户所需要的产品知识进行汇总和整理&#xff0c;并且针对用户所急需解决的问题提供相关解决方案&#xff0c;这就是搭建产品知识库最大的价值。 产品知识库的搭建方式其实很简单&#xff0c;只需要借助HelpLook将优质的内容和解决…

Java线程 - 详解(1)

一&#xff0c;创建线程 方法一&#xff1a;继承Thread类 class MyThread extends Thread{Overridepublic void run() {System.out.println("线程1");} }public class Test {public static void main(String[] args) {MyThread myThread new MyThread();myThread.…

基于YOLOv8模型和DarkFace数据集的黑夜人脸检测系统(PyTorch+Pyside6+YOLOv8模型)

摘要&#xff1a;基于YOLOv8模型和DarkFace数据集的黑夜人脸检测系统可用于日常生活中检测与定位黑夜下的人脸&#xff0c;利用深度学习算法可实现图片、视频、摄像头等方式的目标检测&#xff0c;另外本系统还支持图片、视频等格式的结果可视化与结果导出。本系统采用YOLOv8目…

TCP--半连接队列和全连接队列

原文地址&#xff1a;https://plantegg.github.io/2020/04/07/%E5%B0%B1%E6%98%AF%E8%A6%81%E4%BD%A0%E6%87%82TCP–%E5%8D%8A%E8%BF%9E%E6%8E%A5%E9%98%9F%E5%88%97%E5%92%8C%E5%85%A8%E8%BF%9E%E6%8E%A5%E9%98%9F%E5%88%97–%E9%98%BF%E9%87%8C%E6%8A%80%E6%9C%AF%E5%85%AC%E…

分布式事务篇-2.3 Seata事务模式

文章目录 前言一、事务模式 是什么&#xff1f;二、Seata中的事务模式支持&#xff1a;2.1 AT 模式&#xff08;自动补偿型事务&#xff09;&#xff1a;2.1.1 AT 模型&#xff1a;2.1.2 AT 写隔离&#xff1a;2.1.3 AT 读隔离&#xff1a;2.1.3 AT 优缺点&#xff1a; 2.2 TCC…

图的应用(考研)

一、最小生成树 性质&#xff1a; &#xff08;1&#xff09;不唯一&#xff08;2&#xff09;权值之和是唯一的&#xff08;3&#xff09;删去一条边会变成非连通图&#xff0c;增加一条边会产生回路&#xff08;4&#xff09;最小生成树的边数为顶点数减一 1、Prim算法 m…

第P2周:彩色图片识别

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 我的环境&#xff1a; 语言环境&#xff1a;Python3.10.7编译器&#xff1a;VScode深度学习环境&#xff1a;TensorFlow 2.13.0 一、前期工作&#xff1a; …

生产制造型企业BOM搭建分析

导 读 ( 文/ 2358 ) 在上几篇文章中&#xff0c;我们讲到了基础的物料管理方法&#xff0c;在生产制造中&#xff0c;物料作为原材料&#xff0c;通过加工&#xff0c;结构组装成产品。那么加工、组装的依据将来源于设计人员出具的零件清单&#xff0c;也就是我们常说的BOM。 …

本地编译angular提示内存溢出

本地遇到编译angular时&#xff0c;报如下错误&#xff1a; FATAL ERROR: Ineffective mark-compacts near heap limit Allocation failed - JavaScript heap out of memory 两种解决办法&#xff0c;具体如下&#xff1a; 设置环境变量&#xff0c;见图&#xff1a; 直接在…

cortex-A7核LED灯实验--STM32MP157

实验目的&#xff1a;实现LED1 / LED2 / LED3三盏灯工作 一&#xff0c;分析电路图 1&#xff0c;思路 分析电路图可知&#xff1a; 网络编号 引脚编号 LED1 PE10 LED2 > PF10 LED3 > PE8 2&#xff0c;工作原理&#xff1a; 写1&#xff1a;LED灯亮&#xf…

小猫爪:嵌入式小知识17-XCP on CAN简介

小猫爪&#xff1a;嵌入式小知识17-XCP on CAN简介 0 目录1 前言2 XCP on CAN3 实战演练3.1 CONNECT3.2 GET_COMM_MODE_INFO和GET_STATUS3.3 GET_SEED和UNLOCK3.4 获取Slave信息3.5 SET_MTA和BUILD_CHECKSUM3.6 设置DAQ3.7 DAQ传输3.8 SHORT_UPLOAD3.9 标定3.10 FLASH Program …