高级网页爬虫开发:Scrapy和BeautifulSoup的深度整合

news2024/11/24 12:33:05

00018.png

引言

在互联网时代,数据的价值日益凸显。网页爬虫作为一种自动化获取网页内容的工具,广泛应用于数据挖掘、市场分析、内容聚合等领域。Scrapy是一个强大的网页爬虫框架,而BeautifulSoup则是一个灵活的HTML和XML文档解析库。本文将探讨如何将这两个工具深度整合,开发出高级的网页爬虫。

为什么选择Scrapy和BeautifulSoup

Scrapy以其灵活性和强大的网络请求处理能力著称。它支持异步处理,能够同时处理多个请求,从而提高爬取效率。同时,Scrapy还提供了丰富的中间件支持,使得在请求发送和响应处理过程中可以灵活地添加自定义逻辑。
BeautifulSoup则以其简洁的API和强大的解析能力被广泛使用。它能够轻松地从复杂的HTML文档中提取出所需的数据。尽管Scrapy自带了强大的选择器,但在某些复杂情况下,BeautifulSoup提供了更多的灵活性和控制力。

环境准备

在开始之前,确保你的开发环境中已经安装了Python和pip。然后,通过pip安装Scrapy和BeautifulSoup4。

bash
pip install scrapy
pip install beautifulsoup4

创建Scrapy项目

首先,创建一个新的Scrapy项目。

bash
scrapy startproject mycrawler

这将创建一个名为mycrawler的目录,其中包含了Scrapy项目的基本结构。

定义Item

在Scrapy中,Item是存储爬取数据的容器。定义一个Item来指定你想要抓取的数据字段。

python
# mycrawler/items.py

import scrapy

class MyItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    description = scrapy.Field()

编写Spider

Spider是Scrapy中负责发送请求并解析响应的类。编写一个Spider来定义爬取的逻辑。

python
# mycrawler/spiders/myspider.py

import scrapy
from mycrawler.items import MyItem

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        for article in response.css('div.article'):
            item = MyItem()
            item['title'] = article.css('h2::text').get()
            item['link'] = article.css('a::attr(href)').get()
            item['description'] = article.css('p.description::text').get()
            yield item

使用BeautifulSoup进行数据清洗

在某些情况下,你可能需要对Scrapy提取的数据进行进一步的清洗或提取更复杂的数据结构。这时,可以使用BeautifulSoup。

python
# mycrawler/pipelines.py

import scrapy
from bs4 import BeautifulSoup

class MyPipeline(scrapy.Pipeline):
    def process_item(self, item, spider):
        soup = BeautifulSoup(item['description'], 'html.parser')
        item['description'] = soup.get_text()
        return item

配置项目

settings.py中启用Pipeline,并设置下载延迟和并发请求的数量。

python
# mycrawler/settings.py

ITEM_PIPELINES = {
   'mycrawler.pipelines.MyPipeline': 300,
}

DOWNLOAD_DELAY = 3
CONCURRENT_REQUESTS_PER_DOMAIN = 8

处理JavaScript渲染的页面

如果目标网站使用JavaScript动态加载内容,Scrapy可能无法直接提取这些内容。这时,可以使用Scrapy的中间件或Selenium来处理。

python
# mycrawler/middlewares.py

import scrapy
from selenium import webdriver

class SeleniumMiddleware(scrapy.Middleware):
    def process_request(self, request, spider):
        if request.meta.get('download_delay'):
            time.sleep(request.meta['download_delay'])

    def process_response(self, request, response, spider):
        if request.meta.get('download_delay'):
            driver = webdriver.PhantomJS()
            driver.get(request.url)
            body = driver.page_source
            driver.quit()
            return scrapy.http.HtmlResponse(request.url, body=body, encoding='utf-8', request=request)
        return response

遵守Robots协议

在爬取前,检查目标网站的robots.txt文件,确保遵守网站的爬取规则。

存储数据

将提取的数据存储到文件或数据库中。Scrapy提供了多种存储选项,如JSON、CSV、XML等。

python
# mycrawler/pipelines.py

class JsonPipeline:
    def open_spider(self, spider):
        self.file = open('items.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

结论

通过深度整合Scrapy和BeautifulSoup,我们可以构建一个功能强大、灵活高效的网页爬虫。Scrapy负责处理网络请求和响应,而BeautifulSoup则用于数据的解析和清洗。这种结合不仅提高了数据抓取的效率,也增强了数据提取的灵活性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1951256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

凸优化笔记-基本概念

原文 文章目录 最小二乘问题 仿射affine hullaffine dimension 凸集锥集超平面和半空间单纯形整半定锥保凸性的操作透视函数 凸函数的条件1阶判定条件2阶判定条件 Epigraph 外图 m i n i m i z e f 0 ( x ) minimize\ \ \ f_0(x) minimize f0​(x) s u b j e c t t o f i ( …

Python 爬虫入门(一):从零开始学爬虫 「详细介绍」

Python 爬虫入门(一):从零开始学爬虫 「详细介绍」 前言1.爬虫概念1.1 什么是爬虫?1.2 爬虫的工作原理 2. HTTP 简述2.1 什么是 HTTP?2.2 HTTP 请求2.3 HTTP 响应2.4 常见的 HTTP 方法 3. 网页的组成3.1 HTML3.1.1 HTM…

Debug下载与安装(Windows11)

前言 在安装配置前我们先下载一下我们需要用的文件 下载debug 百度网盘下载 下载DOSBox DOSBox 两个文件下载好后我们就开始安装和配置了 第一步:安装DOSBox 第二步:安装好后找到安装路径找到Options.bat文件并打开 第三步:在文件最下…

图片变色,背景方向渐变web

<!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <title>图片变色</title> <script src"03.JS\3.8JS案例加强\JQuery.js"></script> <style> .image-filter…

nvm 安装和遇到的问题

环境 win 11 安装 下载安装包 访问 https://github.com/coreybutler/nvm-windows/releases 选择需要的版本继续下载安装基本是可以下一步下一步的啦&#x1f92d; 安装 node 我这里需要16.x.x的node&#xff0c;执行以下命令 nvm install 16使用 node nvm use 16问题 …

苹果CMS V10萌芽采集插件Pro v10.7.3

苹果CMS V10萌芽采集插件Pro v10.7.3 插件下载:萌芽采集插件Pro v10.7.3.zip 使用说明: 将addons文件和static文件放到你苹果cms程序的根目录并覆盖&#xff0c; 在登录后台在应用-应用市场启用。http://你的域名/admin.php/admin/mycj/union.html

卷积的意义及其派生(一)

1.卷积的意义 1.1从LTI的角度看 卷积最开始其实是信号处理中用来描述线性移不变系统Linear time-invariant systems的。线性&#xff0c;表明可以叠加&#xff0c;信号可以拆分成脉冲的响应&#xff1b;时不变&#xff0c;指信号不随着时间的迁移改变&#xff0c;意味着能量守…

计算机网络(Wrong Question)

一、计算机网络体系结构 1.1 计算机网络概述 D 注&#xff1a;计算机的三大主要功能是数据通信、资源共享、分布式处理。&#xff08;负载均衡、提高可靠性&#xff09; 注&#xff1a;几段链路就是几段流水。 C 注&#xff1a;记住一个基本计算公式&#xff1a;若n个分组&a…

C语言程序设计(二)

四.找素数 素数&#xff1a;除了1和它本身不再有其他因数的自然数。换句话说&#xff1a;一个大于1的自然数 &#xff0c;如果只能被1和它本身整除&#xff0c;那就是素数&#xff08;质数&#xff09;。 在打印中遇到的问题就是&#xff0c;知道怎么写却总是运行不起来。主要…

苦学Opencv的第十一天:图像的形态学操作

Python OpenCV从入门到精通学习日记&#xff1a;图像的形态学操作 前言 图像形态学是图像处理中的一个重要分支&#xff0c;主要关注图像中物体的形状和结构。通过形态学操作&#xff0c;我们可以对图像进行有效的分析和处理&#xff0c;例如图像的腐蚀与膨胀、开运算与闭运算…

Java 并发编程:一文了解 Java 内存模型(处理器优化、指令重排序与内存屏障的深层解析)

大家好&#xff0c;我是栗筝i&#xff0c;这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 022 篇文章&#xff0c;在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验&#xff0c;并希望进…

VIN解析汽车详情|阿里云实现调用API接口

介绍&#xff1a; 本次解析通过阿里云云市场的云服务来实现通过17位车架号来自动识别车型的详细信息&#xff0c;首先需要准备选择一家可以提供查询的商品。 https://market.aliyun.com/apimarket/detail/cmapi00065864#skuyuncode5986400001 步骤1: 选择商品 如图点击免费…

【微软蓝屏】微软Windows蓝屏问题汇总与应对解决策略

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

关键词查找【Knuth-Morris-Pratt (KMP) 算法】

一个视频让你彻底学懂KMP算法_哔哩哔哩_bilibili KMP算法的核心是利用匹配失败后的信息&#xff0c;尽量减少模式串与主串的匹配次数以达到快速匹配的目的。 第一步&#xff1a;计算模式串(子串)和next[j]数组 模式串 前2位字母的next[j]固定是0 和 1 后续字母的nex[j]&…

项目实战——外挂开发(30小时精通C++和外挂实战)

项目实战——外挂开发&#xff08;30小时精通C和外挂实战&#xff09; 外挂开发1-监控游戏外挂开发2-秒杀僵尸外挂开发3-阳光地址分析外挂开发4-模拟阳光外挂开发5-无限阳光 外挂开发1-监控游戏 外挂的本质 有两种方式 1&#xff0c;修改内存中的数据 2&#xff0c;更改内存中…

跟李沐学AI:池化层

目录 二维最大池化 填充、步幅和多个通道 平均池化层 池化层总结 二维最大池化 返回滑动窗口中的最大值。 图为池化窗口形状为 22 的最大池化层。着色部分是第一个输出元素&#xff0c;以及用于计算这个输出的输入元素: max(0,1,3,4)4。池化层与卷积层类似&#xff0c;不断…

数据库中的事务

一、理解事务 1、本质 事务由一组DML语句组成&#xff0c;这一组语句要么全部成功&#xff0c;要么全部失败。在逻辑上&#xff0c;事务就是一组sql语句&#xff0c;但在实际中&#xff0c;公共的数据库一定会高并发地接受各种事务的请求&#xff0c;所以一个事务要有4个属性…

centos7 xtrabackup mysql(8)增量备份(1)

centos7 xtrabackup mysql&#xff08;8&#xff09;增量备份&#xff08;1&#xff09; 参考 xtrabackup-8.0的安装、备份以及恢复&#xff08;innoxtrabackup有待测试&#xff09; https://blog.csdn.net/DWJRIVER/article/details/117792271 https://blog.csdn.net/qq_28…

力扣高频SQL 50 题(基础版)第四题

文章目录 力扣高频SQL 50 题&#xff08;基础版&#xff09;第四题584.寻找用户推荐人题目说明思路分析实现过程准备数据实现方式结果截图 力扣高频SQL 50 题&#xff08;基础版&#xff09;第四题 584.寻找用户推荐人 题目说明 表: Customer -------------------- | Colu…