Scrapy框架实现数据采集的详细步骤

news2025/7/13 13:56:14

需求描述：

本项目目标是使用Scrapy框架从宁波大学经济学院网站（nbufe.edu.cn）爬取新闻或公告详情页的内容。具体需求如下：

1、通过遍历多个页面（共55页）构建翻页URL。

2、使用scrapy自带的xpath从每页的HTML结构中提取新闻或公告详情页的链接。

3、对每个详情页，使用BeautifulSoup解析HTML并提取以下信息：

标题、来源、作者、时间、内容、撰稿、摄影、审核。最终将所有提取的信息存储在excel中。

创建scrapy爬虫项目

首先新建一个新的爬虫项目：

Cd 进入创建位置，scrapy genspider 爬虫名称+爬虫网站创建新的爬虫项目

scrapy项目文件

目录结构中的文件说明如下：

spiders(文件夹)：用于创建爬虫文件，编写爬虫规则。

__ init __文件：初始化文件。

items文件：用于数据的定义，可以寄存处理后的数据。

middlerwares文件：定义爬取时的中间件，其中包括SpiderMiddleware(爬虫中间件)、DownloaderMiddleware(下载中间件)

pipelines文件：用于实现清洗数据、验证数据、保存数据。

settings文件：整个框架的配置文件，主要包含配置爬虫信息，请求头、中间件等。

scrapy.cfg文件：项目部署文件，其中定义了项目等配置文件路径等相关信息。

爬虫制作

zyj.py文件：爬取数据

（1）Spider定义和配置：

name属性定义爬虫的名字为“zyj”。

start_urls属性包含了爬虫的初始URL列表，这里是宁波财经学院的主页。

（2）start_requests方法：

该方法用来生成初始请求。通过一个循环，生成从第1页到第55页的请求URL，并通过scrapy.Request发送请求。

（3）parse方法：

这个方法是对每个请求返回的响应进行处理。首先输出响应内容以供调试。

使用XPath选择器来找到包含目标数据的div标签，调试输出找到的div数量。遍历每个div，构造详情页的URL，并生成请求，同时将请求传递给parse_zyj方法进行详细处理。

（4）parse_zyj方法：

该方法负责解析详情页的内容。首先创建一个zyjItem实例来存储抓取的数据。使用BeautifulSoup解析响应的HTML内容。提取详情页的标题、来源、作者、时间、内容等信息，并处理可能出现的数据缺失情况，输出相应的调试信息。通过对特定标签的进一步解析，提取内容创作人、摄影和审核信息。如果解析失败，则将相应字段设为“N/A”。最后，输出解析后的item，并通过yield将其传递给Scrapy的Item Pipeline。

（5）网页定位

右键点击审查，定位标题列表页的标题以及详情页地址。如下图所示

定位详情页标题及文章来源作者时间等，div属性class的值为main_show_bt md

定位详情页内容，div属性class的值为main_show_nr md

最后使用beautifulsoup解析详情页，提取内容等信息。详细代码如下

item.py文件：

setting.py文件：将下面的语句解开注释。设置了默认的请求头（HTTP headers），用于每次请求时附加到HTTP请求中。主要包括以下两个字段：

Accept: 指定客户端可以处理的内容类型。text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8表示客户端可以接受HTML、XHTML、XML格式的响应，权重分别为0.9和0.8，表示HTML、XHTML和XML优先级较高。

User-Agent: 用于标识请求的客户端（浏览器）。这里设置了一个常见的浏览器用户代理字符串，模拟的是Google Chrome浏览器。这可以帮助避免一些网站因为识别到爬虫而进行的访问限制。

cookies: 添加了一个Cookies字段，用于在请求中携带特定的Cookies信息。这可能用于保持会话或通过某些网站的防爬虫措施。

另外还配置了Scrapy的项目管道（Item Pipelines），用于处理抓取到的项目（items）。配置的结构为字典形式，键为管道的路径，值为管道的优先级。zyj.pipelines.ZyjPipeline: 这是定义在项目中的一个管道类，路径是zyj.pipelines中的ZyjPipeline类。该管道类负责处理、清理或存储爬虫抓取到的数据。

300: 这是该管道的优先级。Scrapy允许定义多个管道，优先级数值越低，优先级越高。这里设置的300表示中等优先级。