python爬虫之scrapy框架基本使用

news2025/4/19 20:19:50

python爬虫之scrapy框架基本使用

1、环境安装：pip install scrapy
2、创建一个工程：scrapy startproject xxxPro
3、cd xxxPro
4、在spiders子目录中创建一个爬虫文件：scrapy genspider spiderName www.xxx.com
5、执行工程：scrapy crawl spiderName

基本使用实例如下：
1、pycharm终端输入：scrapy startproject firstBlood，创建一个firstBlood文件夹。在这里插入图片描述
firstBlood文件夹下存放文件展示如下，包括firstBlood同名文件夹和scrapy.cfg文件。其中：
scrapy.cfg：当前工程的配置文件。
spider：爬虫文件夹/爬虫目录，存放爬虫源文件。
settings.py：工程相关配置，经常使用。
在这里插入图片描述
2、进入firstBlood文件夹下。
终端输入：cd firstBlood
3、在firstBlood子目录中创建一个first爬虫文件。爬取网站www.xxx.com，之后可修改。
终端输入：scrapy genspider first www.xxx.com
创建的first爬虫文件如下所示：
在这里插入图片描述
first.py相关代码解释和扩展如下所示：

import scrapy


class FirstSpider(scrapy.Spider):
    #爬虫文件的名称：就是爬虫源文件的一个唯一标识
    name = "first"
    #允许的域名：用来限定start_urls列表中哪些url可以进行请求发送，通常情况下不用
    # all的url会被scrapy自动进行请求的发送
    start_urls = ["https://www.baidu.com","https://www.sogou.com"]

    #用作于数据解析：response参数表示的就是请求成功后对应的响应对象,请求了多少网站，response就存放了多少响应对象
    def parse(self, response):
        print(response)

4、first.py代码保存后，终端输入：scrapy crawl first运行first.py
输出许多日志信息，其中部分如下所示。其中红线配置导致运行输出后没有输出运行结果。
在这里插入图片描述
可通过打开settings.py配置文件，将ROBOTSTXT_OBEY = True改为ROBOTSTXT_OBEY = False,再次运行first.py，可得到如下示图。

补充：
1、scrapy crawl first --nolog可不输出日志。但如果程序出错，观察不到错误信息。

2、在settings.py文件中任意位置添加如下代码块，可只输出结果和错误日志，方便调试代码。

#显示指定类型的日志信息
LOG_LEVEL = "ERROR"

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1884250.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python爬虫之scrapy框架基本使用

python爬虫之scrapy框架基本使用

相关文章

当年很多跑到美加澳写代码的人现在又移回香港？什么原因？

高通源代码版本ADK工具版本源代码release版本MDE版本介绍

如何用matplotlib绘制图像分类任务的类别特征空间分布

wordpress建站有哪些优点

【第11章】MyBatis-Plus条件构造器(上)

LLM大模型工程师面试经验宝典--进阶版（2024.7月最新）

deepin基于apt-mirror同步软件源及构建本地内网源

KVB安全投资小知识：为什么聪明的交易员从不预测方向？

Qt实现手动切换多种布局

HarmonyOS Next开发学习手册——文本输入 (TextInput/TextArea)

【一篇文章带你搞懂--拉链表！！！拉链表的原理是什么！】

怎样查看vsphere client 的登录日志

Java进阶学习|Day4.Java多线程,线程池

操作系统入门 -- 磁盘管理

Toshiba东芝TB6612FNG电机驱动IC：释放性能与多功能性

计算机视觉 | 基于 PointNet 网络的飞机零件 3D 点云分割

MySQL之高可用性和应用层优化(一)

硬件开发笔记（二十三）：贴片电阻的类别、封装介绍，AD21导入贴片电阻原理图封装库3D模型

一文全概括，建议收藏，那些你不可错过的IC设计书籍合集（可下载）

【Python机器学习】模型评估与改进——分组交叉验证