scrapy爬虫基础

news2025/4/13 10:53:51

一、初识

创建项目：

scrapy startproject my_one_project    # 创建项目命令
cd my_one_project                     # 先进去， 后面在里面运行
运行爬虫命令为：scrapy crawl tk

spiders下创建test.py

其中name就是scrapy crawl tk ，运行时用的


# spiders脚本
import scrapy

class TkSpider(scrapy.Spider):
    name = 'tk'                    # 运行爬虫命令为：scrapy crawl tk
    start_urls = ['https://www.baidu.com/']
    def parse(self, response, **kwargs):
        print(1111)
        print(response.text)

运行时：

[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.baidu.com/>

so所以：

settings.py中

访问百度地址就设置这个
ROBOTSTXT_OBEY = False

不想看那么多东西，可以设置这个
LOG_LEVEL = 'ERROR'   #分别为 CRITICAL< ERROR < WARNING < INFO < DEBUG  (设置为 ERROR ,就不会展示INFO)

再次运行

二、内部如何请求的

在执行parse前，实际上是执行了 start_requests的，在这里面实现了请求。如下图1中的内容写了或者不写都是一样的效果。

但是写的话，可以在start_requests方法中，

发出请求之前执行一些额外的操作。如放一个cookie值、headers来请求

传递了cookie请求后就能获取响应了
请求发出之后，如获取本次请求使用的header

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2174198.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

scrapy爬虫基础

一、初识

二、内部如何请求的

相关文章

LeetCode讲解篇之5. 最长回文子串

VS Code 配置 Anaconda Python 环境

自动化测试实例：Web登录功能性测试(无验证码)

自动化check是不是测试？

笔记整理—linux进程部分（1）进程终止函数注册、进程环境、进程虚拟地址

[产品管理-33]：实验室技术与商业化产品的距离，实验室技术在商业化过程中要越过多少道“坎”？

计算机毕业论文及毕业设计题目,计算机专业大专本科学位毕业论文题目推荐大全集

【行业报告】AI大模型对我国劳动力市场潜在影响研究报告(2024)，附PDF下载！！

【含文档】基于Springboot+Vue的高校自习室预约系统（含源码+数据库+lw）

git小乌龟

自然语言处理实战项目：从基础到实战

HTML5--裸体回顾

2024年10月CISAW课程安排

Linux驱动编程——根文件系统

240929-DCGAN生成漫画头像

《黑神话:悟空》天命人速通法宝 | 北通鲲鹏20智控游戏手柄评测

SSD在低地球轨道卫星应用中的挑战

国庆头像制作小程序相关代码

Transformer 算法模型详解

机器学习-SVM