python scrapy 报错 DEBUG: Ignoring response 403

news2025/1/17 0:56:00
DEBUG: Ignoring response <403 https://digital.ucas.com/coursedisplay/results/courses?studyYear=2024>: HTTP status code is not handled or not allowed

原因:被屏蔽了,在settings.py 里面配一下USER_AGENT(随便写一个就行)

在这里插入图片描述

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'

然后就畅通无阻了

2023-10-31 13:41:56 [scrapy.utils.log] INFO: Scrapy 2.10.0 started (bot: ucas_under)
2023-10-31 13:41:56 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.1, Twisted 22.10.0, Python 3.9.16 (main, May 17 2023, 17:49:16) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 23.2.0 (OpenSSL 3.1.1 30 May 2023), cryptography 41.0.1, Platform Windows-10-10.0.19045-SP0
2023-10-31 13:41:56 [scrapy.addons] INFO: Enabled addons:
[]
2023-10-31 13:41:56 [scrapy.crawler] INFO: Overridden settings:
{'AUTOTHROTTLE_ENABLED': True,
 'BOT_NAME': 'ucas_under',
 'COOKIES_ENABLED': False,
 'DOWNLOAD_DELAY': 5,
 'FEED_EXPORT_ENCODING': 'utf-8',
 'LOG_FILE': 'log/ucas_under.log',
 'LOG_LEVEL': 'INFO',
 'NEWSPIDER_MODULE': 'ucas_under.spiders',
 'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7',
 'SPIDER_MODULES': ['ucas_under.spiders'],
 'TWISTED_REACTOR': 'twisted.internet.asyncioreactor.AsyncioSelectorReactor',
 'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, '
               'like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
2023-10-31 13:41:56 [scrapy.extensions.telnet] INFO: Telnet Password: d51ffe3ad1833b8d
2023-10-31 13:41:56 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.throttle.AutoThrottle']
2023-10-31 13:41:56 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2023-10-31 13:41:56 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2023-10-31 13:41:56 [scrapy.middleware] INFO: Enabled item pipelines:
['ucas_under.pipelines.UcasUnderPipeline']
2023-10-31 13:41:56 [scrapy.core.engine] INFO: Spider opened
2023-10-31 13:41:56 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2023-10-31 13:41:56 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2023-10-31 13:41:59 [scrapy.core.engine] INFO: Closing spider (finished)
2023-10-31 13:41:59 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 604,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 124343,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'elapsed_time_seconds': 2.85669,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2023, 10, 31, 5, 41, 59, 106002),
 'httpcompression/response_bytes': 544169,
 'httpcompression/response_count': 1,
 'log_count/INFO': 10,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2023, 10, 31, 5, 41, 56, 249312)}
2023-10-31 13:41:59 [scrapy.core.engine] INFO: Spider closed (finished)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1154285.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

历年上午真题笔记(2014年)

解析:A 网络设计的三层模型 : 接入层:Layer 2 Switching,最终用户被许可接入网络的点,用户通过接入层可以访问网络设备。 汇聚层:Layer2/3 Switching,访问层设备的汇聚点,负责汇接配线单元,利用二、三层技术实现工作组分段及网络故障的隔离,以免对核心层网络设备造…

A股风格因子看板 (2023.10 第13期)

该因子看板跟踪A股风格因子&#xff0c;该因子主要解释沪深两市的市场收益、刻画市场风格趋势的系列风格因子&#xff0c;用以分析市场风格切换、组合风格暴露等。 今日为该因子跟踪第13期&#xff0c;指数组合数据截止日2023-09-30&#xff0c;要点如下 近1年A股风格因子检验统…

第3天:基础入门-抓包amp;封包amp;协议amp;APPamp;小程序amp;PC应用amp;WEB应用

第3天&#xff1a;基础入门-抓包&封包&协议&APP&小程序&PC应用&WEB应用 1、抓包技术应用意义//有些应用或者目标是看不到的&#xff0c;这时候就要进行抓包 2、抓包技术应用对象 //app,小程序 3、抓包技术应用协议 //http&#xff0c;socket 4、抓包技…

MaxEnt(最大熵)模型使用方法-系统教程

MaxEnt模型是通过物种已知分布数据和相关环境变量来推算物种的生态需求&#xff0c;然后将运算结果投射至不同的空间和时间中以预测物种的潜在分布区。由于对样本需求量要求小、预测能力优等特点&#xff0c;已被广泛应用于物种潜在分布区预测、外来入侵物种风险评估及气候变化…

11月17号|Move生态Meetup相约浪漫土耳其

Move是基于Rust编程语言&#xff0c;由Mysten Labs联合创始人兼CTO Sam Blackshear在Meta的Libra项目中开发而来&#xff0c;旨在为开发者提供比现有区块链语言更通用的开发语言。Sam的目标是创建Web3的JavaScript&#xff0c;即一种跨平台语言&#xff0c;使开发人员能够在多个…

希尔顿集团飞猪旗舰店携海外酒店开启双11全球旅行囤货潮

【中国&#xff0c;上海&#xff0c;10月31日】继十一黄金周出游需求释放&#xff0c;旅游市场回归超预期&#xff0c;希尔顿集团洞悉旅行者们对于探索目的地的热情不减&#xff0c;于今日在希尔顿集团飞猪旗舰店正式上线2023年双11系列活动&#xff0c;并首次布局海外酒店&…

【Linux】进程状态与进程优先级及其相关概念

文章目录 进程基本概念描述进程-PCBtask_struct-PCB的一种task_ struct内容分类 组织进程查看进程通过系统调用获取进程标示符通过系统调用创建进程-fork初识fork原理fork做了什么?fork是如何看待进程的fork如何理解两个返回值的功能 进程状态进程状态&#xff1a;1.普遍的操作…

原来低代码开发如此简单

目录 一、技术介绍 二、设计原理 三、界面展示 四、功能框架 我们在低代码领域探索了多年&#xff0c;从2014 开始研发低代码前端渲染&#xff0c;从 2018 年开始研发后端低代码数据模型&#xff0c;发布了JNPF快速开发平台。 JNPF低代码是一款新奇、实用、高效的企业级软件开发…

Jmeter(二十):jmeter对图片验证码的处理(超详细)

jmeter对图片验证码的处理 在web端的登录接口经常会有图片验证码的输入&#xff0c;而且每次登录时图片验证码都是随机的&#xff1b;当通过jmeter做接口登录的时候要对图片验证码进行识别出图片中的字段&#xff0c;然后再登录接口中使用&#xff1b; 同时&#xff0c;我也准…

微波上下变频装置系列-80704A/80705A/80719/80720 上下变频装置

微波上下变频装置系 80704A/80705A/80719/80720 上下变频装置系列产品采用1U高度19英寸标准机箱结构&#xff0c;内置低相噪合成本振源&#xff0c;基于模块化可程控的微波上下变频通道&#xff0c;具有结构紧凑、操作简便、技术指标高和环境适应性强等特点。上下变频装置系列的…

2023 年 Github 万圣节彩蛋

目录 2023 万圣节彩蛋2022 万圣节彩蛋2021 万圣节彩蛋2020 万圣节彩蛋 &#x1f383;&#x1f383;&#x1f383; 记录每年 Github 万圣节彩蛋&#xff0c;也记录有来项目成长历程。 Github 主页&#xff1a; https://github.com/haoxianrui 2023 万圣节彩蛋 2022 万圣节彩蛋 …

百元开放式耳机推荐哪款比较好、百元开放式耳机推荐

开放式耳机由于其不入耳的设计&#xff0c;佩戴时不会压迫耳腔&#xff0c;因此长时间佩戴时没有压力。加之因为开放式耳机的发声原理是通过空气传导的原理&#xff0c;音质会比较自然舒适&#xff0c;更加饱满&#xff0c;氛围感更强&#xff0c;会更符合我们正常人的听觉&…

飞致云开源社区月度动态报告(2023年10月)

自2023年6月起&#xff0c;中国领先的开源软件公司FIT2CLOUD飞致云以月度为单位发布《飞致云开源社区月度动态报告》&#xff0c;旨在向广大社区用户同步飞致云旗下系列开源软件的发展情况&#xff0c;以及当月主要的产品新版本发布、社区运营成果等相关信息。 飞致云开源大屏…

一文带你了解Java最基本的数据类型和变量

&#x1f388;个人主页&#xff1a;.满船清梦压星河_-CSDN博客 &#x1f302;c/java领域新星创作者 &#x1f389;欢迎&#x1f44d;点赞✍评论❤️收藏 &#x1f61b;&#x1f61b;&#x1f61b;希望我的文章能对你有所帮助&#xff0c;有不足的地方还请各位看官多多指教&…

C++学习初探---C++面向对象 --- 类 对象

文章目录 前言C 类 & 对象类成员函数C 类访问修饰符公有&#xff08;public&#xff09;成员私有&#xff08;private&#xff09;成员受保护&#xff08;protected&#xff09;成员继承中的特点 类的构造函数和析构函数C友元函数C内联函数C this指针C指向类的指针C 类的静…

R -- 体验 stringdist

文章目录 安装使用stringdist :返回列表example stringdistmatrix &#xff1a;返回矩阵example amatch & ain延伸&#xff1a;距离计算公式Hamming distanceLongest Common Substring distanceLevenshtein distance (weighted)The optimal string alignment distance dosa…

【网络知识必知必会】聊聊网络层IP协议

文章目录 前言IP 协议格式总结 前言 在之前的博文中, 我们聊过了传输层中的两个重点协议 TCP 和 UDP, 本文我们再来聊聊网络层中的一个协议IP, 简单认识一下 IP 协议格式. IP 协议与 TCP 协议的复杂度也不妨多让, 不过我们在这里只是简单的聊一聊 IP 协议的报文格式就行, 毕竟…

想下载B站视频怎么操作?分享5个方法

经常刷某站的小伙伴看过来&#xff0c;我们平时看到喜欢的视频、素材&#xff0c;经常会有下载收藏的需要&#xff0c;但好用、易用的视频解析下载器并不好找。分享 5 个超好用的某站视频在线解析下载工具网站&#xff0c;电脑、手机、平板都可以使用&#xff0c;简单方便&…

目标检测中常见指标 - mAP

文章目录 1. 评价指标2. 计算示例3. COCO评价指标 1. 评价指标 在目标检测领域&#xff0c;比较常用的两个公开数据集&#xff1a;pascal voc和coco。 目标检测与图像分类明显差距是很大的&#xff0c;在图像分类中&#xff0c;我们通常是统计在验证集当中&#xff0c;分类正…

多点开花。泛癌+单细胞+免疫+实验,一套组合拳教你拿下11+

今天给同学们分享一篇生信文章“A pan-cancer analysis shows immunoevasive characteristics in NRF2 hyperactive squamous malignancies”&#xff0c;这篇文章于2023年2月27日发表在Redox Biol期刊上&#xff0c;影响因子为11.4。 NRF2通路在各种癌症类型中经常被激活&…