请求的响应----状态码分为五大类(爬虫)

news2024/10/23 23:27:43

前言

一个爬虫的成功与否,在于你是否拿到了想要的数据;一个请求的成功与否,在于响应的状态码,它标明了当前请求下这个响应的结果,是好还是坏。上节课程学习了HTTPS和HTTP协议的各自优势,本节课程进入到请求的响应部分,学习下如何根据响应状态码,判断当前响应是好还是坏。

  1. 状态码的重要意义

互联网是个超级复杂的超大型项目,没网络的情况下,我们的电脑访问不了网络;有网络的前提下,网站正常工作我们才能访问。单个的请求响应流程是非常简单的,如下图:

为了应对复杂多变的网络情况,http协议在设计之初就准备好了响应状态码,来标识本次请求响应的状态。

HTTP状态码(英语:HTTP Status Code)是用以表示网页服务器超文本传输协议响应状态的3位数字代码。它由 RFC 2616 规范定义的,并在后续的HTTP新版本的规范中扩展。所有状态码的第一个数字代表了响应的五种状态之一。

状态码分为五大类,分别是:

100系列:消息【除非在某些试验条件下,服务器禁止向此类客户端发送 1xx 响应】

200系列:成功

300系列:跳转

400系列:失败

500系列:错误

虽说是5类,但是100系列,是不允许使用的,所以常见的是4类。下面详细介绍一下这4类中,常见的状态码数值和所表达的意思。

  • 成功的200系列

200是浏览器的日常使用中最常见的,因为网站要正常工作,200是必须的,不然工程师要挨骂的。

200 OK:这个是最常见的,也是爬虫工程师最喜欢的,代表你本次的请求顺利拿到了响应,没有任何问题。

  1. 201 Created:201代表创建成功,通常是指浏览器或爬虫给服务器上传数据,服务器接收并验证数据没问题之后,服务器返回客户端一个201,代表成功。提交数据,通常是POST方法提交
  2. 202 Accepted:服务器拿到了数据,但是还没处理好结果,所以先发回一个202。这个状态码一般在爬虫中看不到,但是适合在异步操作的情况下返回。
  3. 跳转的300系列

通常为了更方便的操作,服务器会告诉客户端进一步的优化操作,例如张三搬家了,旧服务器给你新地址让你找新服务器等;

  1. 301 Moved Permanently:当前资源的网址永久性迁移,并且会给你一个新的网址。值得注意的是,如果是POST请求拿到301,则下一次请求自动变成GET。
  2. 302 Move Temporarily:当前资源网址暂时性迁移到新地址,和301性质有点不一样。
  3. 304 Not Modified:这个在浏览器加载静态资源的时候,特别容易碰到,就是浏览器使用本地缓存而不消耗带宽去加载在线的静态资源,是加速网页渲染的一种资源调用机制。是前端程序员嫌弃的一个状态码。
  • 失败的400系列

400系列代表着失败,是爬虫程序中非常常见的,没有之一。而且很多时候,一个错误需要调试挺长时间的。了解400系列中常见的错误,对调试非常有益。

  1. 400 Bad Request:错误请求,400系列最典型的,看到这个错误,要么是请求头参数不对,要么是请求主体的内容错误。
  2. 401 Unauthorized:401认证错误,这个还是非常好识别的,身份无法识别或者身份权限不够,检查请求头中的身份字段信息和Cookie值。
  3. 403 Forbidden:禁止访问,大并发爬虫中比较容易碰到,问题很直观,你访问太多了【换IP或电脑】,或者身份权限不够【换身份信息】。
  4. 404 Not Found:404找不到,这个错误不用太在意,用浏览器测试几次就好,要么是你的网址写错了,要么是网址对应的网络资源无法加载【这不怪程序】。
  5. 405 Method Not Allowed:405方法不被允许,简单且少见的错误,意思就是你请求的姿势不对,检查请求方法,如Get、Post、Put、Delete,总有一个是对的。
  • 错误的500系列

  1. 500 Internal Server Error:网络错误,就和你断网了一样,具体点就是你的网络和网址所在网络,无法连通。

  2. 502 Bad Gateway:网关错误,请求出去要被网关解析目的地址并转发你的请求,这个错误就是网关不工作了,无法把你的请求发出去。这里的网关,可以理解成你的路由器或者你用的代理IP服务器。
  3. 503 Service Unavailable:服务不可用,这个就是目标服务器的问题了,你要做的是通知网站管理员或者等。一般情况下,国家网站部分有休息时间,例如晚上关网。商业服务器的服务不可用,大多是升级或者临时卡了,可以过段时间再试。
  4. 504 Gateway Timeout:网关超时,这个504和502,都是网关的问题,但是又不一样。504是你找网关转发,你默认等待180秒【3分钟】,然后网关超时了没理你;502的问题是,你压根就找不到网关。
  5. 505 HTTP Version Not Supported:HTTP版本不支持,这个比较少见,但是肯定有。网站内容太新或者太旧,对客户端的http版本要求不一样。你需要检查下本次请求所使用的http版本,然后改成网站指定版本,就可以解决这个问题。

以上是常见的4类状态码的说明。

最后说明下,状态码是对当前本次的请求响应做的一个说明代码,是一种规范。

这个状态码数值,服务器那边可以规定返回的数值,服务端开发者可以完全照着规范来开发,也可以不遵循规范开发网站的响应状态码。

例如你用爬虫登录错误的账号,登录请求发出去,服务器给你响应,可能结果如下: 

        响应状态码是200,内容写的是账号密码不对;

        响应状态码是401,内容写的是账号密码不对;

        响应状态码是404,内容写的是账号密码不对;

以上的返回结果都是有可能的,因为规范不是所有开发者都会遵守。

 但是300和500系列,大部分都是遵循规范的,因为这两个系列,大部分结果不是服务器给响应状态码,是客户端【浏览器或爬虫】直接根据网络请求,返回的结果。最后一个示例图,不同系列的状态码通常出现在的请求响应阶段:

总结

状态码是HTTP协议的规范,即便电脑断了网,失败的响应都会有一个状态码。

了解了状态码,可以更理智的分析当前响应的状态,快速定位具体问题,以及修改爬虫代码。

当然状态码这仅仅是规范中的一项,下节课程还要学习请求头中的重点字段,这也是非常重要的信息。

一个爬虫的成功与否,在于你是否拿到了想要的数据;一个请求的成功与否,在于响应的状态码,它标明了当前请求下这个响应的结果,是好还是坏。上节课程学习了HTTPS和HTTP协议的各自优势,本节课程进入到请求的响应部分,学习下如何根据响应状态码,判断当前响应是好还是坏。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2213072.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++: AVL树的实现

一.AVL树的旋转 AVL树是平衡搜索二叉树的一种。 平衡因子:节点右树的高度减左树的高度,AVL树规定平衡因子的绝对值小于2。若不在这个范围内,说明该树不平衡。 AVL树节点: struct AVLTreeNode {AVLTreeNode(const T& data …

【AI 新观察】“转人工!转人工!”——智能客服痛点与破局之路

在当今数字化时代,智能客服在电商等众多领域被广泛应用,然而,一句又一句“转人工!转人工!”却常常暴露出智能客服存在的痛点。一、智能客服之痛 1. 理解偏差引不满 智能客服在理解客户问题时,常常出现偏差…

代码随想录 -- 回溯 -- 解数独

37. 解数独 - 力扣(LeetCode) 思路: class Solution(object):def back(self,board):for i in range(len(board)):for j in range(len(board[0])):if board[i][j] ! .:continuefor k in range(1,10):if self.isValid(i,j,k,board):board[i][j…

为什么要做自动化测试

一、自动化测试 自动化测试是把以人为驱动的测试行为转化为机器执行的一种过程。 个人认为,只要能服务于测试工作,能够帮助我们提升工作效率的,不管是所谓的自动化工具,还是简单的SQL 脚本、批处理脚本,还是自己编写…

10.13论文阅读

通过联合学习检测和描述关键点增强可变形局部特征 摘要 局部特征提取是计算机视觉中处理图像匹配和检索等关键任务的常用方法。大多数方法的核心理念是图像经历仿射变换,忽略了诸如非刚性形变等更复杂的效果。此外,针对非刚性对应的新兴工作仍然依赖于…

2024 年江苏省职业院校技能大赛“区块链技术应用” 赛项赛卷(样卷)运维题解析二

运维题 环境: ubuntu20 fisco 2.8.0 前言 准备两台机子,并且可以能相互pin通 192.168.19.133 [M1-A] 192.168.19.137 [M2-B] 子任务 1-2-3:区块链节点运维 基于已搭建的区块链系统与控制台,在机器(M1-A)上开展区块链群组与 节点的运维工作,具体内容如下: (1)基于…

Jenkins如何更改主目录文件夹?设置路径?

Jenkins如何更改主目录文件夹?设置路径??简单几步,让你轻松解决。 工具/原料 联网电脑 方法/步骤 1. ssh连接到jenkins的服务器。使用root权限执行下面的命令,第一句是查看jenkins是否启用,启用的话需要第二个命令关…

肽合同制造(CDMO):北美和欧洲是全球最大肽合同制造(CDMO)消费地区

据 HengCe 最新调研,2023年中国肽合同制造(CDMO)市场销售收入达到了 万元,预计2030年可以达到 万元,2024-2030期间年复合增长率(CAGR)为 %。本研究项目旨在梳理肽合同制造(CDMO)领域产品系列&am…

【linux开发-驱动】-linux内核相关

开发板:STM32MP157 一、编译linux内核源码 编译完成以后就会在 arch/arm/boot 这个目录下生成一个叫做 uImage 的文件,uImage 就是 我们要用的 Linux 镜像文件。 Linux 编 译 的 时 候 需 要 设 置 目 标 板 架 构 ARCH 和 交 叉 编 译 器 CROSS_COMP…

确认:代码覆盖率是无用的管理指标

发现拆解代码覆盖率指标的简单证明 代码覆盖率是衡量软件产品质量的一个强有力的指标,多年来,技术领导者们对此深信不疑。从表面上看,其理由似乎很充分:测试越彻底,代码覆盖率就越高,因此,我们…

数据屏蔽与加密:代理用户需要了解的内容

您可能已经意识到数据安全和隐私的重要性。尽管存在各种方法来解决这两个问题:道德考量和监管要求,在本指南中,我们将重点介绍两种流行的策略:屏蔽和加密 - 以及它们的比较。 那么,哪个方法更胜一筹呢?答案…

时间序列预测(三)——激活函数(Activation Function)

激活函数是神经网络中每个神经元的输出函数,用于引入非线性,从而使神经网络能够逼近复杂的非线性关系。没有激活函数的网络只能表示线性变换(如上一篇的线性回归不需要激活函数),因此不能解决实际中的非线性问题。激活…

【Python】从零到一,搭建高效Web服务器,轻松上手!Python开发者必备(文末附带源码分享)

CSDN Python源码分享:实现一个简单的Web服务器 在CSDN上,我们经常分享各种技术文章和源码,帮助开发者们不断提升自己的技能。今天,我将为大家分享一个使用Python实现的简单Web服务器源码。这个Web服务器能够处理基本的HTTP GET请…

Java项目实战II基于Java+Spring Boot+MySQL的桂林旅游景点导游平台(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者 一、前言 桂林,以其独特的喀斯特地貌、秀美的自然风光闻名遐迩,每年吸引着无数国内外游…

(04)python-opencv图像处理——图像阈值、平滑图像、形态转换、图像梯度

目录 前言 一、图像阈值 1.1 简单的阈值法 1.2 自适应阈值 二、平滑图像 2.1 二维卷积(图像滤波) 2.2 图像模糊 2.2.1均值模糊 2.2.2高斯模糊 2.2.3 中值滤波 2.2.4 双边滤波 三、形态转换 1、腐蚀 2、膨胀 3、开运算 4、闭运算 四、图像梯度 Sobel 和 Scharr …

【Pycharm系列】如何使用Windows的pycharm来远程连接linux做开发?

目录 前言一、原因二、步骤2-1、打开配置2-2、新建SFTP连接2-3、添加SSH连接信息2-4、配置连接信息2-5、构建连接2-6、打开远程项目文件目录2-7、配置项目依赖 总结 前言 使用Linux部署,使用Windows远程开发,可以提升开发效率,以及项目运行的…

使用可白嫖的高配置服务器——DAMODEL进行AI开发教程

DAMODEL:DAMODEL 目前DAmodel注册并实名赠送50大洋的免费额度,搭载4090的服务器费用不到2r/h 教程: 完成注册并实名后 在此点击创建实例 选择实例配置 选择镜像,看你使用哪种dl框架 。 实例自带的磁盘会随实例释放。需要自己…

Python获取盘符并创建文件夹-基于window系统

1、问题概述? 提供代码详解及完整应用代码 在项目开发中,我们有时候需要当前计算机的盘符,并判断那个盘符的空间最大,然后再最大空闲盘符中创建目录。实现如下功能 1、获取所有盘符信息。 2、获取盘符的空间,并判断大小 3、在盘符中创建需要的目录 …

osgEarth 键鼠 增删改 feature Node

为了满足shapefile 编辑,实现键鼠对地理要素的增删改。 读取shapefile,用Geometry Feature FeatureNode绘制在osgEarth上; 自定义osgGA::GUIEventHandler,handle函数中监测osgGA::GUIEventAdapter::PUSH 之前疑惑在拾取&#x…

已解决:“发生生成错误,是否继续并运行上次的成功的生成?”无法启动程序,系统找不到指定的文件

版本:Visual Studio 2022用于C开发 目录 问题描述 问题原因 解决办法 问题描述 代码没有问题,运行后出现如下界面: 点击“是”后,又出现如下问题: 问题原因 源程序文件下出现两个main函数。 像我的文件目录下的另…