Scrapy框架--Request和FormRequest

news2025/1/13 3:33:28

目录

Request对象

原理

参数

将附加数据传递给回调函数 

原理

示例代码

FormRequest

概念

参数

请求使用示例 

响应对象

参数


Request对象

原理

爬虫中请求与响应是最常见的操作,Request对象在爬虫程序中生成并传递到下载器中,后者执行请求返回一个Response对象。

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response。

参数

  • url(string) - 此请求的网址

  • callback(callable) - 将使用此请求的响应(一旦下载)作为其第一个参数调用的函数。有关更多信息,请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调,parse()将使用spider的 方法。请注意,如果在处理期间引发异常,则会调用errback。

  • method(string) - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等,且保证字符串大写

  • meta(dict) - 属性的初始值Request.meta,在不同的请求之间传递数据使用

  • body(str或unicode) - 请求体。如果unicode传递了,那么它被编码为 str使用传递的编码(默认为utf-8)。如果 body没有给出,则存储一个空字符串。不管这个参数的类型,存储的最终值将是一个str(不会是unicode或None)。

  • headers(dict) - 这个请求的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)。如果 None作为值传递,则不会发送HTTP头.一般不需要

  • encoding: 使用默认的 'utf-8' 就行

  • dont_filter:是否过滤重复的URL地址,默认为 False过滤

  • cookie(dict或list) - 请求cookie。这些可以以两种形式发送。

    • 使用dict:
request_with_cookies = Request(url="http://www.sxt.cn/index/login/login.html",)
  • 使用列表:
 request_with_cookies = Request(url="http://www.example.com",
                cookies=[{'name': 'currency',
                    'value': 'USD',
                    'domain': 'example.com',
                    'path': '/currency'}])

后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用

request_with_cookies = Request(url="http://www.example.com",
                cookies={'currency': 'USD', 'country': 'UY'},
                meta={'dont_merge_cookies': True})

将附加数据传递给回调函数 

原理


请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数

示例代码

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request


def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

 对代码进行分析:

代码定义了两个函数:parse_page1parse_page2。这些函数是Scrapy中用于处理响应的回调函数。parse_page1函数接收一个response参数,表示从网页发送的响应。在该函数中,首先创建一个MyItem对象,并将response.url赋值给main_url字段。接下来,创建一个新的Scrapy请求对象request,请求目标页面"http://www.example.com/some_page.html",并指定回调函数为`parse_page2''。然后,将`item`对象保存在请求的元数据(meta)中,以便在`parse_page2`函数中可以访问。最后,parse_page1函数返回该请求对象,以便Scrapy可以继续处理它。parse_page2函数接收一个response参数,表示从目标页面发送的响应。在该函数中,首先通过response.meta['item']获取之前保存在元数据中的item对象。然后,将response.url赋值给item对象的other_url字段。最后,将item对象返回。

FormRequest

概念

FormRequest是Request的扩展类,具体常用的功能如下:

  • 请求时,携带参数,如表单数据

  • 从Response中获取表单的数据

FormRequest类可以携带参数主要原因是:增加了新的构造函数的参数formdata。其余的参数与Request类相同.

  • formdata参数类型为:dict

class scrapy.http.FormRequest(url[, formdata, ...])

class method from_response(response[, formname=None, formid=None, formnumber=0, formdata=None, formxpath=None, formcss=None, clickdata=None, dont_click=False, ...])

返回一个新FormRequest对象,其中的表单字段值已预先<form>填充在给定响应中包含的HTML 元素中.

参数

  • response(Responseobject) - 包含将用于预填充表单字段的HTML表单的响应
  • formname(string) - 如果给定,将使用name属性设置为此值的形式
  • formid(string) - 如果给定,将使用id属性设置为此值的形式
  • formxpath(string) - 如果给定,将使用匹配xpath的第一个表单
  • formcss(string) - 如果给定,将使用匹配css选择器的第一个形式
  • formnumber(integer) - 当响应包含多个表单时要使用的表单的数量。第一个(也是默认)是0
  • formdata(dict) - 要在表单数据中覆盖的字段。如果响应元素中已存在字段,则其值将被在此参数中传递的值覆盖
  • clickdata(dict) - 查找控件被点击的属性。如果没有提供,表单数据将被提交,模拟第一个可点击元素的点击。除了html属性,控件可以通过其相对于表单中其他提交表输入的基于零的索引,通过nr属性来标识
  • dont_click(boolean) - 如果为True,表单数据将在不点击任何元素的情况下提交

请求使用示例 

通过HTTP POST发送数据

FormRequest(
           url="http://www.example.com/post/action",
      formdata={'name': 'John Doe', 'age': '27'},
      callback=self.after_post
      )

 通过FormRequest.from_response()发送数据

FormRequest.from_response(
      response,
      formdata={'username': 'john', 'password': 'secret'},
      callback=self.after_login
)

响应对象

class scrapy.http.Response(url[, status=200, headers=None, body=b'', flags=None, request=None])

一个Response对象表示的HTTP响应,这通常是下载器下载后,并供给到爬虫进行处理

参数

  • url(string) - 此响应的URL
  • status(integer) - 响应的HTTP状态。默认为200
  • headers(dict) - 这个响应的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)
  • body(bytes) - 响应体。它必须是str,而不是unicode,除非你使用一个编码感知响应子类,如 TextResponse
  • flags(list) - 是一个包含属性初始值的 Response.flags列表。如果给定,列表将被浅复制
  • request(Requestobject) - 属性的初始值Response.request。这代表Request生成此响应
  • text 获取文本

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/696102.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux进程】进程的基本概念 {基本概念,Linux中的PCB—task_struct,查看进程,进程标识符—PID,创建子进程}

一、进程的基本概念 什么是进程&#xff1f; 进程是计算机中正在运行的程序的实例。它是操作系统进行资源分配和调度的基本单位。每个进程都有自己的内存空间、代码、数据和执行状态。进程可以独立运行&#xff0c;相互之间不会干扰。操作系统可以同时运行多个进程&#xff0c…

vue3文件从创建 - 运行

新建文件 npm init vuelatest 2、报错处理 &#xff08;1&#xff09;TypeScript选项‘importsNotUsedAsValues‘和‘preserveValueImports‘弃用 在tsconfig.json中添加"ignoreDeprecations": "5.0" 参考&#xff1a;TypeScript选项‘importsNotUsedAs…

推荐10款Python图形界面(GUI)框架以及使用PyQt6和QtDesigner快速开发

9个国外最佳免费编程学习一站式网站 http://www.360doc.com/content/22/1024/17/63953942_1053111478.shtml QT文档 https://doc.qt.io/ QtDesigner pyqt6 https://blog.csdn.net/lyshark_lyshark/article/details/125847218 https://doc.qt.io/qtforpython-6/contents.htm…

途乐证券股票开户官网|CPO板块早盘大跌,两家近千亿巨头跌停

6月28日周三&#xff0c;A股集体低开&#xff0c;三大指数均一度跌超1%。 截至目前&#xff0c;沪指跌0.80%&#xff0c;深成指跌1.28%&#xff0c;创业板指跌0.91%。 盘面上&#xff0c;电力、煤炭开采加工等板块涨幅居前&#xff0c;泛AI、游戏、数据要素、光模块、传媒等方…

Stringbuffer的学习

1.构造方法 这里就看出String和Stringbuffer最主要的区别了 byte[]value不是final // 1.空参创建 这里 默认初始长度出现了&#xff0c;16public StringBuffer() {super(16); } // 2.定容创建&#xff0c;如果知道使用长度其实还好&#xff0c;因为他会扩容public StringBuf…

MySQL数据库——存储过程

MySQL数据库——存储过程 一、MySQL存储过程概念二、存储过程1.创建存储过程2.调用存储过程3.查看存储过程4.存储过程的参数5.删除存储过程 三、存储过程的控制语句1.条件语句if-then-else end if2.循环语句while end while 一、MySQL存储过程概念 存储过程是一组为了完成特定…

四、云尚办公-用户管理

云尚办公系统&#xff1a;用户管理 B站直达【为尚硅谷点赞】: https://www.bilibili.com/video/BV1Ya411S7aT 本博文以课程相关为主发布&#xff0c;并且融入了自己的一些看法以及对学习过程中遇见的问题给出相关的解决方法。一起学习一起进步&#xff01;&#xff01;&#x…

【2023,学点儿新Java-26】关键字介绍+示例代码:assert 断言(如何启用断言),以 验证一个数组的长度是否不为零 为例说明

前情回顾&#xff1a; 【2023&#xff0c;学点儿新Java-25】如何解决浮点计算存在误差&#xff1a;strictfp | 如何保护敏感信息&#xff0c;提高程序的可靠性和安全性&#xff1a;transient | 附&#xff1a;Java异常处理关键字介绍【2023&#xff0c;学点儿新Java-24】abstr…

yaffs文件系统测试

1.前面我制作好了文件系统烧到开发板运行后&#xff0c;出现了如下错误 2.网上查找后&#xff0c;有人说是因为 arm-linux-gnueabi-4.9xx版本太高&#xff0c;它的libc不支持arm9&#xff0c;于是我们换成arm-linux-gcc-4.3.2试试&#xff0c;arm-linux-gcc-4.3.2下载地址&…

【妙趣横生】用matplotlib绘制平均线,让你的数据可视化变得活灵活现!

大家好&#xff0c;今天我要跟你们分享一个超有趣的技巧——如何用matplotlib库绘制平均线&#xff0c;让你的数据可视化更加生动活泼&#xff01; 第一步&#xff1a;获取数据 我们首先需要将Excel表中的数据读取进来&#xff0c;这样才能绘制出精彩的图表。咱们可以使用pand…

在Fligma打开Android Material 3 Design组件规格颜色大小等

打开Material 3 Design Kit 链接&#xff1a;链接: Material 3 Design Kit 打开后点击右上方Open in Figma(提前注册Figma账号) 点击左侧方菜单栏中的Componenets选项查看M3组件规格

【JavaWeb】统一响应,并渲染在网页

一、需求描述 获取数据&#xff0c;返回统一响应结果&#xff0c;再在页面渲染展示。 二、知识点 1、在前端代码emp.html中&#xff0c;在页面加载时&#xff0c;通过vue的mounted方法发起异步请求来加载数据&#xff0c;在成功回调函数中判定响应回来的code的值&#xff0c…

个人总结 - IP代理池的思考

前言 今天话有点多&#xff0c;连续发了几篇博客&#xff0c;主要平常忙的话就没时间关注博客这块&#xff0c;今天兴致在&#xff0c;就勤快点哈哈 一般公司除非有钱&#xff0c;他可以购买ip服务器&#xff0c;或者大量高质量ip&#xff0c;但是有的时候&#xff0c;公司经…

高压放大器如何驱动压电陶瓷片

高压放大器是一种常用于驱动压电陶瓷片的电路&#xff0c;其基本原理是利用高压放大电路将低电压信号放大到足以驱动压电陶瓷片所需的高电压信号。在本文中&#xff0c;我们将介绍高压放大器如何驱动压电陶瓷片的具体方法和步骤。 图&#xff1a;压电陶瓷片 一、驱动压电陶瓷片…

三种方法教你:Allegro文件导入SIwave仿真

导入仿真工具进行信号完整性&#xff08;SI&#xff09;仿真是PCB设计中的关键步骤之一&#xff0c;但很多小白可能不太清楚该如何导入&#xff0c;下面将聊聊如何通过Allegro软件导入SIWave仿真&#xff0c;希望对小伙伴们有所帮助。 01 使用SIwave的直接导入功能 SIwave提供…

PADS 出gerber 20230628

PADS出gerber 20230628 TOP BOTTOM Solder MASK TOP 阻焊层 绿油层&#xff0c;可以用来露焊盘的 Paste Mask TOP 钢网层 Paste Mask Bottom Silkscreen TOP 丝印层 Solder MASK Bottom Silkcreen Bottom TOP层 L1 注意&#xff1a;电气层L1 L2 L3 L4不能勾选文本…

三维3D扫描仪工艺品摆件仿制翻模雕塑三维数字化3D打印-CASAIM

三维扫描技术在工艺品摆件仿制、翻模、3D打印、三维数字化方面发挥着重要作用。通过三维扫描技术&#xff0c;能完整还原工艺品的真实原貌&#xff0c;为复制经典艺术品提供了更精确和更环保的方法&#xff0c;最终精确保存细节、完美进行复制&#xff0c;并为以后的3D打印、三…

二叉树及其遍历方式!

二叉树 什么是二叉树&#xff1f; 树中每个节点最多只能有两个子节点&#xff0c;在 JavaScript 中一般都是通过 Object 来模拟二叉树。 常用操作 前序遍历中序遍历后序遍历 前序遍历 根左右。 口诀&#xff1a; 访问根节点对根节点的左子树进行前序遍历对根节点的右子…

使用python实现一个快速高斯模糊算法

在gimp的retinex里面使用了一个快速计算的高斯模糊&#xff0c;论文应该是Recursive Implementation of the gaussian filter&#xff0c;是使用一些多项式计算来近似计算高斯分布&#xff0c;这样能够大大减少计算。 将retinex源码给抽离出来&#xff0c;并使用python进行实现…

线性表的定义和基本操作(以顺序表为例)

名人说&#xff1a;一花独放不是春&#xff0c;百花齐放花满园。——《增广贤文》 作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 目录 〇、线性表是什么&#xff1f;1、定义2、特点3、基本操作 一、代码实现二、思路阐明…