Scrapy框架--Request和FormRequest

news2026/3/29 13:05:15

Request对象

原理

参数

将附加数据传递给回调函数

原理

示例代码

FormRequest

概念

参数

请求使用示例

响应对象

参数

Request对象

原理

爬虫中请求与响应是最常见的操作，Request对象在爬虫程序中生成并传递到下载器中，后者执行请求并返回一个Response对象。

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

一个Request对象表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response。

参数

url（string） - 此请求的网址
callback（callable） - 将使用此请求的响应（一旦下载）作为其第一个参数调用的函数。有关更多信息，请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调，parse()将使用spider的方法。请注意，如果在处理期间引发异常，则会调用errback。
method（string） - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等，且保证字符串大写
meta（dict） - 属性的初始值Request.meta,在不同的请求之间传递数据使用
body（str或unicode） - 请求体。如果unicode传递了，那么它被编码为 str使用传递的编码（默认为utf-8）。如果 body没有给出，则存储一个空字符串。不管这个参数的类型，存储的最终值将是一个str（不会是unicode或None）。
headers（dict） - 这个请求的头。dict值可以是字符串（对于单值标头）或列表（对于多值标头）。如果 None作为值传递，则不会发送HTTP头.一般不需要
encoding: 使用默认的 'utf-8' 就行
dont_filter：是否过滤重复的URL地址，默认为 False过滤
cookie（dict或list） - 请求cookie。这些可以以两种形式发送。
- 使用dict：

request_with_cookies = Request(url="http://www.sxt.cn/index/login/login.html",)

使用列表：

 request_with_cookies = Request(url="http://www.example.com",
                cookies=[{'name': 'currency',
                    'value': 'USD',
                    'domain': 'example.com',
                    'path': '/currency'}])

后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用

request_with_cookies = Request(url="http://www.example.com",
                cookies={'currency': 'USD', 'country': 'UY'},
                meta={'dont_merge_cookies': True})

将附加数据传递给回调函数

原理

请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数

示例代码

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request


def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

对代码进行分析：

代码定义了两个函数：parse_page1和parse_page2。这些函数是Scrapy中用于处理响应的回调函数。parse_page1函数接收一个response参数，表示从网页发送的响应。在该函数中，首先创建一个MyItem对象，并将response.url赋值给main_url字段。接下来，创建一个新的Scrapy请求对象request，请求目标页面"http://www.example.com/some_page.html"，并指定回调函数为`parse_page2''。然后，将`item`对象保存在请求的元数据（meta）中，以便在`parse_page2`函数中可以访问。最后，parse_page1函数返回该请求对象，以便Scrapy可以继续处理它。parse_page2函数接收一个response参数，表示从目标页面发送的响应。在该函数中，首先通过response.meta['item']获取之前保存在元数据中的item对象。然后，将response.url赋值给item对象的other_url字段。最后，将item对象返回。

FormRequest

概念

FormRequest是Request的扩展类，具体常用的功能如下：

请求时，携带参数，如表单数据
从Response中获取表单的数据

FormRequest类可以携带参数主要原因是：增加了新的构造函数的参数formdata。其余的参数与Request类相同.

formdata参数类型为:dict

class scrapy.http.FormRequest(url[, formdata, ...])

class method from_response(response[, formname=None, formid=None, formnumber=0, formdata=None, formxpath=None, formcss=None, clickdata=None, dont_click=False, ...])

返回一个新FormRequest对象，其中的表单字段值已预先<form>填充在给定响应中包含的HTML 元素中.

参数

response（Responseobject） - 包含将用于预填充表单字段的HTML表单的响应
formname（string） - 如果给定，将使用name属性设置为此值的形式
formid（string） - 如果给定，将使用id属性设置为此值的形式
formxpath（string） - 如果给定，将使用匹配xpath的第一个表单
formcss（string） - 如果给定，将使用匹配css选择器的第一个形式
formnumber（integer） - 当响应包含多个表单时要使用的表单的数量。第一个（也是默认）是0
formdata（dict） - 要在表单数据中覆盖的字段。如果响应元素中已存在字段，则其值将被在此参数中传递的值覆盖
clickdata（dict） - 查找控件被点击的属性。如果没有提供，表单数据将被提交，模拟第一个可点击元素的点击。除了html属性，控件可以通过其相对于表单中其他提交表输入的基于零的索引，通过nr属性来标识
dont_click（boolean） - 如果为True，表单数据将在不点击任何元素的情况下提交

请求使用示例

通过HTTP POST发送数据

FormRequest(
           url="http://www.example.com/post/action",
      formdata={'name': 'John Doe', 'age': '27'},
      callback=self.after_post
      )

通过FormRequest.from_response()发送数据

FormRequest.from_response(
      response,
      formdata={'username': 'john', 'password': 'secret'},
      callback=self.after_login
)

响应对象

class scrapy.http.Response(url[, status=200, headers=None, body=b'', flags=None, request=None])

一个Response对象表示的HTTP响应，这通常是下载器下载后，并供给到爬虫进行处理

参数

url（string） - 此响应的URL
status（integer） - 响应的HTTP状态。默认为200
headers（dict） - 这个响应的头。dict值可以是字符串（对于单值标头）或列表（对于多值标头）
body（bytes） - 响应体。它必须是str，而不是unicode，除非你使用一个编码感知响应子类，如 TextResponse
flags（list） - 是一个包含属性初始值的 Response.flags列表。如果给定，列表将被浅复制
request（Requestobject） - 属性的初始值Response.request。这代表Request生成此响应
text 获取文本

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/696102.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Scrapy框架--Request和FormRequest

Request对象

原理

参数

将附加数据传递给回调函数

原理

示例代码

FormRequest

概念

参数

请求使用示例

响应对象

参数

相关文章

【Linux进程】进程的基本概念 {基本概念，Linux中的PCB—task_struct，查看进程，进程标识符—PID，创建子进程}

vue3文件从创建 - 运行

推荐10款Python图形界面（GUI）框架以及使用PyQt6和QtDesigner快速开发

途乐证券股票开户官网|CPO板块早盘大跌，两家近千亿巨头跌停

Stringbuffer的学习

MySQL数据库——存储过程

四、云尚办公-用户管理

【2023，学点儿新Java-26】关键字介绍+示例代码：assert 断言（如何启用断言），以验证一个数组的长度是否不为零为例说明

yaffs文件系统测试

【妙趣横生】用matplotlib绘制平均线，让你的数据可视化变得活灵活现！

在Fligma打开Android Material 3 Design组件规格颜色大小等

【JavaWeb】统一响应，并渲染在网页

个人总结 - IP代理池的思考

高压放大器如何驱动压电陶瓷片

三种方法教你：Allegro文件导入SIwave仿真

PADS 出gerber 20230628

三维3D扫描仪工艺品摆件仿制翻模雕塑三维数字化3D打印-CASAIM

二叉树及其遍历方式！

使用python实现一个快速高斯模糊算法

线性表的定义和基本操作（以顺序表为例）