目录
Request对象
原理
参数
将附加数据传递给回调函数
原理
示例代码
FormRequest
概念
参数
请求使用示例
响应对象
参数
Request对象
原理
爬虫中请求与响应是最常见的操作,Request对象在爬虫程序中生成并传递到下载器中,后者执行请求并返回一个Response对象。
class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])
一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response。
参数
-
url(string) - 此请求的网址
-
callback(callable) - 将使用此请求的响应(一旦下载)作为其第一个参数调用的函数。有关更多信息,请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调,parse()将使用spider的 方法。请注意,如果在处理期间引发异常,则会调用errback。
-
method(string) - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等,且保证字符串大写
-
meta(dict) - 属性的初始值Request.meta,在不同的请求之间传递数据使用
-
body(str或unicode) - 请求体。如果unicode传递了,那么它被编码为 str使用传递的编码(默认为utf-8)。如果 body没有给出,则存储一个空字符串。不管这个参数的类型,存储的最终值将是一个str(不会是unicode或None)。
-
headers(dict) - 这个请求的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)。如果 None作为值传递,则不会发送HTTP头.一般不需要
-
encoding: 使用默认的 'utf-8' 就行
-
dont_filter:是否过滤重复的URL地址,默认为
False
过滤 -
cookie(dict或list) - 请求cookie。这些可以以两种形式发送。
- 使用dict:
request_with_cookies = Request(url="http://www.sxt.cn/index/login/login.html",)
- 使用列表:
request_with_cookies = Request(url="http://www.example.com",
cookies=[{'name': 'currency',
'value': 'USD',
'domain': 'example.com',
'path': '/currency'}])
后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用
request_with_cookies = Request(url="http://www.example.com",
cookies={'currency': 'USD', 'country': 'UY'},
meta={'dont_merge_cookies': True})
将附加数据传递给回调函数
原理
请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数
示例代码
def parse_page1(self, response):
item = MyItem()
item['main_url'] = response.url
request = scrapy.Request("http://www.example.com/some_page.html",
callback=self.parse_page2)
request.meta['item'] = item
return request
def parse_page2(self, response):
item = response.meta['item']
item['other_url'] = response.url
return item
对代码进行分析:
代码定义了两个函数:
parse_page1
和parse_page2
。这些函数是Scrapy中用于处理响应的回调函数。parse_page1
函数接收一个response
参数,表示从网页发送的响应。在该函数中,首先创建一个MyItem
对象,并将response.url
赋值给main_url
字段。接下来,创建一个新的Scrapy请求对象request
,请求目标页面"http://www.example.com/some_page.html",并指定回调函数为`parse_page2''。然后,将`item`对象保存在请求的元数据(meta)中,以便在`parse_page2`函数中可以访问。最后,parse_page1
函数返回该请求对象,以便Scrapy可以继续处理它。parse_page2
函数接收一个response
参数,表示从目标页面发送的响应。在该函数中,首先通过response.meta['item']
获取之前保存在元数据中的item
对象。然后,将response.url
赋值给item
对象的other_url
字段。最后,将item
对象返回。
FormRequest
概念
FormRequest是Request的扩展类,具体常用的功能如下:
-
请求时,携带参数,如表单数据
-
从Response中获取表单的数据
FormRequest类可以携带参数主要原因是:增加了新的构造函数的参数formdata
。其余的参数与Request类相同.
- formdata参数类型为:dict
class scrapy.http.FormRequest(url[, formdata, ...])
class method from_response(response[, formname=None, formid=None, formnumber=0, formdata=None, formxpath=None, formcss=None, clickdata=None, dont_click=False, ...])
返回一个新FormRequest对象,其中的表单字段值已预先<form>
填充在给定响应中包含的HTML 元素中.
参数
- response(Responseobject) - 包含将用于预填充表单字段的HTML表单的响应
- formname(string) - 如果给定,将使用name属性设置为此值的形式
- formid(string) - 如果给定,将使用id属性设置为此值的形式
- formxpath(string) - 如果给定,将使用匹配xpath的第一个表单
- formcss(string) - 如果给定,将使用匹配css选择器的第一个形式
- formnumber(integer) - 当响应包含多个表单时要使用的表单的数量。第一个(也是默认)是0
- formdata(dict) - 要在表单数据中覆盖的字段。如果响应元素中已存在字段,则其值将被在此参数中传递的值覆盖
- clickdata(dict) - 查找控件被点击的属性。如果没有提供,表单数据将被提交,模拟第一个可点击元素的点击。除了html属性,控件可以通过其相对于表单中其他提交表输入的基于零的索引,通过nr属性来标识
- dont_click(boolean) - 如果为True,表单数据将在不点击任何元素的情况下提交
请求使用示例
通过HTTP POST发送数据
FormRequest(
url="http://www.example.com/post/action",
formdata={'name': 'John Doe', 'age': '27'},
callback=self.after_post
)
通过FormRequest.from_response()发送数据
FormRequest.from_response(
response,
formdata={'username': 'john', 'password': 'secret'},
callback=self.after_login
)
响应对象
class scrapy.http.Response(url[, status=200, headers=None, body=b'', flags=None, request=None])
一个Response对象表示的HTTP响应,这通常是下载器下载后,并供给到爬虫进行处理
参数
- url(string) - 此响应的URL
- status(integer) - 响应的HTTP状态。默认为200
- headers(dict) - 这个响应的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)
- body(bytes) - 响应体。它必须是str,而不是unicode,除非你使用一个编码感知响应子类,如 TextResponse
- flags(list) - 是一个包含属性初始值的 Response.flags列表。如果给定,列表将被浅复制
- request(Requestobject) - 属性的初始值Response.request。这代表Request生成此响应
- text 获取文本