Day:007（3） | Python爬虫：高效数据抓取的编程技术（scrapy框架使用）

Scrapy 保存数据案例-小说保存

spider

import scrapy

class XiaoshuoSpiderSpider(scrapy.Spider):
    name = 'xiaoshuo_spider'
    allowed_domains = ['zy200.com']
    url = 'http://www.zy200.com/5/5943/'
    start_urls = [url + '11667352.html']
    def parse(self, response):
        info =response.xpath("/html/body/div[@id='content']/text()").extract()
        href =response.xpath("//div[@class='zfootbar']/a[3]/@href").extract_first()

        yield {'content':info}

        if href != 'index.html':
            new_url = self.url + href
            yield scrapy.Request(new_url,callback=self.parse)

pipeline

class XiaoshuoPipeline(object):
    def __init__(self):
        self.filename = open("dp1.txt", "w",encoding="utf-8")

    def process_item(self, item, spider):
        content = item["title"] +item["content"] + '\n'
        self.filename.write(content)
        self.filename.flush()
        return item

    def close_spider(self, spider):
        self.filename.close()

Scrapy 中 CrawlSpider 使用

在Scrapy中Spider是所有爬虫的基类，而CrawSpiders就是Spider的派生类。

适用于先爬取start_url列表中的网页，再从爬取的网页中获取link并继续爬取的工作。运行图如下：

创建CrawlSpider

scrapy genspider -t crawl 爬虫名 (allowed_url)

使用CrawlSpider中核心的2个类对象

Rule对象

Rule类与CrawlSpider类都位于 scrapy.contrib.spiders 模块中

class scrapy.contrib.spiders.Rule(  
 link_extractor, 
 callback=None,
 cb_kwargs=None,
 follow=None,
 process_links=None,
 process_request=None)

参数含义：

link_extractor为LinkExtractor，用于定义需要提取的链接
callback参数：当link_extractor获取到链接时参数所指定的值作为回调函数

注意
回调函数尽量不要用parse方法，crawlspider已使用了parse方法

follow：指定了根据该规则从response提取的链接是否需要跟进。当callback为None,默认值为True
process_links：主要用来过滤由link_extractor获取到的链接
process_request：主要用来过滤在rule中提取到的request

LinkExtractors

顾名思义，链接提取器

作用

response对象中获取链接，并且该链接会被接下来爬取每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象

使用

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要参数：

allow：满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。
deny：与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
allow_domains：会被提取的链接的domains。
deny_domains：一定不会被提取链接的domains。
restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接(只选到节点，不选到属性)
restrict_css：使用css表达式，和allow共同作用过滤链接(只选到节点，不选到属性)

查看效果-shell中验证

首先运行

scrapy shell'https://www.zhhbqg.com/1_1852/835564.html'

继续import相关模块

from scrapy.linkextractors import LinkExtractor

提取当前网页中获得的链接

link = LinkExtractor(restrict_xpaths=(r'//a'))

调用LinkExtractor实例的extract_links()方法查询匹配结果

link.extract_links(response)

查看效果 CrawlSpider版本

from scrapy.linkextractors import
LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from xiaoshuo.items import XiaoshuoItem

class XiaoshuoSpiderSpider(CrawlSpider):
    name = 'xiaoshuo_spider'
    allowed_domains = ['fhxiaoshuo.com']
    start_urls =['http://www.fhxiaoshuo.com/read/33/33539/17829387.shtml']
    rules = [ Rule(LinkExtractor(restrict_xpaths=(r'//div[@class="bottem"]/a[4]')),callback='parse_item'),]

    def parse_item(self, response):
        info =
response.xpath("//div[@id='TXT']/text()").extract()
        it = XiaoshuoItem()
        it['info'] = info
        yield it

注意
callback后面函数名用引号引起
函数名不要用parse
参数的括号嵌套，不要出问题

Scrapy 中 Request 的使用

爬虫中请求与响应是最常见的操作，Request对象在爬虫程序中生成并传递到下载器中，后者执行请求并返回一个Response对象

Request对象

class scrapy.http.Request(url[, callback,method='GET', headers, body, cookies, meta,
encoding='utf-8', priority=0,dont_filter=False, errback])

一个Request对象表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response

参数
- url（string） - 此请求的网址
- callback（callable） - 将使用此请求的响应（一旦下载）作为其第一个参数调用的函数。有关更多信息，请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调，
  parse()将使用spider的方法。请注意，如果在处理期间引发异常，则会调用errback。
- method（string） - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等，且保证字符串大写
- meta（dict） - 属性的初始值Request.meta,在不同的请求之间传递数据使用
- body（str或unicode） - 请求体。如果unicode传递了，那么它被编码为 str使用传递的编码（默认为utf-8）。如果body没有给出，则存储一个空字符串。不管这个参数的类型，存储的最终值将是一个str（不会是unicode或None）。
- headers（dict） - 这个请求的头。dict值可以是字符串（对
  于单值标头）或列表（对于多值标头）。如果 None作为值
  传递，则不会发送HTTP头.一般不需要
- encoding: 使用默认的 'utf-8' 就行
- dont_filter：是否过滤重复的URL地址，默认为 False 过滤
- cookie（dict或list） - 请求cookie。这些可以以两种形式发送。
  - 使用dict：
```
request_with_cookies =
Request(url="http://www.sxt.cn/index/login/login.html",)
```
  - 使用列表：
```
 request_with_cookies =
Request(url="http://www.example.com",
                               cookies=
[{'name': 'currency',
                                      
'value': 'USD',
                                      
'domain': 'example.com',
                                      
'path': '/currency'}])
```
    后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用
```
request_with_cookies =
Request(url="http://www.example.com",
                               cookies={'currency': 'USD', 'country': 'UY'},
                               meta={'dont_merge_cookies': True})
```

将附加数据传递给回调函数

请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数

def parse_page1(self, response):
    item = MyItem()
    item['main_url'] = response.url
    request =scrapy.Request("http://www.example.com/some_page.html",
                            
callback=self.parse_page2)
    request.meta['item'] = item
    return request

def parse_page2(self, response):
    item = response.meta['item']
    item['other_url'] = response.url
    return item

Scrapy 中 FormRequest 的使用

FormRequest是Request的扩展类，具体常用的功能如下：

请求时，携带参数，如表单数据
从Response中获取表单的数据

FormRequest类可以携带参数主要原因是：增加了新的构造函数的参数 formdata 。其余的参数与Request类相同.

formdata参数类型为:dict

class scrapy.http.FormRequest(url[, formdata, ...])

class method from_response(response[,
formname=None, formid=None, formnumber=0,
formdata=None, formxpath=None, formcss=None,
clickdata=None, dont_click=False, ...])

返回一个新FormRequest对象，其中的表单字段值已预先 <form> 填充在给定响应中包含的HTML 元素中.

参数：

response（Responseobject） - 包含将用于预填充表单字段的HTML表单的响应
formname（string） - 如果给定，将使用name属性设置为此值的形式
formid（string） - 如果给定，将使用id属性设置为此值的形式
formxpath（string） - 如果给定，将使用匹配xpath的第一个表单
formcss（string） - 如果给定，将使用匹配css选择器的第一个形式
formnumber（integer） - 当响应包含多个表单时要使用的表单的数量。第一个（也是默认）是0
formdata（dict） - 要在表单数据中覆盖的字段。如果响应元素中已存在字段，则其值将被在此参数中传递的值覆盖
clickdata（dict） - 查找控件被点击的属性。如果没有提供，表单数据将被提交，模拟第一个可点
击元素的点击。除了html属性，控件可以通过其相对于表单中其他提交表输入的基于零的索引，通
过nr属性来标识
dont_click（boolean） - 如果为True，表单数据将在不点击任何元素的情况下提交

请求使用示例

通过HTTP POST发送数据

FormRequest(
   
url="http://www.example.com/post/action",
            formdata={'name': 'John Doe','age': '27'},
            callback=self.after_post
)

通过FormRequest.from_response()发送数据

FormRequest.from_response(
            response,
            formdata={'username': 'john','password': 'secret'},
            callback=self.after_login
)

响应对象

class scrapy.http.Response(url[, status=200,
headers=None, body=b'', flags=None,request=None])

一个Response对象表示的HTTP响应，这通常是下载器下载后，并供给到爬虫进行处理

参数：

url（string） - 此响应的URL
status（integer） - 响应的HTTP状态。默认为200
headers（dict） - 这个响应的头。dict值可以是字符串（对于单值标头）或列表（对于多值标头）
body（bytes） - 响应体。它必须是str，而不是unicode，除非你使用一个编码感知响应子类，如TextResponse
flags（list） - 是一个包含属性初始值的 Response.flags列表。如果给定，列表将被浅复制
request（Requestobject） - 属性的初始值Response.request。这代表Request生成此响应
text 获取文本

Scrapy中下载中间件

下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。

通过可下载中间件，可以处理请求之前和请求之后的数据。

每个中间件组件都是一个Python类，它定义了一个或多个以下方法，我们可能需要使用方法如下：

process_request()
process_response()

process_request(self, request, spider)

当每个request通过下载中间件时，该方法被调用

必须返回以下其中之一

返回 None
- Scrapy 将继续处理该 request，执行其他的中间件的相应方法，直到合适的下载器处理函数(download handler)被调用，该 request 被执行(其 response 被下载)
返回一个 Response 对象
- Scrapy 将不会调用任何其他的 process_request()或 process_exception()方法，或相应地下载函数；其将返回该 response。已安装的中间件的 process_response()方法则会在每个response 返回时被调用
返回一个 Request 对象
- Scrapy 则停止调用 process_request 方法并重新调度返回的 request。当新返回的 request被执行后，相应地中间件链将会根据下载的 response 被调用
raise IgnoreRequest
- 如果抛出一个 IgnoreRequest 异常，则安装的下载中间件的 process_exception() 方法会被调用。如果没有任何一个方法处理该异常，则 request 的 errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)

参数:

request (Request 对象) – 处理的request
spider (Spider 对象) – 该request对应的spider

process_response(self, request, response, spider)

当下载器完成http请求，传递响应给引擎的时候调用

process_response()应该是：返回一个 Response 对象，则返回一个Request 对象或引发 IgnoreRequest 例外情况。

如果它返回 Response （可能是相同的给定响应，也可能是全新的响应），该响应将继续使用 process_response() 链中的下一个中间件
如果它返回一个 Request 对象时，中间件链将暂停，返回的请求将重新计划为将来下载。这与从返回请求的行为相同process_request()
如果它引发了 IgnoreRequest 异常，请求的errback函数 ( Request.errback）。如果没有代码处理引发的异常，则忽略该异常，不记录该异常（与其他异常不同）。
参数
- request (is a Request object) -- 发起响应的请求
- response ( Response object) -- 正在处理的响应
- spider ( Spider object) -- 此响应所针对的蜘蛛