Nokogiri库和OpenURI库使用HTTP做一个爬虫

news2026/2/13 0:13:12

Nokogiri和OpenURI是两个常用的Ruby库，用于编写爬虫程序。它们的主要功能如下：

在这里插入图片描述

1、Nokogiri：Nokogiri是一个强大的HTML和XML解析库，可以用于解析网页内容。它提供了一组简单易用的API，可以方便地遍历和操作HTML或XML文档。使用Nokogiri，你可以提取网页中的各种数据，如文本、链接、图片等。

2、OpenURI：OpenURI是Ruby的一个标准库，用于打开URL并读取其内容。它提供了一个简单的接口，可以直接打开网页，并返回其HTML内容。使用OpenURI，你可以获取网页的原始内容，然后使用Nokogiri进行解析和操作。

在使用Nokogiri和OpenURI进行爬虫时，需要注意以下几点：

1、安装依赖：在使用Nokogiri之前，需要先安装libxml2和libxslt的开发库。可以使用系统包管理器或Ruby的包管理器（如Bundler）来安装这些依赖。

2、引入库：在Ruby脚本中，需要使用require语句引入Nokogiri和OpenURI库。

3、打开URL：使用OpenURI的open方法，传入需要访问的URL，可以获取网页的内容。例如：html = open(“http://example.com”).read

4、解析HTML：使用Nokogiri的parse方法，传入网页内容，可以将其解析为Nokogiri::HTML::Document对象。例如：doc = Nokogiri::HTML.parse(html)

5、遍历和操作：使用Nokogiri提供的API，可以方便地遍历和操作HTML文档。可以使用CSS选择器或XPath表达式来定位和提取需要的元素。

6、处理异常：在进行爬虫时，可能会遇到各种异常情况，如网络超时、页面不存在等。在使用Nokogiri和OpenURI时，可以使用begin-rescue语句来捕获异常，并进行相应的处理。

总之，使用Nokogiri和OpenURI可以方便地进行网页内容的解析和提取。OpenURI用于打开URL并读取网页内容，而Nokogiri用于解析和操作HTML或XML文档。通过结合使用这两个库，可以编写出功能强大的爬虫程序。

代码示例

require 'nokogiri'
require 'open-uri'

# 使用Nokogiri库和OpenURI库来打开网页
doc = Nokogiri::HTML(open("https://dict.youdao.com/"))

# 选择网页中的所有视频链接
video_links = doc.css('.play-wrap a')

# 遍历视频链接
video_links.each do |link|
  # 使用HTTP爬虫ip来打开视频链接
  open(link['href'], 'http_proxy': "http://www.duoip.cn:8000")
end