使用 Colly 在 Golang 中进行网页抓取的步骤

news2024/12/25 15:01:53

什么是 Colly?

Go 是一种用途广泛的语言,它拥有可以完成几乎所有工作的包和框架。

今天,我们将使用一个名为 Colly 的框架,它是一个用 Go 语言编写的、高效且强大的网页抓取框架,用于从网络上抓取数据。它提供了一个简单易用的 API,允许开发者快速构建爬虫,访问网页并提取所需信息。

什么是 Colly?

Colly 提供了一组方便而强大的工具,用于从网站提取数据、自动化网络交互以及构建网页抓取工具。

在本文中,您将获得使用 Colly 的一些实践经验,并学习如何使用 Golang:Colly 从网络上抓取数据。

Colly 如何工作?

Colly 的核心部分是 Collector。它负责执行 HTTP 请求,并允许您定义如何处理请求和响应。通过调用 c := colly.NewCollector(),您可以创建一个新的 Collector 实例,然后可以使用它来启动网络请求并处理数据。

核心功能:

1. Visit 和 Request 方法:

  • Visit:这是最常用的请求方法,它直接访问目标网页。
  • Request:允许您在发送请求时附加一些额外的信息(例如自定义标头或参数),用于更复杂的请求场景。

2. 回调机制: Colly 依赖于回调函数在请求生命周期的不同阶段执行。Collector 提供了各种回调注册方法,主要包括以下六种:

  • OnRequest:在发送 HTTP 请求之前触发,您可以添加自定义标头、打印请求信息等。
  • OnError:在请求过程中发生错误时触发,用于捕获和处理请求失败。
  • OnResponse:在收到服务器响应后触发,可用于处理响应数据。
  • OnHTML:在收到 HTML 内容并与指定的 CSS 选择器匹配时触发,用于从 HTML 页面提取数据。
  • OnXML:当响应内容为 XML 或 HTML 时触发,可用于处理 XML 格式的内容。
  • OnScraped:在所有请求数据处理完毕后触发,是爬虫任务结束时的回调。

3. OnHTML 回调:

  • 最常用的回调函数,使用 CSS 选择器注册,当 Colly 在 HTML DOM 中找到匹配的元素时,就会调用注册的回调函数。
  • Colly 使用 goquery 库来解析 HTML 并匹配 CSS 选择器,而 goquery 的 API 与 jQuery 类似,因此可以使用 jQuery 风格的选择器从页面中提取数据。

您是否对网页抓取和 Browserless 有任何精彩的想法和疑问?
让我们看看其他开发者在 Discord 和 Telegram 上分享了什么!

如何使用 Golang 抓取网络数据?

第 1 步. 环境准备

Golang 安装

访问 Golang 官方网站,选择合适的版本进行下载安装。我们建议使用 go1.20+。本教程使用 go1.23.1。

安装完成后,可以使用终端验证安装是否成功:

go version

成功输出 go 版本信息表示安装成功。

选择合适的 IDE

根据您的喜好选择合适的 IDE。推荐使用 Visual Studio。

第 2 步. 项目构建

接下来,开始创建一个项目。

  • 创建一个项目目录:
mkdir gocolly-browserless && cd gocolly-browserless
  • 初始化 Go 项目:
go mod init colly-scraper

上面的命令执行 go mod init 初始化一个名为 colly-scraper 的 go 项目,并在项目目录中生成一个 go.mod 文件,内容如下:

module colly-scraper

go 1.23.1
  • 然后创建 main.go 并创建主方法:
package main

import "fmt"

func main() {
    fmt.Println("Hello Nstbrowser!")
}
  • 运行主方法:
go run main.go

如果您成功看到了打印的信息,则表示操作成功。项目已成功构建。

第 3 步. 使用 Colly

做得好!所有准备工作都已完成。接下来,我们将正式开始使用 Colly 完成一些简单的 数据抓取。

安装 Colly

在项目根路径下输入以下命令完成 Colly 安装:

go get github.com/gocolly/colly

如果安装过程中报错当前 go 版本不支持,您可以选择安装更低版本的 Colly 或将 Golang 升级到对应版本。安装 Colly 后,go.mod 如下:

module colly-scraper

go 1.23.1

require (
    github.com/gocolly/colly v1.2.0 // indirect
    ...
)
核心原理

Colly 的核心工作原理是通过 HTTP 请求获取网页内容,然后解析网页中的 DOM 结构,提取我们需要的特定数据。它的工作流程可以分为以下步骤:

  1. 创建 Collector: 这是 Colly 用于启动 HTTP 请求和处理响应的核心对象。
  2. 定义回调函数: Colly 通过注册回调函数来处理解析 HTML 时出现的特定元素或事件(如点击链接、解析表单等)。
  3. 访问目标网站: 通过调用 Visit() 方法,Collector 将会启动对指定 URL 的请求。
  4. 处理响应数据: 在回调函数中处理 HTML 数据,提取所需信息。

入门示例

以下是从 Nstbrowser 官方网站 访问的简单示例

package main

import (
    "fmt"

    "github.com/gocolly/colly"
)

func main() {
    // 创建一个新的 Collector
    c := colly.NewCollector()

    // 回调函数,当爬虫找到一个 <title> 元素时调用
    c.OnHTML("title", func(e *colly.HTMLElement) {
        fmt.Println("Page Title:", e.Text)
    })

    // 处理错误
    c.OnError(func(_ *colly.Response, err error) {
        fmt.Println("Error:", err)
    })

    // 访问目标页面
    c.Visit("https://nstbrowser.io")
}

执行完以上代码后,爬虫会输出页面中 title 元素的内容。这就是 Colly 的基本工作流程,它可以轻松地解析 HTML 并提取您需要的信息。运行 go run main.go 会打印类似以下的信息:

Page Title: Nstbrowser - Advanced Anti-Detect Browser for Web Scraping and Multiple Accounts Managing
常用设置

Colly 是一个功能强大且灵活的 Golang 爬虫框架,可以通过配置控制爬虫的行为。以下将详细介绍 Colly 中常用的配置选项,并说明其使用场景和实现方法。

1. Collector 配置

colly.NewCollector 用于创建一个新的 Collector 实例,它是爬虫的核心部分。通过传递不同的配置选项,您可以自定义爬虫的行为,例如限制爬取的域名、爬取的最大深度、异步爬取等。

示例

c := colly.NewCollector(
    colly.AllowedDomains("example.com"),   // 限制到特定域名
    colly.MaxDepth(3),                     // 限制爬取深度
    colly.Async(true),                     // 启用异步抓取
    colly.IgnoreRobotsTxt(),               // 忽略 robots.txt 规则
    colly.DisallowedURLFilters(regexp.MustCompile(".*.jpg")), // 跳过某些 URL
    ...
)

2. 请求配置

Colly 提供了多种方法来配置 HTTP 请求行为,例如设置自定义请求头、代理、cookie 等。通过这些设置,爬虫可以模拟真实用户的行为,绕过一些反爬机制。

自定义 UA 头

您可以通过 Headers.Set 方法为每个请求设置自定义 HTTP 头信息。例如,设置 User-Agent 来模拟浏览器的访问行为,避免被反爬机制拦截。

c.OnRequest(func(r *colly.Request) {
    r.Headers.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36")
    ...
})

Cookie 管理

Colly 默认会自动处理 cookie,但您也可以手动设置特定的 cookie。例如,在抓取某些需要登录的页面时,可以在登录后预先设置 cookie。

c.SetCookies("http://example.com", []*http.Cookie{
    &http.Cookie{
        Name:   "session_id",
        Value:  "1234567890",
        Domain: "example.com",
    },
})

设置代理

使用代理服务器可以隐藏您的真实 IP 地址,绕过一些网站的 IP 封锁策略。Colly 支持单一代理和动态代理切换。

c.SetProxy("your proxy url")

设置请求超时

当网站响应速度较慢时,设置请求超时可以防止程序长时间挂起。默认情况下,Colly 的超时时间为 10 秒,您可以根据需要调整超时时间。

c.SetRequestTimeout(30 * time.Second)

回调

Colly 支持对各种事件进行回调处理,例如页面加载成功、元素找到、请求错误等。通过这些回调,您可以灵活地处理抓取到的内容或处理抓取过程中的错误。
常见的回调示例:

  • OnRequest

此回调将在发送每个请求之前被调用。您可以在此处动态设置请求头或其他参数。

c.OnRequest(func(r *colly.Request) {
    fmt.Println("Visiting:", r.URL.String())
})
  • OnResponse

此回调在收到响应时被调用,用于处理原始的 HTTP 响应数据。

c.OnResponse(func(r *colly.Response) {
    fmt.Println("Received:", string(r.Body))
})
  • OnHTML

用于处理 HTML 页面中的特定元素。当页面上出现匹配的 HTML 元素时,此回调将被调用,用于提取所需信息。

c.OnHTML("title", func(e *colly.HTMLElement) {
    fmt.Println("Page Title:", e.Text)
})
  • OnError

此回调在请求发生错误时被调用。您可以在此处处理异常。

c.OnError(func(_ *colly.Response, err error) {
    fmt.Println("Error:", err)
})

3. 请求限制

Colly 还提供了一些选项来优化爬虫的性能,例如限制并发请求数量、提高爬取速度、设置请求之间的延迟等。

c.Limit(&colly.LimitRule{
    DomainGlob:  "*",             // DomainRegexp 是一个通配符模式,用于匹配域名
    Delay:       3 * time.Second, // Delay 是等待创建新请求到匹配域名的持续时间
    Parallelism: 2,               // Parallelism 是匹配域名的最大允许并发请求数
})

更多设置请参考 Colly 官方文档。

高级示例

结合我们之前学到的知识,让我们来抓取维基百科首页的分类信息数据并打印结果:

1. 页面元素分析

进入首页后,我们 右键 -> 检查 或按下 F12 快捷键进入页面元素分析:

我们可以找到:

  • 我需要的分类信息是 class 名为 other-project 的 div 元素,其中分类链接是 a 标签中的 href 属性值。它的 class 名称为 other-project-link
  • 继续跟踪这个元素,它显示了 class 元素 .other-project-text 下的两个 span class 名(other-project-title 和 other-project-tagline)是它的分类名称和介绍。

接下来,开始编码以获取我们想要的数据。

2. 编码

package main

import (
    "fmt"
    "time"

    "github.com/gocolly/colly"
)

func main() {
    // 创建一个新的 Collector
    c := colly.NewCollector()

    // 处理错误
    c.OnError(func(_ *colly.Response, err error) {
        fmt.Println("Error:", err)
    })

    // 自定义请求头: User-Agent
    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36")
    })

    // 设置代理
    c.SetProxy("your proxy")

    // 设置请求超时
    c.SetRequestTimeout(30 * time.Second)

    c.Limit(&colly.LimitRule{
        DomainGlob:  "*",             // DomainRegexp 是一个通配符模式,用于匹配域名
        Delay:       1 * time.Second, // Delay 是等待创建新请求到匹配域名的持续时间
        Parallelism: 2,               // Parallelism 是匹配域名的最大允许并发请求数
    })

    // 等待 class 为 "other-project-text" 的元素出现
    c.OnHTML("div.other-project", func(e *colly.HTMLElement) {
        link := e.ChildAttrs(".other-project-link", "href")
        title := e.ChildText(".other-project-link .other-project-text .other-project-title")
        tagline := e.ChildText(".other-project-link .other-project-text .other-project-tagline") // 项目介绍
        fmt.Println(fmt.Sprintf("%s => %s(%s)", title, tagline, link))
    })

    // 访问目标页面
    c.Visit("https://wikipedia.org")
}
  • 运行项目
go run main.go
  • 结果

总结

亲爱的朋友们,到此为止!Nstbrowser 一直在帮助您简化网页抓取和自动化任务的每一个困难步骤。在这篇精彩的博文中,我们学习了:

  • 如何构建 Colly 的基本环境。
  • 常用的 Colly 配置和使用方法。
  • 使用 Colly 完成对 Nstbrowser 官方网站 的访问和抓取维基百科首页 Wiki 分类数据。

通过简单的例子,我们体验了 Colly 的简洁性和强大的数据抓取能力。更多高级用法请参考 Colly 官方文档。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2181428.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IPD的定义和三大重组

目前&#xff0c;业界对IPD的一般理解是&#xff1a;IPD——Integrated Product Development&#xff08;集成产品开发&#xff09;是一套领先的、成熟的产品开发的管理思想、模式和方法。它是根据大量成功的产品开发管理实践总结出来的&#xff0c;并被大量实践证明的高效的研…

Oracle 配置恢复目录catalog

一.介绍 Oracle中使用RMAN备份的数据我们分为两类 RMAN知识库数据库的数据块 Oracle默认把 RMAN知识库 放在目标数据库的控制文件中&#xff0c;在以后进行恢复的时候 我们要先读知识库的信息然后才能恢复。 但这样就产生了一个问题&#xff0c;知识库放在了控制文件上&#xf…

Whisper的使用

whisper的下载路径&#xff1a;https://github.com/openai/whisper需要安装以下的包。要求python的版本在3.9以上&#xff1a;如果当前python环境在3.9以下&#xff0c;可以换whisper的版本。点一下 releases 按钮。可以下载其他版本。使用whisper的时候需要其他包的安装。记住…

TypeScript 算法手册 - 【冒泡排序】

文章目录 TypeScript 算法手册 - 冒泡排序1. 冒泡排序简介1.1 冒泡排序定义1.2 冒泡排序特点 2. 冒泡排序步骤过程拆解2.1 比较相邻元素2.2 交换元素2.3 重复过程 3. 冒泡排序的优化3.1 提前退出3.2 记录最后交换位置案例代码和动态图 4. 冒泡排序的优点5. 冒泡排序的缺点总结 …

UEFI EDK2框架学习(三)——protocol

一、Protocol协议 搜索支持特定Protocol的设备&#xff0c;获取其Handle gBS->LocateHandleBuffer 将内存中的Driver绑定到给定的ControllerHandle gBS->OpenProtocol 二、代码实现 Protocol.c #include <Uefi.h> #include <Library/UefiLib.h> #includ…

cmd发邮件:Windows命令行发送邮件的教程!

cmd发邮件怎么通过命令行实现&#xff1f;如何使用CMD发送邮件&#xff1f; 通过cmd发邮件&#xff0c;你可以在不打开任何邮件客户端的情况下&#xff0c;直接从命令行发送邮件。AokSend将详细介绍如何使用cmd发邮件功能&#xff0c;让你轻松掌握这一实用技能。 cmd发邮件&a…

信息收集---WAF指纹识别

1. 什么是waf web应用防火墙&#xff0c;一款集网站内容安全防护、网站资源安全防护及流量保护功能为一体的服务器工具。为用户提供实时网站安全防护&#xff0c;避免各类针对网站的攻击带来的危害。&#xff08;核心其实也是基于规则的防御&#xff09;| 任何工具&#xff08…

解决 Could not locate zlibwapi.dll. Please make sure it is in your library path

zlibwapi.dll文件是zlib库的Windows版本&#xff0c;很多Python上的库想要在Windows上执行都需要依赖这个文件。 可以通过本人上传的免费资源直接下载&#xff1a;zlibwapi 链接&#xff1a;https://pan.baidu.com/s/1u8osbt_IevO4GOkXthZ04A 提取码&#xff1a;c2mf zlibwa…

8 时间序列相关工具介绍

1 背景 发现最近做的任务都是有关于时间序列任务的&#xff0c;做的方法全部偏向于如何对数据进行清洗、提取周期特征然后构造相关特征&#xff0c;这些工作都是比较偏向于传统时间序列模型的方案。 现在深度学习这个火&#xff0c;比如循环神经网络分支&#xff1a;L…

Typora 下载安装

准备工作 下载 下载链接&#xff1a;https://www.123865.com/ps/EF7OTd-adAnH 演示环境 操作系统&#xff1a;windows10 产品&#xff1a;typora 版本&#xff1a; 1.9.5 注意&#xff1a;如果需要其他版本可自行下载。 安装步骤 1、解压。 2、双击 "typora-setup-x64.…

基于SpringBoot+Vue的社区智慧消防管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏&#xff1a;Java精选实战项目…

前端工程规范-3:CSS规范(Stylelint)

样式规范工具&#xff08;StyleLint&#xff09; Stylelint 是一个灵活且强大的工具&#xff0c;适用于保持 CSS 代码的质量和一致性。结合其他工具&#xff08;如 Prettier 和 ESLint&#xff09;&#xff0c;可以更全面地保障前端代码的整洁性和可维护性。 目录 样式规范工具…

国庆出行新伴侣:骨传导耳机分享,开启安全无忧的音乐旅行

随着国庆长假的脚步渐近&#xff0c;许多朋友已经开始规划自己的出游行程。无论是短途旅行还是长途跋涉&#xff0c;一款合适的耳机无疑是旅途中的良伴&#xff0c;特别是在户外活动频繁的假期&#xff0c;骨传导耳机因其独特的优点而成为了众多旅行者的首选。骨传导技术通过振…

心理咨询行业为何要有自己的知识付费小程序平台 心理咨询小程序搭建 集师saas知识付费小程序平台搭建

在快节奏的现代生活中&#xff0c;心理健康问题日益凸显&#xff0c;心理咨询行业迎来了前所未有的发展机遇。然而&#xff0c;传统咨询模式受限于地域、时间等因素&#xff0c;难以满足日益增长的多元化需求。在此背景下&#xff0c;搭建自己的知识付费小程序&#xff0c;成为…

python UNIT 3 选择与循环(2)

目录 1。循环的优化 经典优化分析&#xff1a; 未优化的代码&#xff1a; 细节分析&#xff1a; 优化后的代码&#xff1a; 优化的细节&#xff1a; 性能对比 优化的关键在于&#xff1a; 经典习题讲解&#xff1a;(紫色的解析请重点关注一下) 1。例三 个人代码解析…

Python发送邮件附件全攻略:从设置到发送!

Python发送邮件附件的详细步骤&#xff1f;如何利用Python发信&#xff1f; Python作为一种强大的编程语言&#xff0c;提供了丰富的库来帮助我们自动化这一过程。AokSend将详细介绍如何使用Python发送邮件附件&#xff0c;从基础设置到实际发送&#xff0c;带你一步步掌握这一…

【计算机网络】数据链路层理解

文章目录 一、引言二、MAC地址三、以太网四、交换机五、ARP与RARP1、ARP2、RARP 一、引言 数据链路&#xff0c;有时也指以太网、无线局域网等通信手段。数据链路层的协议定义了通过通信媒介互联的设备之间传输的规定。通信媒介包括双绞线电缆、同轴电缆、光纤、点播以及红外线…

值得去公司(完整榜单)

值得去公司 近日&#xff0c;脉脉出了一份《职得去公司》榜单&#xff1a; 前三名是 TAM&#xff08;老牌巨头百度日常掉队&#xff09;。 大家肯定好奇这个榜单怎么统计出来的。 这上面写的是根据「雇主指数」进行排名&#xff0c;广义的雇主指数包括了多个维度&#xff0c;包…

PasteForm最佳CRUD实践,实际案例PasteTemplate详解之3000问(三)

作为“贴代码”力推的一个CRUD实践项目PasteTemplate,在对现有的3个项目进行实战后效果非常舒服&#xff01;下面就针对PasteForm为啥我愿称为最佳CRUD做一些回答: 哪里可以下载这个PasteForm的项目案例 目前“贴代码”对外使用PasteForm的项目有"贴Builder(PasteSpide…

Redis: 主从复制读写分离环境搭建

概述 Redis 的单机模式实际上就是在一个服务器上装了一个单节点的Redis通过简单的配置和简单的命令启动起来就可以使用这种搭建环境&#xff0c;不保证高可用的情况下&#xff0c;完全没有问题如果说你的项目必须要具备高可用&#xff0c;而且 Redis 也要提供更高的性能这个单…