Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例

news2024/12/24 13:52:05

亿牛云.png

网络爬虫是一种自动从互联网上获取数据的程序,它可以用于各种目的,如数据分析、信息检索、竞争情报等。网络爬虫的实现方式有很多,不同的编程语言和框架都有各自的优势和特点。在本文中,我将介绍一种使用Go语言和pholcus库的网络爬虫工程,以抓取头条新闻的数据为例,展示pholcus库的功能和用法。
Go语言是一种开源的静态类型的编译型语言,它具有简洁、高效、并发和跨平台的特点,适合开发高性能的网络应用。pholcus库是一个基于Go语言的高并发、分布式、重量级网络爬虫软件,它提供了丰富的API和界面,支持多种输出方式,如MySQL、MongoDB、Excel、CSV等,可以轻松实现各种复杂的网络爬虫需求。
为了演示pholcus库的使用,我将以抓取头条新闻的数据为例,编写一个简单的网络爬虫程序。头条新闻是一个综合性的新闻平台,提供了各种类别的新闻,如国际、国内、娱乐、体育等。我将从头条新闻的网站上获取每个类别的最新的10条新闻的标题、链接、来源和时间,并将结果保存到Excel文件中。

1. 概述pholcus库

首先,我们简要介绍一下pholcus库。Pholcus是一款基于Go语言的分布式高并发爬虫软件,具有强大的自定义特性和高效的爬取性能。它支持定时任务、分布式部署,并且易于扩展,是一个理想的爬虫工具。

2. 安装pholcus库

在开始之前,确保你已经安装了Go语言环境。通过以下命令安装pholcus库:

go get -u github.com/henrylee2cn/pholcus

3. 构建爬虫任务

我们通过以下步骤构建一个简单的爬虫任务,以抓取头条新闻为例。

package main

import (
	"fmt"
	"github.com/henrylee2cn/pholcus/config"
	"github.com/henrylee2cn/pholcus/downloader/context"
	"github.com/henrylee2cn/pholcus/library/collector/data"
	"github.com/henrylee2cn/pholcus/logs"
	"github.com/henrylee2cn/pholcus/output"
	"github.com/henrylee2cn/pholcus/spider"
	"github.com/henrylee2cn/pholcus/spider/common/pool"
	"github.com/henrylee2cn/pholcus/spider/downloader"
	"github.com/henrylee2cn/pholcus/spider/library"
	"github.com/henrylee2cn/pholcus/storage"
	"time"
)

func main() {
	// 初始化配置
	config.Init()

	// 设置日志级别
	logs.Log.SetLogLevel(logs.DEBUG)

	// 设置亿牛云 爬虫代理 代理服务器信息
	proxyIP := "www.16yun.cn"//代理服务器
	proxyPort := "8181"//端口
	proxyUsername := "16YUN"//用户
	proxyPassword := "16IP"//密码

	// 设置代理IP
	downloader.SetProxy(func(ctx *context.Context) (*collector.Proxy, error) {
		return &collector.Proxy{
			Host:     proxyIP,
			Port:     proxyPort,
			Username: proxyUsername,
			Password: proxyPassword,
		}, nil
	})

	// 创建爬虫任务
	task := spider.NewTask()

	// 添加规则,这里选择了头条新闻的国际、国内、娱乐和体育四个类别
	task.AddRule("头条新闻", "https://www.toutiao.com/ch/news_%s/", "国际", "国内", "娱乐", "体育")

	// 设置抓取数量
	task.SetLimit(10)

	// 设置全局超时时间
	task.SetTimeout(time.Second * 30)

	// 运行爬虫
	task.Run()

	// 输出结果
	printResult()
}

// 输出结果
func printResult() {
	defer func() {
		if err := recover(); err != nil {
			fmt.Println("程序异常退出:", err)
		}
	}()

	// 初始化输出结果到Excel文件
	out, err := output.New("excel", nil)
	if err != nil {
		fmt.Println("初始化输出错误:", err)
		return
	}

	// 添加输出字段
	out.AddField([]string{"标题", "链接", "来源", "时间"})

	// 设置输出路径
	out.SetOutPath("result.xlsx")

	// 打印输出结果
	fmt.Println("输出结果:")
	output.Print(out)
}

4. 代理IP设置

在代码中,我们通过proxy.Set方法设置了代理IP,确保在爬取头条新闻时能够绕过一些反爬虫机制,保持高效稳定的数据爬取。

proxy.Set(proxy.Proxy{
	Host:     "域名",
	Port:     "端口",
	Username: "用户名",
	Password: "密码",
})

请替换域名、端口、用户名和密码为你的代理IP信息。

5. 运行爬虫

在完成代码编写和代理IP设置后,运行程序,爬虫将开始工作。你将看到输出结果中包含了头条新闻的相关信息。

结语

通过本文,我们详细介绍了如何使用Go语言中的pholcus库构建一个网络爬虫工程,实现对头条新闻的数据抓取。同时,我们强调了代理IP的重要性,以应对一些反爬虫策略,确保爬取过程的稳定性。希望这个实例对你了解和应用网络爬虫技术有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1245723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

qgis添加postgis数据

左侧浏览器-PostGIS-右键-新建连接 展开-双击即可呈现 可以点击编辑按钮对矢量数据编辑后是直接入库的,因此谨慎使用。

【JavaWeb】HTMLCSSJavaScript

HTML&CSS&JavaScript 文章目录 HTML&CSS&JavaScript一、开发工具及在线帮助文档二、 HTML2.1 HTML&CSS&JavaScript的作用2.2 HTML基础结构2.3 HTML概念词汇解释2.4 HTML的语法规则2.5 常用标签 三、CSS3.1 引入方式3.2 CSS选择器3.3 CSS浮动3.4 CSS定位…

数据结构与算法【B树】的Java实现+图解

目录 B树 特性 实现 节点准备 大体框架 实现分裂 实现新增 实现删除 完整代码 B树 也是一种自平衡的树形数据结构,主要用于管理磁盘上的数据管理(减少磁盘IO次数)。而之前说的AVL树与红黑树适合用于内存数据管理。存储一个100w的数…

CTF PWN-攻防世界level3之libc动态库寻址

文章目录 前言动态链接Plt与Got简单例子延迟绑定 level3题目简析EXP构造Getshell 总结 前言 本题目 level3 延续了 CTF PWN-攻防世界XCTF新手区WriteUp 一文中的 PWN 题目训练,是 level2 题目的衍生。与 level2 不同的是,存在栈溢出漏洞的 level3&#…

【DevOps】Git 图文详解(九):工作中的 Git 实践

本系列包含: Git 图文详解(一):简介及基础概念Git 图文详解(二):Git 安装及配置Git 图文详解(三):常用的 Git GUIGit 图文详解(四)&a…

2023年亚太地区数学建模大赛 问题A

采果机器人的图像识别技术 中国是世界上最大的苹果生产国,年产量约为3500万吨。与此同时,中国也是世界上最大的苹果出口国,全球每两个苹果中就有一个,全球超过六分之一的苹果出口自中国。中国提出了一带一路倡议(BRI&…

Linux - 文件系统 - 理解目录 - 理解 软/硬链接

前言 在上篇博客当中,我们对 文件系统 和 inode 做了初步了解,本博客将在上篇博客的基础之上,对于 文件系统当中的目录进行进步一阐述。 Linux - 进一步理解 文件系统 - inode - 机械硬盘-CSDN博客 目录 一个文件有一个 inode,…

BUUCTF [WUSTCTF2020]find_me 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 得到的 flag 请包上 flag{} 提交。 感谢 Iven Huang 师傅供题。 比赛平台:https://ctfgame.w-ais.cn/ 密文: 下载附件,得到一个.jpg图片。 解题思路: 1、得到一张图…

vue3-组件传参及计算属性

​🌈个人主页:前端青山 🔥系列专栏:Vue篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来vue篇专栏内容:vue3-组件传参及计算属性 目录 vue3中的组件传参 1、父传子 2、子传父 toRef 与 toRefs vue3中…

大数据系列15:lightgbm笔记

1. 安装 建议用conda安装。 首先安装miniconda,在官网下载对应的版本。 然后将系统的python和pip定位到miniconda文件夹下。 然后用conda安装lightgbm,在Mac m2芯片上测试可行。(用pip直接安装通不过编译)。 2. 简单case 将lig…

php xml数据转数组两种方式

目录 方法一、可以使用simplexml_load_string()函数将XML数据转换为数组。 方法二、使用PHP内置的DOMDocument类来将XML数据转换为数组的方法 方法一、可以使用simplexml_load_string()函数将XML数据转换为数组。 $xmlData <root><name>John Doe</name>&l…

Cesium 展示——地球以及渲染数据导出(下载)为图片或 pdf

文章目录 需求分析新加需求分析第一种方式第二种方式需求 将 Cesium 球体以及渲染数据导出为 jpg/png/pdf 分析 获取场景 scene 信息,转为image 的 octet-stream 流 进行下载为图片 /*** @todo canvas 导出图片* @param {string} dataurl - 地址* @return {Blob}*/ functio…

杭州银行连接解决方案:集成CRM、用户运营和广告推广系统

自动化与智能化是企业新的增长引擎。在数字化时代&#xff0c;企业需要通过数字化工具来提高效率和效益&#xff0c;这也是杭州银行推出的连接解决方案的初衷。该解决方案集成了CRM、用户运营和广告推广系统&#xff0c;为企业提供全方位的数字化转型支持。 杭州银行连接解决方…

「 高并发系统设计 」 如何提高系统性能

「 高并发系统设计 」 如何提高系统性能 参考&鸣谢 ⾼并发系统如何做性能优化&#xff1f; 玄明Hanko 高并发系统设计和优化的通用方法论 渝言家 文章目录 「 高并发系统设计 」 如何提高系统性能[toc]一、高并发系统设计三大目标高性能高可用可扩展 二、性能优化原则问题导…

【硬核HeyGen平替】在window平台上使用MyHeyGen

最近在研究HeyGen的平替开源项目&#xff0c;然后发现了MyHeyGen这个项目&#xff0c;但是文档上面并没有说明如果在window平台上使用&#xff0c;考虑到非window平台安装显卡驱动什么的比较繁琐&#xff0c;所以尝试硬着头皮干... 前提 开源项目中所需的环境准备要先准备好 1…

qgis添加xyz栅格瓦片

方式1&#xff1a;手动一个个添加 左侧浏览器-XYZ Tiles-右键-新建连接 例如添加高德瓦片地址 https://wprd01.is.autonavi.com/appmaptile?langzh_cn&size1&style7&x{x}&y{y}&z{z} 双击即可呈现 收集到的一些图源&#xff0c;仅供参考&#xff0c;其中一…

中断方式的数据接收

中断接收简介 回顾之前的代码 之前的代码是 等待标志位RXNE位为1才有数据 进而读取数据存放在变量c中 再根据c变量的数据是为0还是为1进而编写灯亮灭的代码 if语句 但这样的代码明显不符合裸机多任务的编程模型 因为在while中为进程 进程执行的时间不能大于5ms 但是while&…

Linux实验四:shell程序设计: shell控制语句

实验目的 进一步巩固shell程序设计语言基本语法&#xff0c;加深对所学知识理解。 实验内容 要求学生掌握以下内容 (1)条件表达式 (2)判断和分支语句 (3)循环语句 (4)函数 实验内容 1 条件表达式 $ test 10 -gt 5 // 算数表达式 10>5 $ echo $? //显示上述表达…

〔004〕虚幻 UE5 像素流部署

✨ 目录 ▷ 启用像素流插件▷ 打包项目▷ 下载环境包▷ 手动下载▷ 安装信令服务器环境▷ 启动信令服务器▷ 设置启动参数▷ 启动程序▷ 网页运行▷ 开启触控界面▷ 启用像素流插件 打开虚幻启动程序,选择 编辑 后点击 插件在插件列表中搜索 pixel streaming 关键字,勾选后重…

杨传辉:从一体化架构,到一体化产品,为关键业务负载打造一体化数据库

在刚刚结束的年度发布会上&#xff0c;OceanBase正式推出一体化数据库的首个长期支持版本 4.2.1 LTS&#xff0c;这是面向 OLTP 核心场景的全功能里程碑版本&#xff0c;相比上一个 3.2.4 LTS 版本&#xff0c;新版本能力全面提升&#xff0c;适应场景更加丰富&#xff0c;有更…