数据采集:如何使用八爪鱼采集BOSS直聘职位数据

news2024/9/21 22:58:37

大家好,我是水哥!

今天给大家分享的是数据采集实战:使用「八爪鱼」第三方工具来采集 BOSS 直聘上的数据分析职位数据。

接下来,我们详细看一看。

不重复造轮子

在工作中,我们一定要形成一个认知,能用第三方工具解决的一定用第三方工具解决。

在软件开发行业中,流行一个代码开发准则:不重复进行造轮子。

这句话告诉我们,要避免「重复劳动」,你碰到的任何一个问题,都可能存在已有的「解决方案」,只需找到它,并学会使用即可。

比如要爬取 BOSS 直聘网站上数据分析职位数据,我们第一步并不是去学习爬虫,而是去搜索是否有第三方工具可以代替我们编写「爬虫代码」

学习爬虫有门槛,对于不了解计算机网络和没有编程基础的人来说有难度。

如果目标不是成为爬虫工程师,只是为了做分析而去采集数据,完全可以用「第三方采集器」来代替编写爬虫代码。

也许花上一个小时学习第三方采集器的使用,就能代替你学习一个月的爬虫知识。

在工作中,公司更关注的是你的做事结果,而非过程。而选择什么样的工具来提升你的工作效率,这更为关键。

回到文章主题,我们来看一下八爪鱼这个第三方数据采集器的具体使用。

八爪鱼介绍

八爪鱼是一款第三方数据采集器,它号称「不懂网络爬虫技术,也可以轻松采集数据」。

八爪鱼支持本地采集、云采集两种方式,并支持导出各种格式数据。

并且还内置了丰富的网站数据源,提供「模板采集」功能,我们只需简单设置,就能快速准确获取数据。

八爪鱼不仅适用于采集简单网页,学习它的 XPath 功能后,还能采集复杂网页。

基本上「爬虫代码」能做到的事情,八爪鱼也能做到。

八爪鱼一些高级功能是收费的,但免费版就已经满足我们大部分数据采集需求了。

总之,八爪鱼是一款简单易用且功能强大的数据采集器,它将需要使用代码来完成的爬虫流程抽象成了可视化操作,让不懂网络爬虫的人,也能快速的进行采集数据。

八爪鱼下载

获取 Windows 版八爪鱼可以也可以使用水哥专属🔗注册八爪鱼,有惊喜

下载地址:https://affiliate.bazhuayu.com/tHEr9u

八爪鱼官方网站也有详细的安装指导。

在安装好八爪鱼后,我们需要注册账号进行登录后才能使用,也可以不注册账号使用短信或者微信这些第三方账号进行登录。

八爪鱼的使用流程

下面是使用八爪鱼来采集数据的一般流程:

八爪鱼采集数据的流程设计实现其实是模拟网络爬虫的过程,而网络爬虫本质也是模拟我们人工在浏览器访问网页的过程。

例如我们要浏览 BOSS 直聘上的数据分析岗位的职位详情,会怎么做呢?

第一步,我们会找到 BOSS 直聘网站的网页地址:https://www.zhipin.com/,然后在浏览器进行访问。

第二步,我们会在页面上选择数据分析职位,然后进入到职位列表页面。

接着,我们可能会点击某个职位的标题进入到职位详情页面。

在浏览完当前列表页的职位详情后,我们可能会切换页码,接着再浏览下个列表页面的职位数据。

使用八爪鱼采集数据,流程也是和浏览器访问网页的过程是一样的。

八爪鱼采集数据的流程:首先输入要采集的网页地址,接着进行设计流程,最后启动采集并导出数据。

这里的设计流程,对应的就是我们浏览网页时的一连串操作,目的是告诉八爪鱼要如何访问网页、该提取页面的哪些元素等,相当于告诉八爪鱼采集数据的规则。

比如像上面我们进行人工访问时的打开列表页、点击列表页的标题页进入到职位详情页、切换页码的操作就是对应八爪鱼里面的设计流程。

下面,我们来看一下使用八爪鱼采集数据的实际案例。

使用八爪鱼采集 BOSS 直聘职位数据

1. 实操视频

以下是本次数据采集操作的完整视频,大家可以先看一看,接下来水哥会给大家详细讲解每一个步骤。

2. 预备知识

在进行这个实操前,我们需要掌握八爪鱼的一些基础知识,大家可以访问八爪鱼官方教程来学习。

八爪鱼官方教程分为图文版和视频版两种,大家可以结合在一起来学习。

图文教程访问地址: https://www.bazhuayu.com/tutorial8/hottutorial/gnd

视频教程访问地址: https://www.bazhuayu.com/tutorial8/videotutorial/gnd

大家可以着重学习一下以下教程:

3. 确认网页地址

我们要采集的是 BOSS 直聘不同城市的数据分析职位数据。

通过分析可以知道,职位列表的网页地址有如下规律:

https://www.zhipin.com/web/geek/job?city=101230200&position=100511&page=1

其中 city 参数代表城市编码,position 参数代表职位编码,page 参数代表当前页面的页码。

通过浏览器的 F12(开发者工具),我们可以获取职位编码的接口为:https://www.zhipin.com/wapi/zpgeek/common/data/citysites.json

在浏览器访问这个接口地址,可以获取所有城市编码。

数据分析的职位编码是固定的,取值为 100511,在知道了城市编码后,我们就可以通过代码来生成每个城市第 1 到 15 页的职位列表网页访问地址。

水哥这里采用的是 Python 来生成这些网页地址,具体代码如下:

大家可以在公众号后台回复:地址,即可获取这些网页地址。

4. 输入网页地址

由于每个城市不同页码对应的职位列表的网页结构都相同,因此我们可以通过八爪鱼提供的「URL循环」,来批量采集同类型的网页。

打开八爪鱼客户端,点击新建自定义任务。

接着,将职位列表的网页地址复制粘贴到「网址输入框」,作为演示,水哥这里只输入 3 个网页地址:

输入完成后,点击「保存设置」,八爪鱼会自动跳转到「设计流程」界面。

5. 设计流程

在进入到设计流程界面后,我们需要点击「取消识别」功能。

这时候,八爪鱼会自动为我们生成「循环网址-打开循环中的网页」的流程。

八爪鱼会默认打开第一个网址的网页,把鼠标移动到列表中的任意一个标题,然后进行点击,会弹出「操作提示」弹窗,选择「选中全部相似元素」

点击「选中全部相似元素」后,会弹出下一步的操作提示弹窗,接着我们再选择「循环点击每个链接」

点击后,八爪鱼会弹出是否需要「设置翻页」的操作提示弹窗,我们选择不需要。

由于我们采集的网页地址包括了每个城市第 1 到 15 分页的职位列表数据,因此并不需要设置翻页,简化了设计流程。

接着,页面会从列表页进入到详情页,八爪鱼此时继续弹出「自动识别」的操作提示弹窗,我们选择「取消识别」

如果点击「取消识别」后,页面弹出「登录弹窗」,可以在右上角位置,将「浏览模式」开启,再点击关闭登录弹窗,再把「浏览模式」切换回关闭状态。

接着我们进行提取元素,将鼠标移动到需要采集的字段上,当出现蓝色的选中状态后,按住「ctrl键」的同时点击一下「鼠标左键」,会出现提取元素内容的操作提示弹窗。

我们选择「文本内容」进行提取。

点击后,我们会看到提取到的文本内容将会出现在底部,并且提取的字段将会出现「红色标记」的状态,代表提取成功了。

接着,用按同样的方式提取页面中我们想要采集的字段。提取完后,我们可以双击底部的字段名称进行重新命名。

我们还可以在流程设计中添加一些「高级设置」,比如在打开循环中的网址和循环列表的步骤中设置「执行前等待」

设置「执行前等待」的目的是为了让八爪鱼更像「人工」在访问网站,从而提高数据采集的成功率。

大多数网站都有做反爬虫处理,我们在爬取数据时,一旦被这些网站的反爬虫机制识别出来,将会对访问的账号、IP 等进行封禁,这样我们就无法顺利的完成数据的采集了。

设置「执行前等待」,模仿的是「真人」访问网页的行为。因为我们在实际访问网页时,都会停留几秒再进行下一步操作,这样就不会认为是爬虫脚本在访问它们的网页。

比如我们可以在「循环网址」步骤中设置执行前等待时间:在流程中点击「循环网址」,再点击右下角的「高级设置」,勾选「执行前等待」,在下拉框中选择 1 秒,设置完毕后点击「应用」

用同样的方式,可以设置流程中的「循环列表」的执行前等待时间。

在流程设置完毕后,需要点击右上角的「保存」,将流程保存下来,以便开始采集。

6. 采集

在设计好流程后,就可以进行数据采集了,点击右上角的「采集」,会出现「采集模式」的选择弹窗,我们选择「本地采集」中的「普通模式」

为了提高数据采集的成功率,我们可以选择登录到网页后再进行采集,具体步骤为:点击「暂停」按钮,再点击右上角的「显示网页」

切换到「显示网页」后,会看到当前正在采集的网页,我们可以选择在网页中进行登录后再进行采集。

注意:这里登录的不是你的八爪鱼账号,而是正在采集的网站账号。

在这个案例中,是指登录你的 BOSS 直聘网站的账号。

在登录成功后,可以点击**「返回」并继续采集。

采集成功后,我们可以将数据进行导出。

我们可以选择是否对数据进行去重。

我们选择去重数据,并且选择导出成 Excel 格式的文件。

我们看一下最终的导出效果。

至此,采集数据完毕。

好了,今天的文章就分享到这边了,如果觉得水哥的文章对你有帮助,欢迎将文章分享给你身边的朋友。

我们下次再见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1916151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

仕考网:非应届生可以参加公务员考试吗?

往届生有资格参加国家公务员考试。根据《公务员录用规定》,只要满足一系列资格条件,就符合报考资格。 1、年龄在18到35岁之间。 2、具备良好的品德,身体健康且心理素质稳定,拥有拟任职位所需的工作能力。 3、至少为大学专科以上…

第十七章 自定义ExceptionFilter

在nestjs中,Exception Filter(异常过滤器)是用于处理全局异常的一种机制。它可以捕获应用程序中发生的异常,并对其进行统一处理。本章我们来学习自定义Exception Filter。 首先 先创建一个新的项目: nest new excepti…

Python requests爬虫

Python的requests库是一个强大且易于使用的HTTP库,用于发送HTTP请求和处理响应。它是Python中最受欢迎的网络爬虫框架之一,被广泛用于从网页中提取数据、爬取网站和进行API调用。 使用requests库,你可以轻松地发送各种HTTP请求,包…

buuctf zip伪加密

[BUUCTF]zip伪加密_buuctf zip伪加密-CSDN博客 借鉴以上博客 010打开 这两个位置是计算机判断是否为加密文件 两个都为09(奇数) 一般为真加密 两个为偶数(00)不加密 一个奇数一个偶数,伪加密 (注意,是一般) 这道题两个奇数,以为是真加密 暴力解码一下,解不出 看到题目提…

支持老挝语语音识别、老挝文字OCR识别的《老挝语翻译通》有入门发音教程和大量词汇可以学习!

对于泰国越南等国家大家相必非常熟悉,但是对于同在东南亚的老挝国家,大家可能一时半会还想不起来。 如果你正在学习老挝语或者准备去探索老挝这个国家,那么你从现在开始就要掌握一些基本的老挝语单词和句子了,《老挝语翻译通》Ap…

道路标志线检测数据集(包括VOC/Yolo格式,包括yolov8训练好的模型)

道路标志线检测是指使用计算机视觉技术来识别和提取道路上的标志线(如车道线、停止线、人行横道线等)的位置和形状。这种检测技术广泛应用于自动驾驶系统、驾驶辅助系统(ADAS)、交通监控系统等领域。 本数据集包括:数…

openfoam生成的非均匀固体Solid数据分析、VTK数据格式分析、以及paraview官方用户指导文档和使用方法

一、openfoam生成的非均匀固体Solid数据分析 对于Solid/dealii-output文件,固体的数据文件, # vtk DataFile Version 3.0 #This file was generated by the deal.II library on 2024/7/10 at 9:46:15 ASCII DATASET UNSTRUCTURED_GRIDPOINTS 108000 do…

用Racket做一个拼图游戏——4 实现工具

4 实现工具 思路理清楚了,接下来就一个一个功能实现。在阐述实现功能的编程过程中,会延伸讲解编程思路、相关的Racket函数及相关知识点,力图达到在实践中的学习目的。 在编程实现过程中,首先实现图片操作功能,再通过…

AVLTree

目录 一、概念 二、插入 1.KV模型的AVL树结点定义 2.插入 1.按照BST的规则先插入 2.更新平衡因子 3.旋转的4种情况 1.左单旋 2.右单旋 3.左右双旋 4.右左双旋 三、AVL树的判断 假设程序出了问题,怎么分析 一、概念 二叉搜索树所具有的问题: 将排…

松下的台灯值得入手吗?书客|飞利浦护眼台灯真实测评PK

在追求高效阅读与舒适生活的今天,一盏好的台灯不仅是照明的工具,更是呵护双眼的伴侣。它不仅能够提供额外的光线,还能减少眼睛疲劳,提高我们的工作和学习效率。随着市场的不断发展,护眼台灯品牌款式愈发丰富。因此我们…

U-net和U²-Net网络详解

目录 U-Net: Convolutional Networks for Biomedical Image Segmentation摘要U-net网络结构pixel-wise loss weight U-Net: Going Deeper with Nested U-Structure for Salient Object Detection摘要网络结构详解整体结构RSU-n结构RSU-4F结构saliency map fusion module -- 显著…

怎么选择渲染农场?渲染100邀请码1a12

市面上的渲染农场那么多,到底选择哪一个呢?这次我给大家提供几个指标,以供参考。 1、机器性能:农场的机器性能会直接影响到渲染速度,速度越快项目就能越早完成,所以机器性能是重要的衡量指标。2、渲染价格…

高效应对网络攻击,威胁检测响应(XDR)平台如何提升企业应急响应能力

在数字化时代,企业面临的网络攻击威胁持续增加,如恶意软件、勒索软件、钓鱼攻击、DDoS攻击等。这些威胁不仅危及企业数据安全、系统稳定,还损害了品牌形象和市场信任。随着云计算、大数据、物联网的广泛应用,企业网络攻击面扩大&a…

领夹麦克风哪个品牌好,哪个麦克风好,热门无线麦克风品牌推荐

​无线领夹麦克风是现代沟通的重要工具,它不仅提高了语音交流的清晰度,还展现了使用者的专业形象。随着技术发展,这些麦克风已经变得更加轻便、时尚,易于使用。在各种场合,如演讲、教育和网络直播中,当然&a…

docker-compose构建、运行多容器简介

(1)准备依赖的镜像,包括mariadb、jdk1.8、nginx,配置docker-compose.yml文件 services:mariadb:image: mariadbports:- "3314:3306"environment:- MARIADB_ROOT_PASSWORD123456volumes:- ./mysql:/var/lib/mysqlnetwor…

视频调色的技巧和方法 视频调色的操作步骤 视频调色用什么软件好免费 会声会影下载免费中文版

学会视频调色,就等于掌握了剪辑艺术的密码。视频调色不是为了画面好看,而是通过精心构思的色彩参数,向观众传达作品的情绪和内涵。普通剪辑师与剪辑高手之间的差距,就在于能否领悟视频调色的真谛。 一、视频调色有什么用 掌握混…

SpringBoot配置flyway

背景 目前我们的项目代码都会交由Git、SVN等版本管理工具进行管理,但是我们的sql脚本,尤其是各类ddl脚本并没有进行版本的管理(python的web框架Django默认就提供了类似的工具,从一开始就鼓励开发者通过版本管理的方式进行数据库的…

计算机前端面试题总结-暑期实习(答案补充2)

目录 技术方面 二、js 1.js数据类型 1)值类型(基本类型) 2)引用数据类型(对象类型) ​编辑 2.判断数据类型是否为数组类型 1)Array.isArray() 2)instanceof操作符 3) Object.prototyp…

【分布式系统】Ceph应用之资源池pool管理

目录 一.资源池Pool管理 1.查看资源池信息 1.1.查看资源池副本的数量 1.2.查看 PG 和 PGP 数量 2.修改资源池 2.1.修改 pg_num 和 pgp_num 的数量为 128 2.2.修改 Pool 副本数量为 2 2.3.修改默认副本数为 2 2.4.推送 ceph.conf 配置文件给所有 mon 节点 2.5.去node节…

搭建企业平台:聚合优势资源,优化服务

国际数字影像产业园在加强服务支持与资源整合方面取得了显著成效。通过提供全生命周期服务方案、搭建多元化服务平台、提供政策咨询与行政审批支持、技术与创新支持等措施,为入园企业提供了全方位、便捷、高效的服务支持。同时,通过整合产业链资源、加强…