【BOSS直聘爬取系统功能介绍】

news2024/9/24 5:32:03

完整代码关注公众号 :

图片

爬取网站:BOSS直聘:https://www.zhipin.com/

难点

1. boss直聘不论什么岗位都只会展示10页数据,就算在网页里加到了11,内容也会和10一样。

2.多次访问会有验证码需要登录,这部分需要手动解除

3. 网站源码被加密了,没法通过request直接链接网站获取源码

图片

解决办法:

采用selenium控制浏览器的方式,成功获取源码,并且获取页面元素

防止页面需要验证来中断爬取,采用企业微信(或者钉钉机器人)的方式来提醒需要验证了(这部分没法代码通过,除非后续采用图像识别跳过验证码)

既然每个岗位只能爬取10页,我们可以采取一个岗位分10个地区,比如我需要爬取长沙市的xx岗位,直接爬取只能出现10页总共300个岗位,但是可以拆分成8个区的爬取,每个区假设都有10页,就可能爬取到80页数据。

爬取系统介绍

功能介绍:

1. 首先在配置文件config中更改爬取要求,

jobs = ['数据分析师']citys = {            # '101280600':'深圳'         '101250100': "长沙",         # '101280100': '广州',         # '101230200':'厦门'         }# areaBusiness = '330113,'.split(',')experience = (",".join    ([  # 不需要的可以注释掉    #     '108',    # 在校生    #     '102',    # 应届生    '101',  # 经验不限    '103',  # 1年以内    '104',  # 1-3年    # '105',    # 3-5年    # '106',    # 5-10年    # '107',    # 10年以上]))degree = ",".join([  # 学历要求    '209',  # 初中及以下    '208',  # 中专/中技    '206',  # 高中    '202',  # 大专    '203',  # 本科    # '204',    # 硕士    # '205',    # 博士])# 获取该城市的各一级区域区号

图片

确定好爬取需求之后,会在当前目下创建一个根据岗位和城市名的文件,后续爬取好的岗位信息都会保存在该文件内。

2. 开始爬取

这是整体系统框架,包含五个函数,最下面是系统的入口

图片

首先需要知道每个地区总共有多个页面可以爬取,首先完成

if __name__ == "__main__":    boss = webdriver.Edge(service=Service(EdgeChromiumDriverManager().install()), options=edge_options)    存放文件夹位置=f'D:\Marshal1\Anacada__\工作项目\爬虫\\boss_project\\'+f'{文件名}'    对应页码表=查看每个区存在多少页岗位(存放文件夹位置)

这里需要更改文件存放位置,选择想要将文件保存的地址

执行完函数“查看每个区存在多少页岗位(存放文件夹位置)”之后,在存放文件夹位置下会生成一个文件“对应页码表”,后续需要根据这个文件来确定不同区需要爬取的页码数,防止爬取重复数据。

图片

 
if __name__ == "__main__":
boss = webdriver.Edge(service=Service(EdgeChromiumDriverManager().install()), options=edge_options)
存放文件夹位置=f'D:\Marshal1\Anacada__\工作项目\爬虫\\boss_project\\'+f'{文件名}' 对应页码表=查看每个区存在多少页岗位(存放文件夹位置)
 对应页码表=pd.read_csv(f"{存放文件夹位置}\对应页码表.csv") 获取对应岗位信息(对应页码表,存放文件夹位置)
然后执行“获取对应岗位信息(对应页码表,存放文件夹位置)”,之后在本地生成一个csv文件,不包含岗位的职位描述的文件,如果还需要职位的描述字段需要继续执行最后一行代码
获取岗位职责(存放文件夹位置)

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1678063.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

香港电讯高效网络,助力新消费品牌抓住拓展香港市场新风口

自今年初香港与内地全面恢复通关,两地同胞跨境消费热潮持续升温。港人“北上”消费掀起风潮的同时,香港市场也成为内地新消费品牌拓展的热门目标。从糕点、茶饮、连锁餐饮到服饰,越来越多内地品牌进驻香港。新消费品牌要想在香港开设门店&…

jdk安装多个版本,但是java -version显示最早安装的版本,换掉Path或者JAVA_HOME不生效问题

问题一:当你的电脑上又多个jdk版本,如17 或者8时,使用命令行 java -version显示最早安装的,如下图所示:环境变量配置的17,但是命令行显示的是8。 原因:windows电脑装jdk17后 会在你的环境变量…

【吊打面试官系列】Java高并发篇 - 并发编程三要素?

大家好,我是锋哥。今天分享关于 【并发编程三要素?】面试题,希望对大家有帮助; 并发编程三要素? 1、原子性 原子性指的是一个或者多个操作,要么全部执行并且在执行的过程中不被其他操作打断,要…

2024年5月18日(星期六)骑行香杆箐

2024年5月18日 (星期六)骑行香杆箐,早8:30到9:00,郊野公园西门集合,9:30准时出发【因迟到者,骑行速度快者,可自行追赶偶遇。】 偶遇地点:郊野公园西门集合 ,家住东,西,南…

字节跳动发布豆包大模型,主力模型比行业价格低99.3%

5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎是字节跳动旗下云服务平台,据火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一&#xff0c…

Chromium 调试指南2024 Windows11篇-条件断点、函数断点(十一)

1. 前言 在调试过程中,步进代码和条件断点/函数断点是非常有用的工具和技术,它们可以帮助开发者更加精确地定位和解决问题。本文将介绍步进代码的常用工具以及条件断点/函数断点的设置方法,帮助开发者更加高效地进行调试工作。 2. 步进代码…

MySQL创建索引报错 Specified key was too long;max key length is 1000 bytes.

MySQL对创建索引的大小有限制,一般索引键最大长度总和不能超过1000个字节。 问题描述 MySQL创建索引时报错 Specified key was too long;max key length is 1000 bytes. 解决办法 (1) 修改存储引擎 InnoDB的索引字段长度限制大于MyISAM,可以尝试改成…

欧拉公式的讲解

啊,哈喽,小伙伴们大家好。我是#张亿,今天呐,学的是欧拉公式 在不同的学科中有着不同的含义和应用。在复变函数中,欧拉公式表述为e^(ix)(cos xisin x),其中e是自然对数的底,i是虚数单位&#x…

Springboot+Vue项目-基于Java+MySQL的制造装备物联及生产管理ERP系统(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:Java毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…

Linux连接文件那点事

什么是连接文件 将一个文件和另一个文件建立联系,分为硬链接和软连接(符号连接)。 硬链接 Linux中,所有的文件都有一个inode,这个东西就是文件的ID号,硬链接的方式就是通过这个inode来产生新的文件名来建…

盘点那些年我们一起玩过的网络安全工具

一、反恶意代码软件 1.Malwarebytes 这是一个检测和删除恶意的软件,包括蠕虫,木马,后门,流氓,拨号器,间谍软件等等。快如闪电的扫描速度,具有隔离功能,并让您方便的恢复。包含额外…

xilinx fpga bit流文件转成bin/mcs/hex文件的tcl语句操作

xilinx fpga bit流文件中包含工程的相关信息以及主体程序的二进制文件,bit文件只能在线加载,掉电丢失。因此需要转成bin/mcs文件,固化到flash中。 此处以转成bin文件为例 vivado2018软件中似乎没有单独将已经生成的bit转成bin文件的小工具&…

QT状态机1-三态循环状态机

#include "MainWindow.h" #include "ui_MainWindow.h"MainWindow::MainWindow(QWidget *parent): QMainWindow(parent)

微调Stable Diffusion生成你专属的毛利兰

最近在研究AIGC🤖️技术,看了很多微调方法、论文层。但搞技术这么能纸上谈兵呢?今天本柯南迷就想来实践生成美少女小兰👸 在这篇文章里,我选用了 textual inversion和dreambooth📷来做比较,这两…

深度学习之激活函数——ReLU

ReLU 整流线性单元(ReLU)&#xff0c;全称Rectified linear unit&#xff0c;是现代神经网络中最常用的激活函数&#xff0c;大多数前馈神经网络都默认使用该激活函数。 函数表达式 f ( x ) m a x { 0 , x } f(x)max\{0,x\} f(x)max{0,x} 当 x < 0 x<0 x<0时&…

两数相加 - (LeetCode)

前言 今天无意间看到LeetCode的一道“两数相加”的算法题&#xff0c;第一次接触链表ListNode&#xff0c;ListNode结构如下&#xff1a; public class ListNode {int val;ListNode next;ListNode() {}ListNode(int val) {this.val val;}ListNode(int val, ListNode next) {…

使用Docker创建verdaccio私服

verdaccio官网 1.Docker安装 这边以Ubuntu安装为例Ubuntu 安装Docker​&#xff0c;具体安装方式请根据自己电脑自行搜索。 2.下载verdaccio docker pull verdaccio/verdaccio3.运行verdaccio 运行容器&#xff1a; docker run -it -d --name verdaccio -p 4873:4873 ver…

热门大模型汇总+GPU系列型号+GPU云服务提供商

目录 1 热门大模型汇总2 GPU系列型号3 GPU云服务提供商 1 热门大模型汇总 模型名开发者资源信息使用条件调用例子GPT-3.5OpenAIOpenAI document注册OpenAI账号并且充值GPT-4OpenAIwebsit: GPT-4注册OpenAI账号并且充值如上&#xff0c;模型切换不同版本InternLM商汤InternLM开…

高德地图简单复制操作两分钟就能有近10元的收益日入500+无上限

嘿&#xff0c;伙计们&#xff0c;今天我要告诉你们一个赚钱的好方法&#xff0c;这个方法真的很简单&#xff0c;而且你可以在家里就能操作&#xff0c;不需要出门&#xff0c;不需要见人&#xff0c;只需要你会复制粘贴就行了&#xff0c;是不是很吸引人&#xff1f;好&#…

一本专业130+总分400+上海交通大学819考研经验上交电子信息与通信工程上岸,真题,大纲,参考书。

今年专业课819信号系统与信号处理130&#xff0c;总分400&#xff0c;复试表现中规中矩&#xff08;初试分数查到才开始复习复试&#xff0c;希望大家汲取教训&#xff0c;初试考完就可以录取开始准备复试&#xff09;&#xff0c;交大初试比重很高&#xff0c;良心学校&#x…