「爬虫职海录」三镇爬虫

news2024/11/17 22:47:15

HI,朋友们好

「爬虫职海录」第三期更新啦!

本栏目的内容方向会以爬虫相关的“岗位分析”“职场访谈”为主,方便大家了解一下当下的市场行情。

本栏目持续更新,暂定收集国内主要城市爬虫岗位相关招聘信息,有求职和跳槽打算的小伙伴们,可以多多关注。

本期为武汉篇

新年伊始,传说中找工作、换工作的“金三银四”马上就要到了。

这次我也从招聘网站找来了200+份当前武汉的爬虫岗位JD,整理了数据并做了一定的分析。

目前在武汉或者以后打算在武汉发展的小伙伴可要搬好小板凳仔细看啦!

尽管武汉不在一线城市之列,但作为九省通衢的中部地区城市之首,我还是用北上广深杭来进行比较。

且武汉在校大学生近170W,居全国第一,每年都会产生大量的毕业生。

而这么多的毕业生,尤其是计算机专业,对爬虫岗感兴趣或者是打算从事爬虫岗的同学,是该留在武汉,还是流向发展更好的一线城市呢?

这时候拿武汉来与其他一线城市作比较得出的数据,对同学们就具有一定参考意义了。

(各大城市当前爬虫工程师岗位收入)

从上边可以看到,目前武汉的爬虫工程师们,平均收入为11207元,收入中位数是10500元。

同时我找来了武汉市统计局已公布的官方数据:2022年武汉市城镇单位在岗职工年平均工资103308元。(2023年数据尚未公布)

也就是月均8609元。假设按5%的年增速来看,那么2023年武汉市城镇在岗职工的平均月收入大致就是9039元左右。

武汉的爬虫岗薪资虽然低于北上广深杭,但毕竟是IT行业,还是跑的赢当地社会平均收入的。

工资较低的同时,生活成本也相对较低,这就看大家怎么取舍了。

(各大城市当前爬虫工程师岗位需求)

但爬虫岗的岗位数量,确实是远远落后。目前BOSS直聘上显示在招爬虫岗的公司不过百十家,初中高级的岗位共计也就两百左右。

所以若是想找到一份在薪资待遇、职业发展、通勤时间、工作强度各方面都符合自己要求的爬虫工作,还是比较不容易的!

下边我们再看看当下的实际招聘薪资

(广州当前爬虫岗位招聘薪资)

招聘信息上挂出的薪酬,月薪大多在5~10K10~15K这两个区间内,合计占据了全部爬虫岗的三分之二,这基本也代表了大部分爬虫工程师在初级岗和中级岗能拿到的薪资收入。

老样子,K哥在收集招聘信息时,顺便为大家整理了一些关键词,包括公司行业、公司规模、岗位title、技能标签、学历要求、福利待遇等方面,兄弟们可以瞅瞅。

(武汉爬虫岗位招聘信息词云图)

可以看到,“python”、“20~99人”、“本科”、“带薪年假”、“爬虫”、“大专”、“1~3年”这些词在招聘jd里高频出现,反映了大部分公司当前的招聘情况。

(这里提醒一下大家,武汉的公司也许加班没那么多,但双休和公积金缴纳情况,相当堪忧)

K哥锐评—城市&岗位

wu han

岗位情况:★★(2)

武汉的爬虫岗数量只有北京的1/8,也远低于其他一线城市,岗位竞争压力相对较大。

但另一方面,工作经验在3年内就符合条件的岗位占比达到三分之一,武汉对初级或者刚毕业的爬虫工程师还算友好。

薪酬水平:★★★(3)

武汉的爬虫岗工资是高于当地社会平均收入的,虽不及一线城市,但生活成本也相对较低,工作几年后能够拿到一份每月过万的薪水,生活是不至于过的太差的,还能稍有盈余。

城市魅力:★★★(3)

一方面武汉每年都会涌进大量的年轻人,还算是一座比较年轻化的城市。

另一方面武汉具有得天独厚的地理位置优势,不管你籍贯何处,回家都不会太远。

尽管收入和岗位并不占优,但也只是相对几座一线城市而言,况且并不是所有人能接受一线城市的压力和“内卷”。

综合得分:★★★★★★★★(8)

工资水平是选择城市&岗位的重要标准,但不会是唯一标准。

若你喜欢热情滚烫的风土人情,大江大湖的地理禀赋,那么武汉也许会适合你!

武汉丨爬虫岗位

(以下岗位为随机列举,信息来源——BOOS直聘)

01 集度

-1000-9999人

-互联网 AI 汽车

地址|武汉洪山区国采中心T3

Spider工程师

15-25K·16薪

  • 职位详情:
  • 1.负责爬虫系统的架构设计与研发,管理分布式爬虫服务器,开发任务调度引擎;
  • 2.负责指定网页或APP的定向爬取以及内容的抽取和去重等分析工作
  • 3.负责爬虫核心算法的策略优化和研究,提升爬虫抓取效率和质量
  • 任职要求:
  • 1.熟悉Python/PHP/JavaScript等脚本语言中至少一种;
  • 2.熟悉html/css/xpath等常用的web知识和正则表达式
  • 3.有分布式爬虫系统的开发、架构经验,至少熟悉并使用过一种主流的爬虫架构,如Scrapy、Gocolly、Webmagic等优先;
  • 4.熟悉Linux系统环境和Mysql、Redis、MongoDB等数据库。
  • 其他:
  • 上午09:30 - 下午06:30
  • 双休、弹性工作

02 超越芯科技

-100~499人

-电子/半导体/集成电路

地址|武汉洪山区铭丰大厦1510

python爬虫开发工程师

11-18K·13薪

  • 职位详情:
  • 1.负责相关网站、论坛、app的爬虫设计和开发,以及策略持续优化;
  • 2.分析项目的可行性和数据采集方案,负责核心算法的策略优化研究,充分利用资源,避免限制;
  • 3.参与开发数据采集程序,对目标站点/app进行结构化和非结构化数据数据分析,并对数据抓取,对各种目标数据进行信息提取、清洗、去重、整理及优化;
  • 4.不断完善数据采集框架,对框架进行优化和改进;
  • 5.参与数据分析处理流程、数据分析汇总报告的设计与开发;
  • 6.优化和管理入库的数据。
  • 任职要求:
  • 1.专科及以上学历,计算机软件或相关专业,3年及以上python开发经验;
  • 2.掌握爬取的各类实现方式和技术细节,包括不限于:熟悉常见的反爬策略、掌握网络协议分析(http1.1/http2等)、有JavaScript反爬/逆向(AST)、APP反爬/逆向等;
  • 3.掌握tls指纹ja3,能够对抗akamai,PerimeterX,cloudflare风控优先;
  • 4.掌握网络爬虫开发原理,熟悉互联网各种类型数据交互模式,熟悉TCP/IP、HTTP、HTTPS等网络协议,熟悉web前端;
  • 5.熟悉使用python主流爬虫框架,有分布式爬虫经验;
  • 6.熟练掌握正则表达式、XPath等信息抽取技术;
  • 7.熟悉Redis、Mysql、MongoDB等常用的数据库;
  • 8.具有较强的分析和解决问题的能力;
  • 9.具备良好的沟通能力和团队协作能力。
  • 其他:
  • 上午09:30 - 下午06:30
  • 双休、不加班

03 乐薇

-100-499人

-互联网 电商

地址|武汉江夏区东港科技产业园2号楼3楼

Python爬虫工程师

10-15K·13薪

  • 职位详情:
  • 1.参与公司爬虫系统的架构设计和开发;
  • 2.监控和优化爬虫系统,提升性能和增强功能;
  • 3.带领团队负责多平台信息抓取和大数据仓库维护;
  • 4.解决实际工作中遇到的各种疑难杂症。
  • 任职要求:
  • 1.统招本科及以上学历;
  • 2.3年以上Python爬虫经验;
  • 3.熟悉多线程、反爬虫、验证码识并精通网页抓取原理及技术,熟练使用正则表达式、csspath、xpath等获取信息;
  • 4.精通任一开源爬虫框架,如Scrapy、Nutch、DotnetSpider等;
  • 5.熟悉掌握Mysql,Mongodb,Redis等常用数据库;
  • 6.有海量主流电商平台数据爬取经验者优先,能迅速响应电商平台变动做规则调整。
  • 其他:
  • 8小时工作制,周末双休,无强制加班
  • 五险一金,集体旅游

04 积善科技

-20~99人

-互联网

地址|武汉洪山区国际企业中心

python爬虫开发工程师

8-13K·13薪

  • 职位详情:
  • 1. 负责分布式爬虫和数据采集系统开发;
  • 2. 分析客户的爬虫场景,帮助客户提升爬虫成功率;
  • 3. 对爬虫相关技术进行探索与应用:如js渲染抓取,反爬攻破等;
  • 4. 参与公司业务平台的数据的挖掘和分析,协助进行客户画像和产品改进。
  • 任职要求:
  • 1. 计算机专业本科及以上学历,不低于两年的开发经验;
  • 2. 熟练掌握Python,能使用django/Flask等常用框架进行项目开发;
  • 3. 熟悉 Web 界面结构分析方法,能够从结构化和非结构化的数据中获取指定信息;
  • 3. 熟悉TCP/IP、HTTP 等网络协议,熟悉 Linux 平台上的开发,熟练掌握 Python;
  • 4. 熟悉 JS 加密逆向、验证码识别、代码混淆还原、Hook 等常见爬虫技术;
  • 5. 有安卓逆向、反编译、TLS 指纹、浏览器指纹相关经验优先;
  • 6. 有博客、github、csdn、知乎等展示代码和技术的优先考虑;
  • 7. 有验证码识别、逆向处理经验优先;
  • 8. 自我驱动,责任心强,执行力强,善于学习,能挑战自我不断追求卓越;
  • 其他:
  • 上午09:00 - 下午06:30 弹性工作时间

05 七枢星科技

-20-99人

-计算机软件

地址|武汉武昌区万达尊B座704

爬虫工程师

20-35K·13薪

  • 职位详情:
  • 1.与爬虫系统的架构设计、核心模块(抓取调度,页面解析和结构化抽取,海量数据存储和读取等)开发,改进和提升爬虫效率;
  • 2.攻破各种反爬策略,快速解决各类技术疑难问题,建设反爬对抗组件库;
  • 3.完善爬虫的技术指标体系,并基于指标迭代优化爬虫基础能力,指标体系中,全面性指标的建立,基于随机采样,估计系统总体目标信息;
  • 4.技术难题攻关,解决实际开发过程碰到的各类问题。
  • 任职要求:
  • 1.计算机相关专业,本科以上学历;
  • 2.熟练掌握Python、Webdriver;
  • 3.有反反爬虫、解决无感验证码的经验;
  • 4.解决过akamai、recaptcha等国内外知名的机器人防护框架的经验。
  • 其他:
  • 8:30-18:00(弹性十分钟)
  • 五险一金、全勤奖

06 湖北航信

-500-999人

-信息安全

地址|武汉市东西湖区网安大厦A座18楼

爬虫实习生

2-3K

  • 职位详情:
  • 1.熟悉爬虫原理,精通WebDriver、Selenium、requests
  • 2.熟悉html、dom、xpath、正则表达式等常见的数据抽取技术
  • 3.熟悉常见反爬措施
  • 4.熟悉Python等数据处理模块例如pandas,numpy等
  • 5.熟练使用MySQL、 MongDB或其他数据库
  • 6.熟练使用python进行项目开发,有良好的编码习惯
  • 7.良好的逻辑思维能力和沟通能力,善于分析问题/解决问题

ps:

1,文中出现的岗位JD,包括薪酬,工作时间、福利等情况,均为招聘单位公示,我只是做了收集,实际情况大家可以主动联系招聘方进行咨询。

2,文中出现的岗位基本为随机选取,只作为参考,并不代表K哥推荐,我并未收取任何单位以及个人的广告费,也不提供简历投递渠道。

3,文中出现的招聘信息截至发文,仍为在招状态,后期K哥不对相关信息的有效性负责。

4,关于爬虫&职场方面的内容,大家还希望看到哪些呢,欢迎多多向我提建议,也欢迎小伙伴们在评论区积极“吐槽”自己目前的公司。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1492516.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp微信小程序获取当前位置

uni-app微信小程序uni.getLocation获取位置;authorize scope.userLocation需要在app.json中声明permission;小程序用户拒绝授权后重新授权-CSDN博客

HTML实体字符列表,知识点详解

css盒模型 1,css盒模型基本概念? 2,标准模型和IE模型的区别:计算高度和宽度的不同,怎么不同,高度宽度是怎么计算的? 3,css如何设置这两种模型? 4,js如何设置…

uniapp实现---类似购物车全选

目录 一、实现思路 二、实现步骤 ①view部分展示 ②JavaScript 内容 ③css中样式展示 三、效果展示 四、小结 注意事项 一、实现思路 点击商家复选框,可选中当前商家下的所有商品。点击全选,选中全部商家的商品 添加单个多选框,在将多选…

javaWebssh题库管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh题库管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Mye…

第七篇:人工智能与机器学习技术VS量测(Measurement)- 我为什么要翻译介绍美国人工智能科技巨头IAB公司 - 它是如何赋能数字化营销生态的?

IAB平台,使命和功能 IAB成立于1996年,总部位于纽约市。 作为美国的人工智能科技巨头社会媒体和营销专业平台公司,互动广告局(IAB- the Interactive Advertising Bureau)自1996年成立以来,先后为700多家媒…

CSS字体样式值,前端开发基础学习

元素特点: 块状元素: 在页面中以矩形区域显示。自上而下排列,独占一行可以直接添加宽高一般情况下,作为其他元素或内容的容器 行内元素: 在页面中最小单位也是矩形。在一行内逐个排列。不可以直接添加宽高&#xf…

FPGA高端项目:FPGA基于GS2971的SDI视频接收+HLS图像缩放+多路视频拼接,提供4套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐本博已有的 SDI 编解码方案本方案的SDI接收转HDMI输出应用本方案的SDI接收图像缩放应用本方案的SDI接收纯verilog图像缩放纯verilog多路视频拼接应用本方案的SDI接收HLS动态字符叠加输出应用本方案的SDI接收HLS多路视频融合叠加应用本方案…

GIT使用学习笔记

最近发现了一个学习git的网站,可以学习git常用的命令,并且可以实操练习以及动画演示,通关以后对git有了非常深入的理解,希望大家也去这个网站里面实际操作一下,我这边仅作笔记,方便自己后续查阅 https://le…

技术选型思考:分库分表和分布式DB(TiDB/OceanBase) 的权衡与抉择

在当今数据爆炸的时代,数据库作为存储和管理数据的核心组件,其性能和扩展性成为了企业关注的重点。随着业务的发展和数据量的不断增长,传统的单库单表架构逐渐暴露出性能瓶颈和扩展性限制。为了应对这些挑战,企业常常需要在分库分…

学习c语言:动态内存管理

一、为什么要有动态内存分配 我们已经掌握的内存开辟⽅式有: int val 20; //在栈空间上开辟四个字节 char arr[10] {0}; //在栈空间上开辟10个字节的连续空间 但是上述的开辟空间的⽅式有两个特点: • 空间开辟⼤⼩是固定的。 • 数组在申明的时候&…

StarUML6.0.1使用

1. 简介 作为一个软件开发人员,平时免不了做一定的软件设计,标准做法就是采用UML来设计: 讨论功能流程时采用时序图、活动图来表达;做业务功能架构时采用组件图来表达;做系统部署架构时采用部署图来表达;做…

python一张大图找小图的个数

python一张大图找小图的个数 一、背景 有时候我们在浏览网站时,发现都是前端搞出来的一张张图,我们只能用盯住屏幕的小眼睛看着,很累的统计,这个是我在项目中发现没办法统计,网上的教程很多,都不成功&…

微信小程序开发系列(十一)·小程序页面的跳转设置以及参数传递

目录 1. 跳转到商品列表 1.1 url: 当前小程序内的跳转链接 1.2 navigate:保留当前页面,跳转到应用内的某个页面。但是不能跳到 tabbar 页面 1.3 redirect: 关闭当前页面,跳转到应用内的某个页面。但不能跳转到 tabbar 页面…

flutter小程序框架,Android工程师面试该怎么准备

一般官网或者猎聘网的职位要求都写的很清楚,大家对照看一下就大体清楚能否胜任了。就算没成功也能发现自己的不足然后补上挺好的。 OPPO这些大点的厂子,对java语言,源码层,项目经验等都看到很重。需要有比较系统的知识体系&#…

个人社区 项目测试

目 录 一.背景及介绍二.功能详情三.手动测试1.编写测试用例2.测试 一.背景及介绍 该项目采用了前后端分离技术,把我们的数据保存到数据库中,操作对象是用户和个人文章编辑保存,前端的页面实现了登录,列表,编辑&#x…

突发,Anthropic推出突破性Claude 3系列模型,性能超越GPT-4

🦉 AI新闻 🚀 突发,Anthropic推出突破性Claude 3系列模型 摘要:人工智能创业公司Anthropic宣布推出其Claude 3系列大型语言模型,该系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三个子模型,旨…

计算机组成原理----数据的表示和运算

一:进位计数制 1、进制 B:二进制:0-1 逢二进一、借一当二 O:八进制:0-7 逢八进一 D:十进制:0-9 逢十进一 H:十六进制:0-9、A-F 逢十六进一 r进制2 2、…

基于 Kyuubi 实现分布式 Flink SQL 网关

本文整理自网易互娱资深开发工程师、Apache Kyuubi Committer 林小铂的《基于 Kyuubi 实现分布式 Flink SQL 网关》分享,内容主要分为以下四部分: Kyuubi 是什么Kyuubi 架构设计Flink x Kyuubi 优势未来展望 一. Kyuubi 是什么 1.1. Kyuubi 简介 简单来…

HashData的湖仓一体思考:Iceberg、Hudi特性讲解与支持方案

湖仓一体作为一种新兴的开放式数据管理架构,能够充分发挥数据湖的灵活性、生态丰富以及数据仓库的企业级数据分析能力,已经成为企业建设现代数据平台的热门选择。 在此前的直播中,我们分享了HashData湖仓一体方案架构设计与Hive数据同步。本…

Xcode 15 适配 MonkeyDev

升级到Xcode15后,使用Xcode创建MonkeyApp后,运行会报错,本篇文章主要讲述此过程遇到的错误和解决办法。 问题1:找不到libc++.dylib文件 问题描述: Build input files cannot be found: /usr/lib/libstdc++.dylib, /usr/lib/libc++.dylib. Did you forget to declare th…