使用Python selenium爬虫领英数据,并进行AI岗位数据挖掘

news2024/11/22 16:33:56

随着OpenAI大火,从事AI开发的人趋之若鹜,这次使用Python selenium抓取了领英上几万条岗位薪资数据,并使用Pandas、matplotlib、seaborn等库进行可视化探索分析。


但领英设置了一些反爬措施,对IP进行限制封禁,因此会用到IP代理,用不同的IP进行访问,我这里用的是亮数据的IP代理。

亮数据是一家提供网络数据采集解决方案的网站,它拥有全球最大的代理IP网络,覆盖超过195个国家和地区,拥有超过7200万个不重复的真人IP地址。

这些IP地址可以用于匿名浏览网页、绕过IP封锁、抓取网页数据等。

亮数据官网地址:

https://get.brightdata.com/weijun

另外,亮数据提供各种数据采集工具,帮助企业轻松采集网页数据。这些工具包括Web Scraper IDE、亮数据浏览器、SERP API等等。

下面是关于Python爬取领英的步骤和代码。

  • 1、爬虫采集AI岗位数据-selenium&亮数据
  • 2、处理和清洗数据-pandas
  • 3、可视化数据探索-matplotlib seaborn

1、爬虫采集AI岗位数据-selenium&亮数据

# 导入相关库
import random
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import requests
import pandas as pd
from scripts.helpers import strip_val, get_value_by_path

# 选择Edge浏览器
BROWSER = 'edge'

# 创建网络会话,登录Linkedin
# create_session函数用于创建一个自动化的浏览器会话,并使用提供的电子邮件和密码登录LinkedIn。
# 它首先根据BROWSER变量选择相应的浏览器驱动程序(Chrome或Edge),然后导航到LinkedIn的登录页面,自动填写登录表单,并提交。
# 登录成功后,它会获取当前会话的cookies,并创建一个requests.Session对象来保存这些cookies,以便后续的HTTP请求可以保持登录状态。最后,它返回这个会话对象。
def create_session(email, password):
    if BROWSER == 'chrome':
        driver = webdriver.Chrome()
    elif BROWSER == 'edge':
        driver = webdriver.Edge()
    # 登录信息
    driver.get('https://www.linkedin.com/checkpoint/rm/sign-in-another-account')
    time.sleep(1)
    driver.find_element(By.ID, 'username').send_keys(email)
    driver.find_element(By.ID, 'password').send_keys(password)
    driver.find_element(By.XPATH, '//*[@id="organic-div"]/form/div[3]/button').click()
    time.sleep(1)
    input('Press ENTER after a successful login for "{}": '.format(email))
    driver.get('https://www.linkedin.com/jobs/search/?')
    time.sleep(1)
    cookies = driver.get_cookies()
    driver.quit()
    session = requests.Session()
    for cookie in cookies:
        session.cookies.set(cookie['name'], cookie['value'])
    return session

# 获取登录账号和密码
def get_logins(method):
    logins = pd.read_csv('logins.csv')
    logins = logins[logins['method'] == method]
    emails = logins['emails'].tolist()
    passwords = logins['passwords'].tolist()
    return emails, passwords


# JobSearchRetriever类用于检索LinkedIn上的职位信息。
# 它初始化时设置了一个职位搜索链接,并获取登录凭证来创建多个会话。
# 它还定义了一个get_jobs方法,该方法通过会话发送HTTP GET请求到LinkedIn的职位搜索API,获取职位信息,并解析响应以提取职位ID和标题。
# 如果职位被标记为赞助(即广告),它也会记录下来。
class JobSearchRetriever:
    def __init__(self):
        self.job_search_link = 'https://www.linkedin.com/voyager/api/voyagerJobsDashJobCards?decorationId=com.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187&count=100&q=jobSearch&query=(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)&start=0'
        emails, passwords = get_logins('search')
        self.sessions = [create_session(email, password) for email, password in zip(emails, passwords)]
        self.session_index = 0
        self.headers = [{
            'Authority': 'www.linkedin.com',
            'Method': 'GET',
            'Path': 'voyager/api/voyagerJobsDashJobCards?decorationId=com.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187&count=25&q=jobSearch&query=(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)&start=0',
            'Scheme': 'https',
            'Accept': 'application/vnd.linkedin.normalized+json+2.1',
            'Accept-Encoding': 'gzip, deflate, br',
            'Accept-Language': 'en-US,en;q=0.9',
            'Cookie': "; ".join([f"{key}={value}" for key, value in session.cookies.items()]),
            'Csrf-Token': session.cookies.get('JSESSIONID').strip('"'),
            # 'TE': 'Trailers',
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',
            # 'X-Li-Track': '{"clientVersion":"1.12.7990","mpVersion":"1.12.7990","osName":"web","timezoneOffset":-7,"timezone":"America/Los_Angeles","deviceFormFactor":"DESKTOP","mpName":"voyager-web","displayDensity":1,"displayWidth":1920,"displayHeight":1080}'
            'X-Li-Track': '{"clientVersion":"1.13.5589","mpVersion":"1.13.5589","osName":"web","timezoneOffset":-7,"timezone":"America/Los_Angeles","deviceFormFactor":"DESKTOP","mpName":"voyager-web","displayDensity":1,"displayWidth":360,"displayHeight":800}'
        } for session in self.sessions]
        # self.proxies = [{'http': f'http://{proxy}', 'https': f'http://{proxy}'} for proxy in []]
        # 添加亮数据代理IP

    # get_jobs函数用于发送HTTP请求到LinkedIn的职位搜索API,获取职位信息
    # 它使用当前会话索引来选择一个会话,并发送带有相应请求头的GET请求。如果响应状态码是200(表示请求成功)
    # 它将解析JSON响应,提取职位ID、标题和赞助状态,并将这些信息存储在一个字典中。
    def get_jobs(self):
        results = self.sessions[self.session_index].get(self.job_search_link, headers=self.headers[self.session_index]) #, proxies=self.proxies[self.session_index], timeout=5)
        self.session_index = (self.session_index + 1) % len(self.sessions)
        if results.status_code != 200:
            raise Exception('Status code {} for search\nText: {}'.format(results.status_code, results.text))
        results = results.json()
        job_ids = {}

        for r in results['included']:
            if r['$type'] == 'com.linkedin.voyager.dash.jobs.JobPostingCard' and 'referenceId' in r:
                job_id = int(strip_val(r['jobPostingUrn'], 1))
                job_ids[job_id] = {'sponsored': False}
                job_ids[job_id]['title'] = r.get('jobPostingTitle')
                for x in r['footerItems']:
                    if x.get('type') == 'PROMOTED':
                        job_ids[job_id]['sponsored'] = True
                        break

        return job_ids

2、处理和清洗数据-pandas

# 导入相关库
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

# 导入职位数据
job_postings = pd.read_csv('./archive/job_postings.csv')
job_postings

# 根据AI岗位关键词筛选AI相关岗位
keywords = ['data scientist', 'machine learning', 'data science', 'data analyst', 'ml engineer',' data engineer','ai engineer','ai/ml','ai/nlp','ai reasearcher','ai consultant','artificial intelligence','computer vision','deep learning']

# 新增一列,标注职位是否包含关键字
def check_keywords(description):
    for keyword in keywords:
        if keyword in str(description).lower():
            return 'AI岗位'
    return '非AI岗位'

job_postings['is_programmer'] = job_postings['description'].apply(check_keywords)
# 保存AI岗位新表
job_ai = job_postings[(job_postings['is_programmer']=='AI岗位') & (job_postings['pay_period']=='YEARLY') & (job_postings['max_salary']>10000) ]
job_others = job_postings[(job_postings['is_programmer']=='非AI岗位') & (job_postings['pay_period']=='YEARLY') & (job_postings['max_salary']>10000) & (job_postings['max_salary']<200000) ]
job_ai

处理好的数据如下:

3、可视化数据探索-matplotlib seaborn

AI岗位中位数年薪18W美金,最高50w以上

# 设置Seaborn样式和调色板
sns.set_style("whitegrid")
palette = ["skyblue"]
# palette = ["#87CEEB"]  # 使用颜色代码或者其他有效的颜色名称,这里使用天蓝色的颜色代码

# 箱线图
plt.figure(figsize=(8, 6))
sns.boxplot(y='max_salary', data=job_ai, palette=palette)
plt.ylabel('Yearly Salary')
plt.title('AI Yearly Salary Boxplot')

# 添加分位数标注
quantiles = job_ai['max_salary'].quantile([0.25, 0.5, 0.75])
for q, label in zip(quantiles, ['Q1', 'Median', 'Q3']):
    plt.text(0, q, f'{label}: {int(q)}', horizontalalignment='center', verticalalignment='bottom', fontdict={'size': 10})
# 添加平均值、最大最小值标注
avg_value = job_ai['max_salary'].mean()  
max_value = job_ai['max_salary'].max()  
min_value = job_ai['max_salary'].min()  
plt.text(0.2, avg_value, f'Avg: {int(avg_value)}', ha='left', va='bottom', fontdict={'size': 10})  
plt.text(0, max_value, f'Max: {int(max_value)}', ha='center', va='bottom', fontdict={'size': 10})  
plt.text(0, min_value, f'Min: {int(min_value)}', ha='center', va='top', fontdict={'size': 10})  
  
# 显示图形  
plt.show()

AI岗位年薪主要集中在15-30w美金

# 1. 直方图
plt.figure(figsize=(10, 6))
plt.hist(job_ai['max_salary'], bins=30, color='skyblue', edgecolor='black')
plt.xlabel('Yearly Salary')
plt.ylabel('Frequency')
plt.title('Yearly Salary Distribution')
plt.show()

AI大多需要高级岗,对软件开发、机器学习、数据科学要求较多

# 词云
stopwords = set(["Manager"]) 
job_titles_text = ' '.join(job_ai['title'])
wordcloud = WordCloud(width=800, height=400, background_color='white',stopwords=stopwords).generate(job_titles_text)

# 显示词云
plt.figure(figsize=(10, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.title('AI Job Title Word Cloud')
plt.axis('off')
plt.tight_layout()
plt.show()

在这里插入图片描述
数据发现,AI岗位平均年薪竟高达18万美金,远超普通开发岗,而且AI岗位需求也在爆发性增长。

这次使用的是亮数据IP服务,质量还是蛮高的,大家可以试试。

亮数据官网地址:

https://get.brightdata.com/weijun

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1847627.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

英文字母表

目录 一 设计原型 二 后台源码 一 设计原型 二 后台源码 namespace 英文字母表 {public partial class Form1 : Form{public Form1(){InitializeComponent();}private void Form1_Load(object sender, EventArgs e){foreach (var item in panel1.Controls){if (item ! null)…

最新五款加密软件推荐(加密软件哪个最好用)

随着信息技术的飞速发展&#xff0c;数据安全问题变得愈发重要。加密软件作为保障数据安全的关键工具&#xff0c;能够有效防止未经授权的访问和数据泄露。在众多加密软件中&#xff0c;如何选择一款合适的软件成为了许多企业和个人的关注焦点&#xff0c;本文将介绍几款目前市…

ServBay 下一代Web开发环境

ServBay是一个集成式、图形化的本地化Web开发环境。开发者通过ServBay几分钟就能部署一个本地化的开发环境。解决了Web开发者&#xff08;比如PHP、Nodejs&#xff09;、测试工程师、小型团队安装和维护开发测试环境的问题&#xff0c;同时可以快速的进行环境的升级以及维护。S…

VScode创建ROS项目 ROS集成开发环境

ROS使用VScode创建项目步骤 1.创建ROS工作空间2.启动VScode3.VScode编译ROS4.创建ROS功能包C语言开发Python语言开发 本文章介绍了如何在Ubuntu18.04系统下搭建VScode 的ROS项目 搭建项目分为一下几个步骤&#xff1a; 1.创建ROS工作空间 创建一个demo的ROS工作空间&#xff0…

C语言中操作符详解(一)

众所周知&#xff0c;在我们的C语言中有着各式各样的操作符&#xff0c;并且在此之前呢&#xff0c;我们已经认识并运用了许许多多的操作符&#xff0c;都是诸君的老朋友了昂 操作符作为我们使用C语言的一个非常非常非常重要的工具&#xff0c;诸君一定要加以重视&#xff0c;…

pretender:一款功能强大的红队MitM安全测试工具

关于pretender pretender是一款功能强大的红队MitM安全测试工具&#xff0c;该工具专为红队研究人员设计&#xff0c;该工具不仅能够进行MitM和中继攻击&#xff0c;而且还支持执行DHCPv6 DNS接管以及mDNS、LLMNR和NetBIOS-NS欺骗攻击。在该工具的帮助下&#xff0c;广大研究人…

51单片机STC89C52RC——4.1 独立按键(数码管显示按键值)

目录 目录 目的 一&#xff0c;STC单片机模块 二&#xff0c;矩阵按键模块 2.1 针脚定义 ​编辑 2.2 矩阵按键位置 2.3 如何理解按键按下后针脚的高低电平 2.3.1 错误理解1 2.3.2 错误理解2 2.3.3 正确判定按下的是那个按键的逻辑 2.3.4 判定按键按下的依次扫描程…

186.二叉树:二叉搜索树中的插入操作(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* Tre…

ASP.NET Core 6.0 多种部署方式

IIS 环境准备和部署 安装并配置 IIS 安装 IIS&#xff0c;在搜索输入并打开 启用或关闭 Windows 功能。 配置IIS 需要配置 ASPNETCore 部署IS 程序包安装 &#xff08;ASP.NET Core Module v2&#xff09; Download .NET 6.0 (Linux, macOS, and Windows).NET 6.0 downloads…

鸿蒙开发系统基础能力:【@ohos.accessibility (辅助功能)】

辅助功能 说明&#xff1a; 本模块首批接口从 API version 7 开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。 导入模块 import accessibility from ohos.accessibility;AbilityState 辅助应用状态类型。 系统能力&#xff1a;以下各项对应的…

电子杂志制作工具推荐:让你轻松成为编辑大人

在这个数字化的时代&#xff0c;电子杂志已经成为信息传播的重要载体。它不仅能够满足人们对阅读的需求&#xff0c;还能够提供更加丰富、互动的阅读体验。因此&#xff0c;掌握一款好用的电子杂志制作工具&#xff0c;已经成为每个编辑大人的必备技能。接下来告诉大家一个超简…

永磁同步电机驱动死区补偿

1 死区效应及补偿 1. 1 死区效应 在本文的电机控制嵌入式系统中,逆变器为三 相电压型桥式逆变电路,如图 1 所示。 在理想状态 下,上桥臂和下桥臂的控制信号满足互补通断原则, 即上桥臂开通时,下桥臂关断,反之亦然。 而在实际 应用中,开关管的通断需要一定的开通时…

Java项目:基于SSM框架实现的绿色农产品推广应用网站果蔬商城水果商城蔬菜商城【ssm+B/S架构+源码+数据库+答辩PPT+毕业论文】

一、项目简介 本项目是一套基于SSM框架实现的绿色农产品推广应用网站果蔬商城水果商城蔬菜商城 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能…

容器之按钮盒构件演示

代码; #include <gtk-2.0/gtk/gtk.h> #include <glib-2.0/glib.h> #include <gtk-2.0/gdk/gdkkeysyms.h> #include <stdio.h>int main(int argc, char *argv[]) {gtk_init(&argc, &argv);GtkWidget *window;window gtk_window_new(GTK_WINDO…

如何使用Windows备份轻松将数据转移到新电脑?这里有详细步骤

序言 我们都知道那种买了一台新电脑,就想直接上手的感觉。我记得在过去的日子里,要花几个小时传输我的文件,并试图复制我的设置。在当今传输数据的众多方法中,Windows备份提供了一个简单可靠的解决方案。 登录到你的Microsoft帐户 Microsoft在传输过程中使用其云存储来保…

理解 JTBD 框架和EJ 理念:深挖以用户为中心的设计

在与用户的交流中&#xff0c;我们发现对用户需求的精准洞察普遍困扰着产品经理、设计、企划人员&#xff0c;因为当今消费者行为已经由单品消费转向场景消费&#xff0c;千人千面的个性化需求出现&#xff0c;消费者数据维度极大丰富&#xff0c;这对把握用户体验造成了很大挑…

第六十六天打卡 | 卡码网101 孤岛的总面积、卡码网102 沉没孤岛、卡码网103 水流问题、卡码网104 建造最大岛屿

卡码网101 孤岛的总面积 这一题在昨天的基础上&#xff0c;将比较得出最大孤岛面积的逻辑改为统计所有孤岛面积之和的逻辑即可。 最近做项目的时候也发现&#xff0c;很多时候代码逻辑能够复用最好就不要再自己写&#xff0c;防止出错&#xff0c;当然刷代码题的时候不…

【已解决】手机进入fastboot无法退出

文章目录 报错及效果图报错代码效果图 解决方案必要的解决方法可能有用的解决方法 报错及效果图 报错代码 手机屏幕显示fastboot&#xff0c;长按电源键无法正常启动 效果图 解决方案 必要的解决方法 1.在电脑上下载并安装adb/fastboot驱动&#xff0c;可以在这里免费下载&…

功能测试【测试用例模板、Bug模板、手机App测试】

功能测试 Day01 web项目环境与测试流程、业务流程测试一、【了解】web项目环境说明1.1 环境的定义&#xff1a;项目运行所需要的所有的软件和硬件组合1.2 环境(服务器)的组成&#xff1a;操作系统数据库web应用程序项目代码1.3 面试题&#xff1a;你们公司有几套环境&#xff1…

【对抗去偏】BiasAdv: Bias-Adversarial Augmentation for Model Debiasing

原文标题&#xff1a; BiasAdv: Bias-Adversarial Augmentation for Model Debiasing 原文代码&#xff1a; 暂无 发布年度&#xff1a; 2023 发布期刊&#xff1a; CVPR 摘要 Neural networks are often prone to bias toward spurious correlations inherent in a dataset, …