【数据预处理机器学习】对于薪资数据的倾斜情况以及盒图离群点的探究

news2025/1/31 11:09:11

文章目录

  • 一.需求背景
  • 二. 任务开始
    • 2.1 薪酬的中位数、均值和众数和数据倾斜模块详细设计
    • 2.2 按不同的类别划分职位中的薪酬数据,画盒图/箱线图,检查孤立点/离群点

一.需求背景

课题中心:招聘网站的职位招聘数据预处理

之前的文章,我们已经对职位薪资数据进行了爬取(9000条)数据,然后进行了数据的清洗,最终得到了4000条有效数据。

具体需求:

  • 按不同的类别划分职位中的薪酬数据,画盒图/箱线图,检查孤立点/离群点;
  • 使用分位数图、分位数-分位数图方法处理数据;

本次任务的结构图:

image.png

技术要点:
爬虫库(Beautifulsoup、requests-html、Scrapy)、数据预处理(python、kettle)、数据可视化(matplotlib、pyecharts、tebleau)、python-web框架(Flask)

二. 任务开始

2.1 薪酬的中位数、均值和众数和数据倾斜模块详细设计

已Java为例,python和Go类似流程:

1.经过过去的爬虫和数据清理等步骤,我们得到了4000条左右的有效数据,我们先将其读取进来:

data = pd.read_csv("A-06-最终有效数据.csv",encoding="gbk")

2.以Java为例:我们使用关键词“java”对数据进行筛选,循环筛选过程中将职位名,薪资需要的关键字放到列表里面,然后存入字典里,经过pandas的处理:

xingzhi={}
zhiwei = []
xin1 = []
xin2 =[]
for i in range(len(data)):
    if "java" in data.iloc[i]['职位名']:
        a = re.findall("\d+\.?\d*", data.iloc[i]['薪资'])
        # print(data.iloc[i]['职位名'])
        zhiwei.append(data.iloc[i]['职位名'])
        xin1.append(int(a[0]))
        xin2.append(int(a[1]))
xingzhi={"职位名":zhiwei,'最低薪资':xin1,'最高薪资':xin2}
df = pd.DataFrame(xingzhi)

2.输出题目要求的均值,中位数和众数:

print("java职位最低薪资的均值为:",df['最低薪资'].mean())
print("java职位最高薪资的均值为:",df['最高薪资'].mean())
print("java职位最低薪资的中位数为:",df['最低薪资'].median())
print("java职位最高薪资的中位数为:",df['最高薪资'].median())
print('java职位最低薪资的众数:', df['最低薪资'].mode())
print('java职位最高薪资的众数:', df['最高薪资'].mode())

3.输出效果如下:

image-20221215123325744

4.指定默认字体:解决plot不能显示中文问题,解决保存图像是负号’-'显示为方块的问题。

mpl.rcParams['font.sans-serif'] = ['STZhongsong']
mpl.rcParams['axes.unicode_minus'] = False

5.对x和y轴数据进行规范化,x轴使用数据的长度循环列表

import matplotlib.pyplot as plt
y1=xin1
x1=range(0,df['最低薪资'].count())
x2=range(0, df['最高薪资'].count())
y2=xin2
fig = plt.figure()
plt.subplot(2,1,1)
plt.bar(x1,y1, color="green")
plt.ylabel('薪资,单位K')
plt.title('java岗位的薪资情况(最低薪资-最高薪资)')
plt.subplot(2,1,2)
plt.bar(x2,y2, color="red")
plt.xlabel('公司个数')
plt.ylabel('薪资,单位K')
# plt.title('java岗位的薪资情况(最低薪资-最高薪资)')
plt.legend()
plt.show()

6.显示效果:

img

img

img

7.计算结果:

java职位:
java职位最低薪资的均值为: 15.938611789326822
java职位最高薪资的均值为: 26.44890129054761
java职位最低薪资的中位数为: 15.0
java职位最高薪资的中位数为: 25.0
java职位最低薪资的众数: 0 15
Name: 最低薪资, dtype: int64
java职位最高薪资的众数: 0 30
Name: 最高薪资, dtype: int64
python职位:
python职位最低薪资的均值为: 13.84330985915493
python职位最高薪资的均值为: 24.184859154929576
python职位最低薪资的中位数为: 15.0
python职位最高薪资的中位数为: 25.0
python职位最低薪资的众数: 0 15
Name: 最低薪资, dtype: int64
python职位最高薪资的众数: 0 30
Name: 最高薪资, dtype: int64
Go职位:
Go职位最低薪资的均值为: 19.64329268292683
Go职位最高薪资的均值为: 34.707317073170735
Go职位最低薪资的中位数为: 19.0
Go职位最高薪资的中位数为: 30.0
Go职位最低薪资的众数: 0 15
Name: 最低薪资, dtype: int64
Go职位最高薪资的众数: 0 30
Name: 最高薪资, dtype: int64

2.2 按不同的类别划分职位中的薪酬数据,画盒图/箱线图,检查孤立点/离群点

1.与上文一样,我们使用关键词“java”对数据进行筛选,循环筛选过程中将职位名,薪资需要的关键字放到列表里面,然后存入字典里,经过pandas的处理:
将上限和下限分别处理:

xingzhi={}
zhiwei = []
xin1 = []
xin2 =[]
for i in range(len(data)):
    if "java" in data.iloc[i]['职位名']:
        a = re.findall("\d+\.?\d*", data.iloc[i]['薪资'])
        # print(data.iloc[i]['职位名'])
        zhiwei.append(data.iloc[i]['职位名'])
        xin1.append(int(a[0]))
        xin2.append(int(a[1]))
xingzhi={"职位名":zhiwei,'最低薪资':xin1,'最高薪资':xin2}
df = pd.DataFrame(xingzhi)

labels = 'Java职位工资下限', 'Java职位工资上限'
A = xin1
B = xin2

2.开始画图,将上面传入的进行处理

plt.grid(True)  # 显示网格
plt.boxplot([A, B],
            medianprops={'color': 'red', 'linewidth': 1.5},
            meanline=True,
            showmeans=True,
            meanprops={'color': 'blue', 'ls': '--', 'linewidth': 1.5},
            flierprops={"marker": "o", "markerfacecolor": "red", "markersize": 10},
            labels=labels)
plt.yticks()
plt.show()

3.Python和GO语言的类似,如下:(GO语言代码省略不写)与这几个大致相同。

xingzhi={}
zhiwei = []
xin1 = []
xin2 =[]
for i in range(len(data)):
    if "python" in data.iloc[i]['职位名']:
        a = re.findall("\d+\.?\d*", data.iloc[i]['薪资'])
        zhiwei.append(data.iloc[i]['职位名'])
        xin1.append(int(a[0]))
        xin2.append(int(a[1]))
xingzhi={"职位名":zhiwei,'最低薪资':xin1,'最高薪资':xin2}
df = pd.DataFrame(xingzhi)
labels = 'python职位工资下限', 'python职位工资上限'
A = xin1
B = xin2
plt.grid(True)  # 显示网格
plt.boxplot([A, B],
            medianprops={'color': 'red', 'linewidth': 1.5},
            meanline=True,showmeans=True,
            meanprops={'color': 'blue', 'ls': '--', 'linewidth': 1.5},
            flierprops={"marker": "o", "markerfacecolor": "red", "markersize": 10},
            labels=labels)
plt.yticks()
plt.show()

4.运行结果如下:

img

img

img

后面的任务会还会发布相关的文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/90553.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JAVA】final关键字

🏆今日学习目标:final关键字 😃创作者:颜颜yan_ ✨个人主页:颜颜yan_的个人主页 ⏰本期期数:第一期 🎉专栏系列:JAVA 文章目录前言final关键字final关键字修饰类示例:fin…

[附源码]Python计算机毕业设计高校社团管理平台Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

笔试强训(四十五)

目录一、选择题二、编程题2.1 查找兄弟单词2.1.1 题目2.1.2 题解一、选择题 (1)IP数据报分片的重组通常发生在(D) A.源主机和数据经过的路由器上 B.源主机上 C.数据报经过的路由器上 D.目的主机上 数据分片是网络层发现上层给的数…

Java反射(通俗易懂!)

文章目录2.反射2.1反射的概述2.2 获取 Class类对象的三种方式2.3反射获取构造方法并使用2.3.1Class 类获取构造方法对象的方法2.3.2Constructor类用于创建对象的方法2.3.3小结2.4反射获取成员变量并使用2.4.1Class类获取成员变量对象的方法2.4.2Field类用于给成员变量赋值的方法…

木字楠后台管理系统开发(5):Vue登陆界面编写以及与后台联调测试

🎶 文章简介:木字楠后台管理系统开发(5):Vue登陆界面编写以及与后台联调测试 💡 创作目的:为了带大家完整的体验木字楠后台管理系统模版的开发流程 ☀️ 今日天气:愿冷空气冷藏你的烦恼,让快乐永驻。 &…

PaddleX API开发模式快速上手文档

目录一. 环境安装1.1 PaddlePaddle-gpu安装1.2 PaddleX安装二. 快速训练2.1 准备数据集2.2 定义图像预处理与数据增强2.3 定义并装载数据2.4 开始训练2.5 使用Visual查看训练情况三. 部署推理3.1 模型加载预测PaddleX官方文档(以图像分类为例):PaddleX/docs/quick_s…

MySQL索引优化(一)

文章目录一、索引介绍1. 什么是MySQL的索引2. 索引数据结构3. 索引优势4. 索引劣势5. 索引使用场景(1)需要建立索引的场景(2)不推荐建立索引的场景6. 索引分类(1)主键索引(2)唯一索引…

【k8s 实战】Prometheus Operator 高级配置- 监控Kubernetes自动发现

上文我们一起学习了如何在 Prometheus Operator 下面自定义一个监控选项,以及自定义报警规则的使用。那么我们还能够直接使用前面课程中的自动发现功能吗?如果在我们的 Kubernetes 集群中有了很多的 Service/Pod,那么我们都需要一个一个的去建…

MATLAB傅里叶变换和加入噪声后的傅里叶变换

1.傅里叶变换代码 查看String为傅里叶变换的button添加callback函数,可以通过查看callback函数快速定位到该位置 function pushbutton37_Callback(hObject, eventdata, handles)%傅里叶变换(频谱图) axes(handles.show_proImg); global fpat…

[附源码]Nodejs计算机毕业设计基于的二手房交易系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置: Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分…

动态规划——状态机模型

文章目录概述大盗阿福思路代码股票买卖 IV思路代码股票买卖 V思路代码总结概述 定义: 它是一个有向图形,由一组节点和一组相应的转移函数组成。状态机通过响应一系列事件而“运行”。每个事件都在属于“当前” 节点的转移函数的控制范围内,其…

QT 6开发环境搭建——Windows环境

QT 目前不支持离线安装,只支持在线安装。(从Qt5.15版本后不支持离线安装) 去下面的网址,下载在线安装包: https://download.qt.io/archive/online_installers 我个人选择的是4.3.可以选择更新的版本。选择合适自己电…

时间序列的蒙特卡罗交叉验证

交叉验证应用于时间序列需要注意是要防止泄漏和获得可靠的性能估计本文将介绍蒙特卡洛交叉验证。这是一种流行的TimeSeriesSplits方法的替代方法。 时间序列交叉验证 TimeSeriesSplit通常是时间序列数据进行交叉验证的首选方法。下图1说明了该方法的操作方式。可用的时间序列…

编译原理实验三:算符优先分析算法的设计与实现(python)

实验目的 根据算符优先分析法,对表达式进行语法分析,使其能够判断一个表达式是否正确。通过算符优先分析方法的实现,加深对自下而上语法分析方法的理解。 实验内容 1、输入文法。可以是如下算术表达式的文法(你可以根据需要适当…

赋能组织执行力学习-R4管理-结果体系、责任体系、检查与改进体系、及时激励体系

本文向大家介绍R4管理,是由结果体系(Result)、责任体系(Responsibility)、检查与改进体系(Review)、及时激励体系(Reward)组成,帮助我们如何更好的运用。 马云…

TikTok选品技巧 | 爆品一般是怎么选出来的,快看这些技巧

TikTok电商商家看过来!随着短视频时代的兴起与发展,TikTok在全球受到越来越多的用户所追捧。同时,吸引了更多TikTok商家前来发展电商。但是,想要在这里快速实现TikTok变现目标,并非容易。TikTok选品和TikTok营销是最不…

数据库原理及MySQL应用 | 多表查询

在实际应用中,多表查询应用相对较多,根据多表之间的相关列,可以从多个表中检索出所需数据。 在实际应用中,单表查询应用范围相对较少,因为用户需要的数据往往存储在多个不同的表中,这时需要进行多表查询。…

oracle的pkg改为hivesql

1. oracle的() 改为hive左右连接 oracle ()学习_cclovezbf的博客-CSDN博客最近工作需要将oracle的存储过程转化为hive的sql脚本。遇到很多不一样的地方,例如oracle连接中有()号的用法。借鉴这篇文章,但是这个排版比较烂。。。先建表和插入数据首先说明…

笔试强训(四十六)

目录一、选择题二、编程题2.1 简单错误记录2.1.1 题目2.1.2 题解一、选择题 (1)一台刚接入互联网的WEB服务器第一次被访问到时,不同协议的发生顺序是下面中的(A) A.ARP->DNS->HTTP B.ARP->HTTP->DNS C.DN…

怎么提取伴奏?有什么实用的提取软件?

由于我喜欢唱歌,所以在读书时期偶尔会参加学校的一些歌唱比赛或是文艺汇演。而一开始的我没什么经验,练习时都是放着原声带跟唱,但是到了舞台上发现只有伴奏,一时间卡不到开唱的点,甚是尴尬。所以后来我吸取了教训&…