数据可视化(十):Pandas数据分析师职位信息表分析——箱线图、水平柱状图、学历城市双维分析等高级操作

news2024/11/27 22:23:03

Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!

喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!数据源存放在我的资源下载区啦!

数据可视化(十):Pandas数据分析师职位信息表分析——箱线图、水平柱状图、学历城市双维分析等高级操作

目录

  • 数据可视化(十):Pandas数据分析师职位信息表分析——箱线图、水平柱状图、学历城市双维分析等高级操作
    • 案例二:数据分析师职位信息表分析
      • 问题1:将firstType列的 空值 填充为 "未知"
      • 问题2:处理positionId列重复值(按照positionId去重),保留第一次出现的重复行
      • 问题3:获取平均工资,形成新列 average_salary
      • 问题4:城市分布情况画出水平柱状图对比
      • 问题5:平均薪资概率图(将平均薪资分成50个柱子)
      • 问题6:按城市画出平均工资箱线图
      • 问题7:按学历画出平均工资箱线图
      • 问题8:按工作年限画出平均工资箱线图
      • 问题9:学历、城市双维度画出平均工资箱线图
      • 问题10:直方图显示各个城市薪资最小值 最大值 平均值
      • 问题11:直方图显示各个城市各学历平均值
      • 问题12: 对薪资划分等级,然后作堆积百分比柱形图
      • 问题13:将positionLables职位标签信息作为词云显示

本次作业绘图可采用seaborn、matplotlib库或者pandas内置绘图功能

案例二:数据分析师职位信息表分析

# 导入数据

df = pd.read_csv('data/data_analyst.csv',encoding='gb2312')
df.sample(5)
# 数据清洗

# 查看空值
df.isnull().sum()

在这里插入图片描述

问题1:将firstType列的 空值 填充为 “未知”

# 处理空值

display( df.firstType.unique() )
df['firstType'].fillna("未知", inplace=True)
df.fillna("未知", inplace=True)
# 处理重复值

len(df.positionId)-df.positionId.nunique()

在这里插入图片描述

问题2:处理positionId列重复值(按照positionId去重),保留第一次出现的重复行

# 去重

df_ = df.drop_duplicates(subset='positionId', keep='first')#按照positionId去重,保留第一次出现的重复行
len(df_.positionId)-df_.positionId.nunique()
# 取最低工资和最高工资 转换
# salary这一列是字符串
df_['salary'].sample(10)
# salary中有  25k以上 这样没有上限的字眼,需要改成  25k-无上限

# df.query('salary.str.contains("以上")', engine='python')['salary'].map(lambda x:x[:-2]+'-无上限')

df_.query('salary.str.contains("以")', engine='python')['salary']

在这里插入图片描述

# 注意,带有以上以下的没有最高最低,为了计算平均工资,最小最大值都是一个值
def get_low_saraly(s):
    if "以" in s:
        return eval(s[:-3])*1000
    else:
        lt = s.split('-')
        return eval(lt[0][:-1])*1000

def get_high_saraly(s):
    if "以" in s:
        return eval(s[:-3])*1000
    else:
        lt = s.split('-')
        return eval(lt[1][:-1])*1000

df_.loc[:, 'low_salary'] = df_['salary'].map(get_low_saraly)
df_.loc[:, 'high_salary'] = df_['salary'].map(get_high_saraly)
df_.sample()

在这里插入图片描述

问题3:获取平均工资,形成新列 average_salary

# 获取平均工资

df_.loc[:, 'average_salary'] = (df_['low_salary'] + df_['high_salary'])/2
df_.sample(5)

在这里插入图片描述

问题4:城市分布情况画出水平柱状图对比

# 城市分布情况

s = df_.city.value_counts()
display(s)

# 画出水平柱状图对比

plt.barh(s.index, width=s.values, height=0.5)
plt.xlabel('职位数量')
plt.ylabel('城市')
plt.title('职位城市分布')
plt.show()

在这里插入图片描述

问题5:平均薪资概率图(将平均薪资分成50个柱子)

# 平均薪资概率图

# 将平均薪资分成50个柱子

s = df_['average_salary']

plt.hist(s.values, bins=50, color='r')
plt.xlabel('平均薪资')
plt.ylabel('职位数量')
plt.title('平均薪资概率图')
plt.show()

在这里插入图片描述

问题6:按城市画出平均工资箱线图

# 按城市

df_1 = df_[ ['city', 'average_salary']]
# 画布大一些
df_1.boxplot(by='city', figsize=(8,8))

# or
groups = df_.groupby('city')
fig = plt.figure(figsize=(8,8))
labels = []
values = []
for g in groups:
    labels.append(g[0])
    values.append(g[1].average_salary.values)
plt.boxplot(values, labels=labels)
plt.show()

在这里插入图片描述

问题7:按学历画出平均工资箱线图

# 按学历

df_1 = df_[ ['education', 'average_salary']]
df_1.boxplot(by='education', figsize=(8,8))

# or
groups = df_.groupby('education')
labels = []
values = []
for g in groups:
    labels.append(g[0])
    values.append(g[1].average_salary.values)
fig = plt.figure(figsize=(8,8))
plt.boxplot(values, labels=labels)
plt.show()

在这里插入图片描述

问题8:按工作年限画出平均工资箱线图

# 按工作年限

df_1 = df_[ ['workYear', 'average_salary']]
df_1.boxplot(by='workYear', figsize=(8,8))

# or
groups = df_.groupby('workYear')
labels = []
values = []
for g in groups:
    labels.append(g[0])
    values.append(g[1].average_salary.values)
fig = plt.figure(figsize=(8,8))
plt.boxplot(values, labels=labels)
plt.show()

在这里插入图片描述

问题9:学历、城市双维度画出平均工资箱线图

# 学历、城市双维度

df_1 = df_[ ['city', 'education', 'average_salary']]
df_1.boxplot(by=['city', 'education'], figsize=(24,8), rot=90)

# or
groups = df_.groupby(['city', 'education'])
labels = []
values = []
for g in groups:
    labels.append(g[0])
    values.append(g[1].average_salary.values)
fig = plt.figure(figsize=(24,8))
plt.boxplot(values, labels=labels)
plt.xticks(rotation=90)
plt.show()

在这里插入图片描述

问题10:直方图显示各个城市薪资最小值 最大值 平均值

# 直方图显示各个城市薪资最小值 最大值 平均值
# 采用dataframe绘制直方图方便!

df_[['low_salary', 'high_salary', 'average_salary', 'city']].groupby('city').mean().plot.bar()

在这里插入图片描述

问题11:直方图显示各个城市各学历平均值

# 直方图显示各个城市各学历平均值

df_[['city', 'education', 'average_salary']].groupby(['city','education']).\
mean().unstack().plot.bar(figsize=(15,10))

在这里插入图片描述

问题12: 对薪资划分等级,然后作堆积百分比柱形图

# 对薪资划分等级,然后作堆积百分比柱形图

bins=[0, 3000, 5000, 10000, 15000, 20000, 30000, 100000]
level=['0-3','3-5','5-10','10-15','15-20','20-30','30+']
df_['level'] = pd.cut(df_['average_salary'], bins=bins, labels=level)
df_[['average_salary', 'level']]
df_2 = df_.groupby(['city', 'level']).average_salary.count().unstack() #分组计算职位数量
display(df_2)
df_3 = df_2.apply(lambda x:x/x.sum(), axis=1) # 改成占比
display(df_3)
df_3.plot.bar(stacked=True, figsize=(15, 8))

在这里插入图片描述
在这里插入图片描述

问题13:将positionLables职位标签信息作为词云显示

# 将positionLables职位标签信息作为词云显示

from wordcloud import WordCloud
import jieba
from PIL import Image as img

#s = df_['positionLables'].dropna().str[1:-1].replace(" ","")

s = df_['positionLables'].sum()
words = dict()
lt = jieba.lcut(s)
for word in lt:
    if len(word)>=2:
        words[word] = words.get(word, 0) + 1
#display(words)
wordcloud = WordCloud(font_path='assets//SimHei.ttf', 
                      width=1200, height=800, 
                      background_color='white', 
                      mask=np.array(img.open('assets/myimg.jpg')))
wordcloud.fit_words(words)
plt.figure(figsize=(15,15))
axs = plt.imshow(wordcloud)#正常显示词云
plt.axis('off')#关闭坐标轴
plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1670961.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

苹果手机系统恢复工具:轻松解决iPhone各类系统问题!

随着苹果手机的iOS系统不断升级,越来越多的系统问题不断出现,如卡在恢复模式、系统崩溃白苹果、应用无响应、等,这些问题不仅影响用户体验,还可能导致手机无法正常使用。 遇到系统问题,一般我们可以先尝试使用强制重启…

云原生技术发展概述:投身云计算,从拥抱云原生开始

一、云原生的起源 云计算领域正在进行着一场革命,主机虚拟化实现了主机资源的池化,可以看作是云计算的上半场。以容器为基础的云原生真正实现了应用层的弹性,可以看作是云计算的下半场。 图来源:CNCF公开资料 有人说&#xff0c…

使用非官网购买Chatgpt的api调用

测试代码 from openai import OpenAI client OpenAI(api_key用户密钥) import json import os import timeclass ChatGPT:def __init__(self, user):self.user userself.messages [{"role": "system", "content": "Agent"}]def as…

嗨动PDF编辑器适合你的pdf编辑器,试试吧!

pdf编辑器有哪些?在数字化办公日益普及的今天,PDF文档因其跨平台、高保真度的特性而备受欢迎。无论是工作汇报、学术研究还是日常学习,我们都需要对PDF文档进行编辑、修改和整理。然而,如何选择合适的PDF编辑器却成了许多人头疼的…

算法题解记录25+++验证二叉搜索树(百日筑基)

题目描述: 难度:中等 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下: 节点的左 子树 只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子树和右子树自身必…

讯方·智汇云校4月HCIE通过28人!证书量总计123!

智汇云校捷报 —4月华为认证证书量123本— 智汇云校4月IE捷报来了 讯方技术2024年PMP第一期3月考期顺利结班,考试全员通过~ 2024年4月,云校HCIA、HCIP、HCIE共通过123人! 62人通过HCIA 33人通过HCIP 28人通过HCIE 祝贺以下学员通过HC…

基于Echarts的大数据可视化模板:服务器运营监控

目录 引言背景介绍研究现状与相关工作服务器运营监控技术综述服务器运营监控概述监控指标与数据采集可视化界面设计与实现数据存储与查询优化Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满足管理的特定需求模板功能与特性…

喜茶与 BE@RBRICK 联名,开启酷黑2.0全新潮流体验

5 月 13 日,喜茶官宣与知名潮玩 BERBRICK 联名,双方联合推出联名特调饮品「BERBRICK黑凤梨」、联名版 HEYTEA x BERBRICK 公仔套组,以及结合双方品牌元素全新设计的黑银视觉包材、周边、主题店氛围及线下活动等,带来全方位的酷黑潮…

Verilog中信号发生器的代码实现

目录 描述 输入描述: 输出描述: 描述 题目描述: 请编写一个信号发生器模块,根据波形选择信号wave_choise发出相应的波形:wave_choice0时,发出方波信号;wave_choice1时,发出锯齿…

【Java】Java中栈溢出的常见情况

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

ARM架构安全特性之隔离技术

安全之安全(security)博客目录导读 目录 一、保护代码和数据 二、TrustZone 三、安全世界之间的隔离 四、Secure-EL2扩展 五、保护主流计算工作负载 六、领域管理扩展(RME) 七、内存密集型可信应用程序 八、Arm动态TrustZone技术 强制执行明确定义的安全边界是安全工程…

maven .lastUpdated文件作用

现象 有时候我在用maven管理项目时会发现有些依赖报错,这时你可以看一下本地仓库中是否有.lastUpdated文件,也许与它有关。 原因 有这个文件就表示依赖下载过程中发生了错误导致依赖没成功下载,可能是网络原因,也有可能是远程…

韶音、南卡、倍思开放式耳机值得买吗?王牌机型对比测评

今年,开放式耳机市场迎来了众多新品,为消费者提供了丰富的选择。在这样的背景下,正确挑选一款既符合音质需求又兼具佩戴舒适的开放式耳机显得格外关键。作为长期使用开放式耳机的用户,我发现很多人在韶音、南卡、漫步者这三个品牌…

Linux-- 重定向缓冲区

目录 0.接上篇文章 1.粗略的见一下这两个问题 2.理解重定向 3.理解缓冲区 0.接上篇文章 Linux--基础IO(文件描述符fd)-CSDN博客 1.粗略的见一下这两个问题 先来了解几个函数: stat()函数用于获取指定文件或符号链接的元数据。如果文件是…

大数据BI可视化(Echarts组件)项目开发-熟悉结合Vue开发图表组件7.0附带1/6商家销售统计(横向柱状图)

一.创建项目 创建 1.npm install -g vue/cli vue create vision 2. 3. 4.版本 5.是否使用历史路由 6.CSS预处理 7.ES标准配置 8.啥时候es标准提示-保存文件后 9.将配置文件放入单独文件中处理 10.需要保留新建项目以上设置 11.选择“Use PNPM”或者“Use NPM” 12.创建 13访…

时间瑾眼中的IT行业现状与未来趋势

文章目录 技术革新与行业应用IT行业的人才培养与教育人工智能与机器学习的演进数据安全与隐私保护可持续发展与绿色技术社会责任与道德规范 随着技术的不断进步,IT行业已成为推动全球经济和社会发展的关键力量。从云计算、大数据、人工智能到物联网、5G通信和区块链…

AI 入门:AI 提示词如何入门?这篇就够了!(含提示词)

先看案例,一目了然 一个通用的提示词案例: 普通的提示词: 我给你我写的参考文章,请你学习我的风格来根据主题创作1篇文章。请你根据我给你的参考文章,学习我的写作风格,并进行风格学习模仿创作。为了更好…

python智能电力监控与资费电费缴纳管理系统vue+django

本系统的设计与实现共包含6个表:分别是配置文件信息表,电力记录信息表,故障报修信息表,缴费订单信息表,用户表信息表,用户信息表, 本文所设计的电费缴纳系统的设计与实现拥有前端和后端,前端使…

【声呐仿真】学习记录3.5-docker中Gazebo是否使用GPU?解决声呐图像黑屏

【声呐仿真】学习记录3.5-docker中Gazebo是否使用GPU?解决声呐图像黑屏 🤡打包镜像,重装驱动(失败)Xorg重新配置DAVE环境(补充之前教程中的一些细节)解决声呐图像黑屏问题 在容器中运行 roslau…

在ubuntu中使用python

在ubuntu中使用python ubuntu20版本中已经涵盖了python3,需要使用python3命令去运行 可以使用命令 python3 --version 进行检查 ubuntu20版本中已经涵盖了python3,需要使用python3命令去运行 可以使用命令 python3 --version 进行