Seaborn:推荐一个好用的Python可视化工具

news2024/11/30 2:28:07

1. 引言

Seaborn 是建立在 matplotlib 基础上的数据可视化库,并与 Python 中的 pandas 数据结构紧密结合。可视化是 Seaborn 的核心部分,有助于直观的理解数据。

闲话少说,我们直接开始吧!

2. 安装

Seaborn库主要提供以下功能:

面向数据集的应用程序接口,用于确定变量之间的关系。
自动估计和绘制线性回归图。
它支持多网格图的高级抽象。

使用Seaborn库,我们可以方便地绘制各种图形。我们可以使用的以下命令进行安装:

pip install seaborn

要初始化 Seaborn 库,一般使用以下命令:

import seaborn as sns

3. 引入数据集

为了展示使用 Seaborn 库进行各种图形的绘制,我们这里使用googleplaystore.csv数据集,大家可以在kaggle网站进行下载。

在继续之前,首先让我们访问一下数据集:

import pandas as pd
import numpy as np
pstore = pd.read_csv("googleplaystore.csv")
pstore.head(10)

数据集的示例如下:

在这里插入图片描述

4. 数据直方分布图

首先,让我们看看上述数据集中第三列 Rating 列即APP评分列的数据直方分布图,代码如下:

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
pstore = pd.read_csv("googleplaystore.csv")
#Create a distribution plot for rating
sns.distplot(pstore.Rating)
plt.show()

运行后得到结果如下:
在这里插入图片描述
观察上图,在直方分布图上绘制的曲线KDE就是近似的概率密度曲线。

5. 参数设置

matplotlib 中的直方图类似,在直方分布图中,我们也可以改变bins 数目,使图形更易于理解。

#Change the number of bins
sns.distplot(inp1.Rating, bins=20, kde=False)
plt.show()

现在,图表看起来是这样的,如下:
在这里插入图片描述
在上图中,我们在代码中设置kde = False 后,运行后没有概率密度曲线。要删除该曲线,只需对变量kde 进行相应设置即可。

6. 控制颜色

我们还可以像matplotlib 一样为直方分布图提供标题和颜色。相关代码如下:

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#Create a distribution plot for rating
sns.distplot(pstore.Rating, bins=20, color="g")
plt.title("Distribution of app ratings", fontsize=20, color = 'red')
plt.show()

运行后结果如下:
在这里插入图片描述

7. 默认样式

使用 Seaborn 的最大优势之一是,它为我们的图表提供了多种默认样式选项。以下都是 Seaborn 提供的默认样式:

'Solarize_Light2',
 '_classic_test_patch',
 'bmh',
 'classic',
 'dark_background',
 'fast',
 'fivethirtyeight',
 'ggplot',
 'grayscale',
 'seaborn',
 'seaborn-bright',
 'seaborn-colorblind',
 'seaborn-dark',
 'seaborn-dark-palette',
 'seaborn-darkgrid',
 'seaborn-deep',
 'seaborn-muted',
 'seaborn-notebook',
 'seaborn-paper',
 'seaborn-pastel',
 'seaborn-poster',
 'seaborn-talk',
 'seaborn-ticks',
 'seaborn-white',
 'seaborn-whitegrid',
 'tableau-colorblind10'

我们只需编写一行代码,就能将这些样式整合到我们的图表中。

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#Adding dark background to the graph
plt.style.use("dark_background")

#Create a distribution plot for rating
sns.distplot(pstore.Rating, bins=20, color="g")
plt.title("Distribution of app ratings", fontsize=20, color = 'red')
plt.show()

为图表添加深色背景后,分布图看起来就像这样了,如下所示:
在这里插入图片描述

8. 饼图

饼图一般用于分析不同类别中的数据分布。在我们使用的数据集中,我们将分析内容评级列Content Rating 中排名前 4 位的类别的数量。首先,我们将对 "内容评级 "列Content Rating 进行数据清理和挖掘,并统计相应类别的数量。

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#Analyzing the Content Rating column
count = pstore['Content Rating'].value_counts()
print(count)

得到结果如下:
在这里插入图片描述
根据上述输出结果,由于 Adults only 18+ Unrated 的这两个类别的计数明显少于其他类别,我们将从内容分级中删除这些类别并更新数据集。

#Remove the rows with values which are less represented 
pstore = pstore[~pstore['Content Rating'].isin(["Adults only 18+","Unrated"])]
#Resetting the index
pstore.reset_index(inplace=True, drop=True)
#Analyzing the Content Rating column again
count = pstore['Content Rating'].value_counts()
print(count)

得到结果如下:
在这里插入图片描述
现在,让我们为 上述统计结果绘制相应的饼图,代码如下:

#Plotting a pie chart
plt.figure(figsize=[9,7])
pstore['Content Rating'].value_counts().plot.pie()
plt.show()

运行后得到结果如下:
在这里插入图片描述

9. 柱状图

观察上述代码输出的饼图中,我们无法正确推断类别 Everyone 10+和类别 Mature 17+这两个类别的比例谁大。当这两个类别的数值有些相似时,直接观察饼图很难评估它们之间的差异。

此时,我们可以将上述数据绘制成柱状图来克服这种情况。绘制柱状图的代码如下:

#Plotting a bar chart
plt.figure(figsize=[9,7])
pstore['Content Rating'].value_counts().plot.barh()
plt.show()

运行后如下:
在这里插入图片描述
当然,我们可以给不同类别设置不同颜色,如下:

plt.figure(figsize=[9,7])
pstore['Content Rating'].value_counts().plot.barh(color=["purple","orange","green","pink"])
plt.show()

结果如下:
在这里插入图片描述

10. 总结

本文重点介绍了如何利用Seaborn库绘制数据直方分布图以及饼图和柱状图,并给出了相应的代码示例!

您学废了嘛!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1602991.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

论文DOI号相关及在latex中添加DOI跳转

DOI与ISBN, ISSN的不同之处 图书和期刊内容都使用DOI。 与ISBN和ISSN不同的是,ISBN喝ISSN可以识别图书或期刊,DOI可以识别单个章节或单篇文章。 所以,如果要搜寻某本书籍,需要用到的是ISBN号;如果要搜寻某本期刊&…

微服务组件-注册中心

微服务组件-注册中心 使用restTemplate实现远程服务调用存在以下的问题: 1、消费者不知道如何获取服务提供者具体信息。 2、在远程调用的过程中,直接采用填写url的硬编码方式,如果服务消费者发生变化,得到的结果就会出错。 3、如果…

机器学习-随机森林算法预测房租模型

文章目录 机器学习-随机森林算法预测房租模型解决问题数据集探索性数据分析数据预处理构建模型并训练结果分析与评估参数调优结果预测经验总结参考文章 机器学习-随机森林算法预测房租模型 解决问题 根据待租房源相关信息,通过随机森林机器学习算法构件预测模型&a…

代码随想录算法训练营第二十九天|491.递增子序列、46.全排列、46.全排列II

491. 非递减子序列 思路: 在90.子集II (opens new window)中我们是通过排序,再加一个标记数组来达到去重的目的。 而本题求自增子序列,是不能对原数组进行排序的,排完序的数组都是自增子序列了。 所以不能使用之前的去重逻辑&…

C++_特殊类的设计和单例模式

文章目录 学习目标:1.请设计一个类,不能被拷贝2. 请设计一个类,只能在堆上创建对象3. 请设计一个类,只能在栈上创建对象4. 请设计一个类,不能被继承5. 请设计一个类,只能创建一个对象(单例模式) 特殊类的设…

Django中的数据库优化与ORM性能调优【第169篇—ORM性能调优】

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 Django中的数据库优化与ORM性能调优 在开发基于Django的Web应用程序时,数据库是…

上下文输入无限制,谷歌发布Infini-Transformer

去年,百川智能发布号称全球最长的上下文窗口大模型Baichuan2-192K,一次性可输入35万字,超越GPT-4。 今年3月,Kimi智能助手宣布在上下文窗口技术上突破200万字。 紧追其后,国内各大互联网巨头纷纷布局升级自家大模型产…

【C语言】贪吃蛇项目(1) - 部分Win32 API详解 及 贪吃蛇项目思路

文章目录 一、贪吃蛇项目需要实现的基本功能二、Win32 API介绍2.1 控制台2.2 部分控制台命令及调用函数mode 和 title 命令COORD 命令GetStdHandle(获取数据)GetConsoleCursorInfo(获取光标数据)SetConsoleCursorInfo &#xff08…

数字化转型之路-云原生与ChaosMeta

作者:刘凇杉(chaosmeta-platform发起人) 一.引言 随着科技的快速发展和信息时代的到来,数字化转型已成为企业不可或缺的战略选择。作为中国领先的科技金融企业,蚂蚁集团深谙数字化转型的重要性,并在其转型…

LeetCode 704.二分查找

LeetCode 704.二分查找 1、题目 题目链接:704. 二分查找 2、思路 这道题目是要在有序数组 nums 中找到目标值 target,符合二分查找的前提条件(线性表必须是有序的,且采用顺序存储)。同时题目还强调数组中无重复元…

2024最新在线工具箱网站系统源码

(购买本专栏可免费下载栏目内所有资源不受限制,持续发布中,需要注意的是,本专栏为批量下载专用,并无法保证某款源码或者插件绝对可用,介意不要购买!购买本专栏住如有什么源码需要,可向博主私信,第二天即可发布!博主有几万资源) 2024最新在线工具箱网站系统源码是一…

怎样将excel的科学计数法设置为指数形式?

对了,这个问题中所谓的“指数形式”是指数学上书写的右上标的指数格式,能不能通过单元格设置来做这个格式的转换呢? 一、几个尝试 以下,以数字123000为例来说明。 情况1.转换成数学上的书写方式,如下图的样子&#x…

基于SpringBoot+Vue的二手车交易系统的设计与实现(源码+文档+包运行)

一.系统概述 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统二手车交易信息管理难度大,容错率低&…

Java面试八股之fail-fast和fail-safe的区别

简述fail-fast和fail-safe的区别 定义与基本概念 fail-fast: 定义:fail-fast是一种迭代器机制,当集合在迭代过程中被结构上修改(如添加、删除元素),会立即抛出ConcurrentModificationException异常&…

离岸人民币与人民币国际化

参考 什么是离岸人民币?它有什么用? - 知乎 “人民币就是人民币,为什么要在它前面加上离岸二字?” “既然有离岸人民币,是否有在岸人民币?” 今天我们就简单了解一下什么是离岸人民币。 离岸/在岸人民币…

朗致集团面试-Java架构师

总结 三轮面试,第一轮是逻辑测试性格测试,第二轮是技术面试(面试官-刘老师),第三轮是CTO面试(面试官-屠老师)。如果第三轮面试通过,考官会问你薪资意向,如果满意的话HR就…

5. Mysql的binlog介绍

参考:InnoDB学习(三)之BinLog 1. BinLog介绍 BinLog又称为二进制日志,是MySQL服务层的数据日志,MySQL所有的存储引擎都支持BinLog。 BinLog记录了MySQL中的数据更新和可能导致数据更新的事件,可以用于主从…

2024阿里云4核8G服务器租用优惠价格700元一年

阿里云4核8G服务器租用优惠价格700元1年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云优惠 aliyunfuwuqi…

必应Bing国内广告推广,帮助企业降低获客成本!

搜索引擎广告作为数字营销的重要手段之一,因其精准定位和效果可衡量而备受青睐。而在众多搜索引擎平台中,必应Bing以其独特的市场定位和用户群体成为不可忽视的广告推广渠道。云衔科技作为一家专业的数字营销服务提供商,致力于帮助企业实现高…

代码随想录-算法训练营day15【二叉树02:层序遍历、翻转二叉树、对称二叉树】

代码随想录-035期-算法训练营【博客笔记汇总表】-CSDN博客 第六章 二叉树 part02今日内容: ● 层序遍历 10 ● 226.翻转二叉树 ● 101.对称二叉树 2 详细布置 层序遍历 看完本篇可以一口气刷十道题,试一试, 层序遍历并不难,大…