Pandas数据可视化详解:大案例解析(第27天)

news2024/11/19 22:40:00

系列文章目录

  1. Pandas数据可视化
  2. 解决不显示中文和负号问题
  3. matplotlib数据可视化
  4. seaborn数据可视化
  5. pyecharts数据可视化
  6. 优衣库数据分析案例

文章目录

  • 系列文章目录
  • 前言
    • 1. Pandas数据可视化
      • 1.1 案例解析:代码实现
    • 2. 解决不显示中文和负号问题
    • 3. matplotlib数据可视化
      • 1.1 案例解析:代码实现
    • 4. seaborn数据可视化
      • 1.1 案例解析:代码实现
    • 5. pyecharts数据可视化
      • 1.1 案例解析:代码实现
    • 6. 优衣库数据分析案例
      • 1.1 案例解析:代码实现


前言

本文主要通过大案例的方式详解了Pandas数据可视化,matplotlib数据可视化,seaborn数据可视化,pyecharts数据可视化。


提示:以下是本篇文章正文内容,下面案例可供参考

1. Pandas数据可视化

1.1 案例解析:代码实现

pandas的df和s对象绘图, 是通过内置matplotlib模块的pyplot类实现

# 导入模块
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns

# 可以通过图表快速高效查看出数据之间的规律,潜在一些结论
# 加载数据集
df = sns.load_dataset('anscombe', data_home='./data/seaborn-data/')
df
# 查看每份子集中x和y列的统计描述信息
df.groupby('dataset').describe()
# 获取四份子集数据
df1 = df.query('dataset=="I"')
df2 = df.query('dataset=="II"')
df3 = df.query('dataset=="III"')
df4 = df.query('dataset=="IV"')
# 查建画布
# figsize设置图表的大小, 宽高
fig = plt.figure(figsize=(16, 8))
# 设置画布的标题
fig.suptitle('Anscombe Data')
# 创建四个子图
# 2,2 -> 两行两列,四个图
# 1,2,3,4 -> 每个子图所在的位置
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)
# 绘制图形
axes1.plot(df1['x'], df1['y'], 'o')
axes2.plot(df2['x'], df2['y'], 'o')
axes3.plot(df3['x'], df3['y'], 'o')
axes4.plot(df4['x'], df4['y'], 'o')
# 给每个子图添加标题
axes1.set_title('dataset_1')
axes2.set_title('dataset_2')
axes3.set_title('dataset_3')
axes4.set_title('dataset_4')
plt.show()

# pandas绘图
# df对象绘图
# 图形的x轴是df的行索引值
# 图形的y轴是每个数值列的值
# 当前df1有两列数值列, 绘制出两条折线
# 默认绘制折线图
df1.plot(kind='line')
plt.show()
# 柱状图
df1.plot(kind='bar')
# s对象绘图
# 图形x轴是s对象的索引值
# 图形y轴是s对象的值
df1['x'].plot()

2. 解决不显示中文和负号问题

  • 将 simhei.ttf 字体文件放到 /export/server/anaconda3/lib/python3.8/site-packages/matplotlib/mpl-data/fonts/ttf 目录下

    在这里插入图片描述

    在这里插入图片描述

    • 如何查看matplotlibrc文件所在位置

    • ttf目录是在 mpl-data/fonts

      import matplotlib
      matplotlib.matplotlib_fname()
      

      !在这里插入图片描述

  • 在 matplotlibrc 文件中增加以下内容

    font.family			 : sans-serif
    font.sans-serif		 : SimHei
    axes.unicode_minus   : False
    

    在这里插入图片描述

  • 删除缓存文件

    cd /root/.cache
    rm -rf matplotlib
    
  • 重启jupyter notebook

3. matplotlib数据可视化

1.1 案例解析:代码实现

# 绘制折线图, 默认图表 -> 两个变量之间的关系
# 不指定x轴和y轴值, x轴是使用行索引值, y中是数值列值
# df1.plot()
# df1.plot.line()
# df1.plot(kind='line')
# 指定图表的x轴值和y轴值
df1.plot(x='x', y='y')
plt.show()

# 绘制柱状图  展示不同类别的信息情况
df1.plot.bar()
# 绘制堆积柱状图
df1.plot(kind='bar', stacked=True)
df1.plot.bar(x='x',y='y')
plt.show()

# 水平条形图 -> 柱状图进行旋转
df1.plot.barh()
# 水平堆积条形图
df1.plot.barh(stacked=True, figsize=(16, 8), grid=True)
plt.show()

# 绘制饼图 -> 查看不同类型的占比情况
# autopct:添加百分比标签
# radius:圆直径大小,最大1
df1.plot.pie(y='y', autopct='%.2f%%', radius=0.9, figsize=(16,8))
plt.show()

# 散点图 -> 查看数据分布情况
# grid:添加网格线
df1.plot(kind='scatter',x='x',y='y', grid=True)
plt.show()

# 气泡图 -> 通过散点图api绘制
# 在散点图二维平面上再通过点的大小增加第三个维度
# s:点的大小, 第三个维度
df1.plot.scatter(x='x', y='y', grid=True, s=df1['x']*100)

# 面积图 
# 面积堆积图
df1.plot.area()
df1.plot.area(stacked=False)

# 箱线图 -> 查看数据的最小值,最大值, 1/4分位值, 中位值, 3/4分位值, 离群值(异常值) 
# 异常值, 数据值普遍分布在 1~100, 有几个值为 1w, 2w, 这些值就是离群值
df1.boxplot()

# 直方图 -> 统计不同组数据出现的次数, y轴次数
# bins=10:默认分成10组
df1.plot.hist()
plt.show()
df1['x'].plot.hist()
plt.show()

# 蜂巢图 ->了解
# gridsize=12设定蜂箱格子的大小,数字越小格子越大
df1.plot.hexbin(x='x', y='y', gridsize=12)
plt.show()

data = pd.read_csv('data/LJdata.csv')
data.head()
# 不同朝向的房源数量柱状图
temp_s = data.groupby(by='朝向')['区域'].count()
temp_s
temp_s.plot.bar(figsize=(16,8))

# 前五朝向房源数量的饼图
sort_s = temp_s.sort_values(ascending=False).head()
sort_s.plot.pie(autopct='%.2f%%', radius=0.9, figsize=(12,6))
plt.show()

4. seaborn数据可视化

1.1 案例解析:代码实现

# 加载数据
tips_df = sns.load_dataset('tips', data_home='./data/seaborn-data')
tips_df

# 散点图
fig = plt.figure(figsize=(16,8))
sns.scatterplot(data=tips_df, x='total_bill', y='tip', hue='sex', style='smoker', size='size')
plt.show()

# 关系散点图
sns.relplot(data=tips_df, x='total_bill', y='tip') # 默认 kind='scatter'
sns.relplot(data=tips_df, x='total_bill', y='tip', kind='line')
plt.show()

# 分类散点图
sns.stripplot(data=tips_df, x='time', y='total_bill')
# 不同日期用餐时间的分类散点图
sns.stripplot(data=tips_df, x='time', y='total_bill', jitter=True, dodge=True, hue='day')

# 在同一个代码块中绘制多个图形, 借助matplotlib包
f = plt.figure()
axes1 = f.add_subplot(2,1,1)
axes2 = f.add_subplot(2,1,2)
# 按照x属性所对应的类别分别展示y属性的值,适用于分类数据
# 不同饭点的账单总金额的散点图
sns.stripplot(data=tips_df, x='time', y='total_bill', ax=axes1)
# hue通用参数按颜色划分
# jitter=True 当数据点重合较多时,尽量分散的展示数据点
# dodge=True 拆分分类
sns.stripplot(data=tips_df, x='time', y='total_bill', jitter=True, dodge=True, hue='day', ax=axes2)
plt.show()

# 小提琴图
# 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数,以及所有账单金额出现的次数(频率)
sns.violinplot(data=tips_df, x='time', y='total_bill')
plt.show()

# 箱线图 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数,以及所有账单金额出现的次数(频率)
sns.boxplot(data=tips_df, x='time', y='total_bill', hue='day')
plt.show()

# 分类柱状图
# 下图中黑色的粗线条展示了数据的分布(误差线), 线条越短, 数据分布越均匀
# 下图中每个柱的顶点就是该分类y指定列的平均值 estimator
sns.barplot(data=tips_df, x='day', y='total_bill', estimator=max)
plt.show()

# 分类计数图
# 按x指定的列值分组统计出现次数
# y轴就是出现的次数
sns.countplot(data=tips_df, x='time')
plt.show()

# 矩阵热力图 -> 对df数据样式有要求, 通过透视表转换
# 男女在午餐晚餐的平均消费
new_df = tips_df.pivot_table(index='sex', columns='time', values='total_bill', aggfunc='mean')
print(new_df)
# 输出为热力图:男性在晚餐花费最多
sns.heatmap(data=new_df)
plt.show()

# 成对关系图
sns.pairplot(tips_df)
#sns.pairplot(df) # 全部数值列进行两两组合
#sns.pairplot(df, vars=['列名1', '列名2']) # 指定要组合展示的列名
plt.show()
# 自行调整成对关系图的绘图图形
pair_grid = sns.PairGrid(tips_df)
# 中间轴线上的图设为kdeplot
pair_grid.map_diag(sns.kdeplot) 
# 右上设为lineplot
pair_grid.map_upper(sns.lineplot) 
# 左下设为scatterplot
pair_grid.map_lower(sns.scatterplot) 
plt.show()

5. pyecharts数据可视化

1.1 案例解析:代码实现

# 可以绘制酷炫的图形
# 绘图套路 -> 参考官方示例代码进行修改即可

# 绘制2019年不同国家GDP值的词云图
# 准备要绘制词云图的数据 -> [(国家1, gdp值), (国家2, gdp值), ...]
data = pd.read_csv('data/1960-2019全球GDP数据.csv', encoding='gbk')
data
# 获取year列为2019的数据子集
data_2019= data.query('year==2019')
data_2019
# 通过zip函数将不同列表对应位置的值保存到元组中
a = [1,2,3]
b = [4,5,6]
list(zip(a, b))
data2 = list(zip(data_2019['country'], data_2019['GDP']))
data2

from pyecharts import options as opts  # 配置选项
from pyecharts.charts import WordCloud  # 词云图
c = (
    WordCloud()
    # 添加数据
    .add(series_name="不同国家GDP", data_pair=data2, word_size_range=[6, 66])
    # 设置全局配置
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="不同国家GDP的词云图", title_textstyle_opts=opts.TextStyleOpts(font_size=10)
        ),
        tooltip_opts=opts.TooltipOpts(is_show=True)
    )
    # 将html格式的文件保存到指定为止
#     .render("basic_wordcloud.html")  
)
c.render_notebook()

6. 优衣库数据分析案例

1.1 案例解析:代码实现

# 导入模块
import pandas as pd

# 加载数据集
uniqlo = pd.read_csv('data/uniqlo.csv')
uniqlo.head()
# 查看数据集基本信息
uniqlo.info()
# 查看数值列描述统计指标
uniqlo.describe()
# 查看非数值列描述统计指标
uniqlo.describe(include='object')
# 查看销售金额小于等于0的数据
uniqlo.query('销售金额<=0')
uniqlo[uniqlo['销售金额'] >= 5000]

# 统计不同产品销售数量情况
# 统计不同产品的销售总量
# 分组聚合
uniqlo.groupby(by='产品名称')['产品数量'].sum().sort_values(ascending=False)
pd.pivot_table(data=uniqlo, index='产品名称', values='产品数量', aggfunc='sum')
# 不同产品不同城市销售数量
uniqlo.groupby(by=['产品名称', '城市'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='产品名称', columns='城市', values='产品数量', aggfunc='sum', margins=True)
# 不同产品不同城市以及不同销售渠道的销售数量
uniqlo.groupby(by=['产品名称', '城市', '销售渠道'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='产品名称', columns=['城市', '销售渠道'], values='产品数量', aggfunc='sum')

# 统计不同销售渠道情况
# 统计不同销售渠道的条目数
uniqlo['销售渠道'].value_counts()
uniqlo.groupby(by='销售渠道')['城市'].count()
uniqlo.groupby(by='销售渠道')['城市'].count().plot(kind='bar')
# 统计不同城市不同销售渠道的条目数
uniqlo.groupby(by=['城市','销售渠道'])[['产品数量']].count()
pd.pivot_table(data=uniqlo, index='城市', columns='销售渠道', values='产品数量', aggfunc='count')
# 绘制sns的分类计数图
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(16,8))
sns.countplot(data=uniqlo,y='城市',hue='销售渠道')
plt.show()
# 统计不同城市不同销售渠道的产品总数
uniqlo.groupby(by=['城市', '销售渠道'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='城市', columns='销售渠道', values='产品数量', aggfunc='sum', margins=True)

# 用户消费时间分析
# 不同消费时间的条目数
uniqlo['消费时间'].value_counts()
uniqlo.groupby(by='消费时间')['城市'].count()
# 不同消费时间产品总数
uniqlo.groupby(by='消费时间')['产品数量'].sum()
# 不同城市不同消费时间的产品数量
uniqlo.groupby(by=['消费时间', '城市'])[['产品数量']].sum()
wkd_sales = pd.pivot_table(data=uniqlo,index='消费时间', columns='城市', values='产品数量', aggfunc='sum')
wkd_sales
# 获取第一行数据
wkd_sales.loc['Weekday', :]
wkd_sales.loc['Weekday']
# 统计不同城市不同消费时间日均产品数量
# 在wkd_sales基础上增加两行数据
# 获取一行数据得到s对象, s对象运算操作
wkd_sales.loc['Weekday_avg',:] = wkd_sales.loc['Weekday', :] / 5
wkd_sales.loc['Weekend_avg',:] = wkd_sales.loc['Weekend', :] / 2
wkd_sales

# 销售额和成本之间的关系
# 获取多列数据
uniqlo[['销售金额', '单件成本']]
# 计算相关性系数
uniqlo[['销售金额', '单件成本']].corr()
# 销售金额是所有销售产品数量的总金额, 单件成本是一件产品成本
# 需要先计算单件销售金额 = 销售金额 / 产品数量
# 计算相关性需要先过滤掉异常数据
uniqlo2 = uniqlo[uniqlo['销售金额']>0]
uniqlo2
# 添加新的一列 单件销售金额 
uniqlo2['单件销售金额'] = uniqlo2['销售金额'] / uniqlo2['产品数量']
uniqlo2
# 计算单件销售金额和单件成本相关系数
uniqlo2[['单件销售金额', '单件成本']].corr()
# 绘制散点图
sns.scatterplot(data=uniqlo2, x='单件成本', y='单件销售金额')
# 绘制热力图
sns.heatmap(uniqlo2[['单件销售金额', '单件成本']].corr())

所需文件已经上传:第27天

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1899757.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

昇思25天学习打卡营第18天|Pix2Pix实现图像转换

Pix2Pix概述 Pix2Pix是基于条件生成对抗网络实现的一种深度学习图像转换模型。Pix2Pix是将cGAN应用于有监督的图像到图像翻译&#xff0c;包括生成器和判别器。 基础原理 cGAN的生成器是将输入图片作为指导信息&#xff0c;由输入图像不断尝试生成用于迷惑判别器的“假”图像…

【三】ubuntu24虚拟机集群配置免密登陆

文章目录 环境背景1. 配置域名映射2. 配置免密登录2.1 在每台机器上生成SSH密钥对&#xff1a;2.2 将公钥分发到其他机器&#xff1a;2.2.1 报错问题2.2.2 修复方法 3. 验证免密登录在 ubuntu1 上&#xff1a;在 ubuntu2 上&#xff1a;在 ubuntu3 上&#xff1a; 测试连接 环境…

应急响应-网站入侵篡改指南Webshell内存马查杀漏洞排查时间分析

查看146天的内存马 方法&#xff1a; 1. 日志 这种地址一般在扫描 还要注意post传参注入 对其进行全局定位 发现有sql注入 我们可以也尝试去sqlmap注入 如果以这种方式注入ua头就会改变 2. 了解自己的中间件&#xff0c;框架&#xff0c;cve&#xff0c;等 因为不知道时间…

linux-5.10.110内核源码分析 - Freescale ls1012a pcie host驱动

1、dts pcie设备树 1.1、pcie设备树 pcie1: pcie3400000 {compatible "fsl,ls1012a-pcie";reg <0x00 0x03400000 0x0 0x00100000 /* controller registers */0x40 0x00000000 0x0 0x00002000>; /* configuration space */reg-names "regs", &…

Linux-DNS

DNS域名解析服务 1.DNS介绍 DNS 是域名系统 (Domain Name System) 的缩写&#xff0c;是因特网的一项核心服务&#xff0c;它作为可以将域名和IP地址相互映射的一个分布式数据库&#xff0c;能够使人更方便的访问互联网&#xff0c;而不用去记住能够被机器直接读取的IP数串。…

乐鑫ESPRESSIF芯片开发简介

乐鑫科技&#xff08;Espressif Systems&#xff0c;通常简称乐鑫或ESPRESSIF&#xff09;是一家全球化的无晶圆厂半导体公司&#xff0c;专注于研发无线通信微控制器单元&#xff08;MCU&#xff09;芯片&#xff0c;特别在物联网&#xff08;IoT&#xff09;领域有着显著的影…

【CentOS 7.6】Linux版本 portainer本地镜像导入docker安装配置教程,不需要魔法拉取!(找不着镜像的来看我)

吐槽 我本来根本不想写这篇博客&#xff0c;但我很不解也有点生气&#xff0c;CSDN这么大没有人把现在需要魔法才能拉取的镜像放上来。 你们都不放&#xff0c;根本不方便。我来上传资源。 portainer-ce-latest.tar Linux/amd64 镜像下载地址&#xff1a; 链接&#xff1a;h…

windows下搭建python+jupyter notebook

一.下载python 下面网址下载python3 https://www.python.org/ 二. 安装jupyter notebook 三. 修改配置 四. 检测是否正常运行

【IT领域新生必看】 Java编程中的重写(Overriding)规则:初学者轻松掌握的全方位指南

文章目录 引言什么是方法重写&#xff08;Overriding&#xff09;&#xff1f;方法重写的基本示例 方法重写的规则1. 方法签名必须相同示例&#xff1a; 2. 返回类型可以是子类型&#xff08;协变返回类型&#xff09;示例&#xff1a; 3. 访问修饰符不能比父类的更严格示例&am…

《C++20设计模式》代理模式

文章目录 一、前言二、实现1、UML类图2、实现 一、前言 这代理模式和装饰器模式很像啊。都是套一层类。&#x1f630; 主要就是功能差别 装饰器&#xff1a; 为了强化原有类的功能。代理模式&#xff1a; 不改变原有功能&#xff0c;只是强化原有类的潜在行为。 我觉的书上有…

spark on k8s两种方式的原理与对比

spark on k8s两种方式的原理与对比 1、spark on k8s 方式 spark-submit可以直接用来向 Kubernetes 集群提交 Spark 应用&#xff0c;提交机制如下&#xff1a; 1、Spark 创建一个在Kubernetes pod中运行的 Spark 驱动程序。 2、驱动程序创建在 Kubernetes Pod 中运行的执行器…

Python创建MySQL数据库

一、使用Docker部署本地MySQL数据库 docker run --restartalways -p 3307:3306 --name mysql -e MYSOL_ROOT_PASSWORDlms123456 -d mysql:8.0.25 参数解析: 用户名:root 密码:lms123456 端口:3307 二、在Pycharm开发工具中配置连接MySQL数据库 三、安装zdppy_mysql pip inst…

《向量数据库指南》——Milvus Cloud索引增强如何提升 RAG Pipeline 效果?

索引增强 1.自动合并块 在建立索引时&#xff0c;分两个粒度搭建&#xff0c;一个是chunk本身&#xff0c;另一个是chunk所在的parent chunk。先搜索更细粒度的chunks&#xff0c;接着采用一种合并的策略——如果前k个子chunk中超过n个chunk属于同一个parent chunk&#xff0c…

centos下编译安装redis最新稳定版

一、目标 编译安装最新版的redis 二、安装步骤 1、redis官方下载页面 Downloads - Redis 2、下载最新版的redis源码包 注&#xff1a;此时的最新稳定版是 redis 7.2.5 wget https://download.redis.io/redis-stable.tar.gz 3、安装编译环境 yum install -y gcc gcc-c …

使用patch-package自动修改node_modules中的内容/打补丁

背景 在使用VuePress搭建个人博客的过程中&#xff0c;我需要使用到一个用来复制代码块的插件uepress-plugin-nuggets-style-copy。 问题&#xff1a;插件可以正常安装&#xff0c;但是启动会报错。通过查看错误信息&#xff0c;定位是插件中的copy.vue文件出现错误&#xff0c…

学习笔记——动态路由——OSPF聚合(汇总)

十一、OSPF聚合(汇总) 1、路由聚合(汇总) 路由汇总是一种重要的思想&#xff0c;在大型的项目中是必须考虑的一个重点事项。随着网络的规模越来越大&#xff0c;网络中的设备所需维护的路由表项也就会越来越多&#xff0c;路由表的规模也就会逐渐变大&#xff0c;而路由表是需…

【智能算法应用】麻雀搜索算法SSA优化Kmeans图像分割

目录 1.算法原理2.数学模型3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】麻雀搜索算法&#xff08;SSA&#xff09;原理及实现 2.数学模型 Kmeans是一种无监督的聚类算法,由于参数简洁,时间复杂度低已成功应用于图像分割,取得了良好的分割效果。但传统的 K 均值聚…

45 mysql truncate 的实现

前言 truncate 是一个我们也经常会使用到的命令 其作用类似于 delete from $table; 但是 他会比 delete 块很多&#xff0c;这里我们来看一下 它的实现 delete 的时候会逐行进行处理, 打上 删除标记, 然后 由后台任务 进行数据处理 truncate table 的实现 执行 sql 如下 …

计算机图形学入门24:材质与外观

1.前言 想要得到一个漂亮准确的场景渲染效果&#xff0c;不只需要物理正确的全局照明算法&#xff0c;也要了解现实中各种物体的表面外观和在图形学中的模拟方式。而物体的外观和材质其实就是同一个意思&#xff0c;不同的材质在光照下就会表现出不同的外观&#xff0c;所以外观…