数据处理专题(四)

news2025/7/5 16:58:36

目标

使用 Matplotlib 进行基本的数据可视化。‍

学习内容

绘制折线图

绘制散点图

绘制柱状图‍

代码示例

 

1. 导入必要的库

import matplotlib.pyplot as pltimport numpy as npimport pandas as pd

2. 创建示例数据集

# 创建示例数据集data = {    '月份': ['1月', '2月', '3月', '4月', '5月', '6月'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")

3. 绘制折线图

绘制单条折线图

# 绘制单条折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.xlabel('月份')plt.ylabel('销售额 (万元)')plt.title('每月销售额折线图')plt.legend()plt.grid(True)plt.show()

绘制多条折线图

# 绘制多条折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.plot(df['月份'], df['成本'], marker='s', linestyle='--', color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本折线图')plt.legend()plt.grid(True)plt.show()

 

4. 绘制散点图

绘制单个散点图

# 绘制单个散点图plt.scatter(df['销售额'], df['成本'], color='g', label='销售额 vs 成本')plt.xlabel('销售额 (万元)')plt.ylabel('成本 (万元)')plt.title('销售额与成本散点图')plt.legend()plt.grid(True)plt.show()

 

绘制带颜色和大小变化的散点图

# 绘制带颜色和大小变化的散点图sizes = df['销售额'] / 10  # 散点大小colors = np.random.rand(len(df))  # 随机颜色plt.scatter(df['销售额'], df['成本'], s=sizes, c=colors, alpha=0.5, label='销售额 vs 成本')plt.xlabel('销售额 (万元)')plt.ylabel('成本 (万元)')plt.title('销售额与成本散点图')plt.legend()plt.grid(True)plt.show()

 

5. 绘制柱状图

绘制单个柱状图

# 绘制单个柱状图plt.bar(df['月份'], df['销售额'], color='b', label='销售额')plt.xlabel('月份')plt.ylabel('销售额 (万元)')plt.title('每月销售额柱状图')plt.legend()plt.grid(True)plt.show()

 

绘制堆叠柱状图​​​​​​​

# 绘制堆叠柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本堆叠柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

 

绘制并排柱状图​​​​​​​

# 绘制并排柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本并排柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

 

实践

 

绘制一个数据集的折线图和柱状图。​​​​​​​

# 导入必要的库import matplotlib.pyplot as pltimport pandas as pd# 创建示例数据集data = {    '月份': ['1月', '2月', '3月', '4月', '5月', '6月'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")# 绘制折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.plot(df['月份'], df['成本'], marker='s', linestyle='--', color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本折线图')plt.legend()plt.grid(True)plt.show()

 

    # 绘制柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本并排柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

     

     通过以上,你应该已经掌握了如何使用 Matplotlib 进行基本的数据可视化,包括绘制折线图、散点图和柱状图

    数据聚合和分组

    目标

     

    学会使用 Pandas 进行数据聚合和分组。‍

    学习内容

     

    groupby 方法

    聚合函数(sum, mean, max, min)‍

    代码示例

     

    1. 导入 Pandas 库

    import pandas as pd

    2. 创建示例数据集​​​​​​​

    # 创建示例数据集data = {    '姓名': ['张三', '李四', '王五', '张三', '赵六', '李四'],    '部门': ['销售部', '市场部', '技术部', '销售部', '财务部', '市场部'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")

    3. 使用 groupby 方法

    按单一列分组​​​​​​​

    # 按 '部门' 列分组grouped_by_department = df.groupby('部门')print(f"按 '部门' 列分组的结果: \n{grouped_by_department}")

    获取分组后的对象​​​​​​​

    # 获取分组后的对象for department, group in grouped_by_department:    print(f"部门: {department}")    print(f"数据: \n{group}\n")

    4. 聚合函数

    计算每组的均值​​​​​​​

    # 计算每组的均值mean_sales_by_department = grouped_by_department['销售额'].mean()print(f"按 '部门' 列分组后,每组的销售额均值: \n{mean_sales_by_department}")

    计算每组的总和​​​​​​​

    # 计算每组的总和sum_sales_by_department = grouped_by_department['销售额'].sum()print(f"按 '部门' 列分组后,每组的销售额总和: \n{sum_sales_by_department}")

    计算每组的最大值​​​​​​​

    # 计算每组的最大值max_sales_by_department = grouped_by_department['销售额'].max()print(f"按 '部门' 列分组后,每组的销售额最大值: \n{max_sales_by_department}")

    计算每组的最小值​​​​​​​

    # 计算每组的最小值min_sales_by_department = grouped_by_department['销售额'].min()print(f"按 '部门' 列分组后,每组的销售额最小值: \n{min_sales_by_department}")

    5. 多列聚合

    计算多列的均值​​​​​​​

    # 计算多列的均值mean_by_department = grouped_by_department[['销售额', '成本']].mean()print(f"按 '部门' 列分组后,每组的销售额和成本均值: \n{mean_by_department}")

    计算多列的总和​​​​​​​

    # 计算多列的总和sum_by_department = grouped_by_department[['销售额', '成本']].sum()print(f"按 '部门' 列分组后,每组的销售额和成本总和: \n{sum_by_department}")

    6. 多级分组

    按多列分组​​​​​​​

    # 按 '部门' 和 '姓名' 列分组grouped_by_department_name = df.groupby(['部门', '姓名'])mean_sales_by_department_name = grouped_by_department_name['销售额'].mean()print(f"按 '部门' 和 '姓名' 列分组后,每组的销售额均值: \n{mean_sales_by_department_name}")​​​​​​​
    

    实践

     

    对一个数据集按某一列进行分组,并计算每组的均值。​​​​​​​

    # 导入 Pandas 库import pandas as pd# 创建示例数据集data = {    '姓名': ['张三', '李四', '王五', '张三', '赵六', '李四'],    '部门': ['销售部', '市场部', '技术部', '销售部', '财务部', '市场部'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")# 按 '部门' 列分组grouped_by_department = df.groupby('部门')# 计算每组的均值mean_sales_by_department = grouped_by_department['销售额'].mean()print(f"按 '部门' 列分组后,每组的销售额均值: \n{mean_sales_by_department}")# 计算多列的均值mean_by_department = grouped_by_department[['销售额', '成本']].mean()print(f"按 '部门' 列分组后,每组的销售额和成本均值: \n{mean_by_department}")

    ​​​​​​​

     

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2325521.html

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

    相关文章

    【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解

    【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解 文章目录 【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解前言YOLOV1的模型结构YOLOV1模型的基本执行流程YOLOV1模型的网络参数YOLOV1模型的训练方式 YOLOV1的核心思想前向传播阶段网格单元(grid cell)…

    云钥科技多通道工业相机解决方案设计

    项目应用场景分析与需求挑战 1. 应用场景 ‌目标领域‌:工业自动化检测(如精密零件尺寸测量、表面缺陷检测)、3D立体视觉(如物体建模、位姿识别)、动态运动追踪(如高速生产线监控)等。 ‌核心…

    从零到一:ESP32与豆包大模型的RTC连续对话实现指南

    一、对话效果演示 ESP32与豆包大模型的RTC连续对话 二、ESP-ADF 介绍 乐鑫 ESP-ADF(Espressif Audio Development Framework)是乐鑫科技(Espressif Systems)专为 ESP32 系列芯片开发的一款音频开发框架。它旨在简化基于 ESP32 芯…

    【深度学习与实战】2.3、线性回归模型与梯度下降法先导案例--最小二乘法(向量形式求解)

    为了求解损失函数 对 的导数,并利用最小二乘法向量形式求解 的值‌ 这是‌线性回归‌的平方误差损失函数,目标是最小化预测值 与真实值 之间的差距。 ‌损失函数‌: 考虑多个样本的情况,损失函数为所有样本的平方误差之和&a…

    【Django】教程-2-前端-目录结构介绍

    【Django】教程-1-安装创建项目目录结构介绍 3. 前端文件配置 3.1 目录介绍 在app下创建static文件夹, 是根据setting中的配置来的 STATIC_URL ‘static/’ templates目录,编写HTML模板(含有模板语法,继承,{% static ‘xx’ …

    详解list容器

    1.list的介绍 list的底层结构是双向带头循环链表,允许随机的插入和删除,但其内存空间不是连续的。随机访问空间能力差,需要从头到尾遍历节点,不像vector一样高效支持 2.list的使用 构造函数 1.默认构造函数:创建一个…

    leetcode_977. 有序数组的平方_java

    977. 有序数组的平方https://leetcode.cn/problems/squares-of-a-sorted-array/ 1.题目 给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。 示例 1: 输入:nums [-4,-1…

    网络探索之旅:网络原理(第二弹)

    上篇文章,小编分享了应用层和传输层深入的一点的知识,那么接下来,这篇文章,继续分享网络层和数据链路层。 网络层 了解这个网络层,那么其实就是重点来了解下IP这个协议 对于这个协议呢,其实也是和前面的…

    深入剖析 JVM:从组成原理到调优实践

    深入剖析 JVM:从组成原理到调优实践 深入剖析 JVM:从组成原理到调优实践一、JVM 组成架构:运行 Java 程序的 “幕后引擎”1.1 内存结构:数据存储的 “分区管理”1.2 执行引擎:字节码的 “翻译官”1.3 本地方法接口&…

    阿里云下一代可观测时序引擎-MetricStore 2.0

    作者:徐昊(博澍) 背景 作为可观测场景使用频度最高的数据类型,Metrics 时序数据在可观测领域一直占有着重要地位,无论是从全局视角来观测系统整体状态,还是从大范围数据中定位某一个异常的位置&#xff0…

    从入门到精通【 MySQL】 数据库约束与设计

    文章目录 📕1. 数据库约束✏️1.1 NOT NULL 非空约束✏️1.2 DEFAULT 默认值约束✏️1.3 UNIQUE 唯一约束✏️1.4 PRIMARY KEY 主键约束✏️1.5 FOREIGN KEY 外键约束✏️1.6 CHECK 约束 📕2. 数据库设计✏️2.1 第一范式✏️2.2 第二范式✏️2.3 第三范…

    Dubbo 通信流程 - 服务的调用

    Dubbo 客户端的使用 在 Dubbo 应用中,往类成员注解 DubboReference,服务启动后便可以调用到远端: Component public class InvokeDemoFacade {AutowiredDubboReferenceprivate DemoFacade demoFacade;public String hello(String name){// …

    【数据结构】哈夫曼树

    哈夫曼树 在学习哈夫曼树之前,先了解以下几个概念: 一:**路径长度:**在一棵树中,从一个节点到另一个节点所经过的“边”的数量,被我们称为两个节点之间的路径长度。 二:**树的路径长度&#xf…

    HCIP(TCP)(2)

    1. TCP三次握手 SYN (同步序列编号) 报文: 客户端发送 SYN 报文,开始建立连接,并初始化序列号。 SYN-ACK (同步序列编号-确认) 报文: 服务器收到 SYN 报文后,回复 SYN-ACK 报文,确认连接请求,并初始化自己的序列号和确…

    基于Web的交互式智能成绩管理系统设计

    目录 摘要 绪论 一、应用背景 二、行业发展现状 三、程序开发的重要意义 四、结语 1 代码 2 数据初始化模块 3 界面布局模块 4 核心功能模块 5 可视化子系统 6 扩展功能模块 7 架构设计亮点 功能总结 一、核心数据管理 二、智能分析体系 三、可视化系统 四、扩…

    k8s日志管理

    k8s日志管理 k8s查看日志查看集群中不是完全运行状态的pod查看deployment日志查看service日志进入pod的容器内查看日志 管理k8s组件日志kubectl logs查看日志原理 管理k8s应用日志收集k8s日志思路收集标准输出收集容器中日志文件 k8s查看节点状态失败k8s部署prometheus监控 k8s…

    element-plus中,Loading 加载组件的使用

    一.基本使用 给一个组件&#xff0c;如&#xff1a;table表格&#xff0c;加上v-loading"true"即可。 举例&#xff1a;复制如下代码。 <template><el-table v-loading"loading" :data"tableData" style"width: 100%"><…

    Mybatis_Plus中的常用注解

    目录 1、TableName TableId TableId的type属性 TableField 1、TableName 经过以上的测试&#xff0c;在使用MyBatis-Plus实现基本的CRUD时&#xff0c;我们并没有指定要操作的表&#xff0c;只是在 Mapper接口继承BaseMapper时&#xff0c;设置了泛型User&#xff0c;而操…

    高并发金融系统,“可观测-可追溯-可回滚“的闭环审计体系

    一句话总结 在高并发金融系统中&#xff0c;审计方案设计需平衡"观测粒度"与"系统损耗"&#xff0c;通过双AOP实现非侵入式采集&#xff0c;三表机制保障操作原子性&#xff0c;最终形成"可观测-可追溯-可回滚"的闭环体系。 业务痛点与需求 在…

    企业内训|DeepSeek技术革命、算力范式重构与场景落地洞察-某头部券商

    3月19日北京&#xff0c;TsingtaoAI公司负责人汶生受邀为某证券公司管理层和投资者举办专题培训&#xff0c;围绕《DeepSeek技术革命、算力范式重构与场景落地洞察》主题&#xff0c;系统阐述了当前AI技术演进的核心趋势、算力需求的结构性变革&#xff0c;以及行业应用落地的关…