二十二、数据运算

news2024/11/15 10:44:09

目录

一、算术运算

二、比较运算

三、汇总运算

1、count非空值计数

2、sum求和

3、mean求均值

4、max求最大值

5、min求最小值

6、median求中位数

7、mode求众数

8、var求方差

9、std求标准差

10、quantile求分位数

四、相关性运算


一、算术运算

算术运算就是基本的加减乘除,在Excel或Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算,Excel中的运算比较简单,主要介绍Python中的算术运算。

两列相加的具体实现如下所示:

>>>df
   C1   C2  C3
S1 1    2   3
S2 4    5   6
>>>df["C1"]+df["C2"]
S1   3
S2   9
DTPYE:INT64

相减、相乘、相除类似。

任意一列加/减一个常数值,这一列中额所有值都加/减这个常数值。

二、比较运算

比较运算和Python基础知识中讲到的比较运算一致,也是常规的大于、等于、小于之类的,只不过这里的比较是在列与列之间进行的。

在Excel中列与列之间的比较运算和Python中的方法一致,例子如下图所示:

 下面是一些Python中列与列之间比较的例子

>>>df ["C1"]>df["C2"]
S1 false
S2 false
dtype:bool

三、汇总运算

上面讲到的算术运算和比较运算都是在列与列之间进行的吗,运算结果有多少行的值,就会返回多少个结果,而汇总运算是将数据进行汇总返回一个汇总以后的结果值。

1、count非空值计数

非空值计数就是计算某一个区域中非空(单元格)数值的个数。

在Excel中counta()函数用于计算某个区域中非空单元格的个数。与counta()函数类似count()函数,它用于计算某个区域中含有数字的单元格的个数。

在Python中,直接在整个数据表上调用count()函数,返回的结果为该数据表中每列的非空值的个数,具体时间如下所示:

>>>df.count()
C1 2
C2 2
C3 3
dtype:int64

count()函数默认是求取每一列的非空数值的个数,可以通过修改axis参数让其等于1,来求取每一行的非空数值的个数。

>>>df.count(axis=1)
S1 3
S2 3
dtype:int64

也可以把某一列或者某一行索引出来,单独查看这一列或这一行的非空值个数。

>>>df["C1"].count()
2

2、sum求和

求和就是对某一区域中的所有数值进行加和操作。

在Excel中要求取某一区域的和,直接在sum()函数后面的括号中指明要求和的区域,即要对哪些值进行求和操作即可。

sum(D2:D6)#表示对D2:D6范围的数值进行求和操作

在Python中,直接在整个数据表上调用sum()函数,返回的是该含数据表每一列的求和结果,具体例子如下:

>>>df.sum()
C1 5
C2 7
C3 9
dtype:int64

sum()函数默认对每一列进行求和,可通过修改axis参数,让其等于1,来对每一行的数值进行求和操作。

>>>df.sum(axis=1)
S1 6
S2 15
DTYPE:INT64

也可以把某一列或者某一行索引出来,单独对这一列或这一行数据进行求和操作。

>>>df["C1"].sum()

3、mean求均值

求均值是针对某一区域中的所有值进行求算术平均值运算。均值是用来衡量数据一般情况的指标,容易受到极大值、极小值的影响。

在Excel中对某个区域内的值进行求平均值运算,用的是average()函数,只要在average()函数中指明要求均值运算的区域即可,比如:

average(D2:D6)#表示对D2:D6范围内的值进行求均值运算

在Python中的求均值利用的是mean()函数吗,如果对整个表直接调用mean()函数,返回的是该表中每一列的均值。

>>>df.mean()
C1 2.5
C2 3.5
C3 4.5
dtpye:float64

mean()函数默认是对数据表中的每一列进行求均值运算,可通过修改axis参数,让其等于1,来对每一行进行求均值运算。

>>>df.mean(axis=1)
S1  2.0
S2  5.0
dtpye : float64

也可以把某一列或者某一行通过索引的方式取出来,然后在这一行或这一列上调用mean()函数,单独求取这一行或这一列的均值。

>>>df["C1"].mean()#对C1列求均值
2.5

4、max求最大值

求最大就是比较一组数据中所有数值的大小,然后返回最大的一个值。

在Excel和Python中,求最大值使用的都是max()函数,在Excel中同样只需要在max()函数中指明要求最大值的区域即可:在Python中,和其他函数一样,如果对整个表直接调用max()函数,则返回该数据表中每一列的最大值。max()函数也可以对每一行求最大值,还可以单独对某一行或某一列求最大值。

>>>df.max()
C1  4
C2  5
C3  6
dtype:int64
#对每一行求最大值
>>>df.max(axis = 1)
S1   3
S2   6
dtpye:int64
>>>df["C1"].max()#对C1求最大值
4

5、min求最小值

求最小值与求最大值是相对应的,通过比较一组数据中所有数值的大小,然后返回最小的那个值。

在Excel和Python中都使用min()函数来求最小值,它的使用方法与求最大值的类似。

6、median求中位数

中位数就是将一组含有N个数据的序列X按从小到大排列,位于中间位置的那个数。

中位数是以中间位置的数来反映数据的一般情况,不容易受到极大值、极小值的影响,因而在反映数据分布情况上要比平均值更有代表性。

现有序列为X:{X1、X2、X3、.......、Xn}。

如果n为奇数,则中位数: 

如果n为偶数,则中位数:

在Excel和Python中求一组数据的中位数,都是使用median()函数来实现的。下面为在Excel中求中位数的示例:

median(D2:D6)#表示求D2:D6区域内的中位数

在Python中,median()函数的使用原则和其他函数的一致。

#对整个表调用median()h函数
>>>df.median()
C1 4.0
C2 5.0
C3 6.0
dtpye:float 64
#求取每一行的中位数
>>>df.median(axis = 1)
S1 2.0
S2 5.0
S3 8.0
dtpye:float 64
#求取C1列的中位数
>>>df["C1"].median()
4.0

7、mode求众数

顾名思义,众数就是一组数据中出现次数最多的数,求众数就是返回这组数据中出现次数最多的那个数。

在Excel和Python中求众数都使用mode()函数,使用原则与其他函数完全一致。

在Excel中求众数的示例如下:

mode(D2:D6)#返回D2:D6之间出现次数最多的值

在Python中求众数的示例如下:

#对整个表调用mode()函数
>>>df
   C1  C2  C3
S1 1    1   3
S2 4    4   6
S3 1    1   3
>>>df.mode()
  C1  C2  C3
0  1   1   3
#求取每一行的众数
>>>df.mode(axis = 1)
     0
S1   1
S2   4
S3   1
#求取C1列的众数
>>>df["C1"].mode()
0 1
dtype:int64 

8、var求方差

方差是用来衡量一组数据的离散程度(即数据波动幅度)的。

在Excel和Python中求一组数据中的方差都使用var()函数。

9、std求标准差

标准差是方差的平方根,二者都是用来表示数据的离散程度的。

在Excel中计算标准差使用的是stdevp()函数。

在Python中计算标准差使用的是std()函数,std()函数的使用原则与其他函数的一致。

10、quantile求分位数

分位数是比中位数更加详细的基于位置的指标,分位数主要有四分之一分位数、四分之二分位数、四分之三分位数,而四分之二分位数就是中位数。

在Excel中求分位数用的是percentile()函数,示例如下:

percentile(D2:D6,0.5)#表示求D2:D6区域内的二分之一分位数
percentile(D2:D6,0.25)#表示求D2:D6区域内的四分之一分位数
percentile(D2:D6,0.75)#表示求D2:D6区域内的四分之三分位数

在Python中求分位数用的是quantile()函数,要在quantile后的括号中指明要求取的分位数值,quantile()函数与其他函数的使用规则相同。

四、相关性运算

相关性常用来衡量两个实物之间的相关程度,我们一般用相关系数来衡量两者的相关程度,所以相关性计算其实就是计算相关系数,比较常用的是皮尔逊相关系数。

在Excel中求取相关系数用的是correl()函数,示例如下:

correl(A1:A10,B1:B10)#求取A列指标与B列指标的相关系数

在Python中求取相关系数用的是corr()函数,示例如下:

>>>df
      co11    co12
0     1       2
1     3       4
2     5       6
3     7       8
4     9       10
>>>df["co11"].corr(df["co12"])
#求取co11列与co12列的相关系数
0.9999999999

还可以利用corr()函数求取整个DATAFRame表中各字段两两之间的相关性。

>>>df.corr()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/740098.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Boundless Hackathon @Stanford 主题黑客松活动闭幕,一文回顾

由 Stanford Blockchain Accelerator、Zebec Protocol、 Nautilus Chain、Rootz Lab 共同主办了“ Boundless Hackathon Stanford ” 主题的黑客松活动在 7 月 1 日正式落下帷幕。 本次黑客松活动旨在帮助更多的优质开发者参与到 Web3 世界的发展中,以推动链上设施的…

【优选算法题练习】day3

文章目录 一、15. 三数之和1.题目简介2.解题思路3.代码4.运行结果 二、18. 四数之和1.题目简介2.解题思路3.代码4.运行结果 三、209. 长度最小的子数组1.题目简介2.解题思路3.代码4.运行结果 总结 一、15. 三数之和 1.题目简介 15. 三数之和 给你一个整数数组 nums &#xff…

Python---文件与文件夹操作(你想了解的基本都在这)

前言: 计算机操作系统是以文件为单位对数据进行管理的。文件是指存储在某种介质上的数据集合。文件在存储介质上的位置是由驱动器名称、文件夹以及文件名来定位的。Python具有强大的文件处理功能,如文件的创建、打开、文件内容的写入、读出文件中的内容…

初级嵌入式软件工程师养成记(学习路线+学习资源+实战项目汇总)

我的圈子: 高级工程师聚集地 我是董哥,高级嵌入式软件开发工程师,从事嵌入式Linux驱动开发和系统开发,曾就职于世界500强企业! 创作理念:专注分享高质量嵌入式文章,让大家读有所得! …

【Nginx07】Nginx学习:HTTP核心模块(四)错误页面与跳转

Nginx学习:HTTP核心模块(四)错误页面与跳转 最最核心的部分学习完了,但其实还有更多的内容要等待着我们探索。今天我们先来看到的就是关于错误页面的设置以及 301、302 跳转相关的内容。这两块内容都有一个特点,那就是…

基于51单片机+SHT30设计的环境温度与湿度检测设备(IIC模拟时序)

一、项目介绍 当前文章介绍基于51单片机和SHT30传感器设计的环境温度与湿度检测设备。设备采用IIC模拟时序通信协议,能够实时监测环境的温度和湿度,并将数据通过LCD显示屏显示出来;可以广泛应用于室内环境监测、气象观测、农业温室监测等领域…

路径规划算法:基于白冠鸡优化的路径规划算法- 附代码

路径规划算法:基于白冠鸡优化的路径规划算法- 附代码 文章目录 路径规划算法:基于白冠鸡优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法…

leetcode 74. 搜索二维矩阵(java)

搜索二维矩阵 leetcode 74. 搜索二维矩阵题目描述抽象BST代码演示 抽象BST leetcode 74. 搜索二维矩阵 来源:力扣(LeetCode) 链接:https://leetcode.cn/problems/search-a-2d-matrix 题目描述 给你一个满足下述两条属性的 m x n 整…

033、TiDB特性_AUTO_INCREMENT

自增列 实现原理使用限制相关参数示例 实现原理 每一个自增列使用一个全局可见的键值对用于记录当前已分配的最大ID为了降低分布式系统分配自增ID的网络开销,每个TiDB节点会缓存一个不重复的ID段当前预分配的ID段使用完毕,或重启,都会重新再…

【数据结构导论】第 6 章:查找

目录 一、基本概念 二、静态查找表 (1)顺序表上的查找 —— 顺序查找 ① 过程 ② 算法 ③ 算法分析 (2)有序表上的查找 —— 二分查找 ① 二分查找思想 ② 二分查找过程 ③ 二分查找算法 ④ 示例 ⑤ 算法分析 &#…

CentOS系统内核升级(在线 离线)

centos7.x默认内核版本3.10.x,在安装docker时,部分功能(如 overlay2 存储层驱动)无法使用,并且部分功能可能不太稳定。所以建议大家升级到最新的稳定内核版本。 在线升级 1. 查看当前内核版本 uname -sr Linux 3.10…

python脚本编译成exe方式进行交付

Python自动化办公越来越方便,我们经常也会利用python来写一些自动化的小脚本,例如批量处理文档,自动发送邮件等等。 也许是平时吹得牛比较多,有一天秦医生就问起我说能不能给她写一个自动化处理生信数据的小脚本。 这当然是毫无问…

Stable Diffusion - 扩展插件 (Extensions) 功能的配置与使用

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/131576762 Prompt: (masterpiece, top quality, best quality, ((standing in centre)), ((1girl, black hair)), ((upper body, symmetrical com…

视频无损放大修复工具:Topaz Video AI对Mac和Windows的系统要求

Topaz Video AI是一款基于人工智能技术的视频增强软件,旨在提供高质量的视频修复、增强和转换功能。它可以通过智能算法和图像处理技术,改善视频的清晰度、稳定性、降噪效果,还能进行视频转码和格式转换。 Mac:Topaz Video AI fo…

[pyqt5]designer设计界面设计工具栏上图标和文字同时显示

打开设计师界面 右侧先选择toolBar然后去属性找到toolButtonStyle设置对应选项即可。

图扑 AR 技术应用与管理:施工建造、机柜扫描、办公室导航解决方案

随着科技的不断革新和创新,越来越多的行业开始迎来数字化时代的变革。建筑行业作为人类历史上最重要的产业之一,在数字化转型方面同样也在不断推进。图扑软件结合 AR 技术的应用,为建筑行业带来了更加便捷高效的建筑施工过程管理。 传统的建筑…

MathType7.4中文版下载安装教程

MathType7.4版是一款功能强大、专业实用、应用范围广的数学公式编辑器软件,这款软件采用了简体中文操作界面并且完美兼容office、wps等一系列常见办公工具,这样就能够很好的为相关用户省去了许多繁琐的操作步骤,用户在这里可以轻轻松松进行公…

使用Pytorch加载预训练模型及修改网络结构

Pytorch有自带的训练好的AlexNet、VGG、ResNet等网络架构。详见官网 1.加载预训练模型 import torch import torchvision import torch.nn as nn import torch.optim as optim import torch.nn.functional as F import torchvision.transforms as transforms import torchvis…

VBA系列技术资料MF33:VBA_将文本文件转换为Excel

【分享成果,随喜正能量】一心热枕对待生活,静静的安抚自己内心的急迫和焦虑,你人生的好运,常常在你沉醉于生活时悄悄临门的。。 我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高…

vue本地开发集成https

背景:在本地项目开发中,调用第三方服务获取音视频通话,音视频通话是采用 WebRTC 来实现的,而 WebRTC 中使用音视频设备进行取流是需要在安全域下才可以调起的设备权限 解决方案:使用npm安装mkcert,配置证书…