python数据分析——apply 1

news2024/9/20 0:36:16

参考资料:活用pandas库

        apply是指把函数同时作用于DataFrame的每一行或每一列。类似于编写一些跨每行或每列的for循环,并同时调用apply函数。

1、函数

        函数是对python代码进行分组和复用的一种方法。如果某段代码会被多次使用,并且使用时是需要做少量修改,这时就应该考虑把这段代码放入一个函数中。

# 编写一个函数
# 求平方的函数
def my_sq(x):
    """
    求平方
    """
    return x**2

# 求平均数的函数
def my_avg(x,y):
    """
    求两个数的平均值
    """
    return(x+y)/2

        三重引号中的文本是文档字符串。在查找某个函数的帮助文档时,就会看到它们。可以是使用这些文档字符串为自定的函数创建帮助文档。

2、使用函数

# 导入库
import pandas as pd

# 创建一个DataFrame
df=pd.DataFrame({
    'a':[10,20,30],
    'b':[20,30,40]
})

(1)Series的apply方法

        Series有一个apply方法。该方法有一个func参数。当传递给它一个函数之后,apply方法就会把传入的函数应用于Series的每个元素。

# 把自定义的平方函数应用于列a
sq=df['a'].apply(my_sq)
print(sq)

        请注意,当把my_sq传递给apply时,不要在my_sq后面加上圆括号。

        当自定函数有多个参数时,系统会将Series数据分配给第一个参数。

# 定义一个幂函数,包含两个参数
def my_exp(x,e):
    return x**e
# 当把my_exp函数应用于一个Series时,除了要把my_exp传递给apply之外,
# 还要多久传递一个参数,用于指定指数的大小。
# 传递改参数时,可以使用关键字参数。
ex=df['a'].apply(my_exp,e=3)
print(ex)

(2)DataFrame的apply方法

        DataFrame通常有至少两个维度(或称字段/列)。因此,当向DataFrame应用一个函数时,首先需要指定应用该函数的轴,例如逐行或逐列。

        如果把apply方法的axis参数设置为0(默认值),则表示按列应用指定函数。如果把axis参数设置为1,则按行应用指定函数。

        当向DataFrame应用一个函数时(默认按列应用),这个轴(如列)会传递到函数的第一个参数中。

# 自定义一个函数,它接收一个值,并将其输出。
def print_me(x):
    print(x)
    
# 按列应用,函数的第一个参数就是一个完整数据列,而不是一列的某个值
df.apply(print_me)

        如下的应用函数则会报错:

# 自定义一个函数,含有3个参数
def avg_3(x,y,z):
    return (x+y+z)/3
# 
df.apply(avg_3)

        正确的函数应用应该是:

3、apply高级用法

# 导入numpy库
import numpy as np
# 导入Titanic数据集
titanic=pd.read_csv(r"...\seaborn常用数据案例\titanic.csv")
# 查看数据集的基本信息
print(titanic.info())

# 编写函数
def count_missing(vec):
    """
    计算一个向量中缺失值的个数
    """
    # 根据值是否缺失获取一个由True/False值组成的向量
    null_vec=pd.isnull(vec)
    # 得到null_vec中的null值得个数
    # null值对应True,True为1,False为0
    null_count=np.sum(null_vec)
    # 返回向量中缺失值的个数
    return null_count

def prop_missing(vec):
    """
    计算向量中缺失值的占比
    """
    # 调用count_missing函数计算缺失值的个数
    num=count_missing(vec)
    # 获得向量中元素的个数
    dem=vec.size
    # 返回缺失值的占比
    return num/dem

def prop_complete(vec):
    """
    向量中非缺失值的占比
    """
    # 调用prop_missing函数计算缺失值的占比
    return 1-prop_missing(vec)

# 按列应用,用于对列的缺失数据情况进行分析
cmis_col=titanic.apply(count_missing)
pmis_col=titanic.apply(prop_missing)
pcom_col=titanic.apply(prop_complete)
print(cmis_col)
print(pmis_col)
print(pcom_col)

# 按行应用,用于行的缺失数据分析
cmis_row=titanic.apply(count_missing,axis=1)
pmis_row=titanic.apply(prop_missing,axis=1)
pcom_row=titanic.apply(prop_complete,axis=1)
print(cmis_row.head())
print(pmis_row.head())
print(pcom_row.head())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1703418.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flink 数据源

原理 在 Flink 中,数据源(Source)是其中一个核心组件,负责从各种来源读取数据供 Flink 程序处理。 Flink 的数据源类型丰富,涵盖了从简单测试到生产环境使用的各种场景。Kafka、Socket、文件和集合是 Flink 中最常见…

[转载]同一台电脑同时使用GitHub和GitLab

原文地址:https://developer.aliyun.com/article/893801 简介: 工作中我们有时可能会在同一台电脑上使用多个git账号,例如:公司的gitLab账号,个人的gitHub账号。怎样才能在使用gitlab与github时,切换成对应…

利用边缘计算网关的工业设备数据采集方案探讨-天拓四方

随着工业4.0时代的到来,工业设备数据采集成为了实现智能制造、提升生产效率的关键环节。传统的数据采集方案往往依赖于中心化的数据处理方式,但这种方式在面对海量数据、实时性要求高的工业场景时,往往显得力不从心。因此,利用边缘…

访问构造方法(反射)

文章目录 前言一、反射是什么?二、访问构造方法 1.Constructor对象的获取方法2.Constructor方法的使用总结 前言 Java的反射机制可以实现访问、检测和修改Java对象本身信息的功能,在java.lang.reflect包下提供此功能。可以使程序员更加深入地控制程序的运…

初识C语言——第二十九天

数组 本章重点 1.一维数组的创建和初始化 数组的创建 注意事项: 1.一维由低数组在内存中是连续存放的! 2.随着数组下标的增长,地址是由低到高变化的 2.二维数组的创建和初始化 注意事项: 1.二维数组在内存中也是连续存放的&am…

内网横向移动小补充 --->PTK

大家别急,我的基于资源的约束性委派攻击还在写,这个东西一时半会讲不清楚,所以我在这里先来补充一点横向移动以前没说好的东西!!! 在更啦,别催啦~~~~ 还记得我之前在内网渗透里面讲过这个PTK&a…

2024爆款神器!会声会影2024旗舰版,让你的视频制作技能暴涨,不学真的亏大了!

在数字内容创作的时代,视频编辑已经成为连接创意与现实的重要桥梁。无论是个人Vlog制作、在线教育课程、企业宣传还是专业影视制作,高效而强大的视频编辑软件成为了必不可少的工具。会声会影2024旗舰版,作为一款集先进技术与用户友好界面设计…

数据集007:垃圾分类数据集(含数据集下载链接)

数据集简介 本数据拥有 训练集:43685张; 验证集:5363张; 测试集:5363张; 总类别数:158类。 部分代码: 定义数据集 class MyDataset(Dataset):def __init__(self, modetrain, …

【MATLAB】去除趋势项(解决频谱图大部分为零的问题)

1.概 述 在许多实际信号分析处理中信号经FFT变换后得到的频谱谱线值几乎都为0,介绍这是如何形成的,又该如何去解决。 2.案例分析 读入一组实验数据文件(文件名为qldata.mat),作出该组数据的频谱图。程序清单如下: clear; clc; close all;…

(四)手把手教你内网穿透,实现外网主机访问内网服务器

背景:书接上回, 服务器的使用-CSDN博客 课题组成员都有自己的账号,且能通过内网访问服务器,进行远程连接了。我们知道内网中的主机可以访问公网的主机,反之不可以访问。那么如果课题组成员在家不在内网区域内&#x…

重生之 SpringBoot3 入门保姆级学习(07、整合 Redis 案例)

重生之 SpringBoot3 入门保姆级学习&#xff08;07、整合 Redis 案例&#xff09; 导入 Maven 依赖并刷新 Maven <dependencies><!--springboot3 Web 依赖--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring…

nginx流量监控:goAccess安装与使用

关于goAccess GoAccess 是一款实时、快速的日志分析工具&#xff0c;专门设计用于分析Web服务器日志&#xff0c;特别是Nginx日志。 安装 &#xff08;1&#xff09;准备相关依赖 # Missing development libraries for ncursesw # centOS yum install -y ncurses-devel # U…

动态规划-似包非包问题

组合总和 Ⅳ&#xff08;377&#xff09; 题目描述&#xff1a; 状态表示&#xff1a; 我们看到这题发现有一个限制条件就是目标整数target并且此时数组中的数字是可以重复选择的&#xff0c;这时候不难联想到前面学习的完全背包问题&#xff0c;这题好像符合完全背包问题的…

【开源】加油站管理系统 JAVA+Vue.js+SpringBoot+MySQL

目录 一、项目介绍 论坛模块 加油站模块 汽油模块 二、项目截图 三、核心代码 一、项目介绍 Vue.jsSpringBoot前后端分离新手入门项目《加油站管理系统》&#xff0c;包括论坛模块、加油站模块、汽油模块、加油模块和部门角色菜单模块&#xff0c;项目编号T003。 【开源…

nuxt2:自定义指令 / v-xxx / directives / 理解 / 使用方法 / DEMO

一、理解自定义指令 在 vue 中提供了一些对于页面和数据更为方便的输出&#xff0c;这些操作就叫做指令&#xff0c;以 v-xxx 表示&#xff0c;比如 html 页面中的属性 <div v-xxx ></div>。自定义指令很大程度提高了开发效率&#xff0c;提高了工程化水平&#x…

【读书】读书笔记——理科生的视角:底层逻辑+数学之美

1&#xff0c;底层逻辑1&#xff08;看清这个世界的底牌&#xff09; 刘润 著 0&#xff09;什么是底层逻辑&#xff1f; 底层逻辑是&#xff1a;事物之间共同点、变化背后不变的东西事&#xff1b;看清事物的本质&#xff0c;才能在复杂变化中从根本上解决问题。 1&#x…

基于51单片机的智能灯光控制系统

一.硬件方案 智能灯光控制系统由单片机最小系统、人体感应模块、关照强度模块、灯光控制模块、电源模块和灯泡组成。本文以STC89C52单片机为核心&#xff0c;通过利用光照度和红外人体感应相结合主动与被动的探测方法&#xff0c;现了室内无人或者关照充足时灯光自动光灯&…

PyCharm面板ctrl+鼠标滚轮放大缩小代码

1.【File】➡【Settings】 2.点击【Keymap】&#xff0c;在右边搜索框中搜incre&#xff0c;双击出现的【Increase Font Size】 3.在弹出的提示框中选择【Add Mouse Shortcut】 4.弹出下面的提示框后&#xff0c;键盘按住【ctrl】&#xff0c;并且上滑鼠标滚轮。然后点击【O…

第十七讲:结构体

第十七讲&#xff1a;结构体 1.初始结构体1.1结构体声明1.2结构体变量的创建和初始化1.2.1结构体变量的创建1.2.2结构体变量的初始化1.2.2.1普通初始化1.2.2.2结构体数组1.2.2.3结构体指针 1.3typedef定义结构体1.4结构体的自引用1.5结构体的特殊声明 2.结构体内存对齐2.1对齐规…

【C++初阶】—— 类和对象 (上)

&#x1f4dd;个人主页&#x1f339;&#xff1a;EterNity_TiMe_ ⏩收录专栏⏪&#xff1a;C “ 登神长阶 ” &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; 类和对象 1. 初步认识C2. 类的引入3. 类的定义声明和定义全部放在类体中声明和定义分开存放 4.…