Pandas | 通过PUBG数据集进行数据分析并理解函数使用

news2025/1/21 11:25:36

PUBG数据分析

  • PUBG数据集
  • train 数据分析
      • iloc和loc
    • 过滤参数人数少的比赛
      • duplicated()
      • .count() 和 transform('count')
      • countplot绘图函数
    • 补充:查看判断pd的某一列是否没有重复值
      • 方法 1: 使用 `duplicated()` 方法
      • 方法 2: 使用 `nunique()` 方法
      • 方法 3: 使用 `value_counts()` 方法

PUBG数据集

在这里插入图片描述

train 数据分析

# 数据量很大  读取需要时间
train = pd.read_csv('Data/train_V2.csv')
test = pd.read_csv('Data/test_V2.csv')

在这里插入图片描述
winPlacePerc 列是标签列 查看是否缺失 若是缺失 删除该行数据

train[train['winPlacePerc'].isnull()]

在这里插入图片描述
删除缺失值,并查看

train.drop(2744604,inplace=True)
train[train['winPlacePerc'].isnull()]

在这里插入图片描述


iloc和loc

在上一步骤中train.drop(2744604,inplace=True)代码在源train中删除了这行数据【inplace参数的作用】,
在这里插入图片描述

train.index[2744603],train.index[2744604],train.index[2744605]

(2744603, 2744605, 2744606)

此时查看2744604索引对应的数值其实发生了变化 这是理解iloc和loc区别的关键从2744604往后的索引都发生了变化

train.loc[train.index[2744604],:]  # 基于索引  选择

在这里插入图片描述
在这里插入图片描述

train.iloc[train.index[2744604],5]  #  基于实际的行数值 选择  即第2744605 行

167.2
在这里插入图片描述

.iloc[] 是基于整数位置的索引器,它接受行和列的整数位置作为输入。当你使用 .iloc[] 时,是基于行和列的数值位置来选择数据的,而不是基于行和列的标签。对应的实际的行数

.loc[] 是基于标签的索引器,它接受行和列的标签作为输入。当你使用 .loc[] 时,你是基于行和列的标签来选择数据的。------对应的‘索引’位置

如下图:红色字体是实际的数值位置,而黑色是标签位置也可以理解为索引位置
在这里插入图片描述


过滤参数人数少的比赛

matchId 表示同一场比赛

train.Id.duplicated().sum()  

0

参赛人员没有重复值

duplicated()

len(train.matchId.unique()) 

47964

train.groupby('matchId')['matchId'].count()

在这里插入图片描述

train['playersJoin'] = train.groupby('matchId')['matchId'].transform('count')

这将返回一个与 train DataFrame 行数相同长度的Series,其中每个值代表相应 matchId 的出现次数。


.count() 和 transform(‘count’)

弄清两个函数的区别的前提 针对该问题:计算每场比赛的参赛人数 目的是创建新的一列Series并在后面加入人数
在这里插入图片描述

在Pandas中,groupby 方法用于对数据进行分组,而 transform 和 count 是对分组后的数据进行操作的两种不同方法。
transform 方法将 groupby 操作应用到指定的列上,并返回与原始数据相同长度的序列。在这种情况下,‘count’ 聚合函数计算每个组中非NA/null值的数量,然后将这个计数应用到每个组内的每个元素上。

import pandas as pd

# 创建示例 DataFrame
data = {
    'matchId': [1, 1, 2, 2, 3, 3, 3],
    'otherColumn': ['A', 'B', 'C', 'D', 'E', 'F', 'G']
}
train = pd.DataFrame(data)

# 使用 transform('count') 和 count()
transform_count = train.groupby('matchId')['matchId'].transform('count')
count_result = train.groupby('matchId')['matchId'].count()

print("Transform Count:")
print(transform_count)

print("\nCount Result:")
print(count_result)

Transform Count:
0 2
1 2
2 2
3 2
4 3
5 3
6 3
Name: matchId, dtype: int64

Count Result:
matchId
1 2
2 2
3 3
Name: matchId, dtype: int64

效果一样吗?
不,transform('count')count() 的效果不一样,它们在用法和返回结果上有明显的区别:

  1. groupby(...).transform('count'):

    • 这个方法返回的是一个与原始 DataFrame 行数相同长度的 Series
    • 每个元素的值代表相应组在指定列上的非空值数量。
    • 结果 Series 的索引与原始 DataFrame 的索引相同。
    • 可以保留原始数据的顺序和结构。
  2. groupby(...).count():

    • 这个方法返回的是一个新的 DataFrame,只包含每个组的计数。
    • 行数等于唯一分组键的数量,列数为1(或多个,如果对多列进行计数)。
    • 结果中的每一行代表一个唯一的分组键,列中的值表示该键在组中出现的次数。
    • 不保留原始数据的顺序和结构,只提供分组键的计数。

因此,如果你的目标是将每个组的大小附加到原始 DataFrame 的每一行,使用 transform('count')。如果你只需要知道每个组的大小,并且不需要保留原始数据的其他信息,那么使用 count() 就足够了。

例如,假设你有一个包含重复 matchIdDataFrame,并且你想要知道每个 matchId 出现的次数:

使用 transform('count') 会得到:

    matchId  count
0        1      3
1        1      3
2        2      2
3        2      2
4        3      3
5        3      3
6        3      3

这里,count 列显示了每个 matchId 在原始 DataFrame 中出现的次数。

使用 count() 会得到:

   matchId
1        3
2        2
3        3

这里,每一行代表一个唯一的 matchId,并且显示了该 matchId 在原始 DataFrame 中出现的次数。


countplot绘图函数

# 使用countplot函数必须指明  x还是y
plt.figure(figsize=(20,6))
sns.countplot(x=train[train['playersJoin'] >= 75]['playersJoin']) # 美剧参赛人数》75  认为这场比赛有价值
plt.show()

在这里插入图片描述
Python数据可视化-seaborn库之countplot


补充:查看判断pd的某一列是否没有重复值

需求:在过滤参数人数少的比赛我很疑惑是否有同一个人参加不同的比赛呢?而我的理想输出结果就是一个值 :
传统的count() sum() 无法直接进行这种统计,因此:

在Pandas中,你可以使用几种不同的方法来判断一个DataFrame的某一列是否没有重复值。以下是两种常用的方法:

方法 1: 使用 duplicated() 方法

duplicated() 方法可以标记出重复的行。如果一个列没有重复值,那么这个方法返回的布尔序列中应该没有任何 True 值。

import pandas as pd

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [1, 1, 3, 4, 5]
})

# 检查列 'A' 是否有重复值
has_no_duplicates = df['A'].duplicated().any()

print('Column A has no duplicates:', not has_no_duplicates)

如果 has_no_duplicatesFalse,那么列 A 没有重复值。

方法 2: 使用 nunique() 方法

在Pandas中,nunique() 函数用于返回Series或DataFrame中唯一值的数量。当你想要快速了解某个列中有多少个不同的值时,这个函数非常有用。

train.Id.nunique() == train.shape[0]

在这里插入图片描述

nunique() 方法返回一个列中唯一值的数量。如果这个数量等于列的长度,那么说明列中没有重复值。

# 检查列 'A' 是否有重复值
has_no_duplicates = df['A'].nunique() == len(df['A'])

print('Column A has no duplicates:', has_no_duplicates)

如果输出结果为 True,则列 A 没有重复值。

方法 3: 使用 value_counts() 方法

train.Id.value_counts().max() == 1

在这里插入图片描述

value_counts() 方法返回一个系列,其中包含每个唯一值出现的次数。如果列中没有重复值,那么这个系列的最大值应该为1。

# 检查列 'A' 是否有重复值
has_no_duplicates = (df['A'].value_counts().max() == 1)

print('Column A has no duplicates:', has_no_duplicates)

如果输出结果为 True,则列 A 没有重复值。

以上方法都可以有效地判断Pandas DataFrame中某一列是否没有重复值。你可以根据你的具体需求和数据的大小选择最适合的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2213606.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文搞懂进程、线程、协程以及并发、并行、串行的概念

什么是进程? 进程是资源调度的最小单位,操作系统通过进程来管理计算机的资源,如CPU、内存、磁盘等。通俗说法:可看做是正在执行的程序如QQ.exe 什么是线程? 线程是操作系统的最小执行单位,是进程中的一个…

mysql集群-主库从库配置--主从库分离

mysql集群 为什么要做主从库分离? 怎么进行分离? 设置2个数据库,为主库从库,主库存储,从库查询 怎么设置? 在你原本的配置yml文件中主库的ip是多少,从库是多少,都要和数据库的ip 一…

rom定制系列------小米5x_miui12安卓11定制固件界面预览 小米5x第三方固件

💝💝💝此固件来源于客户卡刷固件定制。客户需要修改为线刷。并且修改账号锁功能。 可以让客户使用官方平台批量进行刷写。方便操作。 定制机型以及功能预览💝💝💝 小米5x版本miui12.5.8安卓11固件。此机型…

每日OJ题_牛客_神奇数_数学_C++_Java

目录 牛客_神奇数_数学 题目解析 C代码 Java代码 牛客_神奇数_数学 神奇数_牛客笔试题_牛客网 (nowcoder.com) 描述: 给出一个区间[a, b],计算区间内“神奇数”的个数。 神奇数的定义:存在不同位置的两个数位,组成一…

MySQL表的基本查询上

1,创建表 前面基础的文章已经讲了很多啦,直接上操作: 非常简单!下一个! 2,插入数据 1,全列插入 前面也说很多了,直接上操作: 以上插入和全列插入类似,全列…

树莓派使用:YOLOv8环境搭建困难--已解决

1.安装所需包失败 在尝试运行 sudo pip3 install numpy时遇到的错误提示与系统环境管理方式有关,这是因为Python环境是由操作系统管理的,因此不允许直接通过 pip 进行系统范围的包安装。这种限制是为了防止不兼容的包破坏系统的稳定性。 解决方案: 使用…

向量的外积

向量的内积大家都很熟悉了,计算两个向量之间的夹角时就用到了向量的内积。 向量的内积是一个标量, 它的值是一个向量在另一个向量上投影的长度。 1 定义 向量的外积也叫 矢积, 向量积, 叉积。 向量的外积还是一个向量&#xff…

pyserini安装使用

目录 代码 安装 使用 msmarco-passage bm25 代码 git clone https://github.com/castorini/pyserini.git --recurse-submodules pyserini/tools为submodules,地址:anserini-tools 安装 https://github.com/castorini/pyserini/blob/master/docs/…

牛客编程初学者入门训练——BC53 判断是元音还是辅音

BC53 判断是元音还是辅音 描述 KiKi开始学习英文字母,BoBo老师告诉他,有五个字母A(a), E(e), I(i), O(o),U(u)称为元音,其他所有字母称为辅音,请帮他编写程序判断输入的字母是元音(Vowel)还是辅音&#x…

【JAVA毕业设计】基于Vue和SpringBoot的历史学习网站

本文项目编号 T 004 ,文末自助获取源码 \color{red}{T004,文末自助获取源码} T004,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

图示详解OpenEuler下Samba多用户身份验证配置、测试

前言 前文《图例详解OpenEuler下Samba安装、配置和测试》已对Samba服务的工作原理、安装、配置和测试,做了系统的介绍,并对匿名用户的访问samba服务器做了配置,相必读者已对samba服务的流程有了初步、系统的了解,本文在以上基础上…

如何在ActivityCommunication中整合多个Activity(实操)

下面举例添加一个WebViewIntentDemoActivity 第一步:先将java文件导入集合项目中 第二步:创建新的main界面,导入需要增加的Activity界面(记得与前面的命名区分开) 第三步:在集合Activity界面中添加一个新按…

docker删除容器要怎么操作?如何保障容器安全!

对于新手来说很多用户不清楚docker删除容器要怎么操作?在执行删除操作前,请确保不需要保留容器的任何数据或状态信息,或者已经备份了重要数据。要删除Docker容器和镜像,可以使用以下命令。今天就跟着小编一起来了解下docker删除容…

Python3 接口自动化测试,HTTPS下载文件(GET方法和POST方法)

Python3 接口自动化测试,HTTPS下载文件(GET方法和POST方法) requests-pkcs12 PyPI python中如何使用requests模块下载文件并获取进度提示 1、GET方法 1.1、调用 # 下载客户端(GET)def download_client_get(self, header_all):try:url = self.host + "/xxx/v1/xxx-mod…

基于SpringBoot+Vue的扶贫助农有机农产品商城【源码+安装+讲解+售后+开题+答辩PPT】

【1】系统介绍 ① 背景 在快速发展的中国,农村经济虽受益于国家整体繁荣,但仍面临基础设施落后、信息闭塞及销售渠道狭窄等挑战,阻碍了优质农产品的市场拓展,影响农民收入。互联网与电商的兴起,为解决这一难题提供了…

SpringBoot项目如何导入外部jar包:详细指南

在开发SpringBoot项目时,我们经常需要引入一些外部的jar包来增强项目的功能。这些jar包可能不是Maven中央仓库中的,或者我们想要使用特定版本的jar包。本文将详细介绍如何在SpringBoot项目中导入外部jar包,并确保项目能够正确地打包和运行。 …

基于SpringBoot的高校竞赛管理系统:设计与实现

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理高校学科竞赛平台的相关信息成为必然。开发…

【Linux】命令行下的“复制”操作||复制文件和路径

拷贝(cp,copy) cp命令来自于英文单词"copy"(复制)的缩写,用于将一个或多个文件或目录复制到指定位置。 cp [参数] 源文件 目标文件 参数: 致谢:Linux常用命令大全(手册) – 真正好用的Linux命令在线查询…

算法系列之十二:多边形区域填充算法--扫描线填充算法(有序边表法)

二、扫描线算法(Scan-Line Filling) 扫描线算法适合对矢量图形进行区域填充,只需要直到多边形区域的几何位置,不需要指定种子点,适合计算机自动进行图形处理的场合使用,比如电脑游戏和三维CAD软件的渲染等等…

【洛谷】- P1923 【深基9.例4】求第 k 小的数

文章目录 一、 P1923 【深基9.例4】求第 k 小的数二、思想方法2、代码3、细节 一、 P1923 【深基9.例4】求第 k 小的数 题目: 二、思想方法 首先我们来看核心代码,也就是通过快排,将K的位置找出 void my_sort(int arr[],int left,int right,…