kaggle平台学习复习笔记 | pandas

news2025/1/11 18:32:01

目录

    • 1.Creating, Reading and Writing
    • 2.Indexing, Selecting & Assigning
    • 3.Summary Functions and Maps
    • 4.Grouping and Sorting
    • 5.Data Types and Missing Values
    • 6.Renaming and Combining

在这里插入图片描述
获得开展独立数据科学项目所需的技能。

1.Creating, Reading and Writing

DataFrame是一个表。它包含一个单独条目的数组,每个条目都有一个特定的值。每个条目对应一行(或记录)和一列。

reviews = pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

在这里插入图片描述
DataFrame条目不限于整数。例如,这里有一个DataFrame,其值为字符串:

pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

在这里插入图片描述
DataFrame中使用的行标签列表称为索引。我们可以在构造函数中使用索引参数为其赋值:

pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

在这里插入图片描述
Series

Series是一系列数据值。如果DataFrame是表,则Series是列表。事实上,您可以创建一个列表:

pd.Series([1, 2, 3, 4, 5])

在这里插入图片描述

pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

在这里插入图片描述
Reading data files
我们可以使用shape属性检查生成的DataFrame的大小:

wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv")

wine_reviews.shape

在这里插入图片描述

wine_reviews.head()

我们可以使用head()命令检查结果DataFrame的内容,该命令获取前五行
在这里插入图片描述
pd.read_csv()函数具有很好的特性,可以指定30多个可选参数。例如,您可以在这个数据集中看到CSV文件有一个内置索引,panda并没有自动获取该索引。为了使panda使用该列作为索引(而不是从头创建一个新列),我们可以指定一个index_col。

wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

在这里插入图片描述

2.Indexing, Selecting & Assigning

一个book对象可能有一个title属性,我们可以通过调用book.title来访问它。panda DataFrame中的列的工作方式大致相同。

选取列 注:reviews是1-2建立的dataframe

reviews.country
或
reviews['country']

选取该列的第一个元素

reviews['country'][0]

Index-based selection
基于index的选择

iloc选取 (前三行,前三列)

reviews.iloc[:3,:2]
reviews.iloc[[0, 1, 2], [0,1]]

iloc选取 (后5行)

print(df.iloc[-5:,:])

Label-based selection
基于标签的选择

reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

reviews.loc[0, 'country']

Conditional selection
条件选择

reviews.country == 'Italy'

在这里插入图片描述
选择符合条件的行

reviews.loc[reviews.country == 'Italy']

在这里插入图片描述

可以使用多个条件 (‘并’用‘&’ 。。。 ‘或’用 ‘|’)不能用and和or

reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

isin函数的使用

选取‘Italy’和France两个城市

reviews.loc[reviews.country.isin(['Italy', 'France'])]

notnull函数的使用

reviews.loc[reviews.price.notnull()]

Assigning data

reviews['critic'] = 'everyone'
reviews['critic']

在这里插入图片描述

reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

在这里插入图片描述

3.Summary Functions and Maps

对于数值型的数据,显示字段的平均值,最大值,最小值等

reviews.points.describe()

在这里插入图片描述
对于字符串,显示

reviews.taster_name.describe()

在这里插入图片描述
count 共多少个非空的值
unique 几个不同的值
top 出现最频繁的值
freq 出现最频繁的值的次数

reviews.points.mean()
reviews.taster_name.unique() # 效果同上
reviews.taster_name.value_counts() # 显示哪个值出现了多少次

在这里插入图片描述
Map() 和 apple()函数的应用

review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

在这里插入图片描述

def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.apply(remean_points, axis='columns')

字符串拼接
在这里插入图片描述

4.Grouping and Sorting

reviews.groupby('points').points.count()

在这里插入图片描述
这里有一种方法可以选择数据集中每个酒庄的第一款葡萄酒的名称

reviews.groupby('winery').apply(lambda df: df.title.iloc[0])

以下是我们如何按国家和省份挑选最好的葡萄酒

reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])

另一个值得一提的groupby()方法是agg(),它允许您同时在DataFrame上运行一系列不同的函数。例如,我们可以生成数据集的简单统计摘要,如下所示:

reviews.groupby(['country']).price.agg([len, min, max])

在这里插入图片描述
多重索引

reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])

在这里插入图片描述

countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed

在这里插入图片描述
然而,通常情况下,您最常用的多索引方法是用于转换回常规索引的方法,即reset_index()方法:

countries_reviewed.reset_index()

在这里插入图片描述
对比上图比较区别

Sorting

按值排序
默认升序

countries_reviewed = countries_reviewed.reset_index()
countries_reviewed.sort_values(by='len')

在这里插入图片描述
降序排序

countries_reviewed.sort_values(by='len', ascending=False)

在这里插入图片描述
按索引排序

countries_reviewed.sort_index()

在这里插入图片描述
最后,要知道您可以一次按多个列排序:
注:先按照country排序,再按照len排序

countries_reviewed.sort_values(by=['country', 'len'])

在这里插入图片描述

5.Data Types and Missing Values

reviews.dtypes

在这里插入图片描述

reviews.points.astype('float64')

在这里插入图片描述
Pandas提供了一些特定于缺失数据的方法。要选择NaN条目,可以使用pd.isnull()(或其伴随的pd.notnull())

reviews[pd.isnull(reviews.country)]

fillna函数

将NAN替换为Unknow

reviews.region_2.fillna("Unknown")

将non-NAN的字符串替换为想要的字符串

reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

6.Renaming and Combining

将points字段名改为score

reviews.rename(columns={'points': 'score'})

将第1行和第2行的索引值改为指定索引

reviews.rename(index={0: 'firstEntry', 1: 'secondEntry'})

行索引和列索引都可以有自己的name属性。可以使用补充的rename_axis()方法来更改这些名称。例如:

merge、concat、join

# 可以指定按照两组数据的共同键值对合并或者左右各自
# left: DataFrame
# right: 另一个DataFrame
# on: 指定的共同键
# how:按照什么方式连接
pd.merge(left, right, how='inner', on=None)
# 按照行或列进行合并,axis=0为列索引,axis=1为行索引
pd.concat([data1, data2], axis=1)

就复杂性而言,最中间的组合器是join()。join()允许您组合具有共同索引的不同DataFrame对象。例如,要删除恰好在加拿大和英国同一天流行的视频,我们可以执行以下操作:

left = canadian_youtube.set_index(['title', 'trending_date'])
right = british_youtube.set_index(['title', 'trending_date'])

left.join(right, lsuffix='_CAN', rsuffix='_UK')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/139554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安全帽识别算法技术原理

应用背景:安全帽作为一种最常见和实用的个人防护用具,能够有效地防止和减轻外来危险源对头部的伤害。但在现场操作过程中,安全帽的佩戴很容易人为忽略,引发了不少人身伤害事故。为了保证工作人员都能在作业中佩戴安全帽&#xff0…

CentOS/Red Hat 安装cuDNN

创建于:2023.01.04 修改于:2023.01.04 文章目录1、找到cuDNN版本号2、下载cuDNN3、安装cuDNN4、参考资料本文是在Linux Red Hat下安装的cuDNN,且假定您已经安装好了NVIDIA驱动、CUDA。 本文是在CUDA 11.2 Red Hat条件下安装的cuDNN。 1、找…

超高清直播“出圈”下的沉浸式文博会

在引领文化产业发展的文博会现场,前沿科技元素随处可见。VR、AR、4K/8K、元宇宙……各种“文化科技”的元素以刷新视听极限的美好体验,冲击着观众的眼球和感知。文博会现场,BOSMA博冠于数字文化展区展示国产8K超高清摄像机、BOSMA博冠望远镜等…

(小甲鱼python)集合笔记合集一 集合(上)总结 集合的简单用法 集合的各种方法合集:子、交、并、补、差、对称差集、超集

一、基础复习 集合与字典区别 集合中所有元素都是独一无二的&#xff0c;并且也是无序的。 集合具有唯一性、无序性、有限性 >>> type({}) #字典 <class dict> >>> type({"one"}) #集合 <class set> >>> type…

微服务保护 Sentinel 实战

目录Sentinel什么是雪崩问题&#xff1f;服务保护技术对比Sentinel介绍和安装初识Sentinel安装Sentinel微服务整合Sentinel流量控制簇点链路快速入门流控模式关联模式链路模式流控效果warm up排队等待热点参数限流全局参数限流热点参数限流案例隔离和降级FeignClient整合Sentin…

nVisual各项隐藏项配置说明

nVisual可以部署在不同的项目中&#xff0c;但是每个项目都有自己不同的使用场景&#xff0c;有的不需要报表功能&#xff0c;有的不需要监测功能&#xff0c;还有的不需要连接外网的功能等。针对这些不同的需求&#xff0c;有必要且有可使用的机制来满足这些场景。 nVisual使…

PageRank算法

什么是PageRank&#xff1f; PageRankPageRankPageRank算法由GoogleGoogleGoogle创始人LarryPageLarry\ PageLarry Page在斯坦福大学时提出&#xff0c;又称PRPRPR&#xff0c;佩奇排名。主要针对网页进行排名&#xff0c;计算网站的重要性优化搜索引擎的搜索结果。PRPRPR值表示…

Java大学生档案系统高校学生档案系统

简介 Java基于springboot开发的学生档案系统&#xff0c;包含了权限管理&#xff0c;学生档案&#xff0c;学生成绩录入&#xff0c;教师管理等。 演示视频 https://www.bilibili.com/video/BV1XV411b761/?share_sourcecopy_web&vd_sourceed0f04fbb713154db5cc611225d92…

SQL速算N日留存

之前才哥发布了《用SQL进行用户留存率计算》 链接&#xff1a;https://mp.weixin.qq.com/s/QJ8JUO00bVJe_K6sx_ttaw 简化数据后得到如下结构的数据&#xff1a; 由于用户和登录日期被设置为主键所以不需要再进行去重&#xff0c;下面看看如何快速求七日留存。 数据下载地址&…

数据中心基础设施管理(DCIM)工具

什么是DCIM DCIM (Data Center Infrastructure management) 数据中心基础设施管理 是将IT&#xff08;信息技术&#xff09;和设备管理结合起来对数据中心关键设备进行集中监控、容量规划等集中管理。通过软件、硬件和传感器等&#xff0c;DCIM提供一个独立的管理平台&#xf…

网购平台如何保障公平交易

抢购&#xff0c;是这三年来重复出现的关键词。 疫情初始&#xff0c;口罩、测温枪是抢购热点&#xff1b;随后&#xff0c;蔬菜从口罩接过“抢购”接力棒&#xff1b;不久后&#xff0c;退烧药、抗原、血氧仪、“特效药”先后成为抢购热点&#xff1b;甚至元旦假期间&#xf…

【微服务】服务拆分及远程调用

文章目录服务拆分服务拆分原则服务拆分示例导入Sql语句导入demo工程实现远程调用案例案例需求分析注册RestTemplate实现远程调用提供者与消费者服务拆分 服务拆分原则 我们拿到一个单体架构&#xff0c;一般按照功能模块进行拆分。 微服务拆分时的几个原则&#xff1a; 不同…

数据结构_红黑树(C语言)

数据结构总目录红黑树 介绍&#xff1a; 红黑树是一种特化的AVL树&#xff08;平衡二叉树&#xff09;&#xff0c;都是在进行插入和删除操作时通过特定操作保持二叉查找树的平衡&#xff0c;从而获得较高的查找性能。红黑树是一种平衡二叉查找树的变体&#xff0c;它的左右子树…

JavaScript---DOM---节点操作---12.3

为什么学节点操作&#xff1f; 获取元素通常使用两种方式&#xff1a; 1.利用DOM提供的方法获取元素 document.getElementByld()document.getElementsByTagName()document.querySelector等逻辑性不强&#xff0c;繁琐 2.利用节点层级关系获取元素&#xff08;操作更简单&…

标准模板库STL

一、概述 1.1 STL的概念和作用 STL的概念&#xff1a;全称为 Standard Template Library STL的作用&#xff1a; 首先STL并不是语言的一部分&#xff08;一开始并没有&#xff09;它就是一个工具库, 没有这个工具时程序员写程序都要自己做&#xff08;例如&#xff1a;数据结…

软件生命周期阶段有几个?常见软件生命周期模型有哪些?

软件生命周期阶段及常见的软件生命周期模型&#xff0c;软件生命周期是指一个计算机软件从功能确定、设计&#xff0c;到开发 成功投入使用&#xff0c;并在使用中不断地修改、增补和完善&#xff0c;直到停止该软件的使用的全过程。  生命周期从收到应用软件开始算起&#x…

springboot 多模块项目构建【创建√ + 启动√ 】

一、多模块项目构建 1. 先建立父级目录demo-parent 2. 把父级目录src删除&#xff0c;再建立子级模块 3. 建立子级模块model,dao,service,common.utils等相同步骤 4. 建立启动模块boot, 创建Spring Boot 启动类 package com.example;import org.springframework.boot.SpringAp…

http服务转https服务(Nginx 服务器 SSL 证书安装部署)

安装的服务一直使用的是http&#xff0c;结果有客户要求必需使用https,下面是整理的步骤1、证书下载&#xff1a;&#xff08;要用域名申请的账号登录&#xff09;域名所在服务商一般都可以下载免费证书&#xff0c;我们用的域名是腾讯云的&#xff0c;所以在腾讯云上申请了免费…

高通开发系列 - gpio模拟输出PWM或者CLK时钟

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 目录 问题背景平台信息GPIO输出CLKdts添加节点修改内核gcc时钟配置驱动文件编译运行gpio模拟PWM输出CLKdts中的配置GPIO模拟PWM驱动文件编译…

MSF信息收集

Nmap扫描 db_nmap -sV 192.168.1.0/24Auxiliary 扫描模块 ● RHOSTS表示 192.168.1.20-192.168.1.30 、 192.168.1.0/24,192.168.11.0/24&#xff08;扫描两个网段&#xff09; file:/root/host.txt (将需要扫描的主机访问文本中)● search arp use auxiliary/scanner/d…