【Kaggle | Pandas】练习2:索引,选择和分配

news2025/1/12 2:42:47

文章目录

  • 数据总表
    • 1、读取列
    • 2、读取某列的第几行的值
    • 3、第一行数据
    • 4、读取列中前10个值
    • 5、读取索引标签为1 、 2 、 3 、 5和8的记录
    • 6、包含索引标签为0 、1 、10和100的记录的country 、province 、 region_1和region_2列
    • 7、 前 100 条记录的country和variety列
    • 8、包含Italy葡萄酒评论的 DataFrame italian_wines
    • 9、包含来自澳大利亚或新西兰的葡萄酒的至少 95 分(满分 100 分)的所有评论

数据总表

reviews.head()

在这里插入图片描述

1、读取列

从reviews中选择description列并将结果分配给变量desc

# Your code here
desc = reviews.description

2、读取某列的第几行的值

从reviews的描述列中选择第一个值,将其分配给变量first_description

first_description = desc.iloc[0]

3、第一行数据

从reviews中选择第一行数据(第一条记录),并将其分配给变量first_row

first_row = reviews.loc[0,:]

4、读取列中前10个值

从reviews中的description列中选择前 10 个值,将结果分配给变量first_descriptions

first_descriptions = reviews.description.iloc[:10]

first_descriptions

在这里插入图片描述

5、读取索引标签为1 、 2 、 3 、 5和8的记录

选择索引标签为1 、 2 、 3 、 5和8的记录,并将结果分配给变量sample_reviews
在这里插入图片描述

sample_reviews = reviews.iloc[[1,2,3,5,8],:]

sample_reviews

在这里插入图片描述

6、包含索引标签为0 、1 、10和100的记录的country 、province 、 region_1和region_2列

创建一个变量df其中包含索引标签为0 、 1 、 10和100的记录的country 、 province 、 region_1和region_2列。换句话说,生成以下 DataFrame
在这里插入图片描述

df = reviews.loc[[0, 1, 10, 100], ['country', 'province', 'region_1', 'region_2']]
df

在这里插入图片描述

# 官方代码
cols = ['country', 'province', 'region_1', 'region_2']
indices = [0, 1, 10, 100]
df = reviews.loc[indices, cols]

7、 前 100 条记录的country和variety列

创建一个变量df其中包含前 100 条记录的country和variety列。

提示:您可以使用loc或iloc 。在回答这个问题以及接下来的几个问题时,请保留教程中描述的以下“陷阱”:

iloc使用 Python stdlib 索引方案,其中包含范围的第一个元素并排除最后一个元素。同时, loc包含索引。

当 DataFrame 索引是一个简单的数字列表(例如0,…,1000时,这尤其令人困惑。在这种情况下df.iloc[0:1000]将返回 1000 个条目,而df.loc[0:1000]返回其中的 1001 个!要使用loc获取 1000 个元素,您需要降低一级并请求df.iloc[0:999] 。

# loc包含索引
df = reviews.loc[:99, ['country', 'variety']]
df

或者

# iloc不包含索引,且只能使用数字作为索引
# 不能使用该写法错误:df = reviews.iloc[:100, ['country', 'variety']]

df = reviews.iloc[:100, [0, 11]]
df
  • iloc:基于位置索引选择
    iloc 是基于整数位置(即位置索引)来选择数据。
    适用于需要按行、列的数字位置索引进行定位的场景。
    索引从 0 开始,例如 iloc[0] 选择的是第一行。
  • loc:基于标签索引选择
    loc 是基于标签索引(即行或列的名称)来选择数据。
    适用于已知标签的场景,比如使用行名称或列名称来提取数据。

在这里插入图片描述
官方代码

cols = ['country', 'variety']
df = reviews.loc[:99, cols]
or

cols_idx = [0, 11]
df = reviews.iloc[:100, cols_idx]

8、包含Italy葡萄酒评论的 DataFrame italian_wines

创建一个包含Italy葡萄酒评论的 DataFrame italian_wines 。提示: reviews.country等于什么?

italian_wines = reviews.loc[reviews.country == 'Italy']

9、包含来自澳大利亚或新西兰的葡萄酒的至少 95 分(满分 100 分)的所有评论

创建一个 DataFrame top_oceania_wines ,其中包含来自澳大利亚或新西兰的葡萄酒的至少 95 分(满分 100 分)的所有评论

top_oceania_wines = reviews.loc[((reviews.country == 'Australia') |  (reviews.country =='New Zealand')) & (reviews.points >= 95) ]
top_oceania_wines

在这里插入图片描述
官方代码

top_oceania_wines = reviews.loc[
    (reviews.country.isin(['Australia', 'New Zealand']))
    & (reviews.points >= 95)
]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227361.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三款计算服务器配置→如何选择科学计算服务器?

科学计算在众多领域都扮演着关键角色,无论是基础科学研究还是实际工程应用,强大的计算能力都是不可或缺的。而选择一台合适的科学计算服务器,对于确保科研和工作的顺利进行至关重要。 首先,明确自身需求是重中之重。要仔细考虑计算…

【ceral】c++轻量的序列化库

背景 在开发硬件产品时,会有一些参数配置文件,为了保密性或者传输,需要对其序列化处理,待到产品读取文件时,进行反序列化解码转化为设定的参数类型。 简介 ceral是一个仅包含头文件的C序列化库,可以将任…

前后端请求、返回数据的多种方式

Springboot项目的业务逻辑 🌙项目基本结构: 通常情况下,我们在搭建后端项目的时候,处理业务逻辑我们需要用到Controller,Service,Mapper(mybatis,mybatis-plus),Entry各层之间的相互调用来完成,还有就是我…

计算机网络-MSTP的基础概念

前面我们大致了解了MSTP的由来,是为了解决STP/RSTP只有一根生成树导致的VLAN流量负载分担与次优路径问题,了解MSTP采用实例映射VLAN的方式实现多实例生成树,MSTP有很多的理论概念需要知道,其实与其它的知识一样理论复杂配置还好的…

php伪协议和move_uploaded_file、rename、copy等文件操作

move_uploaded_file、rename、copy 三个函数的区别: move_uploaded_file 函数是专门用于将通过 HTTP 上传的临时文件移动到指定位置的。如果你想要将一个已经存在的文件移动到另一个位置,而不是上传的文件,那么你应该使用 rename 函数或 co…

Lucas带你手撕机器学习——套索回归

好的,下面我将详细介绍套索回归的背景、理论基础、实现细节以及在实践中的应用,同时还会讨论其优缺点和一些常见问题。 套索回归(Lasso Regression) 1. 背景与动机 在机器学习和统计学中,模型的复杂性通常会影响其在…

完全透彻了解一个asp.net core MVC项目模板1

当我们使用Visual Studio 2022去新建一个基于asp.net core Web项目的时候,一般有三种选择,一种是空项目,一种是基于MVC的项目、再有一种就是基于包含Razor Pages实例的web应用。如下图: 今天,我们打算选择基于MVC模…

【无标题】2024年第五届 MathorCup 数学应用挑战赛——大数据竞赛赛题

2024年第五届 MathorCup 数学应用挑战赛——大数据竞赛赛题已发布~,本届初赛时间为:2024年10月25日18:00至2024年11月1日20:00。本次赛题分为A,B两道,所有参赛队从赛道 A、B 中任选一题作答。在报名系统内选择自己队伍的赛道时&am…

离散化算法简介

【离散化简介】 ★ 离散化是一种数据处理的技巧,本质上可以看成是一种“哈希”,其保证数据在哈希以后仍然保持原来的“全/偏序”关系。用来离散化的可以是大整数、浮点数、字符串等等。★ 离散化的本质,是映射。原理是将间隔很大的元素&#…

毫米波技术基础

什么是毫米波? 顾名思义,毫米波是波长 (λ) 约为 1 毫米(更准确地说是 1 至 10 毫米)的电磁波。使用方程式f c /λ 将该波长转换为频率,其中c是光速 (3 x 10 8 m/s),得出 30-300 GHz 的频率范围。国际电信…

【STM32】内存管理

首先问个问题,你知道如何在LCD上显示SD卡文件浏览?-----需要读取所有文件名到内存,然后才能显示到LCD上。 一般的方法:是定义一个数组来存储文件名 1:需要知道最大文件名的长度 2:需要知道文件的个数。1…

OpenCV图像处理方法:腐蚀操作

腐蚀操作 前提 图像数据为二值的(黑/白) 作用 去掉图片中字上的毛刺 显示图片 读取一个图像文件,并在一个窗口中显示它。用户可以查看这个图像,直到按下任意键,然后程序会关闭显示图像的窗口 # cv2是OpenCV库的P…

使用Python中的jieba库进行简单情感分析

在自然语言处理(NLP)领域,情感分析是一项重要的任务,它可以帮助我们理解文本背后的情感倾向。本文将通过一个简单的例子来介绍如何使用Python的jieba库对中文文本进行基本的情感分析。 1. 环境准备 首先,确保已经安装…

图像分割从基础到进阶:阈值化、K-means和Mean-Shift算法的应用

图像分割是计算机视觉中的一项关键技术,用来将图像划分为若干个 有意义 的区域,以便后续的图像处理和分析工作。根据任务的不同,图像分割可以进一步细分为语义分割、实例分割和全景分割: 语义分割 (Semantic Segmentation) 对图像…

SQL进阶技巧:如何求组内排除当前行的移动平均值?

目录 0 需求描述 2 数据准备 3 问题分析 4 小结 0 需求描述 -- 按照 日期,省份,等级 分组 求分数的平均值;但是需要剔除当前行的数据 2 数据准备 create table avgtest as (select 2024-10-24 as cdate, 广东 as province,深圳 as city, 2 as level, 200 as scoreunio…

后台管理系统的通用权限解决方案(六)SpringBoot整合Logback实现日志记录

1 Logback介绍 1.1 Logback的组件 由上图可知,Logback和Log4j都是slf4j规范的具体实现。在程序中直接调用Logback的API其实都是slf4j规范定义好的API,其底层则是真正的日志实现组件—Logback或者Log4j。 Logback构建在三个主要的类上:Logge…

厨艺爱好者的在线互动平台:Spring Boot实现

摘 要 使用旧方法对厨艺交流信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在厨艺交流信息的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。 这次开发的厨艺交流平台功能…

面试域——技术面试准备

摘要 来到技术面试这环节有两种情况,其一:这场技术面试可能就是一个面试官KPI面试(就是面试工作量,这个面试你是不可能过。)如今的就业环境下,人力资源部门也是有考核指标。如果遇到这样的面试你就放平心态…

2024年【焊工(中级)】最新解析及焊工(中级)考试总结

题库来源:安全生产模拟考试一点通公众号小程序 焊工(中级)最新解析参考答案及焊工(中级)考试试题解析是安全生产模拟考试一点通题库老师及焊工(中级)操作证已考过的学员汇总,相对有…

VsCode | 修改内置字体为JetBrains Mono NL

文章目录 一、下载JetBrains Mono NL字体二、VsCode进行字体的设置 一、下载JetBrains Mono NL字体 字体下载 下载完成以后解压找到JetBrainsMono-2.304\fonts\ttf文件夹下,全选鼠标右键点安装即可。 注意:一定要全部安装,否则字体样式可…