【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作

news2025/1/12 13:30:00

【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

  • 🎯 1. 基本介绍
  • 💡 2. 使用方法
    • 2.1 去重drop_duplicates
    • 2.2 描述信息describe
    • 2.3 行列的翻转
  • 🔍 3. 高阶用法
    • 3.1 describe高阶用法
  • 🔍 4. 注意事项
  • 🔧 5. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1. 基本介绍

  在处理数据集时,我们经常需要执行一些基本操作,如去除重复项、获取数据的描述性统计信息,以及对数据进行翻转操作。本文将介绍 Pandas 中的 drop_duplicates、describe 函数以及翻转操作的使用方法。

💡 2. 使用方法

2.1 去重drop_duplicates

  drop_duplicates 函数用于删除 DataFrame 中的重复行。默认情况下,它会检查所有列,找出重复的行,并只保留第一次出现的行。

import pandas as pd

# 创建一个包含重复行的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Alice', 'David'],
        'Age': [24, 27, 24, 32]}
df = pd.DataFrame(data)

# 去除重复项,默认保留第一个出现的重复项
df_unique = df.drop_duplicates()
print(df_unique)
 # 删除数据中的重复项数据 
 df.drop_duplicated() # 有subset, keep等参数可以选择,
 # 对哪些列重复数据 进行操作,保留最重复项中的哪一个 
 # 输出所以数据中重复的数据 
 df[df.duplicated()], 
 #原理和上述输出空值差不多,都是将重复的数据转为True和False来提取为True的数据

2.2 描述信息describe

  describe 函数提供了一个快速的方法来获取 DataFrame 中数值列的描述性统计信息,包括计数、平均值、标准差、最小值、四分位数和最大值。

import pandas as pd

# 使用 describe 获取描述性统计信息
desc_stats = df.describe()
print(desc_stats)

2.3 行列的翻转

  Pandas 中的翻转操作包括轴向翻转(transpose)和行或列的反转。transpose 方法用于交换 DataFrame 的行和列,而行或列的反转可以使用 iloc 或布尔索引实现,具体的用法如下所示:

# 使用 transpose 翻转 DataFrame 的行和列
df_transposed = df.transpose()
print(df_transposed)

# 使用 iloc 反转 DataFrame 的行
df_reversed_rows = df.iloc[::-1]
print(df_reversed_rows)

# 使用 iloc 反转 DataFrame 的列
df_reversed_columns = df.iloc[:, ::-1]
print(df_reversed_columns)

🔍 3. 高阶用法

3.1 describe高阶用法

   默认情况下,describe()函数只会包括数值类型的列,而会忽略对象类型的列。如果想要包括对象类型的列,可以通过设置参数include='all’来实现。下面是一个示例代码,演示如何使用describe()函数包括对象类型的列:

import pandas as pd

# 创建示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou']}
df = pd.DataFrame(data)

# 默认describe()
print(df.describe())

# 包括对象类型的列
print(df.describe(include='all'))

Age
count   3.000000
mean   30.000000
std     5.000000
min    25.000000
25%    27.500000
50%    30.000000
75%    32.500000
max    35.000000

       Name        Age      City
count     3   3.000000         3
unique    3        NaN         3
top     Bob        NaN  Shanghai
freq      1        NaN         1
mean    NaN  30.000000       NaN
std     NaN   5.000000       NaN
min   Alice  25.000000       NaN
25%     NaN  27.500000       NaN
50%     NaN  30.000000       NaN
75%     NaN  32.500000       NaN
max  Charlie  35.000000       NaN

  

🔍 4. 注意事项

  对上述的各个函数在使用的过程中需要注意的一些事项,不然可能会出现error,具体主要为:

  • 使用 drop_duplicates 时,可以指定 subset 参数来只对某些列进行去重。
  • describe 默认不包括对象类型的列,如果需要包括,可以设置 include=‘all’。
  • 在执行翻转操作时,要确保索引的使用是正确的,以避免出现错误或不符合预期的结果。

🔧 5. 总结

  本文介绍了 Pandas 中的 drop_duplicates、describe 函数以及翻转操作的使用方法。这些功能在日常的数据分析工作中非常有用,可以帮助我们快速去除数据中的重复项,获取数据的描述性统计信息,以及对数据进行必要的翻转操作。通过实际的代码示例,我们可以看到这些操作是如何简单而有效地应用于实际的数据集上的。希望这篇博客能够帮助你更好地利用 Pandas 进行数据分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1827935.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SAP实施方法论的变化

SAP 的实施方法论 ASAP,在SAP进入 S/4 HANA时,不知不觉改了意思。 原来叫Accelerate SAP,现在叫Activate SAP ,毕竟存量SAP太多,大部分用户并非象十多年前一样新实施SAP,而是在老的Sap R/3 ,MyS…

简单的基于小波变换的图像压缩(Python)

2023 沃尔夫数学奖得主,给了杜克大学的Ingrid Daubechies(多贝西)教授 以色列沃尔夫基金会理事会成员 Michael Lin 教授在周二宣布: “Ingrid Daubechies is awarded the Wolf Prize for her work in the creation and development of wavel…

QT 5.14.2 应用程序打包

我们可以直接通过开发工具预览我们的程序。但是当要把开发好的程序给别人使用的时候,我们就需要把程序打包成可执行的exe,然后把这个exe文件和其他相关的文件一起发给别人,这样别人就可以使用了。 一、生成可独立运行的exe (一)、编译程序的…

01 基础入门 编写你的第一个 Go 语言程序

从这节课开始,我会带你走进 Go 语言的世界。我会用通俗易懂的语言,介绍 Go 语言的各个知识点,让你可以从零开始逐步学习,再深入它的世界。不管你以前是否接触过 Go 语言,都可以从这个专栏中受益。 现在,让…

TVBOX 最新版下载+视频源教程

下载链接 wx 搜索 Geek 前端 发送电视资源进行获取 操作教程

【论文复现|智能算法改进】基于多策略融合灰狼算法的移动机器人路径规划

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】灰狼算法(GWO)原理及实现 2.改进点 混沌反向学习策略 融合Logistic混沌映射和Tent混沌映射生成Logistic-Tent复合混沌映射: Z i 1 { ( r Z i ( 1 − Z i ) ( 4 −…

程序员的核心职业素养:专业、沟通与持续学习

✨作者主页: Mr.Zwq✔️个人简介:一个正在努力学技术的Python领域创作者,擅长爬虫,逆向,全栈方向,专注基础和实战分享,欢迎咨询! 您的点赞、关注、收藏、评论,是对我最大…

报错 Cannot read properties of undefined(reading‘addEventListener‘)如何解决

我在制作项目中遇到了一个问题,给大家分享一下,如下图: 问题:这是我给一个input输入框绑定的监听事件出现的报错 翻译:无法读取未定义的属性(读取 addEventListener ) 错误原因:js中操作的dom元素的函数方…

几个小创新模型,KAN组合网络(LSTM、GRU、Transformer)时间序列预测,python预测全家桶...

截止到本期,一共发了8篇关于机器学习预测全家桶Python代码的文章。参考往期文章如下: 1.终于来了!python机器学习预测全家桶 2.机器学习预测全家桶-Python,一次性搞定多/单特征输入,多/单步预测!最强模板&a…

GStreamer 源码编译,在 Clion 下搭建调试环境

前言 最近在学习 GStreamer,官方提供了一些教程,本人希望能够断点调试,以便学习代码逻辑。本文记录如何在 Clion 搭建 GStreamer 源码编译、调试环境 步骤 下载源码 git clone https://gitlab.freedesktop.org/gstreamer/gstreamer.gitCl…

Android中的Audio系统框架分析(一)

概述 Audio系统是Android 平台重要的组成部分,我们将从以下几个方面来讲解: 一Audio基础知识讲解 二、Android系统中Audio框架 Audio基础知识讲解 我们大家知道声音是由物体振动产生的声波。是通过介质(空气或固体、液体)传播并…

【JKI SMO】框架讲解(一)

JKI State Machine是一款易于使用且功能强大的状态机模板,可以作为界面或者仪器工作流程的基础框架,但是他不能处理复杂系统的多任务并发机制,因为他是只能处理单个进程。 随之,JKI推出了基于面向对象封装的SMO框架,是…

hugo 博客写作流程 (二)

写作工具 推荐两款软件,本人都使用过: typora和obsidian typora: https://github.com/woniu336/typora-007 新建文章 在博客目录找到shell/quickstart.sh双击打开即可 发布到Github 前提: 魔法上网在Github新建一个仓库 找到shell/quickstart.sh双击打开,选择7.SSH 管理…

Linux系统安装Ruby语言

Ruby是一种面向对象的脚本语言,由日本的计算机科学家松本行弘设计并开发,Ruby的设计哲学强调程序员的幸福感,致力于简化编程的复杂性,并提供一种既强大又易于使用的工具。其语法简洁优雅,易于阅读和书写,使…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 6月16日,星期日

每天一分钟,知晓天下事! 2024年6月16日 星期日 农历五月十一 1、 国家网信办:将涉网络暴力违法情形记入用户信用记录。 2、 卫健委:超三成3岁以下婴幼儿家庭有入托需求,托育服务关注度持续上升。 3、 大陆对台134项关…

单片机与DHT11温湿度检测设计

本次设计是采用STC89C54单片机加上低成本的温湿度模块DHT11构成的温湿度检测系统。设计主要由硬件与软件两部分设计构成。硬件方面包括单片机STC89C54、温湿度模块DHT11、显示模块LCD1602、电池电源、I2C存储器以及控制按键等5个部分。此系统完全基于单片机最小系统并进行一定的…

英伟达与斯坦福携手,打造未来全息XR眼镜:头带时代的终结

在XR(扩展现实)技术的演进过程中,一个显著的挑战在于如何平衡设备的便携性与视觉体验。传统的XR设备由于需要厚重的头带固定光学器件和显示器,不仅增加了体积,还为用户带来了社交上的不便。然而,随着英伟达与斯坦福大学戈登韦茨斯坦教授领导的研究团队的合作,这一难题似…

极致深耕,打造核心竞争壁垒——探寻蓝思科技穿越周期的密码

作者 | 曾响铃 文 | 响铃说 一家企业,如何才能在时代变幻的风云中不计较一时得失,长期稳健发展,穿越周期?本期主题就来探寻一家在湖南的国际化企业的发展密码。 穿越周期的企业,都在坚持一个驱动发展的“原点” 细…

【新课程】PICO VR 交互开发指南

从PICO开始,迈向XR跨平台开发 Unity XR Interaction Toolkit (简称XRI)是一套跨平台的 XR 交互开发工具包,随着版本的更新与完善,逐渐获得了开发者的青睐。各 XR 平台逐步推荐开发者采用 XRI 作为首选的交互开发工具为…

【FreeRTOS】ARM架构汇编实例

目录 ARM架构简明教程1. ARM架构电脑的组成1.2 RISC1.2 提出问题1.3 CPU内部寄存器1.4 汇编指令 2. C函数的反汇编 学习视频 【FreeRTOS入门与工程实践 --由浅入深带你学习FreeRTOS(FreeRTOS教程 基于STM32,以实际项目为导向)】 https://www.…