pandas数据预处理

news2024/12/28 18:36:09

pandas数据预处理

  • pandas及其数据结构
    • pandas简介
      • Series数据结构及其创建
      • DataFrame数据结构及其创建
  • 利用pandas导入导出数据
    • 导入外部数据
      • 导入数据文件
    • 导出外部数据
      • 导出数据文件
  • 数据概览及预处理
    • 数据概览分析
      • 利用DataFrame的常用属性
      • 利用DataFrame的常用方法
    • 数据清洗
      • 缺失值处理
        • 删除法
        • 替换法
      • 重复值处理
        • 去重
      • 异常值检测与处理
      • 数据抽取与合并
        • 数据抽取
        • 数据合并
      • 数据增删改
      • 数据转换
  • 数据的描述性统计分析
    • 数据排序
    • 常见数据计算
      • 数值型特征的描述性统计
      • 类别型特征的描述统计
  • 分组统计分析
    • 数据分组
    • 分组聚合

pandas及其数据结构

pandas简介

pandas是Python语言的一个第三方库,开放源码,提供高性能、易于使用的数据结构和数据分析工具。pandas是一个强大的分析结构化数据的工具集,基于numpy实现的。
在这里插入图片描述

Series数据结构及其创建

pandas的核心是Series和DataFrame两大数据结构

  • Series数据结构是用于存储一个序列的一维数组,而DataFrame数据结构则是用于存储复杂数据的二维数据结构。
  • Series是一种类似于一维数组的对象,它是由一组数据,这组数据可以是Numpy中任意类型的数据,以及一组与之相关的数据标签组成。
  • Series对象的内部结构是由两个相互关联的数组组成,即数值和索引。
    在这里插入图片描述
    Series类型是带索引的一维数组对象。包含了一个值序列,并且包含了数据标签,称为索引(index),可通过索引来访问数组中的数据。
    Series的创建格式:
    pandas.Series(data[, index])
    函数中的参数:
    data是输入给Series构造器的数据。
    index是Series对象中数据的标签(即索引)。
    例如:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

DataFrame数据结构及其创建

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
分别有行索引和列索引。
常用于表达二维数组,也可以表达多维数组。DataFrame的创建格式:
在这里插入图片描述
pandas.DataFrame(data[,index[,columns]])
函数中的参数说明:

  • data是输入给DataFrame构造器的数据,见下页。
  • Index是DataFrame对象中行索引的标签。
  • columns是DataFrame对象中列索引的标签。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

利用pandas导入导出数据

导入外部数据

导入数据文件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

导出外部数据

导出数据文件

在这里插入图片描述

数据概览及预处理

数据概览分析

数据概览是在数据分析之前对数据的规模、数据的类型及数据的质量等进行概览性的分析
在这里插入图片描述

利用DataFrame的常用属性

在这里插入图片描述

利用DataFrame的常用方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据清洗

数据清洗是通过预处理,剔除数据中的噪声,恢复数据完整性和一致性
在这里插入图片描述

缺失值处理

删除法

在这里插入图片描述

替换法

在这里插入图片描述

重复值处理

去重

在这里插入图片描述

异常值检测与处理

在这里插入图片描述

数据抽取与合并

数据抽取

在这里插入图片描述

数据合并

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据增删改

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据转换

在这里插入图片描述

数据的描述性统计分析

数据排序

在这里插入图片描述
在这里插入图片描述

常见数据计算

在这里插入图片描述

数值型特征的描述性统计

在这里插入图片描述

类别型特征的描述统计

在这里插入图片描述
在这里插入图片描述

分组统计分析

数据分组

在这里插入图片描述
在这里插入图片描述

分组聚合

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/605923.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cesium教程 (3) 矢量切片mvt-imagery-provider加载

Cesium教程 (3) 矢量切片mvt-imagery-provider加载 目录 0. 矢量切片 1. 开源项目 2. 环境 3. 代码 4. TODO 0. 矢量切片 WMTS:加载最快,图片格式,样式固定; WMS:加载数量大则慢,但可以点击查询等&am…

htmlCSS-----CSS选择器(上)

目录 前言: 1.初级选择器 (1)ID选择器 (2)class选择器 (3)标签选择器 (4)通配选择器 前言: CSS选择器是CSS页面处理的重要组成部分,前面讲到…

MMPose关键点检测实战

安装教程 https://github.com/TommyZihao/MMPose_Tutorials/blob/main/2023/0524/%E3%80%90A1%E3%80%91%E5%AE%89%E8%A3%85MMPose.ipynb git clone https://github.com/open-mmlab/mmpose.git -b tutorial2023 -b代表切换到某个分支,保证分支和作者的教程一致 ra…

基于SpringBoot+Thymeleaf+Mybatis+Html校园二手交易平台

基于SpringBootThymeleafMybatisHtml校园二手交易平台 一、系统介绍1、系统主要功能:2、环境配置 二、功能展示1.主页(客户)2.登陆(客户)3.我的购物车(客户)4.我的订单(客户)5.主页(管理员)6.订…

mybatisplus数据权限插件学习初探 动态表名更换插件 防止全表更新与删除插件

文章目录 学习链接 mybatisplus数据权限插件学习初探前言案例建表用户表订单表 环境准备UserUserMapperUserMapper.xmlOrdersOrdersMapperOrdersMapper.xml 配置UserTypeEnumUserContextHolderCustomizeDataPermissionHandlerMybatisPlusConfig 测试测试类bossdeptManagerclerk…

Redis通信协议、过期回收策略

Redis通信协议-RESP协议 Redis是一个CS架构的软件,通信一般分两步(不包括pipeline和PubSub): 客户端(client)向服务端(server)发送一条命令 服务端解析并执行命令,返回…

二级指针骚操作实现链表虚拟头节点

重点是不用像其他文章里那样,用一个普通节点成员变量当头节点,节省一点空间占用,反正我觉得有点骚。就不详细交代技术背景了,简而言之,就是链表中第一个节点前没有节点了,只有一个指向它的指针,…

强化学习基础篇[3]:DQN、Actor-Critic详解

【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现 专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应…

从实习到秋招成为一名安全工程师,我是怎么做的

前言 借朋友口述总结了安全招聘面试经历分享,希望更多的人看到这篇文,从中得到启发,找到自己心仪的工作。 基本情况 签了字节的三方,秋招终于告一段落。从八月份边实习边准备秋招到现在,经历了许多,这篇帖…

Linux :: 【简单开发篇 :: vim 编辑器:(1)】:: vim 编辑器的基本认识与三种 vim 常用模式 | 使用:打开编辑、退出保存关闭vim

前言:本篇是 Linux 基本操作篇章的内容! 笔者使用的环境是基于腾讯云服务器:CentOS 7.6 64bit。 学习集: C 入门到入土!!!学习合集Linux 从命令到网络再到内核!学习合集 目录索引&am…

yolov8Pose实战

目录 前言一、yolov8环境搭建二、测试训练模型,评估模型,并导出模型实测检测效果 测试人体姿态估计 前言 YOLO系列层出不穷,从yolov5到现在的yolov8仅仅不到一年的时间。追踪新技术,了解前沿算法,一起来测试下yolov8在…

【密码学复习】第十章 身份鉴别

身份鉴别的定义 定义:身份鉴别,又称为身份识别、身份认证。它是证实客户的真实身份与其所声称的身份是否相符的过程。 口令身份鉴别 固定口令(四) 注册环节:双因子认证 ① 接收用户提供的口令pw(PIN&…

车辆救援道路救援预约汽修托运小程序

道路救援:指汽车道路紧急救援,为故障车主提供包括诸如:拖吊、换水、充电、换胎、送油以及现场小修等服务(Road-Side Service); 同时也指交通事故道路救援,包括伤员救治、道路疏导等。 随着我国巨大的汽车拥有量&…

1计算机系统概述_1.2计算机系统层次结构

1.2 计算机系统层次结构 计算机系统(CO 自命名) 1、CO的组成 硬件系统和软件系统共同构成了一个完整的计算机系统 ——硬件:有形的物理设备,是CO中实际物理装置的总称 ——软件:在硬件上运行的程序和相关的数据及文…

SpringCloud:分布式缓存之Redis哨兵

Redis提供了哨兵(Sentinel)机制来实现主从集群的自动故障恢复。 1.哨兵原理 1.1.集群结构和作用 哨兵的结构如图: 哨兵的作用如下: 监控:Sentinel会不断检查您的master和slave是否按预期工作自动故障恢复&#xff…

人工智能(pytorch)搭建模型9-pytorch搭建一个ELMo模型,实现训练过程

大家好,我是微学AI,今天给大家介绍一下人工智能(pytorch)搭建模型9-pytorch搭建一个ELMo模型,实现训练过程,本文将介绍如何使用PyTorch搭建ELMo模型,包括ELMo模型的原理、数据样例、模型训练、损失值和准确率的打印以及…

labelimg闪退解决方法(之前使用过labelimg,但新一次使用,打开文件夹无反应,再次打开闪退的问题)及标注经验

问题描述: 之前使用过labelimg进行好多次的标注,但新一次运行使用,发现打开目录无反应,再次打开闪退的问题,重启电脑并且从新运行labelimg仍然无效。 解决方法: 关闭labelimg,然后删除文件C…

一文纵览Umi‘s Friends生态,GameFi浪潮的变革者

以“P2E”为特性的 GameFi,代表着游戏时代的新盈利模式,它将 NFT 或其他形式的代币化资产作为游戏内容,游戏内资产的寿命会,则随着这些资产继续存在于玩家的钱包中而延长(即便游戏关闭),资产的互…

class文件中,常量池、方法表、属性表,异常表等等相关数据解析!小白就跟我一起对照学【class字节码文件分析】

前言:前段时间读《深入java虚拟机》介绍到class文件的时候,由于理论知识较多,人总感觉疲惫不堪,就泛泛阅读了一下。在工作中使用起来知识点知道,但是总是需要查阅各种资料。今天有时间,继续整理常量池后面的…

session与cookie

session是一种会话机制。当客户端发送登录请求时,服务端会生成一个sessionId存储在cookie中返回给客户端,客户端通过响应数据中的set-cookie字段来获取cookie并保存。如果客户端再向同一网站发送请求时,会自动携带cookie,相当于一…