机器学习 | 利用Pandas进入高级数据分析领域

news2024/9/26 3:28:50

目录

初识Pandas

Pandas数据结构

基本数据操作

DataFrame运算

文件读取与存储

高级数据处理


初识Pandas

Pandas是2008年WesMcKinney开发出的库,专门用于数据挖掘的开源python库,以Numpy为基础,借力Numpy模块在计算方面性能高的优势,其基于matplotlib能够简便画图,具有独特的数据结构。

与Numpy相比,Pandas能够更好地理解数据和发现其关联性,增强图表的可读性

具有丰富的数据清洗功能,可以处理缺失值、重复值、异常值等问题。

当然其还有如下的功能:

数据处理:可以轻松处理各种类型的数据,包括二维表格数据、时间序列数据等。

数据分析:可以轻松地计算均值、中位数、标准差等统计指标。

与其他工具的兼容性:可以使用Pandas读取和写入各种数据格式,如CSV、SQL数据库等。

总之,Pandas是一款功能强大且易于使用的数据分析工具,能够让你高效地处理和分析结构化数据。通过利用Pandas的各种功能,你可以更快地了解数据、发现洞察,并做出有意义的数据驱动决策。

Pandas数据结构

Pandas中一共有三种数据结构,分别为:Series、DataFrame和Multilndex(老版本中叫Panel),其中Series是一维数据结构,DataFrame是二维的表格型数据结构,Multilndex是三维的数据结构。如果电脑没有pandas这个包的话,我们首先终端执行如下命令进行安装:

pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple

Series:Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。其代码创建如下:

# 导入 pandas
import pandas as pd

# data:传入的数据,可以是ndarray,list等
# index:索引,必须是唯一的,且与数据的长度相等。
# dtype:数据的类型
pd.Series(data=None, index=None, dtype=None)

以下是通过Series创建的三种方式:

为了更方便地操作Series对象中的索引和数据,Series中提供了两个属性index和values

DataFrame:DataFrame是一个类似于二维数组或表格(如excel)的对象,既有行索引,又有列索引。行索引,表明不同行,横向索引,叫index,0轴,axis=0;列索引,表名不同列,纵向索引,叫columns,1轴,axis=1。其代码创建如下:

# 导入pandas
import pandas as pd

# index:行标签。如果没有传入索引参数,则默认会自动创建一个从o-N的整数索引。
# columns:列标签。如果没有传入索引参数,则默认会自动创建一个从o-N的整数索引。
pd.DataFrame(data=None, index=None, columns=None)

以下是通过DataFrame创建的方式:

为了更方便地操作DataFrame对象中的数据,DataFrame中提供了如下属性进行操作:

如果想对DataFrame索引的内容进行修改的话可以采用如下的方式进行设置(不能单个索引修改):

如果想重置或删除索引的话,可以采用如下的方式进行:

如果想以某列值设置为新的索引,可以采用如下的方式进行:

Multilndex:是三维的数据结构;多级索引(也称层次化索引)是pandas的重要功能,可以在Series、DataFrame对象上拥有2个以及2个以上的索引。

当我们打印上面的年月表格的行索引结果时,给出的结果如下:

多级或分层索引对象中index的属性有names表示levels的名称,levels表示每个levels的元组值:

使用MultiIndex进行创建的方式如下:

基本数据操作

以下是使用pandas对数据进行基本的操作,我们首先通过pandas读取csv获取到数据,然后操作:

索引操作:pandas支持索引选取序列和切片操作,也可以直接使用列名和行名:

赋值操作:可以直接对某项数据进行赋值操作:

排序操作:使用排序操作可以采用如下的方式进行

当然还有更简单的Series排序,使用 Series 排序时,只有一列不需要参数:

DataFrame运算

算术运算:可以采用如下方式

逻辑运算:可以采用如下方式 

当然我们也可以采用相应的函数进行操作:

统计运算:可以采用如下方式 

综合分析直接得出所有字段的统计结果:

如果想求某一字段的累计求和的话,可以采用如下的方式进行:

如果想自定义运算的话,可以采用如下的方式进行: 

文件读取与存储

我们的数据大部分存在于文件当中,所以pandas会支持复杂的iO操作,pandas的API支持众多的文件格式如CSV、SQL、XLS、JSON、HDF5。最常用的就是HDF5和CSV文件:

如果要读取 CSV 可以采用如下的方式:

如果要读取 HDF5 可以采用如下的方式:

注意

1)HDF5在存储的时候支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的

2)用压缩可以提磁盘利用率,节省空间

3)HDF5还是跨平台的,可以轻松迁移到hadoop上面

如果要读取 JSON 可以采用如下的方式:

高级数据处理

pandas还有需要高级数据处理的操作,就以下几个常用的高级数据操作进行讲解:

缺失值处理:在Pandas中,缺失值表示数据集中的空值或未知值。它们通常由NaN(Not a Number)或None表示,具体取决于数据类型。缺失值可能是由于多种原因造成的,比如数据采集过程中的错误、数据转换过程中的问题、用户未提供某些值等。在数据分析和处理过程中,了解和处理缺失值是非常重要的。如何处理缺失值呢?

首先我们先导入一个电脑数据的分析的案例:

接下来我们对缺失值进行判断,如果存在缺失值进行删除:

接下来我们对缺失值进行判断,如果存在缺失值进行替换: 

如果缺失值不是NaN而是?的话,我们可以进行如下操作:

数据离散化:连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。离散化有很多种方法,这使用一种最简单的方式去操作:

原始人的身高数据:165,174,160,180,159,163,192,184

假设按照身高分几个区间段:150~165,165~180,180~195

这样我们将数据分到了三个区间段,我可以对应的标记为矮、中、高三个类别,最终要处理成一个"哑变量"矩阵

连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。首先我们先导入数据:

接下来对数据进行一个分组操作:

如果我们想把分组数据变成one-hot编码的话可以采用如下操作(把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为热编码):

数据合并:如果你的数据由多张表组成,那么有时候需要将不同的内容合并在一起分析:

交叉表与透视表:两种用于数据分析和汇总的功能

其使用操作如下:

具体操作如下:

分组与聚合:分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况。其具体操作如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1414846.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

system_server进程创建流程

system_server 进程是 Zygote 进程 fork 出的第一个进程,它负责管理和启动整个 Framework 层,下面附上android系统启动流程图: 记得上一篇Zygote进程创建里面提到过,forckSystemServer创建system_server进程。 /frameworks/base/…

nginx负载均衡-轮询

实验使用ubuntu做主机 1.安装nginx 安装依赖 sudo apt install libgd-dev 下载nginx wget http://nginx.org/download/nginx-1.22.1.tar.gz 解压nginx tar -zvxf nginx-1.22.1.tar.gz 编译安装 cd nginx-1.22.1 编译并指定安装位置,执行安装之后会创建指定…

鸿蒙APP的应用场景

鸿蒙APP可以用于多种场合和设备类型,这是鸿蒙系统的分布式能力和多终端适配的优势。以下是一些鸿蒙APP的应用场景,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.智能手机和平板电脑&am…

【听力与言语医学中心系列科普16】听力检查之纯音听阈测定

当我们去医院向医生诉说我们耳朵有问题时,最常听到医生说的是“去做个测听”吧,那么什么是测听?做测听有什么作用呢? 一、什么是纯音测听纯音听力测试自1943年Bunch教授发表后,就被作为首选的测听方法。纯音测听是测试…

一键轻松,免费创造:QuickQR带你体验AI二维码的轻松生成!

当今时代,将信息快速转变为可扫描图案,以简化人们的生活和工作方式,二维码技术展现了它强大的功能。特别是在分享链接、联系信息或进行支付时,二维码已成为现代社会一个不可或缺的部分。本文将探讨生成AI二维码的一种工具&#xf…

Linux服务器配置与管理(第三次实验)

实验目的及具体要求 目的 1.熟悉Shell 脚本语法 2.掌握创建脚本的方法 3.掌握运行脚本的方法 4.掌握变量及表达式 5.掌握Shell 控制结构 6.掌握Shell 函数 任务 1.显示当前日期时间、执行路径、用户账户及所在的目录位置 2.判断一个文件是不是字符设备文件&#xff0…

首发:2024全球DAO组织发展研究

作者,张群(专注DAO及区块链应用研究,赛联区块链教育首席讲师,工信部赛迪特邀资深专家,CSDN认证业界专家,微软认证专家,多家企业区块链产品顾问) DAO(去中心化自治组织&am…

手把手教学:AD09制作BOM及小技巧

BOM(Bill of Material)物料清单,是以数据格式来描述产品结构的文件,即生产一件产品所需的子零件及其产品中零件数量的完全组合。这里生成BOM表用作对你制作的pcb板进行成本预估和制作生产资料文件。同时也是样品制作时&#xff0c…

2024.1.25 C++QT 作业

思维导图 练习题 1. 自己封装一个矩形类(Rect),拥有私有属性:宽度(width)、高度(height), 定义公有成员函数: 初始化函数:void init(int w, int h) 更改宽度的函数:set_w(int w) 更改高度的函数:set_h(int h) 输出该矩形的周长和面积函数:void sh…

策略者模式-C#实现

该实例基于WPF实现,直接上代码,下面为三层架构的代码。 目录 一 Model 二 View 三 ViewModel 一 Model using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace 设计模式练…

JavaWeb01--Tomcat

1、JavaWeb概述 Web开发是基于请求和响应的: 请求:浏览器(客户端)向服务器发送信息 响应:服务器向浏览器回送信息 请求和响应是成对出现的。 Web资源分类 所谓Web资源即放在Internet网上供外界访问的文件或程序&#x…

[java基础揉碎]break跳出循环的标签使用方式(continue同理)

语法: (1)break 语句可以指定退出哪层 (2)label1是标签,由程序员指定 (3)break 后指定到哪个label 就退出到哪里 (4)在实际的开发中,尽量不要使用标签(可读性会变差), 除非有业务逻辑需要必须使用迫不得已 (5)如果没有指定break,默认退出最近的循环体…

new mars3d.layer.WeiVectorTileLayer({在Mars3d官网个api搜索不到的说明

前景:new mars3d.layer.WeiVectorTileLayer({在Mars3d官网个api搜索不到的说明 说明: 可以下载示例git clone https://gitee.com/marsgis/mars3d-vue-example.git 参考api文档的Cesium.VectorStyle类,这个类可以在示例的thirdParty下面进行…

sql 行转列 日周月 图表统计

目录 目录 需求 准备 月 分析 按月分组 行转列 错误版本 正确版本 日 分析 行转列 周 分析 按周分组 行转列 本年 需求 页面有三个按钮 日周月,统计一周中每天(日),一月中每周(周),一年中每月(月),设备台数 点…

ROS2学习笔记(0)开坑声明

0.前提 在做racecar的过程中发现已经有不少的开发者和公司开始从ros1转向ros2的怀抱了,刚好寒假在家,我就顺带试试看能不能学点ros2,刚好我有两辆车和主板可以双线开工(是的,全是老师们赞助的,真的我哭死&…

DDPM的一点笔记

1 Title Denoising Diffusion Probabilistic Models(Jonathan Ho、Ajay Jain、Pieter Abbeel) 2 Conclusion This paper present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models insp…

Two-factor authentication (2FA) is required for your GitHub account解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

物联网IOT: 风浆叶片拧紧装配及实时监测系统

某大型风电设备,通过机器人应用与精益化生产体系的融合,打造出行业领先的具备柔性生产能力的“脉动式”生产体系。同时在关键工序上。其中,在叶片装配等关键工序上使用由智能机器人代替人工,以提高生产的效率和装配质量可靠性,将六轴机器人、视觉系统、光电系统、液压、气动、伺…

计算机设计大赛 图像识别-人脸识别与疲劳检测 - python opencv

文章目录 0 前言1 课题背景2 Dlib人脸识别2.1 简介2.2 Dlib优点2.3 相关代码2.4 人脸数据库2.5 人脸录入加识别效果 3 疲劳检测算法3.1 眼睛检测算法3.3 点头检测算法 4 PyQt54.1 简介4.2相关界面代码 5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是…

5 步轻松上手,教你从 0 到 1 落地 Jmeter 接口自动化脚本!

Jmeter是进行接口测试的一款非常主流的工具,但绝大部分测试工程师,对于Jmeter接口测试脚本整理都是一知半解的。今天这篇文章,就以一个金融项目中接口为例,通过简单5步,教大家如何0代码编写Jmeter接口自动化脚本&#…