Python数据预处理1:导入与基本操作

news2025/1/15 21:03:15

2024/4/30

After installing the 'xlrd' package, you should be able to read Excel files using pandas without any issues.

#需要在pyCharm命令行中下载两个包
pip install pandas
pip install xlrd

.xls数据导入 

#数据的导入
import pandas as pd
#导入EXCEL表格数据
df_excel=pd.read_excel('C:/Users/galax/Desktop/数据预处理py实验表sklearn(清洗脏数据).xls')

#将变量赋给see_data
see_data=df_excel
 查看前五行数据
#查看数据的前5行
print(see_data.head())
#查看数据的后5行
print(see_data.tail())

结果:(前五行)

(后五行)

查看所有的列名
#查看所有的列名
print(see_data.colums)

结果:

查看数据规模(形状:n行xm列) 
#查看数据规模:
print(see_data.shape)

 结果:

查看各个变量的数据类型:
#查看各个变量的数据类型:
print(see_data.dtypes)

结果:

[5 rows x 35 columns]
(9, 35)
name                       object
Est. Profit                object
Type                       object
Δv                         object
MOID                      float64
Composition                object
Aphelion                  float64
Diameter                  float64
e                         float64
a                         float64
Semi-major Axis           float64
Rotation                  float64
Inclination               float64
Perihelion (              float64
Period                    float64
EMOID                     float64
Albedo                     object
epoch                     float64
q                         float64
i                         float64
node                      float64
peri                      float64
M                         float64
tp                        float64
period                    float64
n                         float64
Q                         float64
[H] absolute magnitude    float64
diameter                  float64
rotation period           float64
geometric albedo          float64
B-V                       float64
U-B                       float64
Tholen spectral type       object
SMASSII spectral type      object
查看数据的整体信息
#查看数据整体信息(每一列的数据类型)
print(see_data.info())

结果: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 35 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   name                    9 non-null      object 
 1   Est. Profit             8 non-null      object 
 2   Type                    5 non-null      object 
 3   Δv                      9 non-null      object 
 4   MOID                    2 non-null      float64
 5   Composition             6 non-null      object 
 6   Aphelion                9 non-null      float64
 7   Diameter                7 non-null      float64
 8   e                       8 non-null      float64
 9   a                       7 non-null      float64
 10  Semi-major Axis         8 non-null      float64
 11  Rotation                7 non-null      float64
 12  Inclination             9 non-null      float64
 13  Perihelion (            9 non-null      float64
 14  Period                  9 non-null      float64
 15  EMOID                   9 non-null      float64
 16  Albedo                  4 non-null      object 
 17  epoch                   9 non-null      float64
 18  q                       6 non-null      float64
 19  i                       6 non-null      float64
 20  node                    6 non-null      float64
 21  peri                    6 non-null      float64
 22  M                       6 non-null      float64
 23  tp                      6 non-null      float64
 24  period                  6 non-null      float64
 25  n                       6 non-null      float64
 26  Q                       6 non-null      float64
 27  [H] absolute magnitude  6 non-null      float64
 28  diameter                6 non-null      float64
 29  rotation period         6 non-null      float64
 30  geometric albedo        6 non-null      float64
 31  B-V                     5 non-null      float64
 32  U-B                     5 non-null      float64
 33  Tholen spectral type    5 non-null      object 
 34  SMASSII spectral type   6 non-null      object 
dtypes: float64(27), object(8)
memory usage: 2.6+ KB
None
查看数据描述统计,包括平均值极值等 
#查看数据描述统计,包括平均值极值等
print(see_data.describe())

结果:

查看空值和缺失值

#查看某列是否含有空值和缺失值
print(see_data.isnull().any(axis=0))#axis取0是列,取1是行

结果:

name                      False
Est. Profit                True
Type                       True
Δv                        False
MOID                       True
Composition                True
Aphelion                  False
Diameter                   True
e                          True
a                          True
Semi-major Axis            True
Rotation                   True
Inclination               False
Perihelion (              False
Period                    False
EMOID                     False
Albedo                     True
epoch                     False
q                          True
i                          True
node                       True
peri                       True
M                          True
tp                         True
period                     True
n                          True
Q                          True
[H] absolute magnitude     True
diameter                   True
rotation period            True
geometric albedo           True
B-V                        True
U-B                        True
Tholen spectral type       True
SMASSII spectral type      True
dtype: bool
 定位空值和缺失值所在的行
#定位缺失值所在的行
print(see_data.loc[see_data.isnull().any(axis=1)])

结果:

统计各个变量中缺失值的数量
#统计各个变量中缺失值的数量
print(see_data.isnull().sum(axis=0))

结果:

[9 rows x 35 columns]
name                      0
Est. Profit               1
Type                      4
Δv                        0
MOID                      7
Composition               3
Aphelion                  0
Diameter                  2
e                         1
a                         2
Semi-major Axis           1
Rotation                  2
Inclination               0
Perihelion (              0
Period                    0
EMOID                     0
Albedo                    5
epoch                     0
q                         3
i                         3
node                      3
peri                      3
M                         3
tp                        3
period                    3
n                         3
Q                         3
[H] absolute magnitude    3
diameter                  3
rotation period           3
geometric albedo          3
B-V                       4
U-B                       4
Tholen spectral type      4
SMASSII spectral type     3
dtype: int64

python数据预处理基本操作整体代码

#数据的导入
import pandas as pd
#导入EXCEL表格数据
df_excel=pd.read_excel('C:/Users/galax/Desktop/数据预处理py实验表sklearn(清洗脏数据).xls')
see_data=df_excel
#查看数据的前5行
print(see_data.head())
#查看数据的后5行
print(see_data.tail())
#查看数据规模:
print(see_data.shape)
#查看各个变量的数据类型:
print(see_data.dtypes)
#查看数据整体信息(每一列的数据类型)
print(see_data.info())
#查看数据描述统计,包括平均值极值等
print(see_data.describe())
#查看所有的列名
print(see_data.columns)
#查看空值和缺失值
print(see_data.isnull().any(axis=0))#axis取0是列,取1是行
#定位缺失值所在的行
print(see_data.loc[see_data.isnull().any(axis=1)])
#统计各个变量中缺失值的数量
print(see_data.isnull().sum(axis=0))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1637199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基于微信小程序+uniapp的校园失物招领小程序(V3.0)

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

【大数据】利用 Apache Ranger 管理 Amazon EMR 中的数据权限

利用 Apache Ranger 管理 Amazon EMR 中的数据权限 1.需求背景简介2.系统方案架构图3.主要服务和组件简介3.1 Amazon EMR3.2 Simple Active Directory3.3 Apache Ranger 4.部署步骤4.1 部署 Simple AD 服务4.2 部署 Apache Ranger4.3 部署 Amazon EMR4.4 在 Amazon EMR 的主节点…

FPGA高端项目:FPGA帧差算法多目标图像识别+目标跟踪,提供11套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐FPGA帧差算法单个目标图像识别目标跟踪 3、详细设计方案设计原理框图运动目标检测原理OV5640摄像头配置与采集OV7725摄像头配置与采集RGB视频流转AXI4-StreamVDMA图像缓存多目标帧差算法图像识别目标跟踪模块视频输出Xilinx系列FPGA工程源…

spring-boot示例

spring-boot版本&#xff1a;2.0.3.RELEASE 数据库: H2数据库 &#xff08;嵌入式内存性数据库&#xff0c;安装简单&#xff0c;方便用于开发、测试&#xff0c;不适合用于生产&#xff09; mybatis-plus框架&#xff0c;非常迅速开发CRUD

Liunx磁盘管理(上)

Liunx磁盘管理&#xff08;中&#xff09;-CSDN博客 目录 一.硬盘类型 机械硬盘&#xff08;HDD&#xff09; 固态硬盘&#xff08;SSD&#xff09; 二.插拔方式 1. 热插拔&#xff08;Hot Swapping&#xff09; 2. 冷插拔&#xff08;Cold Swapping&#xff09; 3. 模块…

新唐的nuc980/nuc972的开发3-官方源码编译

上一节中bsp已经安装&#xff0c;交叉环境已经搭建&#xff0c;理应就可以正常的编写上层的应用程序啦。 但是系统启动次序是- uboot-> kernel内核 ->挂载文件系统 ->上层应用程序 下面是bsp安装后的文件&#xff1a; 因此本章节&#xff0c;将讲解 uboot-> kerne…

MySql-日期分组

一、分别统计各时间各类型数据条数 数据库的 request_time字段 数据类型&#xff1a;timestamp 默认值&#xff1a;CURRENT_TIMESTAMP 例子&#xff1a; 2024-01-26 08:25:48 原数据&#xff1a; 1、将数据按照日期&#xff08;年月日&#xff09;形式输出 按照request_…

C语言:文件操作(下)

片头 嗨&#xff01;小伙伴们&#xff0c;在前2篇中&#xff0c;我们分别讲述了C语言&#xff1a;文件操作&#xff08;上&#xff09;和 C语言&#xff1a;文件操作&#xff08;中&#xff09;&#xff0c;今天我们将会学习文件操作&#xff08;下&#xff09;&#xff0c;准…

电商技术揭秘四十一:电商平台的营销系统浅析

相关系列文章 电商技术揭秘相关系列文章合集&#xff08;1&#xff09; 电商技术揭秘相关系列文章合集&#xff08;2&#xff09; 电商技术揭秘相关系列文章合集&#xff08;3&#xff09; 文章目录 引言一、用户画像与精准营销用户画像与精准营销的概念用户画像在精准营销中…

基于FPGA的数字信号处理(7)--如何确定Verilog表达式的位宽

一般规则 很多时候&#xff0c;Verilog中表达式的位宽都是被隐式确定的&#xff0c;即使你自己设计了位宽&#xff0c;它也是根据规则先确定位宽后&#xff0c;再扩展到你的设计位宽&#xff0c;这常常会导致结果产生意想不到的错误。比如&#xff1a; timescale 1ns/1ns mod…

Docker命令(持续更新)

目录 下载和安装 安装必要的依赖项 添加Docker仓库 安装Docker Engine 启动Docker服务 配置阿里云镜像 卸载Docker 镜像 删除指定id镜像 删除所有镜像 镜像保存本地 本地镜像加载到docker服务器内 容器 创建容器 查看所有容器 停止所有容器 启动已存在容器 删…

从键入网址到网页显示,期间发生了什么?

从键入网址到网页显示&#xff0c;期间发生了什么&#xff1f; 孤单小弟【HTTP】真实地址查询【DNS】指南帮手【协议栈】可靠传输【TCP】远程定位【IP】两点传输【MAC】出口【网卡】送别者【交换机】出境大门【路由器】互相扒皮【服务器与客户端】相关问答 不少小伙伴在面试过程…

【千帆平台】AppBuilder工作流编排新功能体验之创建自定义组件

欢迎来到《小5讲堂》 这是《千帆平台》系列文章&#xff0c;每篇文章将以博主理解的角度展开讲解。 温馨提示&#xff1a;博主能力有限&#xff0c;理解水平有限&#xff0c;若有不对之处望指正&#xff01; 目录 前言工作流编排组件 创建组件组件界面组件信息 组件画布操作节点…

Liunx发布tomcat项目

Liunx在Tomcat发布JavaWeb项目 1.问题2.下载JDK3.下载Tomcat4.Tomcat本地JavaWeb项目打war包、解压、发布5.重启Tomcat,查看项目 1.问题 1.JDK 与 Tomcat 版本需匹配&#xff0c;否则页面不能正确显示 报错相关&#xff1a;Caused by: java.lang.ClassNotFoundException: java…

Tag文件与Tag标记

一、Tag文件 Tag文件与JSP文件很类似&#xff0c;可以被JSP页面动态加载调用&#xff0c;实现代码的复用&#xff0c;但用户不能通过该Tag文件所在Web服务目录直接访问Tag文件 1、文件结构 Tag文件是扩展名为.tag的文本文件&#xff0c;其结构和JSP文件类似。一个Tag文件中可…

十一、大模型-Semantic Kernel与 LangChain 的对比

Semantic Kernel 与 LangChain 的对比 Semantic Kernel 和 LangChain 都是用于开发基于大型语言模型&#xff08;LLM&#xff09;的应用程序的框架&#xff0c;但它们各有特点和优势。 基本概念和目标 Semantic Kernel 是一个由微软开发的轻量级 SDK&#xff0c;旨在帮助开发…

nginx版本号隐藏

隐藏Nginx版本号的主要作用是增强服务器的安全性。当Nginx的版本号被隐藏时&#xff0c;攻击者就难以利用已知的漏洞来攻击特定版本的软件&#xff0c;因为他们无法确切知道服务器上运行的Nginx版本。这样可以降低攻击者对系统的了解&#xff0c;增加攻击的复杂性&#xff0c;从…

【大模型系列】大模型的上下文长度解释与拓展

文章目录 1 什么是大模型的上下文长度&#xff1f;2 拓展大模型上下文长度的方式参考资料 1 什么是大模型的上下文长度&#xff1f; 大模型的上下文长度&#xff08;Context Length&#xff09;是指在自然语言处理&#xff08;NLP&#xff09;的大型语言模型&#xff08;Large…

《QT实用小工具·四十四》支持图片和动图的文本编辑器

1、概述 源码放在文章末尾 该项目实现了一个功能丰富的文本编辑器&#xff0c;除了包含文本常规的编辑功能&#xff0c;还包括图片的插入功能和动图的插入功能&#xff0c;项目demo演示如下所示&#xff1a; 项目部分代码如下所示&#xff1a; #include "imagehelper.…

【Linux网络编程】DNS、ICMP、NAT技术、代理服务器+网络通信各层协议总结

DNS、ICMP、NAT技术、代理服务器网络通信总结 1.DNS2.ICMP协议2.1ping命令2.2traceroute命令 3.NAT技术4.NAT和代理服务器5.网线通信各层协议总结 点赞&#x1f44d;&#x1f44d;收藏&#x1f31f;&#x1f31f;关注&#x1f496;&#x1f496; 你的支持是对我最大的鼓励&…