详解pandas的read_csv函数

news2024/11/25 16:46:11

一、官网参数

        pandas官网参数网址:pandas.read_csv — pandas 1.5.2 documentation

如下所示:

 二、常用参数详解

1、filepath_or_buffer(文件)

        一般指读取文件的路径。比如读取csv文件。【必须指定

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv")

print(df_1)

2、sep(分隔符)

        指定分隔符。如果不指定参数,默认逗号分隔。常见的分隔符:英文逗号(,),制表符(\t),竖线(|)。其中,英文逗号最常用。

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',')

print(df_1)

3、 header(表头)

        表头即列名,默认第0行数据为表头。【从0开始计数】,以下为excel示意表头。

 如果数据没有表头,可以通过header=None表示。

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',',header=None)

print(df_1)

结果如下,第0行成为数据,列名重置为0、1、2。因此,需要仅对无表头数据设置此参数。

 4、names(列名)

        用于原始数据无表头,又想设置列名的情况。如下数据,直接读取,默认0、1、2为列名:

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',',header=None)

print(df_1)

 

         如果需要给列命名,可以通过names参数设定列名,即可将数据列命名。

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',',header=None,
                   names=['name','age','income'])

print(df_1)

 5、dtype(数据类型)

    指定字段数据类型。例如:

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',',header=None,
                   names=['name','age','income'],
                    dtype={'name':str,'age':int,'income':int})

print(df_1)
print(df_1.dtypes)

指定name列为str类型,age和income为int数据类型。【pandas中的object即python的str】

6、engine(引擎)

        pandas解析数据时用的引擎。pandas 目前的解析引擎提供两种:c、python,默认为 c,因为 c 引擎解析速度更快,但是特性没有 python 引擎全。如果使用 c 引擎没有的特性时,会自动退化为 python 引擎。

        与我们使用密切相关的:有时候读取数据文件会报错:OSError: Initializing from file failed

 那么此时需要设定    engine='python'   ,即可成功读取文件。

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',',header=None,
                   names=['name','age','income'],engine='python')

print(df_1)

7、skiprows(跳过指定行)

        对于前N行数据不想要读进内存,可以指定此参数跳过。

未指定结果:

        

指定  skiprows=1 即跳过一行结果:

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',',header=None,
                   names=['name','age','income'],engine='python',skiprows=1)

print(df_1)

 8、encoding(编码)

        文件编码:一般为  utf8  或者  gbk  编码。

如何查看与修改文件编码:如何修改文件的编码_Python伊甸园的博客-CSDN博客_如何修改文件的编码格式

import pandas as pd

df_1 = pd.read_csv(r"C:\Users\wwb\Desktop\data1.csv",sep=',',header=None,
                   names=['name','age','income'],engine='python',skiprows=1,
                   encoding='utf8')

print(df_1)

       以上就是最常用的pandas读取数据文件参数信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/169190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Xilinx FPGA电源设计与注意事项

1 引言随着半导体和芯片技术的飞速发展,现在的FPGA集成了越来越多的可配置逻辑资源、各种各样的外部总线接口以及丰富的内部RAM资源,使其在国防、医疗、消费电子等领域得到了越来越广泛的应用。当采用FPGA进行设计电路时,大多数FPGA对上电的电…

软件测试复习06:基于经验的测试

作者:非妃是公主 专栏:《软件测试》 个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩 文章目录软件缺陷基于缺陷分类的测试缺陷模式探索性测试软件缺陷 主要由以下几种原因造成: 疏…

Redux相关知识(什么是redux、redux的工作原理、redux的核心概念、redux的基本使用)(十一)

系列文章目录 第一章:React基础知识(React基本使用、JSX语法、React模块化与组件化)(一) 第二章:React基础知识(组件实例三大核心属性state、props、refs)(二&#xff0…

Arduino 开发ESP8266(ESP12F)模块

①ESP12F模块的硬件说明如上图所示,其他引脚均引出。②准备好硬件之后就是要下载Arduino IDE,目前版本为2.0.3,下载地址为:https://www.arduino.cc/en/software,如下图所示③安装Arduino IDE较为简单,安装之…

aws cloudformation 在堆栈中使用 waitcondition 协调资源创建和相关操作

参考资料 https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-waitcondition.htmlhttps://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/aws-properties-waitcondition.html 本文介绍cloudformation的waitcondition条件,wait…

Win10之bandicam录音无声音问题

0.问题描述:在Xubuntu22.04中通过gnome-boxes跑win10,但是win10本机录音机录音ok,使用bandicam录屏却没声音的问题,以下是分析步骤。1.Linux端设置选择Xbuntu声音图标speaker选择声卡:sof-hda-dsp Speaker Headphonesm…

DFS剪枝

目录 一、前言 二、剪枝 1、概念 2、类别 三、例题 1、剪格子(lanqiaoOJ题号211) 2、路径之谜(2016年决赛,lanqiaoOJ题号89) 3、四阶幻方(2015年决赛,lanqiaoOJ题号689) 4、…

P1028 [NOIP2001 普及组] 数的计算————C++

题目 [NOIP2001 普及组] 数的计算 题目描述 给出自然数 nnn,要求按如下方式构造数列: 只有一个数字 nnn 的数列是一个合法的数列。在一个合法的数列的末尾加入一个自然数,但是这个自然数不能超过该数列最后一项的一半,可以得到…

linux(debian系列)配置seetaface6

seetaface6依赖于opencv,另外我们需要界面,所以也需要Qt(你也可以选择其他的)。 这里的目标是配置好环境,能够编译并运行seetaface6给的demo。 那个demo中用到了sqlite数据库,所以我们还需要安装sqlite。…

Cosmos 基础(一)

Cosmos 区块链互联网 Cosmos是一个不断扩展的生态系统,由相互连接的应用程序和服务组成,为去中心化的未来而构建。 Cosmos 应用程序和服务使用IBC(the Inter-Blockchain Communication protocol, 区块链间通信协议)连接。这一创新使您能够在主权国家之…

僵尸进程孤儿进程

目录 1. 僵尸进程 2. 孤儿进程 1. 僵尸进程 僵尸状态:一个进程已经退出,但是还不允许被OS释放,处于一个被检测的状态。 僵死状态(Z-Zombies)是一个比较特殊的状态。当子进程退出并且父进程没有读取到子进程退出的返…

学习记录663@项目管理之项目范围管理

什么是项目范围管理 项目范围管理包括确保项目做且只做所需的全部工作,以成功完成项目的各个过程。它关注的焦点是:什么是包括在项目之内的,什么是不包括在项目之内的,即为项目工作明确划定边界。通俗地讲,项目范围管理就是要做范…

Dubbo框架学习(第二章Dubbo3拥抱云原生)

由于在微服务领域有两大框架统治,一个是springCloud的全家桶,一个是Dubbo。我用Dubbo比较少,所以也是学习状态。Dubbo框架学习,资料来源于cn.dubbo.apache.org。第二章Dubbo3拥抱云原生新一代的 Triple 协议基于 HTTP/2 作为传输层…

计算机网络第五章、第六章

1.传输层定义:为应用层提供通信服务使用网络层的服务传输层的功能:传输层提供进程和进程之间的逻辑通信复用和分用传输层对收到的报文进行差错检测传输层的两种协议传输层的两个协议:1.面向连接的传输控制协议TCP:传送数据之前必须…

人工智能辅助药物发现(1)肿瘤靶点识别

目录基于AI的靶点识别概述肿瘤建模肿瘤转录组转录组异质性单细胞转录组数据分析单细胞表观肿瘤模型肿瘤中的表观遗传模型基于甲基化测序技术的肿瘤表观遗传模型基于染色质可及性的肿瘤表观遗传模型多模态肿瘤建模靶点识别基于单细胞RNA的靶点发现基于表观的靶点发现基于多组学的…

点击化学交联剂N3-SS-N3,叠氮-二硫键-叠氮简介,CAS:352305-38-5

英文名称:Azidoethyl-SS-ethylazide N3-SS-N3 N3-S-S-N3 化学式:C4H8N6S2 分子量:204.3 CAS:352305-38-5 存储条件:-20C,避光,避湿 用 途:仅供科研实验使用,不用于…

《Buildozer打包实战指南》第四节 正式打包一个apk文件

目录 4.1 了解buildozer.spec配置文件中的常用参数 4.2 修改配置文件打包apk 在上一节内容中,我们配置好了打包环境,还顺带成功打包出了一个apk文件(读者可以把这个apk安装到手机上运行)。不过在打包这个apk前,我们没…

Unity学习笔记--如何在Unity运行cmd?并且在Unity中利用cmd操作svn(例如生成svn--diff文件)

目录前言需求拆分解决方案实操前言 最近工作有一个需求,简单来说是在 Unity 里面动态获取 SVN diff 的数据,并且针对这些 diff 文件做对应操作 需求拆分 我们首先拆分下需求 Unity里面获取 SVN 的 diff 文件针对生成的 diff 文件做解析,找…

Qt 视频播放

一、简介Qt对音视频的播放和控制,相机拍照,收音机等多媒体应用提供了强大的支持。Qt5使用了全新的Qt Multimedia模块来实现多媒体应用,而原来Qt4中用于实现多媒体功能的Phonon模块已经被移除。新的Qt Multimedia模块提供了丰富的接口&#xf…

【从零开始学习深度学习】50.Pytorch_NLP项目实战:卷积神经网络textCNN在文本情感分类的运用

在之前介绍的“卷积神经网络”中我们探究了如何使用二维卷积神经网络来处理二维图像数据。在语言模型和文本分类任务中,我们将文本数据看作是只有一个维度的时间序列,并很自然地使用循环神经网络来表征这样的数据。其实,我们也可以将文本当作…