Pandas教程(二)—— 不同格式的数据读取

news2024/11/16 21:35:11

前言:几种常用数据格式的介绍

  • csv文件

1.  逗号分隔值文件,以纯文本形式(记事本)存储表格数据

2.  它是一种平面文件:即只存储数据和文字,不能存储公式、图表等

3.  更适合存储大数据,一般用来批量一维或二维存储数据

4.  csv、tsv、txt都属于文本文件,只是csv以逗号分隔,tsv以制表符Tab隔开,而txt没有具体要求(逗号、制表符、空格等都可) 

CSV文件的存储方式

  • Excel文件

1.  Excel是一个电子表格,将文件保存为自己的专有格式,即xls或xlsx

2.  Excel是一个二进制文件,它不仅可以存储数据,还可以对数据进行操作

3.  不适合处理大数据

  • JSON数据

1.  JSON是一种轻量级的数据交换格式,用于存储和传输结构化数据

2.  JSON一般存储与Web浏览器中,是一种在各个编程语言中流通的数据格式(类似英语)

3.  JSON 数据的书写格式是键(名称)值对

  • XML、HXML格式

1.  XML是一种标记语言,被设计用来传输和存储数据(同JOSH),其焦点是数据的内容

2.  HTML 是超文本标记语言,被设计用来显示数据,其焦点是数据的外观

1.在python中新建文件

文件类型新建方法
csv和txt(纯文本文件)pd.to_csv(路径)
excelpd.to_excel(路径)
sqlpd.to_sql(路径)

 新建文件方法的几个参数:

        sep:分隔符

        na_rep= :  缺失值标注(默认为空字符串)

        index = :  是否写入行的标签(默认True)

        header = :是否写入列的标签(默认True)

import pandas as pd
import numpy as np

road = "D:\python code\pycharm\表格.xlsx"
data = pd.DataFrame(np.arange(9).reshape(3, 3))
print(data)
data.to_excel(road,index=False,header=False)

2.读写csv和txt文本文件

 

 

 读写文本文件方法的几个参数:

       

        sep =:文件的分隔符;如果文件中分隔符不止一个,一般输入一个正则表达式 “\s+”

        header = :默认第一行为列名,如果不是,则输入None

        names = :  指定列名列表,和header搭配使用

        index_col = :  指定一个列,用作行名(可以输入索引名或索引编号)

        skiprows =:从开头起,需要跳过的行数或行号列表

        nrows =:从文件开头处需要读入的行数

        na_values =:需要用Na替换的值序列

 3.读取Excel文件

       操作基本和文本文件差不多(最好先装好第三方包 xlrd和openpyxl)

import pandas as pd
road = "E:\python 资料\孙兴华 数据分析教程\Pandas课件\课件\pandas教程\课件001-005\读取文件.xlsx"
data = pd.read_excel(road,header= None,
                     names=["序号","姓名","年龄","手机","地址","日期"],
                     index_col = 0) #读取文件
print(data)
data.to_excel(road) #保存文件

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1339087.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何解决msvcr100.dll丢失问题,深度解析5种靠谱的方法

在计算机的世界里,我们常常会遇到一些看似微不足道的问题,但它们却可能引发一系列的困扰。其中之一就是“msvcr100.dll丢失”。这个问题可能会导致某些程序无法正常运行。本文将介绍5种解决msvcr100.dll丢失问题的方法。 msvcr100.dll是什么 msvcr100.d…

NXP S32K358 davinci cfg can驱动配置

NXP S32K358一共有8路can,都支持Can FD和Classical Can。其中FlexCan0-2是增强型CAN,支持8byte的mailbox 96个。FlexCan3-7支持8byte的mailbox 64个。 1.增强型Can和普通Can波特率采样点设置区别 在NXP S32K358中增强CAN的波特率采样点的寄存器和普通C…

新手为什么跟着大型机构交易?fpmarkets总结理由

正所谓方向不对努力白费,这也就是为什么fpmarkets建议新手在刚开始的时候,跟着大型机构进行交易。 这些大型机构包括中央银行、巨额对冲基金、投资和保险公司等等,首先fpmarkets认为这些大型机构的交易量巨大,能够影响市场的走势。…

2023年12月27日学习记录_加入噪声

目录 1、今日计划学习内容2、今日学习内容1、add noise to audio clipssignal to noise ratio(SNR)加入 additive white gaussian noise(AWGN)加入 real world noises 2、使用kaggel上的一个小demo:CNN模型运行时出现的问题调整采样率时出现bug 3、明确90dB下能否声…

hadoop hive spark flink 安装

下载地址 Index of /dist ubuntu安装hadoop集群 准备 IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3 上传 hadoop-3.3.5.tar.gz、jdk-8u391-linux-x64.tar.gz JDK环境 node1、node2、node3三个节点 解压 tar -zxvf jdk-8u391-linux-x64.tar.gz…

Git系统有哪些优势

在现在的这个软件开发领域,版本控制是一项非常重要的工作。Git作为比较流行的分布式版本控制系统,他有着独特的优势成为了很多开发者们的首选。那Git系统都有哪些优势呢,下面我以自己的理解简单的介绍一下。 分布式版本控制的优势 Git用的是…

003、一起来玩猜数游戏吧!

1. 上篇补充 在项目 hello_world 中,有一些文件。这里提一下每个文件的用途,了解一下即可,暂时不用深究,后面用到会详细讨论。 1. src :这个文件夹里主要用于存放源代码文件。Rust 项目的源代码文件通常以 .rs 为后缀&…

给typora更换字体

给typora更换字体 1.字体推荐(程序员) JetBrains MonoFira CodeCascadia Code 如果你不知道用哪个,把所有字体都装上。 2.安装字体 以 JetBrainsMono-1.0.3 为例,打开 ttf 文件夹,选择字体,右键 安装 3.设置typora的字体 文…

three.js 模型 居中

物体不居中 模型的几何中心位置不对, 设置偏离物体实际几何中心,当设置position(0,0,0)时就会出现偏离。 解决方案 此处有两种解决方案 建模师处理模型,将模型的几何中心移动到(0, 0&#…

【Linux】进程查看|fork函数|进程状态

🦄 个人主页——🎐开着拖拉机回家_Linux,大数据运维-CSDN博客 🎐✨🍁 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁&am…

Java日期工具类时间校验

Java日期工具类时间校验 嘚吧嘚正则表达式版本一版本二版本三 SimpleDateFormat工具类 嘚吧嘚 时间校验这个问题,我在网上找了很多资料,有用正则表达式的、有用格式工具类的。🤨 其实都能实现时间校验,既然两种方式都能实现&…

Vue3-25-路由-路由的基本使用

对路由的理解 路由 : 就是前端对页面路径的拦截,根据不同的路径渲染不同的组件, 从而实现单页应用中的页面局部刷新的功能。安装路由依赖 根据使用的不同的包管理工具采用不同的命令, 常见的三种包管理工具和对应的命令如下&…

Hex文件介绍及制作

Hex文件介绍 一、文件格式介绍数据格式Hex文件例子常见类型字段 二、CRC校验计算eg.地址文件CRC计算:020000040127D2:0200000400FFFB eg.数据文件计算 三、生成hex文件用Excel生成 一、文件格式介绍 Hex文件是一种十六进制文件格式,可由notpad打开或者HexView app打…

【Hive_05】企业调优1(资源配置、explain、join优化)

1、 计算资源配置1.1 Yarn资源配置1.2 MapReduce资源配置 2、 Explain查看执行计划(重点)2.1 Explain执行计划概述2.2 基本语法2.3 案例实操 3、分组聚合优化3.1 优化说明(1)map-side 聚合相关的参数 3.2 优化案例 4、join优化4.1…

vivado 快速到慢速时钟之间的多循环

快速到慢速时钟之间的多循环 在下面的场景中,启动时钟CLK1是快速时钟,捕获时钟CLK2是慢时钟。如下图所示。 在下一示例中,启动时钟CLK1是快速时钟。捕获时钟CLK2较慢时钟假设CLK1是CLK2的频率的三(3)倍。如下图所示。…

docker小白第七天

docker小白第七天 tomcat安装 docker hub上面查找tomcat镜像 点进tomcat,可以看到下载镜像的命令。但是因为文件太大,并且是国外下载镜像很慢,所以我们从前期配置好的阿里云镜像仓库下载。 docker search tomcat docker pull tomcatdocker…

后端主流框架-SpringMvc-day2

Java中的文件下载 2 文件下载 文件下载:就是将服务器(表现在浏览器中)中的资源下载(复制)到本地磁盘; 2.1 前台代码 前台使用超链接,超链接转到后台控制器,在控制器通过流的方式…

Intel FPGA 技术开放日

概要 时间:2023.11.14 全天 ( 9:00 - 16: 20) 地点:北京望京. 凯悦酒店 主题内容:分享交流了Intel FPGA 产品技术优势和落地实践方案。 会议的议程 开场致词: FPGA业务,是几年前intel收购而…

虚拟环境和Pycharm中均有transforms仍报ModuleNotFoundError:No module named ‘transformers‘

问题:运行新模型,配置了新环境,下载了包后,仍然报ModuleNotFoundError:No module named transformers 错误。 查看Pycharm解释器: 没问题!!!? 命令行查看虚…

Flink Job 执行流程

Flink On Yarn 模式 ​ 基于Yarn层面的架构类似 Spark on Yarn模式,都是由Client提交App到RM上面去运行,然后 RM分配第一个container去运行AM,然后由AM去负责资源的监督和管理。需要说明的是,Flink的Yarn模式更加类似Spark on Ya…