Pandas包构建DataFrame的几种方式

news2024/10/7 10:20:16

1. Pandas

Pandas是python的一个第三方包,是一个结构化数据工具集,能够更加灵活、快速的对数据进行清洗和处理,适用于单击大数据量的数据分析和数据开发

使用pandas包之前,首先安装
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pandas
程序中再导入该包

import pandas as pd

2. 构建Series

Pandas有两个重要的数据结构:Series 和 DataFrame
DataFrame是一个二维表格对象,包括行和固定的列且每列数据类型一致。而Series就是DataFrame的列对象,包括数据列和索引列,若数据没有指定索引列,会自动创建一个0到N-1长度为N的整数型索引列

	# 1.通过列表创建
    lss = pd.Series([1, 2, 3])
    lss = pd.Series([1, 2, 3], index=['A', 'B', 'C'])

    # 2.使用元组创建
    tss = pd.Series((1, 2, 3, 4, 5, 6))

    # 3.使用字典创建
    mss = pd.Series({'A': 1, 'B': 2, 'C': 3, 'D': 4, 'E': 5, 'F': 6})
    print(mss)

3.Serial转DataFrame

   # 1.Series对象转DataFrame
    df = mss.to_frame()
    df = mss.reset_index()

4. 本地集合方式构建DataFrame

    # 2. 字典、列表组合创建df,使用默认自增索引(形成了一张纵表,数据按列存放)
    mldata = {
        '温度': [25, 31, 28, 37, 40],
        '湿度': [80, 71, 75, 69, 70],
        '日期': ['2023-06-30', '2023-07-01', '2023-07-02', '2023-07-03', '2023-07-07']
    }
    mldf = pd.DataFrame(data=mldata)

    # 3. 元组、列表组合创建df,使用默认自增索引(形成了一张横表,数据横着放)
    tldata = [
        ('2023-06-30', '2023-07-01', '2023-07-02', '2023-07-03', '2023-07-07'),
        (80, 71, 75, 69, 70), (25, 31, 28, 37, 40)
    ]
    tldf = pd.DataFrame(data=tldata)
    
     # 4.列表、列表组合构建df
    lldata = [
        ['1960-05-07', '刘海柱', '职业法师'],
        ['1978-09-01', '赵金龙', '大力哥'],
        ['1984-12-27', '周立齐', '窃格瓦拉'],
        ['1969-01-24', '于谦', '相声皇后']
    ]
    lldf = pd.DataFrame(data=lldata, columns=['birthday', 'name', 'AKA'])
    print(lldf)

5. DataFrame接收本地文件

lfdf = pd.read_csv('../../data/E_Commerce_Data.csv', sep=',', encoding='gbk')

sep参数, 指定字段之间的分隔符号。默认的分隔符号为逗号, 当文件中的字段之间的分隔符号不是逗号的时候, 我们可以采用此参数来调整

encoding参数 指定编码格式。常见的编码格式有:ASCII、GB2312、UTF8、GBK 等

多文件格式数据读写
在这里插入图片描述

6. 读数据库返回DataFrame

如果想利用pandas和MySQL数据库进行交互,需要先安装与数据库交互所需要的python包
pip install pymysql == 1.0.2
pip install sqlalchemy == 1.4.31

然后程序中导入该包:

from sqlalchemy import create_engine

python包操作数据库的方式

   lfdf = pd.read_csv('../../data/E_Commerce_Data.csv', sep=',', encoding='gbk')
   # 创建数据库引擎,传入uri规则的字符
   # mysql 表示数据库类型
   # pymysql 表示python操作数据库的包
   # root:root 表示数据库的账号和密码,用冒号连接
   # node1:3306/test 表示数据库的ip和端口,以及名叫test的数据库
   # charset=utf8 规定编码格式
   engine = create_engine('mysql+pymysql://root:123456@node1:3306/test?charset=utf8')
   # df.to_sql()方法将df数据快速写入数据库
   # 第一个参数为数据表的名称
   # 第二个参数engine为数据库交互引擎
   # index=False 表示不添加自增主键
   # if_exists='append' 表示如果表存在就添加,表不存在就创建表并写入
   lfdf.to_sql('invoice_info', engine, index=False, if_exists='append')
   # 读取整张表, 返回dataFrame
   # 参数1表名,参数2数据库连接引擎对象
   pd.read_sql('invoice_info', engine)
   # 使用SQL语句获取数据,返回dataframe
   # 参数1:sql语句,参数2:数据库连接引擎对象
   df= pd.read_sql('select * from invoice_info where country="Kingdom"', engine)

   print(lfdf)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/717819.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【STM32】STM32G系列使用CORDIC模块加速计算

1.前言 STM32G431系列产品内置了CORDIC运算单元,可以用来加速数学计算,如三角函数、取模、开方等。适合大量数据进行相同的运算操作。配合DMA可以大大节省CPU计算开销。 2.CubeMX配置 使用CORDIC模块无需配置参数,若采用DMA方式则只需配置…

JavaWed第三章:JavaScript的全面知识

目录 前言 一.JavaScript的简介 💖概念 💖学习内容 二.JavaScript的引入方式 💖内部脚本 💖外部脚本 三.JavaScript的基础语法 💖语法的书写 💖变量 ✨ 全局变量 ✨局部变量 ✨常量 &a…

Vue3使用$refs获取节点生产环境undefined-使用getCurrentInstance-ctx应改用proxy

vue3项目,在使用refs获取节点,开发环境正常,生产环境报错 console.log(getCurrentInstance()) internalInstance.ctx, internalInstance.proxy 开发环境正常-生产环境报错 internalInstance.ctx 生产环境获取不到值 ctx打包后在生产环境下是获…

激光SLAM(一):点云基础知识

点云基础知识 一、激光雷达介绍1. 机械旋转式雷达2. 固态雷达 二、测量模型与点云1. Range-Azimuth-Elevation(RAE)- XYZ2. 点云的Packets表示3. 点云的鸟瞰图表示4.Range Image5.TSDF 三、点云的近邻关系Brute-force KNN栅格、体素KD-tree寻找近邻四叉树…

Visual Studio Code系列--CMake Tools使用说明

一、目的 在linux系统上开发程序,一般都是使用vimgccgdb进行的;但是为了开发效率我们也会使用Visual Studio Code进行开发,毕竟有界面的开发调试还是更加友好一些。 老牌程序员肯定都知道make构建工具,但是其晦涩的语法还是难住不…

二十一、数值操作(二)

目录 七、数值查找 1、Excel实现 2、Python实现 八、区间切分 1、Excel实现 2、Python实现 九、插入新的行或列 1、Excel实现 2、Python实现 十、行列互换 1、Excel实现 2、Python实现 十一、索引重塑 十二、长宽表转换 1、宽表转换为长表 (1&#x…

如何提升软件质量及开发效率

如何提升软件质量及开发效率 文章目录 如何提升软件质量及开发效率1、简介2、软件质量模型3、需求分析4、软件设计5、项目管理1.1 版本管理1.2 项目结构规范 6、编码规范7、代码评审8、软件调试9、软件测试 1、简介 保证软件质量,是一个贯穿整个软件生存周期的重要…

Java利用朴素贝叶斯分类算法实现信息分类

目录 贝叶斯分类算法 代码实例 数据集data.txt代码实现输出结果使用场景 贝叶斯分类算法 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Nave Bayes,NB)分类算法可以与决策树和神…

项目管理考核积分指标库大全V3.0

近期热文:大咖来袭!中国PMO&PM大会议程隆重发布,三城联动 北京、上海、深圳三地同步进行,两天近70位项目管理大咖专家齐聚一堂,交流分享。各路高手汇聚一处,互相学习。精心的圆桌设计,穿插…

uniapp打包白屏问题

【bug】:浏览器运行正常,模拟器、真机运行只有tab栏显示,或者完全白屏。打包也是白屏。 【控制台报错信息】: 注意:app不支持dom操作 【解决办法】:在main.js里修改 render函数是vue通过js渲染dom结构的…

前端vue入门(纯代码)20

总以为自己还很年轻,却忽略了岁月的脚步,当身边的一道道风景变成了回忆,才忽然发现,风景依然在,而人已非少年。!!! 【22.求和案例--纯Vue版本】 太简单了,直接上代码案…

Squid代理服务器

Squid代理服务器 一、Squid相关知识 1.功能 Squid 主要提供缓存加速、应用层过滤控制的功能。 2.工作机制 1.代替客户机向网站请求数据,从而可以隐藏用户的真实IP地址。 2.将获得的网页数据(静态 Web 元素)保存到…

js:使用typed.js实现打字动画效果

效果预览 目录 实现方式一: 原生JS实现实现方式二&#xff1a;typed.js实现 实现方式一: 原生JS实现 <div id"code"> 我感到未尝经验的无聊&#xff0c;是自此以后的事。我当初是不知其所以然的&#xff1b; 后来想&#xff0c;凡有一人的主张&#xff0c;得…

高薪offer收割面试题之缓存穿透,击穿,雪崩

缓存穿透&#xff0c;缓存击穿&#xff0c;缓存雪崩是我们在应用缓存时最常碰到的问题&#xff0c;也是面试的热点考点。究竟什么是缓存穿透&#xff0c;缓存击穿&#xff0c;缓存雪崩&#xff0c;如何解决&#xff0c;本文会进行详细的剖析。 缓存穿透 什么是缓存穿透&#…

CUDA和CUDNN安装和版本验证

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、安装二、关键指标1.驱动版本和CUDA版本对应1.最适配版本2.最低支持版本 2.CUDA版本和CUDNN版本对应 三、验证有效性1.驱动验证2.CUDA验证1.nvcc2.sample 3.…

E. Masha-forgetful(dp)

题目&#xff1a;Problem - E - Codeforceshttps://codeforces.com/contest/1624/problem/E 题意&#xff1a; 玛莎认识了一个新朋友&#xff0c;并知道了他的电话号码 s 。电话号码是一个长度为m的字符串&#xff0c;它由从 0-9 组成 。 电话号码可能以 0 开头。 玛莎已经…

花30分钟,用Jenkins部署码云上的SpringBoot项目

本文介绍 jenkins 如何从 gitee 上 clone 项目&#xff0c;然后使用 maven 打包并后台启动。 1.Jenkins 介绍 Jenkins 是一个开源软件项目&#xff0c;是基于 Java 开发的一种持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;旨在提供一个开放易用的软件平台&…

7月4号作业

实现底层实现三盏灯的控制 head.h #ifndef __HEAD_H__ #define __HEAD_H__#define PHY_LED1_MODER 0X50006000 #define PHY_LED1_ODR 0X50006014#define PHY_RCC 0X50000A28#define PHY_LED2_MODER 0X50007000 #define PHY_LED2_ODR 0X50007014#endif led.c #in…

2023年,第九届WWEC教育者大会隆重回归

2023年第九届WWEC教育者大会将于8月20日至22日在上海举行。本次大会也是时隔两年之后再度重启&#xff0c;是疫情恢复常态化后教育界的首次重要大会。 WWEC教育者大会由宋辉先生发起&#xff0c;嘉家有品主办&#xff0c;君学书院、雁传书文化传媒和有鹏来教育科技联合主办。本…

jdbcTemplate的queryForList报错:Incorrect column count: expected 1, actual 2

jdbcTemplate的queryForList方法有多种传参形式&#xff0c;我们常用的就是这种传class类&#xff0c;参数返回数据&#xff0c;结果报expected 1, actual 2&#xff0c;意思是预期只返回一列&#xff0c;但却返回了2列。这是不合理的&#xff0c;因为返回参数都是List&#xf…