038—pandas 重采样线性插补

news2024/9/22 5:42:58

前言

在数据处理时,由于采集数据量有限,或者采集数据粒度过小,经常需要对数据重采样。在本例中,我们将实现一个类型超分辨率的操作。

思路:

  • 首先将原始数据长度扩展为 3 倍,可以使用 loc[] 方法对索引扩展来生成,同时去掉尾部多余的数据。
  • 再将每行数据扩展出的数据挖去(设置为空),这个操作我们在案例 使用 explode() 后不复制其他列 中有过讲解。
  • 最后使用 DataFrame 的 interpolate() 插补方法会默认按线性逻辑进行填充。

使用步骤

读入数据

代码如下(示例):

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [10, 20, 50, 40, 80,],
                   'B': [2, 8, 10, 6, 4, ],
                  })

df
# 这个数据共有 5 行,现在我们需要扩展它,在前相邻两个数据之间由一个扩展为 3 个。如 0 和 1 之间再增加两个数据,最终数据为 13 行。
# 新增加的数据行,按整体按线性插补的算法补充。

在这里插入图片描述

# 将索引重复三次:
df.index.repeat(3)

在这里插入图片描述

# 将得到的索引传入 loc[] 得到扩展数据:
df.loc[df.index.repeat(3)]

在这里插入图片描述

# 去掉尾部多余的数据:
(
    df.loc[df.index.repeat(3)]
    .iloc[:-3+1] # 删除最后三个(可为变量),再保留1个,方便以后封装
)

在这里插入图片描述

# 再接我们之前案例的方法将扩展出来的数据设置为空:
def func(d: pd.DataFrame):
    d.iloc[1:, :] = None
    return d

(
    df.loc[df.index.repeat(3)]
    .iloc[:-3+1]
    .groupby(level=0)
    .apply(func)
)

在这里插入图片描述

# 最后再用 interpolate() 插补数据,整体代码如下:
def func(d: pd.DataFrame):
    d.iloc[1:, :] = None
    return d # 将第一行及其之后的行设置为None

(
    df.loc[df.index.repeat(3)]  # 将df的每个索引值重复3次
    .iloc[:-3+1] # 取除了最后3行的所有行
    .groupby(level=0) # 按照索引值进行分组
    .apply(func) # 对每个分组应用函数func
    .interpolate() # 对缺失值进行插补
)

在这里插入图片描述

# 其他方法:
# 我们还可以尝试用分组方法合并进去空 DataFrame,然后再做插补。
none_df = pd.DataFrame([[None]*len(df.columns)], # 将空DataFrame与原DataFrame合并
                       columns=df.columns,  
                       dtype=float,
                      )
none_df

在这里插入图片描述

(
    df.groupby(level=0, group_keys=False)  # 按照索引值进行分组 
    .apply(lambda x: pd.concat([x, *[none_df]*2])) # 将空DataFrame与原DataFrame合并
    .interpolate() # 对缺失值进行插补
    .iloc[:-2]  # 取除了最后2行的所有行 
)

在这里插入图片描述

总结

以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1546015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

54、Qt/对话框、事件机制相关学习20240325

一、完善对话框,点击登录按钮,如果账号和密码匹配,则弹出信息对话框,给出提示”登录成功“,提供一个Ok按钮,用户点击Ok后,关闭登录界面,跳转到其他界面 如果账号和密码不匹配&#…

android h5理财(记账)管理系统eclipse开发mysql数据库编程服务端java计算机程序设计

一、源码特点 android h5理财管理系统是一套完善的WEBandroid设计系统,对理解JSP java,安卓app编程开发语言有帮助(系统采用web服务端APP端 综合模式进行设计开发),系统具有完整的源代码和数据库,系统主要…

TCP与UDP:传输层协议对比

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

VMware中添加使用ubuntu

提示:本文为学习记录,若有错误,请联系作者,谦虚受教。 文章目录 前言一、ubuntu安装二、下载vmwareTool三、解压文件四、解决联网失败五、linux常用命令总结 前言 打破舒适圈 一、ubuntu安装 Vmware安装流程 二、下载vmwareToo…

编程语言|C语言——C语言实现玫瑰花(情人节)

1.说明 在古希腊神话中,玫瑰花集爱与美于一身,既是美神的化身,又溶进了爱神的血液,所以它所代表的含义是爱情。 我们应该用玫瑰花来表达我们的爱意,但是好多的恋人都是因为异地而没有办法去买一束新鲜的玫瑰去送给自己…

Fast-Planner(三)详解后端B-Spline曲线优化

本文上接Fast-Planner的B-spline曲线生成详解,介绍B-spline曲线优化。如有问题,欢迎各位大佬评论指出,带着我一起进步。 三、B样条优化 初始化获得的B样条曲线只是达到了可达性检测,本章介绍为得到更加光滑安全的轨迹&#xff0…

训练自己的分类数据集

文章目录 1.数据集准备2. 数据集划分3.设计模型进行训练1. 随便乱写的网络2. 借鉴优秀的网络模型(MobileNetV3) 分析:练习: 1.数据集准备 准备你要进行分类的数据集,可以自己拍摄,可以网上进行爬取。 将不…

pdf压缩文件怎么压缩最小?一键压缩PDF

pdf文件压缩是为了减小文件大小,以便更轻松地共享、传输和存储文件,通过压缩pdf文件,可以减少文件占用的存储空间,加快文件的上传和下载速度,并节省带宽和存储成本;在本教程中,我们将介绍一些有效的方法来最…

人工智能三剑客NumPy、pandas、matplotlib和Jupyter四者之间的关系

NumPy 主要用途:NumPy(Numerical Python的缩写)主要用于处理大型多维数组和矩阵的科学计算。它提供了一个高性能的多维数组对象,以及用于数组操作的工具。与其他三者的联系:NumPy是pandas和matplotlib的基础库之一。许…

10.IO流(一)

文章目录 IO流一、File1.创建对象1.1 创建File类的对象1.2 注意1.3 绝对路径、相对路径 2.常用方法1:判断文件类型、获取文件信息3.常用方法2:创建文件、删除文件3.1 File类创建文件的功能3.2 File类删除文件的功能 4.常用方法3:遍历文件夹4.1 File类提供的遍历文件夹的功能4.2…

【JAVA】数据类型与变量(主要学习与c语言不同之处)

✅作者简介:大家好,我是橘橙黄又青,一个想要与大家共同进步的男人😉😉 🍎个人主页:橘橙黄又青-CSDN博客 目标: 1. 字面常量 2. 数据类型 3. 变量 1.字面常量 在上节课 Hello…

paramiko,一个强大的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个强大的 Python 库 - paramiko。 Github地址:https://github.com/paramiko/paramiko 在网络编程中,远程操作是一项非常常见的需求,特别是…

QT 界面2.1

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {this->setWindowIcon(QIcon(":/Logo/1bc87d9b4c1ea878d5e0845257a06f7f (1).jpg")); // 图标this->setWindowTitle(&…

环境变量与进程详解

文章目录 1.进程的优先级1.1 查看优先级1.2 调制优先级 2.环境变量2.1 命令行参数2.2 环境变量 3.程序的地址空间3.1 为什么要有地址空间?3.2 linux的大O(1)调度算法 4.进程创建5.进程中止5.1 进程的退出码(错误码)5.2 进程终止的最优写法&am…

苍穹外卖Day07——总结7

前期文章 文章标题地址苍穹外卖Day01——总结1https://lushimeng.blog.csdn.net/article/details/135466359苍穹外卖Day02——总结2https://lushimeng.blog.csdn.net/article/details/135484126苍穹外卖Day03——总结3https://blog.csdn.net/qq_43751200/article/details/1363…

Data.olllo解密:秒数转换为日期格式的神奇技能!

引言: 时间是数据世界中不可或缺的一环,而将秒数转换为易读的日期格式往往是数据处理中的一大挑战。但是,有了Data.olllo,这一任务将变得异常简单! 功能介绍: Data.olllo的秒数转换功能可以让您轻松地将秒…

花钱买不到系列-linux信号[2]卷

上一篇信号,我们知道了,进程需要保存信号,信号究竟是什么?什么又叫做发送信号呢?什么又叫做进程保存信号呢?那么,实际上呢?给大家一个基本的思考切入点,就是我们常见的信…

摩根大通:金和铜短期都涨多了 “一年十倍股”超微:预计在AI服务器占10-15%份额,给24倍PE很合理

今年以来大宗商品持续回暖,黄金、铜等金属表现尤为亮眼,乐观情绪蔓延之际摩根大通站出来提醒,小心回调风险! 摩根大通在最新商品金属周报指出,黄金和铜价的急剧上涨反映了市场对中长期趋势的乐观预期,然而…

出差补助怎么发放更高效省心?这套攻略快看看

交补、餐补、话补等各类补助场景分散,无法实现一站式统筹管理。不仅如此,补贴核算也总是需要员工提供各类凭证,经过财务反复核实才能发放……出差发放补助原本是为了传递企业关怀,鼓励员工积极出差,由于发放和管理不当…

刷题日记——济南大学机试

折戟厦大,考虑调剂济南大学,但是更想去的是杭师大,还是刷题,济南大学比厦门大学题目简单很多,因此一篇文章不多分析,直接给出代码,全部采用纯C语言编写并且AC,不用C的stl库。 争取今…