python中的NaN在质量控制中怎么处理?

news2024/11/20 22:41:51

一、数据中的缺省值

气象数据中经常存在缺省值,比如未入库的站点数据、比如海温格点实况数据中的陆地区域。这些缺省值往往被赋予NaN(Not a Number,非数)。NaN是计算机科学中数值数据类型的一类值,表示未定义或不可表示的值。
这些NaN值一般需要在计算时被去除掉,以免影响计算结果。那么,该怎么去除呢?

二、NaN的定义和特点

(一)如何设置nan

这里介绍两种方法设置一个变量为nan。

a = float('nan')
import numpy as np
a = np.nan

(二)如何判断一个数是nan

和设置nan的方式对应,也可以用np和math两种库函数来判断一个变量是否为nan。

import numpy
a = np.nan
if np.isnan(a):
    print('这是个NaN!')
import math
a = math.nan
if math.isnan(a):
    print('这是个NaN!')

需要说明一下,直接用==来判断是不行的。
在这里插入图片描述

(三)NaN的特点

NaN因为是Not a Number,所以它和所有数字变量(包括整数和浮点数,不论大小和正负)的所有判断(包括大于、小于和等于)都会返回false。
在这里插入图片描述
它和所有数字变量(包括整数和浮点数,不论大小和正负)的所有运算都会返回nan。
在这里插入图片描述

三、处理数据中的NaN

我这里把常用气象数据分为站点数据(一般存为dataframe格式)和格点数据(一般存为array、dataarrray或dataset格式)。
先编一个站点数据,设置一个数值为NaN。

import pandas as pd
import numpy as np
import datetime
df = pd.DataFrame({'台站名称':['59948']*5,'气温':[round(i,1)+25 for i in np.random.normal(0, 1, [5]).tolist()]})
df['时间'] = pd.date_range("2022-02-13 11", periods=5, freq='m')
df.loc[0,'气温'] = np.nan

在这里插入图片描述
再编一个格点数据存为array,设置一个数值为NaN。

data = np.random.rand(3, 3)
data[1,1] = np.nan 

在这里插入图片描述
在array的基础上构造dataarray。

#构造DataArray
import numpy as np
import xarray as xr
lat = [31,32,33]
lon = [121,123,125]
da = xr.DataArray(data, coords=[lat, lon], dims=["lat", "lon"])
da.name = 'data'
print(da)

在这里插入图片描述
在dataarrray的基础上构造dataset。

ds = da.to_dataset(name = 'data')

在这里插入图片描述

(一)利用nan的特性在质控中直接去除

如果是想从数据中直接去除nan。那么,我们可以利用nan的“和所有数字变量(包括整数和浮点数,不论大小和正负)的所有判断(包括大于、小于和等于)都会返回false。”的特点,把去除nan这个步骤放在质量控制中常用的范围筛选中,直接筛除掉。
对dataframe格式:

df = df[df['气温']<50]

在这里插入图片描述
对array格式:

data[np.where(data<50)]

在这里插入图片描述
可以看到虽然nan值被去除掉了,但是3*3的array的形状已经变了(对于气象格点数据,二维的数据的每个点都自带经度和纬度,所以形状很重要,形状变了理解起来都困难了)。如果后续要做矩阵运算什么的,就不咋方便了。前面也说过,nan和数字之间的任何运算都返回nan,所以,大部分时候矩阵做加减乘除等运算,正常的点返回正常的计算值,nan返回nan,互不影响。不去除nan也不错。

对dataarray和dataset:
不能删除nan,只能替换nan。

xr.where(da <50,da,0)

在这里插入图片描述
嗯,这样替代还不如不代呢。
对dataset甚至还有筛选条件后设置为nan的代码:

ds.where(ds.data < 50, drop=True)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1031650.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

远程端点管理和安全性

当今的企业网络环境是一个分布式动态环境&#xff0c;其中有许多需要管理、验证和保护的移动部件&#xff0c;而不会对最终用户的生产力产生任何威慑力。提供有效的端点管理安全性&#xff0c;同时仍提供无缝最终用户体验的解决方案至关重要。 Endpoint Central 执行的活动可确…

Linux高性能服务器编程 学习笔记 第六章 高级IO函数

pipe函数用于创建一个管道&#xff0c;以实现进程间通信&#xff1a; fd参数是一个包含两个int的数组。该函数成功时返回0&#xff0c;并将一对打开的文件描述符填入其参数指向的数组&#xff0c;如果失败&#xff0c;则返回-1并设置errno。 pipe函数创建的这两个文件描述符f…

用Python爬取短视频列表

短视频是一款备受欢迎的短视频分享平台&#xff0c;每天都有大量精彩的视频内容等待我们去探索。在本文中&#xff0c;我们将分享如何使用Python爬取短视频的视频列表&#xff0c;让您能够发现更多有趣的视频。 一、安装必要的库 在开始之前&#xff0c;确保已安装以下库&…

Unity——对象池

对象池是一种朴素的优化思想。在遇到需要大量创建和销毁同类物体的情景时&#xff0c;可以考虑使用对象池技术优化游戏性能。 一、为什么要使用对象池 在很多类型的游戏中都会创建和销毁大量同样类型的物体。例如&#xff0c;飞行射击游戏中有大量子弹&#xff0c;某些动作游戏…

java用easyexcel按模版导出

首先在项目的resources下面建一个template包&#xff0c;之后在下面创建一个模版&#xff0c;模版格式如下&#xff1a; 名称为 financeReportBillStandardTemplateExcel.xlsx&#xff1a; {.fee}类型的属性值&#xff0c;是下面实体类的属性&#xff0c;要注意这里面的格式&a…

iPhone15拉胯,国产手机用折叠屏大反攻!

文 | 智能相对论 作者 | K星 iPhone偷懒式的15代机型发布&#xff0c;让市场大跌眼镜&#xff0c;虽然在莫名的宗教虔诚下依旧卖得很好&#xff0c;但苹果走下神坛之巅已经板上钉钉。 但是&#xff0c;苹果从最高处摔落&#xff0c;却依旧在神坛之上&#xff0c;iPhone15拉胯…

【STM32笔记】HAL库定时器捕获配置、操作及通用函数定义

【STM32笔记】HAL库定时器捕获配置、操作及通用函数定义 文章目录 定时器捕获设置输入捕获滤波器设置输入捕获极性设置输入捕获映射关系设置输入捕获分频器 定时器配置定时器捕获函数全局变量定时器回调和定时器捕获回调频率计算 附录&#xff1a;Cortex-M架构的SysTick系统定…

css自学框架之二级下拉菜单

下拉菜单是我们开发中最常见&#xff0c;最常用的&#xff0c;今天我们就自学二级下来菜单。首先看一下最终效果&#xff1a; 一、css代码 .arrow-down::before {content: ""; width: 10px;height: 10px;border: solid ;border-width: 2px 2px 0 0;border-color: …

BIGEMAP在土地规划中的应用

工具 Bigemap gis office地图软件 BIGEMAP GIS Office-全能版 Bigemap APP_卫星地图APP_高清卫星地图APP 1.使用软件一般都用于套坐标&#xff0c;比如我们常见的&#xff08;kml shp CAD等土建规划图纸&#xff09;以及一些项目厂区红线&#xff0c;方便于项目选址和居民建…

软考复习 -- 计算机网络

1 网络互连设备 物理层&#xff1a;中继器和集线器&#xff08;多路中继器&#xff09;数据链路层&#xff1a;网桥和交换机&#xff08;多端口网桥&#xff09;网络层&#xff1a;路由器应用层&#xff1a;网关 2 广播域和冲突域 3 协议簇 4 网际层协议 4 TCP和UDP 4.1 TC…

零基础学前端(五)HTML+CSS实战:模仿百度网站首页

1. 该篇适用于从零基础学习前端的小白 2. 初学者不懂代码得含义也要坚持模仿逐行敲代码&#xff0c;以身体感悟带动头脑去理解新知识 一、实战&#xff1a;将百度网站首页补全 上一篇零基础学前端&#xff08;三&#xff09;重点讲解 HTML-CSDN博客我们已经将顶部两侧内容已经…

人机交互——对话管理

​人机交互中的对话管理主要是指在人机交互过程中&#xff0c;对交互的对话内容和流程进行管理&#xff0c;以实现自然、流畅、高效的交互效果。对话管理包括对话状态追踪、对话策略优化等多个方面。 对话状态追踪是指对当前对话的状态进行跟踪&#xff0c;例如对用户输入的语…

Observability:检测 OpenTelemetry 的推荐指南

作者&#xff1a;Bahubali Shetti OpenTelemetry (OTel) 正在稳步获得广泛的行业采用。 作为主要的云原生计算基金会 (CNCF) 项目之一&#xff0c;其提交数量与 Kubernetes 一样多&#xff0c;它正在获得主要 ISV 和云提供商的支持&#xff0c;为该框架提供支持。 许多来自金融…

ChatGLM GPT原理介绍

图解GPT 除了BERT以外,另一个预训练模型GPT也给NLP领域带来了不少轰动,本节也对GPT做一个详细的讲解。 OpenAI提出的GPT-2模型(https://openai.com/blog/better-language-models/) 能够写出连贯并且高质量的文章,比之前语言模型效果好很多。GPT-2是基于Transformer搭建的,相…

【校招VIP】前端JS之深拷贝和浅拷贝

考点介绍 js中的浅拷贝和深拷贝&#xff0c;只是针对复杂数据类型(Objcet&#xff0c;Array)的复制问题。简单来讲浅拷贝和深拷贝都可以实现在原有对象的基础上再生成一份的作用。但是根据新生成的对象能否影响到原对象可以分为浅拷贝和深拷贝。 前端JS之深拷贝和浅拷贝-相关题…

ArcGIS 10.3软件安装包下载及安装教程!

【软件名称】&#xff1a;ArcGIS 10.3 【安装环境】&#xff1a;Windows 【下载链接 】&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1K5ab7IHMYa23HpmuPkFa1A 提取码&#xff1a;oxbb 复制这段内容后打开百度网盘手机App&#xff0c;操作更方便哦 软件解压码点击原文…

Flink--4、DateStream API(执行环境、源算子、基本转换算子)

星光下的赶路人star的个人主页 注意力的集中&#xff0c;意象的孤立绝缘&#xff0c;便是美感的态度的最大特点 文章目录 1、DataStream API1.1 执行环境&#xff08;Execution Environment&#xff09;1.1.1 创建执行环境 1.2 执行模式&#xff08;Execution Mode&#xff09;…

安装gpu版本的paddle

安装gpu版本的paddle python -m pip install paddlepaddle-gpu2.3.2.post111 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html以上支持cuda11.1版本 其他需求可查阅文档在这里

redis如何清空当前缓存和所有缓存

Windows环境下使用命令行进行redis缓存清理 redis安装目录下输入cmdredis-cli -p 端口号flushdb 清除当前数据库缓存flushall 清除整个redis所有缓存keys * 查看所有key值del key 删除指定索引的值 注意&#xff1a; 我们清空缓存的时候&#xff0c;需要确保redis-…

【ONE·Linux || 进程间通信】

总言 进程间通信&#xff1a;简述进程间通信&#xff0c;介绍一些通信方式&#xff0c;管道通信&#xff08;匿名、名命&#xff09;、共享内存等。 文章目录 总言1、进程间通信简述2、管道2.1、简介2.2、匿名管道2.2.1、匿名管道的原理2.2.2、编码理解&#xff1a;用fork来共…