python中的NaN在质量控制中怎么处理？

news2026/2/13 0:35:50

一、数据中的缺省值

气象数据中经常存在缺省值，比如未入库的站点数据、比如海温格点实况数据中的陆地区域。这些缺省值往往被赋予NaN（Not a Number，非数）。NaN是计算机科学中数值数据类型的一类值，表示未定义或不可表示的值。
这些NaN值一般需要在计算时被去除掉，以免影响计算结果。那么，该怎么去除呢？

二、NaN的定义和特点

（一）如何设置nan

这里介绍两种方法设置一个变量为nan。

a = float('nan')

import numpy as np
a = np.nan

（二）如何判断一个数是nan

和设置nan的方式对应，也可以用np和math两种库函数来判断一个变量是否为nan。

import numpy
a = np.nan
if np.isnan(a):
    print('这是个NaN!')

import math
a = math.nan
if math.isnan(a):
    print('这是个NaN!')

需要说明一下，直接用==来判断是不行的。
在这里插入图片描述

（三）NaN的特点

NaN因为是Not a Number，所以它和所有数字变量（包括整数和浮点数，不论大小和正负）的所有判断（包括大于、小于和等于）都会返回false。
在这里插入图片描述
它和所有数字变量（包括整数和浮点数，不论大小和正负）的所有运算都会返回nan。

三、处理数据中的NaN

我这里把常用气象数据分为站点数据（一般存为dataframe格式）和格点数据（一般存为array、dataarrray或dataset格式）。
先编一个站点数据，设置一个数值为NaN。

import pandas as pd
import numpy as np
import datetime
df = pd.DataFrame({'台站名称':['59948']*5,'气温':[round(i,1)+25 for i in np.random.normal(0, 1, [5]).tolist()]})
df['时间'] = pd.date_range("2022-02-13 11", periods=5, freq='m')
df.loc[0,'气温'] = np.nan

在这里插入图片描述
再编一个格点数据存为array，设置一个数值为NaN。

data = np.random.rand(3, 3)
data[1,1] = np.nan

在这里插入图片描述
在array的基础上构造dataarray。

#构造DataArray
import numpy as np
import xarray as xr
lat = [31,32,33]
lon = [121,123,125]
da = xr.DataArray(data, coords=[lat, lon], dims=["lat", "lon"])
da.name = 'data'
print(da)

在这里插入图片描述
在dataarrray的基础上构造dataset。

ds = da.to_dataset(name = 'data')

在这里插入图片描述

（一）利用nan的特性在质控中直接去除

如果是想从数据中直接去除nan。那么，我们可以利用nan的“和所有数字变量（包括整数和浮点数，不论大小和正负）的所有判断（包括大于、小于和等于）都会返回false。”的特点，把去除nan这个步骤放在质量控制中常用的范围筛选中，直接筛除掉。
对dataframe格式：

df = df[df['气温']<50]

在这里插入图片描述
对array格式：

data[np.where(data<50)]

在这里插入图片描述
可以看到虽然nan值被去除掉了，但是3*3的array的形状已经变了（对于气象格点数据，二维的数据的每个点都自带经度和纬度，所以形状很重要，形状变了理解起来都困难了）。如果后续要做矩阵运算什么的，就不咋方便了。前面也说过，nan和数字之间的任何运算都返回nan，所以，大部分时候矩阵做加减乘除等运算，正常的点返回正常的计算值，nan返回nan，互不影响。不去除nan也不错。