1.什么是 NetCDF?
NetCDF 是一组软件库和自描述、独立于机器的数据格式,支持创建、访问和共享面向数组的科学数据。NetCDF 由Unidata开发和维护。Unidata 提供用于地球科学教育和研究的数据和软件工具。Unidata 是大学大气研究公司 ( UCAR ) 社区计划 ( UCP ) 的一部分。Unidata 主要由美国国家科学基金会资助。
NetCDF 主页位于https://www.unidata.ucar.edu/software/netcdf/。NetCDF 源代码托管在GitHub上,可直接在http://github.com/Unidata/netcdf-c找到。
2.用来做什么?
netCDF主要用于地球科学研究相关项目的数据处理部分,最典型的就是大气污染网格化统计。
3.数据结构
组是属性、维度、枚举类型定义、变量和嵌套组的容器。数据集中的组形成层次树,就像磁盘上的目录一样。数据集中始终至少有一个组,即根组,其名称为空字符串。
变量是数据的容器。它具有数据类型、定义其数组形状的维度集以及可选的属性集。它使用的任何共享维度都必须位于同一组或父组中。
维度用于定义变量的数组形状。它可以在变量之间共享,这提供了一种简单但强大的关联变量的方法。共享维度时,它在组中具有唯一的名称。如果无限,维度的长度可能会增加。如果是可变长度,则实际长度取决于数据,只能通过读取数据找到。可变长度维度不能共享或无限。
属性具有名称和值,并将任意元数据与变量或组关联。该值是标量或一维字符串数组或数值,因此可能的数据类型为(字符串、字节、短整型、整型、长整型、浮点型、双精度型)。整数类型(字节、短整型、整型、长整型)可以是有符号的,也可以是无符号的。
结构是一种包含其他变量的变量,类似于C 中的结构或关系数据库中的 行。通常,结构中的数据在磁盘上物理存储在一起,因此可以高效地同时检索结构中的所有数据。结构中包含的变量是成员变量,只能在其包含的结构的上下文中读取。
基本数字类型包括字节、短整型、整型、长整型、浮点型和双精度型。整数类型(8 位字节、16 位短整型、32 位整型、64 位长整型)可以是有符号的,也可以是无符号的。变量和数组对象有 isUnsigned() 方法来指示,并且可以正确转换为更宽的类型。
4.netCDF数据处理-python语言
import netCDF4 as nc
# 创建nc文件
newNC = nc.Dataset("./new.nc", 'w', format='NETCDF4')
# 创建维度字段
newNC.createDimension("lat", 3000)
newNC.createDimension("lon", 6000)
newNC.createDimension("TSTEP", 24)
# 创建全局属性-描述性内容
newNC.setncattr_string("lon_range", "70, 150")
newNC.setncattr_string("lat_range", "10, 60")
# 创建变量
var_lon = newNC.createVariable("lon", "f8", ("lon",))
var_lat = newNC.createVariable("lat", "f8", ("lat",))
var_time = newNC.createVariable("TSTEP", "i4", ("TSTEP",))
# 设置变量属性
var_lon.axis = "X"
var_lat.axis = "Y"
# 变量赋值:此处用旧的nc数据赋值,也可以用numpy生成对应的数组赋值
nc_path = r"../old.nc"
nc_data = nc.Dataset(nc_path)
TSTEP = nc_data.variables['TSTEP'][:]
lon = nc_data.variables['lon'][:]
lat = nc_data.variables['lat'][:]
var_time[:] = nc_data.variables['TSTEP'][:]
var_lon[:] = nc_data.variables['lon'][:]
var_lat[:] = nc_data.variables['lat'][:]
# 变量读取
print(newNC.variables['lon'][:])
print(newNC.variables['lat'][:])
print(newNC.variables['TSTEP'][:])
# 关闭文件
newNC.close()
nc_data.close()
5.数据预览
生成的数据结构如上图