python读取列数不规则文件/python数据框分割

news2026/2/13 1:36:18

问题

将探空数据读取，并按每日单纯储存，数据如下：
在这里插入图片描述
为一年数据，存在部分列的数据缺失问题。

数据读取

使用read_csv文件读取文件，由于列数存在不一致问题，需要固定最大列数：

names=["date","id","alt","lat","lon","p","t","rh","ff","dd"]
data=pd.read_csv(r'F:/Sonde2015/NYA_UAS_2015.tab',header=None,sep='\\s+',skiprows=25,names=names)

此时，data为一个134355×10的dataframe，缺失部分为nan自动补齐。

添加时间戳标签

为了便于数据框的分割提取，我们考虑添加标签，即提取对应的日期，并将其转为时间戳标签，此后，根据标签便可分割dataframe。
首先提取数据里的日期信息，用到了正则匹配：

def extract_date(text):
    pattern = r'\d{4}-\d{2}-\d{2}'
    match = re.search(pattern, text)
    if match:
        return match.group()
    else:
        return None
obsdt=data.iloc[:,0]
date={}
for i in range(0,len(obsdt)):
    t=extract_date(str(obsdt[i]))
    date[i]=datetime.strptime(t, '%Y-%m-%d')

构建并添加时间戳标签：

date=pd.Series(date)
date=date.tolist()
data.insert(0, 'dt', None)
data['dt']=data['dt'].astype('datetime64[ns]')
data['dt']=date
data=data.set_index('dt')#将date作为标签
data.index=pd.DatetimeIndex(data.index)#将标签转为时间索引
data.axes#查看

切割dataframe

使用groupby切割，此时，dataframe的标签为时间戳日期，同一标签日期的便会被提取：

DFList = [group[1] for group in data.groupby(data.index)]

此时DFList为列表，元素为分割的子数据框。

输出

将切割的dataframe直接输出即可：

for i in range(0,len(DFList)):
    d=DFList[i]
    fname=d.index[0]
    fname=str(fname)
    fname=fname[0:10]
    csvname=fname+'.dat'
    d.to_csv(csvname,sep=' ',index=False,header=True)