我需要统计数据中缺失字段的日期跨度,并统计缺失数据条数。可以用pandas分组聚合计数。
import pandas as pd
data = pd.read_excel("缺失字段.xlsx")
t = data.loc[data["当日最高温"].isnull(), "dates"]
groupids = pd.to_datetime(data["dates"]) - pd.to_timedelta(data.dates.rank(), unit='d')
x = t.groupby(groupids).agg([
('dates', lambda x: f"{x.min()}~{x.max()}"),
("当日最高温", "count")
])
print(x.loc[:, x.columns.values[1:]])
输出结果:当日最高温缺失日期为2019-04-19~2022-10-24,缺失1285条数据
参考:
https://cloud.tencent.com/developer/article/1856580