任务一笔记回顾
任务二笔记回顾
目录
一:竞赛上分流程
1.1问题建模1.2数据分析
1.3数据清洗1.4特征工程
1.5模型训练与验证
二:任务总结与心得
一:竞赛上分流程
问题建模——>数据分析 ——>数据清洗——>特征工程——>模型训练与验证——>模型预测
1.1问题建模
1.2数据分析
1.3数据清洗
-
数据审查:首先,查看数据集的整体结构和特征。了解数据的格式、类型、缺失值、异常值等信息。
-
处理缺失值:检查数据集中是否存在缺失值。可以选择删除包含缺失值的行或列,或者使用恰当的方法填充缺失值,比如用均值、中位数或者使用插值算法填充。
-
处理异常值:检测并处理异常值,这些异常值可能会对分析结果产生显著影响。可以使用统计方法,比如计算离群值或使用箱线图,或者应用领域知识和专业判断来处理异常值。
-
数据类型转换:检查数据的类型是否正确,并根据需要进行类型转换。例如,将字符串类型转换为数值类型,或者将日期和时间类型转换为标准格式。
-
数据去重:检查数据集中是否存在重复的数据行或列,并根据需要删除重复项,以确保数据的唯一性。
1.4特征工程
(1)交叉特征:主要提取流量、上部温度设定、下部温度设定之间的关系;
(2)历史平移特征:通过历史平移获取上个阶段的信息;
(3)差分特征:可以帮助获取相邻阶段的增长差异,描述数据的涨减变化情况。在此基础上还可以构建相邻数据比值变化、二阶差分等;
(4)窗口统计特征:窗口统计可以构建不同的窗口大小,然后基于窗口范围进统计均值、最大值、最小值、中位数、方差的信息,可以反映最近阶段数据的变化情况。
1.5模型训练与验证
二:任务总结与心得
2.1 baseline进行修改优化后并跑通,结果可观如下:
2.2 调整参数后:
参考文章:
datawhale暑期夏令营:datawhale开源项目