团队名称
陛下请移步至地下室
团队成员
张晓立(华东师范大学)
团队名次
全国第三名
赛题描述说明介绍
2023大数据挑战赛赛题说明+决赛评分标准回顾
参赛分享与收获
大赛提供了非常丰富有趣的数据,能把数据分析明白就能获得高分。首先分析metric数据中的故障特点,可以发现每一个tags都能组成一个长度为21的时间序列,因此metric中的故障主要表现为时间序列的异常。接下来分析trace的故障特点,从字段说明中可以知道status_code不等于200就代表故障。另外,span_time=end_time-start_time,即调用时长,调用时长过长或者过短都可能代表故障。timestamp的差分代表了前后两次调用结束时间的间隔,过长或过短都可能表示故障。特征工程的思路主要就是根据故障特点来进行特征构造。由于全是手工特征,很可能受到缺失值和分布偏移的问题导致线上线下的差距过大,所以缺失值过滤和训练集和测试集的同分布检验非常有必要,这个操作使得ab榜切换时没有shake太多分。
模型方面选择了4种模型,xgboost和lightgbm负责获得稳定高分,随机森林和极端随机树负责碰运气shake出更高的分数。集成方面选择了标准的stacking集成方法,为了增加不同模型预测结果的差异,还针对不同的模型使用了不同数量的特征。
所有模型的训练都采用了5折交叉验证,并且坚持trust your local cv的原则,没有过度拟合a榜。
由于时间关系很遗憾没有对数据进行更深入的挖掘,使用的模型也偏保守。从前排队伍的分享来看,对数据的挖掘还是比较重要的,有一些业务背景知识处理起数据会事半功倍。
最后感谢清华大学的邀请,让我有机会去北京参观,食宿方面准备得非常周到,必须点赞。
决赛答辩ppt分享
编辑:文婧
校对:林亦霖