团队名称
会魔法的老人
团队成员
刘克林(重庆邮电大学)
敖宇(重庆邮电大学)
杨敏(重庆邮电大学)
团队名次
全国第二名
赛题描述说明介绍
2023大数据挑战赛赛题说明+决赛评分标准回顾
参赛分享与收获
本次大赛赛题为基于多源数据的 IT 系统故障发现,指在 IT 系统中通过分析来自多个数据源的数据来发现故障的过程。我们团队通过对Trace、Log和Metric三种数据源分别进行业务理解和数据分析,并构建对应的相关序列信息特征以及交叉统计特征等,成功克服了Log源数据繁多且复杂的情况以及Metric源因统计粒度不同导致空值过多的情况。并使用基于缺失和位置信息的特征筛选方法,通过OVR+XGBoost/LightGBM结合K折交叉验证进行建模,最后引入元学习器进行模型融合,不仅有效的保留了重要特征降低特征维度还提升了模型的鲁棒性。本方案使用的特征维度少,训练速度快,并采用树模型进行建模,消耗资源少,能够快速上线部署,帮助 IT 运维人员更准确地识别故障源和进行应急响应,从而提高系统的稳定性和可用性。
在为IT 系统故障发现问题建模之前,需要深入了解 IT 系统和运维的业务背景,通过分析数据、理解系统的运行模式和故障情况,加深了我们对 IT 运维领域的理解,有助于我们将数据科学应用于实际业务场景,并为实际决策提供支持。在处理多源数据时,需要将问题转化为可操作的数据挖掘任务,通过将故障发现问题分解为特征提取、模型构建等步骤,提升了我们将实际问题转化为数据科学问题的能力,培养了我们如何从数据中提取信息、洞察问题,并构建合适的模型解决方案的数据思维。
接到邀请去清华大学参加线下答辩,前往途中满怀期待,毕竟这是我们梦想中的大学。比赛前一天,还贴心地给选手们准备了北京特色的晚宴,让我感受到了清华大学的热情。决赛答辩现场,各位领导的致词,各位选手的精彩答辩,令人难忘。如果还有机会,希望下次再来!
决赛答辩ppt分享
编辑:文婧
校对:林亦霖