机器学习算法竞赛实战--3，数据探索

news2026/2/14 5:44:44

数据挖掘是竞赛的核心模块之一，贯彻竞赛始终也是很多竞赛胜利的关键那么数据探索又是什么呢？可以解决哪些问题？首先应该明确3点，即如何确保自己准备好竞赛使用的算法模型如何为数据集选择最合适的算法如何定义可用于算法模型的特征变量

数据探索可以帮助回答以上这3点，并能够保证竞赛的最佳结果，它是一种总结，可视化和熟悉数据集中重要特征的方法。数据探索有利于我们发现数据的一些特征，数据之间的关联性有助于后续的特征构建

数据初探可以看做赛前数据探索主要包含分析思路，分析方法和目的通过系统化的探索，我们可以加深对数据的理解

在实际竞赛中，最好使用多种探索之路和方法来探索每个变量并比较结果在完全理解数据集后就可以进入数据预处理阶段和特征提取阶段的以便根据所期望的业务结果转化数据集此步骤的目的是确信数据集已准备好应用于机器学习算法

不单是针对每个变量，更是分析变量之间的联系，以及变量和标签的相关性并进行假设检验帮助我们提取有用特征

相关性分析只能比较数值特征，所以对于字母或字符串特征需要先进行编码并将其转化为数值，然后再看特征之间到底有什么关联，在实际竞赛中相关性分析可以很好的过滤掉与标签没有直接关系的特征并且这种方式在很多竞赛中均有很好的效果

数据探索的目的是帮助我们了解数据，并且构建有效特征

单变量分析太过单一不足以挖掘变量之间的内在联系获取更加细腻度的信息，所以多变量分析就变成了必须

分析特征变量与特征变量之间的关系有助于构建更好的特征，同时降低构件冗余特征的概率

学习曲线是机器学习中被广泛使用的效果评价工具能够反映训练集和验证集在训练迭代中分数的变化情况，帮助我们快速了解模型的学习效果

我们可以通过学习曲线来观察模型是否过拟合，通过判断拟合程度来确定如何改进模型

4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)_进击的橘子猫的博客-CSDN博客_混淆矩阵https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

画混淆矩阵sklearn_爱学习的大白菜的博客-CSDN博客_画混淆矩阵https://blog.csdn.net/csdnliwenqi/article/details/120759519混淆矩阵Confusion Matrix - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/111234566【知识】六种基本图表的特点和适用场合 - 腾讯云开发者社区-腾讯云 (tencent.com)https://cloud.tencent.com/developer/article/1044115统计图表的分类和各种图表的优势？ - 知乎 (zhihu.com)https://www.zhihu.com/question/27875808817种数据可视化图表，有哪些适用场景和局限 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/54849856