三种决策树算法的特点和区别
- ID3算法:基本的决策树算法,适用于简单的分类问题
- C4.5算法:改进了ID3算法,适用于更复杂的分类问题,可以处理连续型数据和缺失值
- CART算法:更加通用的决策树算法,适用于分类和回归问题,可以处理连续型数据和多分类问题
决策树算法详解:从构造到剪枝,实战Titanic生存预测_决策树分类算法及应用-CSDN博客
Lightgbm原理以及过程
- LightGBM(Light Gradient Boosting Machine)是由微软开发的一种基于决策树的分布式梯度提升框架,专门用于快速、高效的机器学习模型训练。
- LightGBM 是一个性能高度优化的 GBDT(Gradient Boosting Decision Trees)算法。
- LightGBM 对传统的 GBDT 进行了多种改进和优化,以提高效率和性能。
- 它在处理大规模数据集和高维数据时速度更快,占用内存更少。
以下是 LightGBM 的基本原理简单讲解:
梯度提升(Gradient Boosting):
- 梯度提升是一种集成学习方法,通过逐步构建一系列弱学习器(通常是决策树),每个学习器试图纠正前一个学习器的错误。LightGBM 采用这种方法,但对算法进行了多种优化,以提高效率和性能。
基于叶子的增长策略(Leaf-wise Growth Strategy):
- 与其他基于深度或宽度的增长策略不同,LightGBM 使用基于叶子的增长策略,即每次选择一个叶子节点来分裂,从而最大化信息增益。这种方法能够更好地减少损失,但也可能导致树的不平衡。
直方图优化(Histogram-based Optimization):
- LightGBM 通过将连续特征离散化为多个区间(直方图桶),大大减少了数据的存储和计算成本。每个区间代表一个特定的特征值范围,模型仅在这些区间上进行计算,从而加速了训练过程。
支持并行和分布式训练:
- LightGBM 支持数据并行和特征并行,可以在多核 CPU 和多机环境下进行高效训练。这使得它能够处理大规模数据集。
大数据分析案例-基于LightGBM算法构建乳腺癌分类预测模型_lightgbm 医疗-CSDN博客
数据挖掘比赛比较基础的baseline_比赛baseline-CSDN博客
梯度消失的概念,如何解决
梯度消失的原因
梯度消失是指在神经网络的训练过程中,从输出层向输入层传递的误差梯度逐渐变小,以至于到达输入层时已经接近于零。这个问题通常发生在使用了sigmoid或tanh这类激活函数的深度网络中。这些激活函数的导数在其值域的两端都非常小(接近于零),因此在多层网络中连续乘以这些小的导数会导致梯度迅速减小,从而使得网络的前几层学习非常缓慢或几乎不学习,这严重阻碍了模型的训练效率。
解决梯度消失的方法
改用ReLU及其变体作为激活函数:
- ReLU(Rectified Linear Unit)激活函数在正区间的导数为1,这样可以有效防止梯度消失的问题。其变体如Leaky ReLU或Parametric ReLU (PReLU) 也是不错的选择,它们在负区间提供一个小的非零斜率,保持信息的流动。
使用批归一化(Batch Normalization):
- 批归一化通过规范化每一层的输入来缓解内部协变量偏移(每层输入的分布改变),可以帮助改善网络的训练速度,减少梯度消失的问题。
采用合适的权重初始化策略:
- 选择合适的方法初始化网络权重对预防梯度消失至关重要。例如,He 初始化是为ReLU激活函数专门设计的,可以在训练开始时保持激活和梯度的尺度。
使用残差网络(ResNet)架构:
- 残差网络通过引入跳过连接(skip connections),允许梯度直接流向更早的层。这样的结构有助于梯度更好地流动,防止在深层网络中消失。
使用梯度剪辑(Gradient Clipping):
- 这是一种在训练中控制梯度爆炸问题的技术,但它也可以间接帮助缓解梯度消失,因为它可以帮助保持数值稳定性,尤其是在RNNs中。
改进的RNN架构,如LSTM和GRU:
- 长短期记忆(LSTM)和门控循环单元(GRU)是特别设计来防止梯度消失问题的RNN变体。它们通过引入门控机制来控制信息的流动,有效避免了传统RNN中梯度消失的问题。
K折交叉验证
数据挖掘比赛比较基础的baseline_比赛baseline-CSDN博客
K折交叉验证找到最佳超参数
K-means的原理以及过程
时间和空间复杂度
K的值怎么确定
K-Means(K-均值)聚类算法理论和实战-CSDN博客
SVM的原理
- 最大化边际:SVM的核心理念是寻找一个决策边界(在二维空间中是一条线,在更高维空间中是一个平面或超平面),这个边界能够最大程度地区分不同类别的数据点。SVM尝试最大化各类数据点到决策边界的最小距离,这个距离被称为“边际”。
- 支持向量:决策边界的确切位置由距离它最近的几个训练样本确定,这些样本被称为“支持向量”。SVM模型特别关注这些关键样本。
- 核技巧:对于非线性可分的数据,SVM使用所谓的“核技巧”将数据映射到更高维的空间,从而使得数据在新空间中线性可分。常见的核函数包括线性核、多项式核、径向基函数(RBF)核等。
向量机SVM原理理解和实战_svm实战-CSDN博客
降维分析方法
PCA原理及实现过程
主成分分析(Principal Component Analysis)是一种常用的降维技术,通过线性变换将高维数据投影到低维空间,同时尽量保留数据的方差信息。PCA 常用于数据预处理、特征提取和数据可视化。
KPCA降维原理
核主成分分析(Kernel Principal Component Analysis)对于输入空间中的矩阵X,先用一个非线性映射把X中的所有样本映射到一个高维甚至是无穷维的空间(特征空间),使其线性可分,然后在这个高维空间进行PCA降维
T-SNE降维原理
TSNE是另一种常用的数据降维方法。由T和SNE组成,也就是T 分布和随机近邻嵌入 (Stochastic neighbour Embedding)。其主要优势在于高维数据 空间中距离相近的点投 影到低维空间中仍然相近。 T-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的 相似度由高斯联合概率 表示,嵌入空间的相似度由“学生T分布”表
葡萄酒品质揭秘:运用PCA和KPCA技术深度解析葡萄酒分类-CSDN博客