本文为学校课程《机器学习》中老师给出的一些有关机器学习的简答题的详细解答,可供复习参考,基本答案全是正确的。
目录
- 什么是判别式模型和生成式模型,并且举例说明各自包含哪些典型的机器学习模型?
- L1 和 L2 的正则化的区别
- 数据归一化与中心化有什么区别
- 请描述 Adaboost 算法的主要思想,并用伪代码写出算法过程
- 在训练机器学习模型时,为何经常对数据做归一化?哪些算法不需要做归一化,哪些算法需要做归一化?
- 简单说下有监督学习和无监督学习的区别?
- Logistic 回归与线性回归的区别与联系是什么
- 什么是过拟合与欠拟合,防止过拟合有些常用的方法
- 请解释什么是泛化能力?
- 对于一个二类分类问题,假设已经建好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计就判别为 1,否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化
- 什么是信息熵?信息增益如何计算?
- 简述集成思想和 bagging 和 adaboost 异同。
- 简述 ID3 的优缺点,以及决策树中如何防止过拟合。
- 简述基于密度的聚类算法 DBSCAN 的思想与过程。
- 什么是 ROC 曲线与 Precision‐recall 曲线?
- 阐述 PCA 的主要思想,并说明其计算过程。
- 深度神经网络模型中为什么要引入线性激活函数
- 主流的降维算法有哪些,简要描述这些算法的思想?
- 如何理解朴素贝叶斯模型中的“朴素”?
- 请描述最大似然算法的主要思想,写出对数似然公式,并描述使用极大似然函数估计值的算法过程
- 高斯混合模型是如何定义的,请尝试写出其数学公式。
- 请描述EM算法求解高斯混合模型的过程。
- 概率图模型中的两类主任务是推理与学习,请解释之
- 请例举几种有向图模型与无向图模型
什么是判别式模型和生成式模型,并且举例说明各自包含哪些典型的机器学习模型?
在机器学习中,对于有监督学习可以将其分为两类模型:判别式模型和生成式模型。简单地说,判别式模型是针对条件分布建模,而生成式模型则针对联合分布进行建模。
- 生成模型:朴素贝叶斯,混合高斯模型,隐马尔可夫模型HMM,贝叶斯网络,Sigmoid belief Networks,马尔科夫随机场,深度信念网络DBN,LDA
- 判别模型:1.线性回归 2.逻辑回归 3.线性判别分析 4.支持向量机SVM 5.决策树 6.神经网络NN 7.高斯过程 8.条件随机场CRF 9.KNN 10.感知机 11.boosting方法
机器学习中的判别式模型和生成式模型
L1 和 L2 的正则化的区别
(1)L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;
(2)L2正则化可以防止模型过拟合,在一定程度上,L1也可以防止过拟合,提升模型的泛化能力;
(3)L1(拉格朗日)正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;
(4)L2(岭回归)正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。
在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则.
数据归一化与中心化有什么区别
两种归一化:(1)最大最小规范化(2)Zscore标准化
- 数据归一化旨在将数据缩放到相同的比例,通常是将数据转换为0和1之间的范围或者-1和1之间的范围。数据中心化旨在将数据转换为均值为0,方差为1的正态分布。
- 数据归一化可应用于任何数据类型,包括连续值和离散值。数据中心化通常仅适用于连续值。
- 数据归一化可提高机器学习算法的收敛速度,特别是对于梯度下降等需要迭代计算的算法。数据中心化可提高特征的稳定性和可解释性,减少异常值的影响。
- 中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)
请描述 Adaboost 算法的主要思想,并用伪代码写出算法过程
在训练机器学习模型时,为何经常对数据做归一化?哪些算法不需要做归一化,哪些算法需要做归一化?
简单说下有监督学习和无监督学习的区别?
有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对样本集外的数据进行标记(分类)预测,相当于有明确的分类目标。有监督学习可分为回归和分类。
- 通俗的来说:有监督学习就是训练样本的标记信息是已知的,我们完成一个分类任务时,我们是知道要分为哪些类的,只是对数据进行提取属性再直接分类就好。
无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识,所有的标记(分类)都是未知的。无监督学习的典型就是聚类。- 通俗的来说:无监督学习就是训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律。再通俗来讲就是,当我们想要完成一个分类任务时,我们完全不知道应该分为几类,具体的类别也是未知的。
Logistic 回归与线性回归的区别与联系是什么
- 任务定位:线性回归 用于回归任务;逻辑回归用于分类任务
- 输出值: 线性回归输出连续值;逻辑回归输出概率值;本质是因为逻辑回归使用了sigmod函数进行了映射 ,将值域映射到(0,1),在二类任务中,若大于0.5,则为某个类,小于0.5,为另一类。
- 损失函数:线性回归采用MSE损失函数,逻辑回归采用交叉熵损失函数。
什么是过拟合与欠拟合,防止过拟合有些常用的方法
过拟合:欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。
欠拟合:过拟合是指训练误差和测试误差之间的差距太大。换句换说,就是模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。模型对训练集"死记硬背"(记住了不适用于测试集的训练集性质或特点),没有理解数据背后的规律,泛化能力差。
防止过拟合:
- 获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法
- 采用合适的模型(控制模型的复杂度)
- 降低特征的数量
- L1 / L2 正则化
- Dropout
- Early stopping(提前终止)
欠拟合、过拟合及如何防止过拟合
请解释什么是泛化能力?
是指机器学习算法对新鲜样本的适应能力。 学习的目的是学到隐含在数据背的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。
机器学习中的泛化能力
对于一个二类分类问题,假设已经建好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计就判别为 1,否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化
相同题目
什么是信息熵?信息增益如何计算?
简述集成思想和 bagging 和 adaboost 异同。
相同:
- Baggging 和adaBoost都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。
相异:
1)样本选择上:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
2)样例权重:Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
3)预测函数:Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
4)并行计算:Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
- 思想:Bagging:Bagging的途径是降低 方差。是要降低过拟合。因为Bagging是并行的生成一堆决策树,这些决策树可以不做剪枝。它其实是生成了一堆 强学习器。也就是每个学习器都会有过拟合的问题,但是多个组合在一起,可以降低过拟合。
Boosting:Boosting的途径是降低 偏差。是要降低欠拟合。因为Boosting,包括Adaboost和GBDT,都是生成了一堆弱学习器,甚至是只有一层的决策树(这也是为什么叫做树桩)。它是串行的生成一系列的弱学习器,但是彼此之间能够相互学习。
Bagging和Boosting的区别
简述 ID3 的优缺点,以及决策树中如何防止过拟合。
ID3的优点:
• 1.假设空间包含所有的决策树,搜索空间完整。
• 2.健壮性好,不受噪声影响。
• 3.可以训练缺少属性值的实例。
总的来说,就是理论清晰、方法简单、学习能力较强
简述基于密度的聚类算法 DBSCAN 的思想与过程。
什么是 ROC 曲线与 Precision‐recall 曲线?
机器学习之类别不平衡问题 (2) —— ROC和PR曲线
ROC曲线和PR曲线
阐述 PCA 的主要思想,并说明其计算过程。
深度神经网络模型中为什么要引入线性激活函数
因为神经网络中每一层的输入输出都是一个线性求和的过程,下一层的输出只是承接了上一层输入函数的线性变换,所以如果没有激活函数,那么无论你构造的神经网络多么复杂,有多少层,最后的输出都是输入的线性组合,纯粹的线性组合并不能够解决更为复杂的问题。而引入激活函数之后,我们会发现常见的激活函数都是非线性的,因此也会给神经元引入非线性元素,使得神经网络可以逼近其他的任何非线性函数,这样可以使得神经网络应用到更多非线性模型中。
神经网络激活函数的作用和原理?有没有形象解释
主流的降维算法有哪些,简要描述这些算法的思想?
如何理解朴素贝叶斯模型中的“朴素”?
为什么朴素贝叶斯定理会被叫做朴素的
请描述最大似然算法的主要思想,写出对数似然公式,并描述使用极大似然函数估计值的算法过程
高斯混合模型是如何定义的,请尝试写出其数学公式。
高斯函数