本文为学校课程《机器学习》中老师给出的一些有关机器学习的简答题的详细解答，可供复习参考，基本答案全是正确的。

什么是判别式模型和生成式模型，并且举例说明各自包含哪些典型的机器学习模型？
L1 和 L2 的正则化的区别
数据归一化与中心化有什么区别
请描述 Adaboost 算法的主要思想，并用伪代码写出算法过程
在训练机器学习模型时，为何经常对数据做归一化？哪些算法不需要做归一化，哪些算法需要做归一化？
简单说下有监督学习和无监督学习的区别？
Logistic 回归与线性回归的区别与联系是什么
什么是过拟合与欠拟合，防止过拟合有些常用的方法
请解释什么是泛化能力？
对于一个二类分类问题，假设已经建好了模型，输出是 0 或 1，初始时设阈值为 0.5，超过 0.5 概率估计就判别为 1，否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化
什么是信息熵？信息增益如何计算？
简述集成思想和 bagging 和 adaboost 异同。
简述 ID3 的优缺点，以及决策树中如何防止过拟合。
简述基于密度的聚类算法 DBSCAN 的思想与过程。
什么是 ROC 曲线与 Precision‐recall 曲线？
阐述 PCA 的主要思想，并说明其计算过程。
深度神经网络模型中为什么要引入线性激活函数
主流的降维算法有哪些，简要描述这些算法的思想？
如何理解朴素贝叶斯模型中的“朴素”？
请描述最大似然算法的主要思想，写出对数似然公式，并描述使用极大似然函数估计值的算法过程
高斯混合模型是如何定义的，请尝试写出其数学公式。
请描述EM算法求解高斯混合模型的过程。
概率图模型中的两类主任务是推理与学习，请解释之
请例举几种有向图模型与无向图模型

什么是判别式模型和生成式模型，并且举例说明各自包含哪些典型的机器学习模型？

在机器学习中，对于有监督学习可以将其分为两类模型：判别式模型和生成式模型。简单地说，判别式模型是针对条件分布建模，而生成式模型则针对联合分布进行建模。

生成模型：朴素贝叶斯，混合高斯模型，隐马尔可夫模型HMM，贝叶斯网络，Sigmoid belief Networks，马尔科夫随机场，深度信念网络DBN，LDA
判别模型：1.线性回归 2.逻辑回归 3.线性判别分析 4.支持向量机SVM 5.决策树 6.神经网络NN 7.高斯过程 8.条件随机场CRF 9.KNN 10.感知机 11.boosting方法
机器学习中的判别式模型和生成式模型

L1 和 L2 的正则化的区别

（1）L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择；
（2）L2正则化可以防止模型过拟合，在一定程度上，L1也可以防止过拟合，提升模型的泛化能力；
（3）L1（拉格朗日）正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；
（4）L2（岭回归）正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小。
在实际使用中，如果特征是高维稀疏的，则使用L1正则；如果特征是低维稠密的，则使用L2正则.

数据归一化与中心化有什么区别

两种归一化：(1)最大最小规范化(2)Zscore标准化

数据归一化旨在将数据缩放到相同的比例，通常是将数据转换为0和1之间的范围或者-1和1之间的范围。数据中心化旨在将数据转换为均值为0，方差为1的正态分布。
数据归一化可应用于任何数据类型，包括连续值和离散值。数据中心化通常仅适用于连续值。
数据归一化可提高机器学习算法的收敛速度，特别是对于梯度下降等需要迭代计算的算法。数据中心化可提高特征的稳定性和可解释性，减少异常值的影响。

中心化（又叫零均值化）：是指变量减去它的均值。其实就是一个平移的过程，平移后所有数据的中心是（0，0）

请描述 Adaboost 算法的主要思想，并用伪代码写出算法过程

在训练机器学习模型时，为何经常对数据做归一化？哪些算法不需要做归一化，哪些算法需要做归一化？

简单说下有监督学习和无监督学习的区别？

有监督学习：对具有概念标记（分类）的训练样本进行学习，以尽可能对样本集外的数据进行标记（分类）预测，相当于有明确的分类目标。有监督学习可分为回归和分类。

通俗的来说：有监督学习就是训练样本的标记信息是已知的，我们完成一个分类任务时，我们是知道要分为哪些类的，只是对数据进行提取属性再直接分类就好。
无监督学习：对没有概念标记（分类）的训练样本进行学习，以发现训练样本集中的结构性知识，所有的标记（分类）都是未知的。无监督学习的典型就是聚类。
通俗的来说：无监督学习就是训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律。再通俗来讲就是，当我们想要完成一个分类任务时，我们完全不知道应该分为几类，具体的类别也是未知的。

Logistic 回归与线性回归的区别与联系是什么

任务定位：线性回归用于回归任务；逻辑回归用于分类任务
输出值：线性回归输出连续值；逻辑回归输出概率值；本质是因为逻辑回归使用了sigmod函数进行了映射，将值域映射到(0,1)，在二类任务中，若大于0.5，则为某个类，小于0.5，为另一类。
损失函数：线性回归采用MSE损失函数，逻辑回归采用交叉熵损失函数。

什么是过拟合与欠拟合，防止过拟合有些常用的方法

过拟合：欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在训练集上就表现很差，没法学习到数据背后的规律。
欠拟合：过拟合是指训练误差和测试误差之间的差距太大。换句换说，就是模型复杂度高于实际问题，模型在训练集上表现很好，但在测试集上却表现很差。模型对训练集"死记硬背"（记住了不适用于测试集的训练集性质或特点），没有理解数据背后的规律，泛化能力差。
防止过拟合：

获取和使用更多的数据（数据集增强）——解决过拟合的根本性方法
采用合适的模型（控制模型的复杂度）
降低特征的数量
L1 / L2 正则化
Dropout
Early stopping（提前终止）
欠拟合、过拟合及如何防止过拟合

请解释什么是泛化能力？

是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。
机器学习中的泛化能力

对于一个二类分类问题，假设已经建好了模型，输出是 0 或 1，初始时设阈值为 0.5，超过 0.5 概率估计就判别为 1，否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化

相同题目

什么是信息熵？信息增益如何计算？

简述集成思想和 bagging 和 adaboost 异同。

相同：

Baggging 和adaBoost都是模型融合的方法，可以将弱分类器融合之后形成一个强分类器，而且融合之后的效果会比最好的弱分类器更好。
相异：
1）样本选择上：Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
2）样例权重：Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。
3）预测函数：Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。
4）并行计算：Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

思想：Bagging：Bagging的途径是降低方差。是要降低过拟合。因为Bagging是并行的生成一堆决策树，这些决策树可以不做剪枝。它其实是生成了一堆强学习器。也就是每个学习器都会有过拟合的问题，但是多个组合在一起，可以降低过拟合。
Boosting：Boosting的途径是降低偏差。是要降低欠拟合。因为Boosting，包括Adaboost和GBDT，都是生成了一堆弱学习器，甚至是只有一层的决策树（这也是为什么叫做树桩）。它是串行的生成一系列的弱学习器，但是彼此之间能够相互学习。
Bagging和Boosting的区别

简述 ID3 的优缺点，以及决策树中如何防止过拟合。

ID3的优点：
• 1.假设空间包含所有的决策树，搜索空间完整。
• 2.健壮性好，不受噪声影响。
• 3.可以训练缺少属性值的实例。
总的来说，就是理论清晰、方法简单、学习能力较强

简述基于密度的聚类算法 DBSCAN 的思想与过程。

什么是 ROC 曲线与 Precision‐recall 曲线？

机器学习之类别不平衡问题 (2) —— ROC和PR曲线
ROC曲线和PR曲线

阐述 PCA 的主要思想，并说明其计算过程。

深度神经网络模型中为什么要引入线性激活函数

因为神经网络中每一层的输入输出都是一个线性求和的过程，下一层的输出只是承接了上一层输入函数的线性变换，所以如果没有激活函数，那么无论你构造的神经网络多么复杂，有多少层，最后的输出都是输入的线性组合，纯粹的线性组合并不能够解决更为复杂的问题。而引入激活函数之后，我们会发现常见的激活函数都是非线性的，因此也会给神经元引入非线性元素，使得神经网络可以逼近其他的任何非线性函数，这样可以使得神经网络应用到更多非线性模型中。
神经网络激活函数的作用和原理？有没有形象解释