机器学习期末

选择题

以下哪项不是机器学习的类型？
A. 监督学习
B.无监督学习
C.半监督学习
D.全监督学习

哪一个是机器学习的合理定义?
A、机器学习是计算机编程的科学
B、机器学习从标记的数据中学习
C、机器学习是允许机器人智能行动的领域
D、机器学习能使计算机能够在没有明确编程的情况下学习

以下哪项是计算机视觉中用于自动图片标注的核心技术？
A. 决策树
B. 卷积神经网络（CNN）
C. 支持向量机（SVM）
D. 随机森林

B。
CNN能自动提取图像特征，是计算机视觉中的核心技术；
支持向量机在许多分类任务中很有效；

下列不属于机器学习的主要流派的是

A.符号主义
B.联想主义（联结主义）
C.进化主义
D.行为类推主义

B。联结主义（或称连接主义）是指神经网络等方法，它强调通过神经元的连接模拟学习过程。这个术语通常用于神经网络或深度学习，并不是机器学习的一个独立流派，而是属于其中的一部分。

以下哪种损失函数通常用于回归任务？
A) 交叉熵损失
B) 合页损失（Hinge Loss）
C) 均方误差（MSE）
D) KL散度

C。A) 交叉熵损失：交叉熵损失函数通常用于分类任务，尤其是用于衡量分类任务中预测的概率分布与真实标签之间的差异，因此不适用于回归任务。
B) 合页损失（Hinge loss）：合页损失函数通常用于支持向量机（SVM）中的分类任务，而不是回归任务。它通过计算预测结果与正确标签之间的“合页”距离来进行优化。
C) 均方误差损失（MSE）：均方误差（MSE）是回归任务中最常用的损失函数，它通过计算预测值与真实值之间的平方差来度量模型的表现。在回归问题中，目标是最小化这个损失函数。
D) KL散度损失：Kullback-Leibler散度（KL散度）用于衡量两个概率分布之间的差异，虽然它在一些生成模型（如变分自编码器）中会使用，但它通常不用于回归任务。

关于机器学习中偏差（Bias）与方差（Variance）的权衡，以下哪种说法错误？
A. 增加模型复杂度通常会降低偏差，但可能增加方差
B. 集成方法（如Bagging）通过降低方差来提升泛化性能
C. 正则化（如L2正则化）通过增加偏差来减少方差
D. 高偏差问题表明模型对训练数据的拟合不足，应减少正则化强度

D
A. 增加模型复杂度通常会降低偏差，但可能增加方差：这个选项是正确的。通常，随着模型复杂度的增加（例如增加参数或采用更复杂的模型），模型可以更好地拟合训练数据，从而降低偏差。然而，模型复杂度增加也可能导致过拟合，使模型在训练数据上表现很好，但在测试数据上表现较差，导致方差增大。
B. 集成方法（如Bagging）通过降低方差来提升泛化性能：这个选项是正确的。集成方法（如Bagging）通过组合多个弱模型来降低方差，尤其是在数据噪声较大的情况下。Bagging通过训练多个独立的模型，并将它们的预测结果结合起来，从而减少模型的方差，提升泛化能力。
C. 正则化（如L2正则化）通过增加偏差来减少方差：这个选项是正确的。正则化（例如L2正则化）通过对模型的复杂度进行约束，限制模型的自由度，防止过拟合。虽然正则化可能会增加偏差，但它通常能显著减少方差，从而改善模型的泛化能力。
D. 高偏差问题表明模型对训练数据的拟合不足，应减少正则化强度：这个选项是错误的。高偏差通常意味着模型过于简单，无法有效捕捉数据中的复杂模式（即欠拟合）。在这种情况下，应该增加模型复杂度或减少正则化强度，以便模型能够更好地拟合训练数据。然而，如果模型已经很复杂，过度减少正则化可能会导致方差增加，并引发过拟合问题。因此，问题的描述中，“应减少正则化强度”在特定情况下可能不适用，尤其当模型复杂度已经足够时，反而需要适度增加正则化。
在这里插入图片描述

混淆矩阵的精度表示公式为：
A. TP/(TP+FN)
B. TP/(TP+FP)
C. TN/(TN+FN)
D. TN/(TN+TP)

B.
精度表示的是模型预测为正的实例中，实际上为正的比例，计算公式为 TP/(TP+FP)
A. TP / (TP + FN)：这个公式表示的是召回率（Recall），也叫敏感度，即模型正确识别的正类实例占所有真实正类实例的比例。
C. TN / (TN + FN)：这个公式表示的是特异度（Specificity），也叫真负率，即模型正确识别的负类实例占所有真实负类实例的比例。

以下哪种数据类型允许进行算术运算，但不具有绝对零点？
A) 名义变量
B) 序数变量
C) 间隔变量
D) 比率变量

以下哪项是机器学习模型的过拟合现象？
A.模型在训练数据上表现良好，但在测试数据表现不佳
B.模型在训练数据上表现不佳，但在测试数据表现良好
C.模型在训练数据和测试数据表现良好
D.模型在训练数据和测试数据表现不佳

在机器学习中，以下哪种算法属于监督学习？
A.K-Means 聚类
B.主成分分析（PCA）
C.支持向量机（SVM）
D.自编码器

C
监督学习需要利用带有标签的数据进行训练，ACD都是无监督学习
常见的监督学习种类：

支持向量机（SVM）：SVM 是一种用于二分类和多分类任务的强大算法。它通过找到一个最优的超平面来将不同类别的数据分隔开。SVM在高维空间中表现良好，并且可以应用于线性和非线性分类问题。
决策树（Decision Trees）：决策树是一种基于树结构的分类和回归算法。它通过在特征上进行递归的二分决策来进行分类或预测。决策树易于理解和解释，并且对于数据的处理具有良好的适应性。
逻辑回归（Logistic Regression）：逻辑回归是一种广泛应用于二分类问题的线性模型。尽管名字中带有"回归"，但它主要用于分类任务。逻辑回归输出预测的概率，并使用逻辑函数将连续输出映射到[0, 1]的范围内。
K近邻算法（K-Nearest Neighbors，KNN）：KNN 是一种基于实例的学习方法。它根据距离度量来对新样本进行分类或回归预测。KNN使用最接近的K个训练样本的标签来决定新样本的类别。

以下关于机器学习算法应用场景的描述中，错误的是：
A. 朴素贝叶斯算法常用于文本分类任务中的垃圾邮件过滤
B. 循环神经网络（RNN）特别适合处理时间序列数据，如股票价格预测
C. 聚类算法（如 K-Means）需要标注好的训练样本才能划分数据类别
D. 强化学习在自动驾驶领域中通过试错机制优化决策策略

C
聚类算法（如K-Means）属于无监督学习，其核心特点是不依赖标注数据，而是通过数据内在结构（如距离、密度）自动划分类别。
标注数据是监督学习的要求。

哪个不是测量中心倾向的方法
A均值。B中位数。C众数。D方差

D
中心倾向指标用于描述数据集的“中心位置”或典型值，方差属于离散程度指标，衡量数据分布的波动性或分散程度（如数据偏离均值的程度），而非中心位置。

在机器学习中，当出现过拟合（Overfitting）现象时，以下哪种方法不能用来解决这个问题？
A. 增加训练数据
B. 增加模型复杂度
C. 使用数据增强（如翻转、旋转、添加噪声）
D. 使用更强的正则化方法（如 dropout、drop - connect、L₂）

B
增加模型复杂度通常会降低偏差，但可能增加方差

支持向量机算法属于（）
A. 决策树学习
B. 统计学习
C. 集成学习
D.记忆学习

以下属于解决模型欠拟合的方法是？
A、增加训练数据量
B、对模型进行裁剪
C、增加训练过程的迭代次数
D、正则化

对于 B，增加训练数据量，常用于解决过拟合（通过数据多样性增强泛化能力），而非改善欠拟合。若模型复杂度不足，增加数据可能无济于事。

在边缘检测中，以下哪种算子对噪声最敏感，且未进行高斯平滑处理？

A. Sobel 算子
B. Prewitt 算子
C. Canny 算子
D. Laplacian 算子

在卷积神经网络（CNN）中，关于池化层（Pooling Layer）的作用，以下哪项描述是错误的？

A. 池化层通过降采样减少特征图的空间尺寸，从而降低计算复杂度。
B. 最大池化（Max Pooling）能够保留局部区域的显著特征，增强模型的平移不变性。
C. 平均池化（Average Pooling）通过计算局部区域的平均值，有助于抑制噪声影响。
D. 池化层通过反向传播自动学习最优的池化核参数，类似于卷积层的权重更新。

D
池化层（如最大池化、平均池化）是无参数操作，其核内计算（如取最大值/平均值）是预定义的，不涉及权重学习。