【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考

news2024/10/7 7:30:18

本文为学校课程《机器学习》中老师给出的一些有关机器学习的简答题的详细解答,可供复习参考,基本答案全是正确的。

目录

  • 什么是判别式模型和生成式模型,并且举例说明各自包含哪些典型的机器学习模型?
  • L1 和 L2 的正则化的区别
  • 数据归一化与中心化有什么区别
  • 请描述 Adaboost 算法的主要思想,并用伪代码写出算法过程
  • 在训练机器学习模型时,为何经常对数据做归一化?哪些算法不需要做归一化,哪些算法需要做归一化?
  • 简单说下有监督学习和无监督学习的区别?
  • Logistic 回归与线性回归的区别与联系是什么
  • 什么是过拟合与欠拟合,防止过拟合有些常用的方法
  • 请解释什么是泛化能力?
  • 对于一个二类分类问题,假设已经建好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计就判别为 1,否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化
  • 什么是信息熵?信息增益如何计算?
  • 简述集成思想和 bagging 和 adaboost 异同。
  • 简述 ID3 的优缺点,以及决策树中如何防止过拟合。
  • 简述基于密度的聚类算法 DBSCAN 的思想与过程。
  • 什么是 ROC 曲线与 Precision‐recall 曲线?
  • 阐述 PCA 的主要思想,并说明其计算过程。
  • 深度神经网络模型中为什么要引入线性激活函数
  • 主流的降维算法有哪些,简要描述这些算法的思想?
  • 如何理解朴素贝叶斯模型中的“朴素”?
  • 请描述最大似然算法的主要思想,写出对数似然公式,并描述使用极大似然函数估计值的算法过程
  • 高斯混合模型是如何定义的,请尝试写出其数学公式。
  • 请描述EM算法求解高斯混合模型的过程。
  • 概率图模型中的两类主任务是推理与学习,请解释之
  • 请例举几种有向图模型与无向图模型

什么是判别式模型和生成式模型,并且举例说明各自包含哪些典型的机器学习模型?

在机器学习中,对于有监督学习可以将其分为两类模型:判别式模型和生成式模型。简单地说,判别式模型是针对条件分布建模,而生成式模型则针对联合分布进行建模。
在这里插入图片描述

  • 生成模型:朴素贝叶斯,混合高斯模型,隐马尔可夫模型HMM,贝叶斯网络,Sigmoid belief Networks,马尔科夫随机场,深度信念网络DBN,LDA
  • 判别模型:1.线性回归 2.逻辑回归 3.线性判别分析 4.支持向量机SVM 5.决策树 6.神经网络NN 7.高斯过程 8.条件随机场CRF 9.KNN 10.感知机 11.boosting方法
    机器学习中的判别式模型和生成式模型

L1 和 L2 的正则化的区别

在这里插入图片描述
在这里插入图片描述
(1)L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;
(2)L2正则化可以防止模型过拟合,在一定程度上,L1也可以防止过拟合,提升模型的泛化能力;
(3)L1(拉格朗日)正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;
(4)L2(岭回归)正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。
在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则.


数据归一化与中心化有什么区别

两种归一化:(1)最大最小规范化(2)Zscore标准化
在这里插入图片描述

  1. 数据归一化旨在将数据缩放到相同的比例,通常是将数据转换为0和1之间的范围或者-1和1之间的范围。数据中心化旨在将数据转换为均值为0,方差为1的正态分布。
  2. 数据归一化可应用于任何数据类型,包括连续值和离散值。数据中心化通常仅适用于连续值。
  3. 数据归一化可提高机器学习算法的收敛速度,特别是对于梯度下降等需要迭代计算的算法。数据中心化可提高特征的稳定性和可解释性,减少异常值的影响。
  • 中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)

请描述 Adaboost 算法的主要思想,并用伪代码写出算法过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述


在训练机器学习模型时,为何经常对数据做归一化?哪些算法不需要做归一化,哪些算法需要做归一化?

在这里插入图片描述在这里插入图片描述


简单说下有监督学习和无监督学习的区别?

有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对样本集外的数据进行标记(分类)预测,相当于有明确的分类目标。有监督学习可分为回归和分类。

  • 通俗的来说:有监督学习就是训练样本的标记信息是已知的,我们完成一个分类任务时,我们是知道要分为哪些类的,只是对数据进行提取属性再直接分类就好。
    无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识,所有的标记(分类)都是未知的。无监督学习的典型就是聚类。
  • 通俗的来说:无监督学习就是训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律。再通俗来讲就是,当我们想要完成一个分类任务时,我们完全不知道应该分为几类,具体的类别也是未知的。

Logistic 回归与线性回归的区别与联系是什么

  • 任务定位:线性回归 用于回归任务;逻辑回归用于分类任务
  • 输出值: 线性回归输出连续值;逻辑回归输出概率值;本质是因为逻辑回归使用了sigmod函数进行了映射 ,将值域映射到(0,1),在二类任务中,若大于0.5,则为某个类,小于0.5,为另一类。
  • 损失函数:线性回归采用MSE损失函数,逻辑回归采用交叉熵损失函数。
    在这里插入图片描述

什么是过拟合与欠拟合,防止过拟合有些常用的方法

过拟合:欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。
欠拟合:过拟合是指训练误差和测试误差之间的差距太大。换句换说,就是模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。模型对训练集"死记硬背"(记住了不适用于测试集的训练集性质或特点),没有理解数据背后的规律,泛化能力差。
防止过拟合:
在这里插入图片描述

  1. 获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法
  2. 采用合适的模型(控制模型的复杂度)
  3. 降低特征的数量
  4. L1 / L2 正则化
  5. Dropout
  6. Early stopping(提前终止)
    欠拟合、过拟合及如何防止过拟合

请解释什么是泛化能力?

是指机器学习算法对新鲜样本的适应能力。 学习的目的是学到隐含在数据背的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。
机器学习中的泛化能力


对于一个二类分类问题,假设已经建好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计就判别为 1,否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化

在这里插入图片描述
相同题目


什么是信息熵?信息增益如何计算?

在这里插入图片描述在这里插入图片描述在这里插入图片描述


简述集成思想和 bagging 和 adaboost 异同。

在这里插入图片描述在这里插入图片描述
相同:

  • Baggging 和adaBoost都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。
    相异:
    1)样本选择上:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
    Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
    2)样例权重:Bagging:使用均匀取样,每个样例的权重相等
    Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
    3)预测函数:Bagging:所有预测函数的权重相等。
    Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
    4)并行计算:Bagging:各个预测函数可以并行生成
    Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
  1. 思想:Bagging:Bagging的途径是降低 方差。是要降低过拟合。因为Bagging是并行的生成一堆决策树,这些决策树可以不做剪枝。它其实是生成了一堆 强学习器。也就是每个学习器都会有过拟合的问题,但是多个组合在一起,可以降低过拟合。
    Boosting:Boosting的途径是降低 偏差。是要降低欠拟合。因为Boosting,包括Adaboost和GBDT,都是生成了一堆弱学习器,甚至是只有一层的决策树(这也是为什么叫做树桩)。它是串行的生成一系列的弱学习器,但是彼此之间能够相互学习。
    Bagging和Boosting的区别

简述 ID3 的优缺点,以及决策树中如何防止过拟合。

在这里插入图片描述
在这里插入图片描述ID3的优点:
• 1.假设空间包含所有的决策树,搜索空间完整。
• 2.健壮性好,不受噪声影响。
• 3.可以训练缺少属性值的实例。
总的来说,就是理论清晰、方法简单、学习能力较强在这里插入图片描述在这里插入图片描述在这里插入图片描述


简述基于密度的聚类算法 DBSCAN 的思想与过程。

在这里插入图片描述在这里插入图片描述


什么是 ROC 曲线与 Precision‐recall 曲线?

在这里插入图片描述在这里插入图片描述
机器学习之类别不平衡问题 (2) —— ROC和PR曲线
ROC曲线和PR曲线


阐述 PCA 的主要思想,并说明其计算过程。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


深度神经网络模型中为什么要引入线性激活函数

因为神经网络中每一层的输入输出都是一个线性求和的过程,下一层的输出只是承接了上一层输入函数的线性变换,所以如果没有激活函数,那么无论你构造的神经网络多么复杂,有多少层,最后的输出都是输入的线性组合,纯粹的线性组合并不能够解决更为复杂的问题。而引入激活函数之后,我们会发现常见的激活函数都是非线性的,因此也会给神经元引入非线性元素,使得神经网络可以逼近其他的任何非线性函数,这样可以使得神经网络应用到更多非线性模型中。
神经网络激活函数的作用和原理?有没有形象解释


主流的降维算法有哪些,简要描述这些算法的思想?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


如何理解朴素贝叶斯模型中的“朴素”?

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

为什么朴素贝叶斯定理会被叫做朴素的


请描述最大似然算法的主要思想,写出对数似然公式,并描述使用极大似然函数估计值的算法过程

在这里插入图片描述在这里插入图片描述


高斯混合模型是如何定义的,请尝试写出其数学公式。

在这里插入图片描述在这里插入图片描述
高斯函数


请描述EM算法求解高斯混合模型的过程。

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述


概率图模型中的两类主任务是推理与学习,请解释之

在这里插入图片描述在这里插入图片描述


请例举几种有向图模型与无向图模型

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/705973.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Node.js 包管理器(Corepack)

目录 1、简介 2、启用Corepack 3、使用Node.js Corepack 4、配置包 5、升级全局版本 6、离线工作流 7、支持的包管理器 8、Node.js Corepack 拦截npm 9、Corepack 常用命令 1、简介 Corepack是一个实验性的工具,可以帮助管理包管理器的版本。它公开的二进制…

C#,数值计算——循环冗余校验和(CRC,Cyclic Redundancy Checksum)的计算方法与源代码

using System; namespace Legalsoft.Truffer { /// <summary> /// 循环冗余校验和 /// cyclic redundancy checksum /// </summary> public class Icrc { private uint jcrc { get; set; } private uint jfill { get; se…

【ISO26262】汽车功能安全第3部分:概念阶段

GB/T34590《道路车辆 功能安全》分为以下部分: 需要文档的朋友,可以和我联系! tommi_wei@163.com GB/T34590的本部分规定了车辆在概念阶段的要求: ———相关项定义; ———安全生命周期启动; ———危害分析和风险评估;及 ———功能安全概念。 危害事件分类 对于每一个…

多网口UDP发包无法收到回包排查与解决

最近几周几乎都是单休&#xff0c;加班很多&#xff0c;也遇到了很多未知的问题&#xff0c;杂事也多时间比较紧张&#xff0c;也没有多少空余来进行一些总结积累。这点让我很是怀念起几年前的日子&#xff0c;任务安排周期长&#xff0c;做技术纯粹又专心。 前几天遇到了一个…

chatgpt赋能python:如何将Python导入PyCharm

如何将Python导入PyCharm 介绍 PyCharm是一个非常流行的Python开发工具&#xff0c;它拥有许多强大的功能和插件&#xff0c;使开发人员能够更高效地编写Python代码。在本篇文章中&#xff0c;我们将介绍如何将Python导入PyCharm。 步骤 1. 安装PyCharm 首先&#xff0c;您…

jupyter-notebook:从记录点回复数据

使用jupyter进行记录数据分析思路时&#xff0c;有时候会莫名出现一些问题。比如这次遇到的保存并关闭之后&#xff0c;隔了一个晚上再次打开文件就成了空文件了&#xff0c;昨天写的分析都没有了&#xff0c;很头疼。解决方法&#xff1a;如果确定是保存了后&#xff0c;每一个…

32 linux 中物理页的 cow

前言 熟悉 linux 进程机制的人都知道 linux 中新建进程是以 fork exec 的形式创建的进程 fork 的时候复制了父进程的相关数据结构, 然后更新了待执行的 binary, 去执行 然后 父子进程之间 内存管理是 基于 copy on write 的 对于某块物理页, fork 之后内存设置为 只读…

JAVA3

文章目录 注释核心机制JVM的功能 优缺点优点缺点 注释 例子&#xff1a; 核心机制 JVM的功能 优缺点 优点 缺点

FreeRTOS入门(二)

目录 什么是RTOS? 嵌入式有哪些常见的RTOS&#xff1f; ✓ VxWorks&#xff08;开源收费&#xff09; ✓ UCOSII&III&#xff08;开源免费&#xff09; ✓ FreeRTOS&#xff08;开源免费&#xff09; ✓ RT_Thread(开源免费) ✓ AliOS(开源收费) ✓ LiteOS FreeR…

微信小程序canvas层级太高,与其他非原生组件层级冲突

官网已经提出新版本以支持同层渲染&#xff0c;但是实际项目中层级还是冲突的。 最后在文档中找到这样一段话&#xff0c;用真机打开&#xff0c;层级就正常了 。所以建议大家&#xff0c;多使用真机调试去测试&#xff01;&#xff01;&#xff01;&#xff01;

redis中常用的命令

1.关于对key操作的命令 keys *: 查看redis中所有的key exists key: 判断指定的key是否存在。存在返回1 否则返回0 del key: 删除指定的key expire key seconds: 为指定的key设置过期时间 2.关于库的命令 默认redis中存在16个库 select n: 选中库 n0~15 flushdb: 清空…

C++中的exec()函数

exec()函数在C中是一个进程控制函数&#xff0c;用于创建新进程执行其他程序或命令行指令。exec()函数可以替换当前进程的代码和数据&#xff0c;创建新的进程运行其他程序。exec()函数有多个版本&#xff0c;例如execl、execv、execle、execve等&#xff0c;根据不同的参数类型…

SAP 区分工单BOM物料是手工删除 还是 Teco后自动关闭需求

SAP 区分工单BOM物料是手工删除 还是 Teco后自动关闭需求 首先 resb表删除标识XLOEK 都为 ‘X’&#xff0c;无法通过其它字段直接区分 1先从前台界面区分 手工删除的&#xff0c;组件界面颜色正常&#xff0c;状态为-REL 删除 Teco自动关闭需求的&#xff0c;颜色不一样&am…

python中调用java函数

python中调用java函数 1. 将java项目打包成jar&#xff08;IDEA&#xff09;2. 在python中调用jar 1. 将java项目打包成jar&#xff08;IDEA&#xff09; 【CtrlShiftAltS】或者“File --> Project Structure --> Project Settings” 选择Artifacts选项卡&#xff0c;点…

[Android Studio]1.2计数器

所有要改的代码如下&#xff1a; MainActivity代码&#xff1a; package com.example.code02;import androidx.appcompat.app.AppCompatActivity; import android.os.Bundle; import android.view.View; import android.widget.Button; import android.widget.TextView; imp…

FPGA第一个程序入门

1、使用正点原子的达芬奇开发板进行第一个FPGA程序设计。 2、启动vivado 2019.2。 3、 新建工程。 File--Project--New&#xff0c;选择RTL Project&#xff08;寄存器传输级&#xff09;。 4、选择器件。 add sources点击next&#xff0c; add constraints点击next&#x…

npm install安装依赖总结

node下载地址&#xff1a;https://nodejs.org/en/download/releases 。可以看到node版本、npm版本、node_module版本 1.npm的全局安装路径 查看默认值&#xff1a; npm get prefix 默认是C:\Users\你的用户名\AppData\Roaming\npm 、 可以通过 npm config prefix 更改全局…

mysql-数据迁移 及报错解决(ERROR 1290 (HY000)

文章目录 1. 物理迁移1. 迁移前&#xff0c;配置mysql的输出目录1. 查看mysql的输出目录2. 修改mysql的输出目录 2. 文件迁移 1. 物理迁移 1. 迁移前&#xff0c;配置mysql的输出目录 1. 查看mysql的输出目录 在安装MySQL的会限制了导入与导出的目录权限。只允许在规定的目录…

量子 能源,节能减排还是另有“端倪”?

光子盒研究院 前言&#xff1a;如今&#xff0c;量子技术早已走出实验室、广泛赋能电力、化学、医学等各个领域&#xff1b;创新赛道上&#xff0c;加速奔跑的量子产业&#xff0c;将带来无限可能。现在&#xff0c;光子盒特开启「量子」专栏&#xff0c;解读量子技术将为下游应…

基于matlab从3D医学图像中对脑肿瘤进行语义分割(附源码)

一、前言 此示例演示如何从 3D 医学图像中对脑肿瘤进行语义分割。 语义分割涉及用类标记 3-D 体积的图像或体素中的每个像素。此示例说明了如何使用 3-D U-Net 深度学习网络在磁共振成像 &#xff08;MRI&#xff09; 扫描中对脑肿瘤进行二进制语义分割。U-Net是一个快速&…