机器学习 —— 自用整理期末复习笔记

news2024/11/19 19:36:34

一、绪论

机器学习术语

假设空间 p5

        监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。

        

        【机器学习】假设空间与版本空间-CSDN博客


二、模型评估与选择

1、经验误差与过拟合

         

        

2、评估方法

2.1、留出法

        

        

2.2、交叉验证法

                        

        

                        

2.3、自助法

        

        

2.4、验证集

        训练集(Training Set):用于训练模型。

        验证集(Validation Set):用于调整和选择模型。

        测试集(Test Set):用于评估最终的模型。

        

        

3、性能度量

 3.1、错误率与精度

3.2、查准率与查全率(准确率与召回率)

        

以检测核酸为例:

        

        评价指标:

        

        F1 Score

        

        

3.3、ROC曲线

3.4、方差与偏差

         

         

        

        

        偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。

        方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。

        偏差度量了学习算法期望预测与真实结果的偏离程度;即刻画了学习算法本身的拟合能力;

        方差度量了同样大小训练集的变动所导致的学习性能的变化;即刻画了数据扰动所造成的影响;

        噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界;即刻画了学习问题本身的难度。

        泛化误差=方差➕偏差➕噪声


 

 三、线性模型

1、线性回归模型

                线性回归、多项式回归多用于预测,逻辑回归多用于分类。

        https://katya.blog.csdn.net/article/details/135046372?ydreferer=aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NzE4NzE0Ny9jYXRlZ29yeV8xMjQ4NDI5Ni5odG1sP3NwbT0xMDAxLjIwMTQuMzAwMS41NDgy

         

        KNN算法:大老粗

                非参数模型,计算量大,好在数据无假设

        线性算法:头脑敏锐

                可解释性好,建模迅速,线性分布的假设

 

2、线性判别分析 LDA

        

        

         类内散度矩阵Sw 类间散度矩阵Sb。

3、多分类学习

         

         OVO(One vs One )Cn2个分类器

         OVR (One vs Rest ) n个分类器

        

        

        

         纠错输出码 距离最小。

 

4、类别不均衡问题

         类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。

        

         策略 —— 再缩放(再平衡)。

        再缩放的思想虽简单,但实际操作却并不平凡,主要因为“训练集是真实样本总体的无偏采样”这个假设往往并不成立,也就是说,我们未必能有效地基于训练集观测几率来推断出真实几率。

        现有技术大体上有三类做法:

        第一类是直接对训练集里的反类样例进行“欠采样”(undersampling),即去除一些反例使得正、反例数目接近,然后再进行学习;

        第二类是对训练集里的正类样例进行“过采样”(oversampling),即增加一些正例使得正、反例数目接近,然后再进行学习;

        第三类则是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将式(3.48)嵌入到其决策过程中,称为“阈值移动”(threshold-moving)。

        欠采样法的时间开销通常远小于过采样法;因为前者丢弃了很多反例,使得分类器训练集远小于初始训练集,而过采样法增加了很多正例,其训练集大于初始训练集。

        需注意的是,过采样法不能简单地对初始正例样本进行重复采样,否则会招致严重的过拟合;另一方面,欠采样法若随机丢弃反例,可能丢失一些重要信息;

 


 

四、决策树

 

1、决策树学习模型

         

  • 特征选择、节点分类、阈值确定
?决策树算法流程

2、信息增益、增益率计算

        信息熵:

         熵本身代表不确定性,是不确定性的一种度量。熵越大,不确定性越高,信息量越高。

        

        为什么用log?—— 两种解释,可能性的增长呈指数型;log可以将乘法变为加减法。

        信息增益(互信息):代表了一个特征能够为一个系统带来多少信息。

        

        ID3决策树学习算法 —— 以信息增益为准则划分属性。

        增益率

        

        基尼指数

        

        

        基尼系数运算稍快;

        物理意义略有不同,信息熵表示的是随机变量的不确定度;

                基尼系数表示在样本集合中一个随机选中的样本被分错的概率,也就是纯度

                基尼系数越小,纯度越高。

        模型效果上差异不大。
 

 

4、剪枝 —— 对付过拟合

 

为什么要剪枝?

                复杂度过高。

                        预测复杂度:O(logm)

                        训练复杂度:O(n x m x logm)

                        logm为数的深度,n为数据的维度。

                容易过拟合。
 

         预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升则停止划分,并将当前结点标记为叶结点;

        后剪枝是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。

         

         

        

 

5、连续与缺失值

         二分法,对连续属性进行处理。

6、多变量决策树

        非叶节点不再是仅对某个属性,而是对属性的线性组合进行测试。


 

五、神经网络

 

1、感知机

 

         MP神经元

                 

         激活函数

                

        单层感知机

                

               

                

                

                 

                  wTx+b=0对应于特征空间一个超平面s,将空间分成两个部分,也称分离超平面。

                  单层感知机的学习能力非常有限, 只能解决线性可分问题。

                  

         多层感知机

                 

               多层前馈神经网络:只与下一层连接;同层或跨层不连接;

               前馈:正向

2、BP算法 / 误差逆传播算法

 

3、输出层节点 计算网络参数

4、训练法则

5、网络收敛性

 


 

六、SVM支持向量机

 

1、支持向量机概念 / 目标

        支持向量 support vector —— 距离决策边界最近的点,每个类别的极端数据点

        超平面 hyperplane —— “隔离带”中间的平分线

        间隔 margin —— 最大化margin

         

        优化目标:—— 最大化间隔margin 也就是 最大化距离 d,也就是点到超平面的垂直距离。

                注意此处的距离和线性模型中的距离不同,线性模型中的距离是 yhat-y (斜边)

        软间隔

         

         

        那么怎么保证 这个减去的值不能太大呢?

        

        也就是说尽量让所有数据容错值的和最小。让二者取一个平衡。

        C 就是一个新的超参数,用来调节两者的权重值。

        再看一下这个求和的形式,是不是特别像正则化?其实就可以看成正则化。

        正则化项是一次的,所以叫L1正则。这里省略了绝对值符号,因为其就是正数。

2、核函数原理及作用 —— 降低计算复杂度

        将样本从原始空间映射到一个更高维的特征空间。

        空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。

        

        

        核函数:是映射关系的内积。

        映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。

        要注意,核函数和映射没有关系。核函数只是用来计算映射到高维空间之后的内积的一种简便方法!

        

        

           线性组合、直积仍是核函数。

        

 

3、支持向量机的应用

 


 

七、贝叶斯分类器

 

        监督式模型分为判别式模型和生成式模型。 

        

        判别模型和生成模型的区别:

                判别式模型:输入一个特征X可以直接得到一个y。

                生成式模型:上来先学习一个联合概率分布 p(x,y),

                                        再用他根据贝叶斯法则求条件概率密度分布。

                                        —— 没有决策边界的存在

        判别式数据对于数据分布特别复杂的情况,比如文本图像视频;

        而生成式模型对于数据有部分特征缺失的情况下效果更好,

        而且更容易添加数据的先验知识 p(x)
        

1、贝叶斯决策论

         

        

        则

        建立了四个概率分布之间的关系,已知变量 X 和 未知变量(模型参数)w 之间的计算关系。

        假定 X 表示数据,W 表示模型的参数。

        Likelihood翻译成可能性或者是似然函数,最大似然估计指的就是这个。

        

 

2、极大似然估计

        根据事件 x 的观察结果 c ,推断 θ 为多少时,x 最有可能发生。

        

        

 

3、朴素贝叶斯条件 / 概念

        

        

        p152 例子

         

        能不能直接根据这些经验(上面的数据),来判断一个境外人员有没有得新冠呢?

        即求解:

        

         比较难求的显然就是 Likelihood,所以朴素贝叶斯假设特征之间相互独立。

        

        根据中心极限定理,频率就等于概率,虽然这里数据没有那么多,也一样可以这么算。

        

        

 

4、EM算法 

        期望最大化算法,Expectation Maximization

         目的:使得似然函数最大化

        引入 隐变量(未观测变量)

         先猜一个 z 的分布,就是蓝色的分布,然后用它来逼近。

         

        

        利用Jensen不等式:期望的函数 ≥ 函数的期望,

        函数就是log函数,后面的一坨是期望,把q看成一个分布,分式看成z的函数。

        现在就可以通过不断改变 z,q来搜索L(θ),从而找到他的最大值。

 

        

        

         

 

EM算法步骤

        1、E步骤,先固定q分布不变(θ值不变),使用MLE来最大化z。

                 沿着固定的θ值,向上搜索,碰到红线之后就停止。

                

        2、M步骤,固定z不变,让q最大化寻优。

                 

        重复这个步骤,反复迭代,直到找到最优的θ*。

                

        注意虽然EM的迭代一定会收敛,但是不一定收敛到最优的参数值,可能陷入局部最优,所以结果很受初始值的影响。

 

5、分类器怎么计算

6、估计后验概率策略

 


 

八、集成学习

 

1、集成原理

         集成学习通过构建并结合多个学习器来完成学习任务。

         也被称为 多分类器系统、基于委员会的学习等。

        根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即

        个体学习器间存在强依赖关系、必须串行生成的序列化方法 —— Boosting

        个体学习器间不存在强依赖关系、可同时生成的并行化方法 ——  Bagging和“随机森林”(Random Forest)

 

2、Boosting算法

基本思想

         

         每个子模型在训练过程中更加关注上一个模型中表现不好的样本点,以此来提高模型效果。

 

AdaBoost

3、Bagging与随机森林

 

4、多样性

 

算法步骤

(9)聚类学习:聚类原理、性能度量、距离计算;圆形聚类 kmeans密度聚类dcan层次聚类 连接行层次聚类 ;算法步骤

(10)降维与度量学习:降维思想、k近邻学习、主成分分析

监督学习和无监督学习

各个算法基本思想,课本上的基本概念,以及针对不同机器算法的简单拓展应用

 

01.3 神经网络的基本工作原理 - AI-EDU

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1371226.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx实战 | 高性能HTTP和反向代理神器Nginx前世今生,以及它的“繁花之境”

专栏集锦,大佬们可以收藏以备不时之需: Spring Cloud 专栏:http://t.csdnimg.cn/WDmJ9 Python 专栏:http://t.csdnimg.cn/hMwPR Redis 专栏:http://t.csdnimg.cn/Qq0Xc TensorFlow 专栏:http://t.csdni…

基于ssm的图书管理系统设计与实现论文

摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古…

[足式机器人]Part3 机构运动学与动力学分析与建模 Ch00-3(1) 刚体的位形 Configuration of Rigid Body

本文仅供学习使用,总结很多本现有讲述运动学或动力学书籍后的总结,从矢量的角度进行分析,方法比较传统,但更易理解,并且现有的看似抽象方法,两者本质上并无不同。 2024年底本人学位论文发表后方可摘抄 若有…

计算机网络-各层协议

大家在搞嵌入式开发的时候基本都了解过七层网络协议、五层网络协议、四层网络协议,那么今天让我们更加的深入了解一下: 历史发展介绍 OSI七层模型由ISO国际标准化组织提出的通信标准。TCP/IP四层模型是OSI七层模型的简化版,OSI在它被官方完…

索罗斯:真正好的投资都是无聊的

赚钱,要依靠正常价值的商品出现折扣以及押注意外事件。 我之所以富有,是因为我知道什么时候犯错了。我的“幸存”基本上都是因为我认识到并改正了错误。我们应该明白,人类都会犯错,犯错并不丢人,丢人的是不能改正错误。…

深度学习 Day26——J5DenseNet+SE-Net实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制🚀 文章来源:K同学的学习圈子 文章目录 前言1 我的环境2 pytorch实现DenseNet算法2.1 前期准备2.1.1 引入库2.1.2 设…

常见排序算法及其稳定性分析

前言: 排序算法可以说是每一个程序员在学习数据结构和算法时必须要掌握的知识点,同样也是面试过程中可能会遇到的问题,在早些年甚至还会考冒泡排序。由此可见呢,掌握一些常见的排序算法是一个程序员的基本素养。虽然现在的语言标…

高标准农田建设的实施要点

高标准农田应用大数据、物联网、移动互联等现代信息技术,对基地种植区域的气象环境、土壤墒情、病虫害、农事活动等进行实时监测,实现农田种植智能化、经营网络化、管理高效化、服务便捷化,全面提高农田种植现代化水平。在高标准农田的建设方…

git秘钥过期 ERROR: Your SSH key has expired

文章目录 1、错误提示Your SSH key has expired2、登录Github确认3、重新设置秘钥 1、错误提示Your SSH key has expired 使用git命令时遇到Github 的 SSH Key秘钥过期,提示错误ERROR: Your SSH key has expired 2、登录Github确认 首先登录Github查看&#xff…

CSAPP阅读笔记-信息的表示和处理

信息的表示和处理 包括整数、浮点数的存储格式、计算中可能存在的问题等 信息存储 大多数计算机使用8位的块,或者字节(byte),作为最小的可寻址的内存单位,而不是访问内存中单独的位。机器级程序将内存视为一个非常大的字节数组&#xff0c…

Fedora Linux 中安装 nginx

Fedora 35 中安装 nginx 的方法非常简单。 运行下面的命令: sudo dnf install nginx 在提示你需要确认的地方,输入 y 后回车即可。 开机自动启动 如果你希望在你的操作系统重启的时候自动启动 nginx,请输入下面的命令: syst…

2.2.3机器学习—— 判定梯度下降是否收敛 + α学习率的选择

2.2.3 判定梯度下降是否收敛 α学习率的选择 2.1、 判定梯度下降是否收敛 有两种方法,如下图: 方法一: 如图,随着迭代次数的增加,J(W,b)损失函数不断下降当 iterations 300 之后,下降的就不太明显了 / …

shader技巧

数学函数: abs():绝对值函数。 acos():反余弦函数。 asin():反正弦函数。 atan():反正切函数。 ceil():向上取整函数。 cos():余弦函数。 cross():向量叉积函数。 distance()&#x…

MyBatis:自定义 typeHandler 处理枚举类型

MyBatis 枚举类型typeHandler 枚举类型 枚举类型,在 Java 中属于基本数据类型,而不是构造数据类型,用于声明一组命名的常数。枚举可以根据 Integer 、Long 、Short 或 Byte 中的任意一种数据类型来创建一种新型变量。这种变量可以设置为已经…

【Python程序开发系列】一文总结API的基本概念、功能分类、认证方式、使用方法和开发流程

这是Python程序开发系列原创文章,我的第195篇原创文章。 一、什么是API? API是软件开发中非常重要的概念,它简化了不同组件之间的交互和集成,提供了对其他软件或服务功能的访问和调用方式。 API是应用程序编程接口(Ap…

SSL证书不受信任怎么办? SSL证书不受信任解决方案汇总

随着网络安全问题日益凸显,网站使用SSL证书以实现HTTPS加密及身份的可信认证,防止传输数据的泄露或篡改,已成为互联网人的共识。但SSL证书并不是部署了就能正常使用的,有时浏览器会提示“SSL证书不受信任”,这种时候该…

Java--业务场景:SpringBoot 通过Redis进行IP封禁实现接口防刷

文章目录 前言具体实现步骤1. 定义自定义注解2. 编写拦截器类IpUrlLimitInterceptor3. 在WebConfig类中添加IpUrlLimitInterceptor4. 添加注解到接口上 测试效果参考文章 前言 在实际项目中,有些攻击者会使用自动化工具来频繁刷新接口,造成系统的瞬时吞…

vue配置qiankun及打包上线

项目结构 基座:vue3 子应用A:vue3 子应用B: react 子应用C:vue3vite 项目目录: 配置基座 首先下载qiankun yarn add qiankun # 或者 npm i qiankun -S 所有子应用也要安装,vue-vite项目安装 cnpm ins…

XUbuntu22.04之快速复制绝对路径(二百零五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

Java项目:115SSM宿舍管理系统

博主主页:Java旅途 简介:分享计算机知识、学习路线、系统源码及教程 文末获取源码 一、项目介绍 宿舍管理系统基于SpringSpringMVCMybatis开发,系统主要功能如下: 学生管理班级管理宿舍管理卫生管理维修登记访客管理 二、技术框…