【机器学习】算法术语、决策函数、概率模型、神经网络的详细讲解(图文解释)

news2025/1/19 20:29:02

一、机器学习算法术语

1)数据集(Data Set),训练集(Training Set),验证集(Validation Set)和测试集(Test Set)

 

数据集分为训练数据和测试数据。测试数据集合即为测试集,是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集,训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。

2)实例(instance),属性(Attribute),特征(Feature),特征值(Feature Value)和特征向量(Feature vector)

实例是一个完整的训练或测试数据,如一张图片、一段文本句子、一条音频等。实例有一般多个属性,因此用多维的向量来表示它,并用粗体的小写字母来标记,如x_i,下标i表示实例的序号。

传统机器学习算法一般不直接对实例的属性进行处理,而是对从属性中提炼出来的特征进行处理。实例通常是由多个特征值组成的特征向量来表示。用特征向量来表示实例时,也用x_i表示。用带括号的上标来区分实例的不同特征,如x_i^(j)表示第i个实例的第j维特征。有m个特征的第i个实例可表示为x_i={x_i^(1),x_i^(2),…,x_i^(m)}。

3)标签(Label)和样本(Sample)

在监督学习中,训练数据不仅包括实例,还包括事先标记好的标签。在分类、聚类和标注模型中,标签是离散编号值,在回归模型中,标签是连续值。对训练数据来说,标签是指导训练的结论,对测试集来说,标签是要预测的目标。

在分类、聚类和回归任务中,标签值一般是一维的标量,一般用y_i表示。在标注任务中,标签值是一个序列,可看成是向量,一般用粗体y_i表示。测试集中的数据只包括实例,标签是需要预测的,在分类、聚类和回归任务中用y ̂_i来表示待预测的标签值,在标注任务中用粗体y ̂_i来表示待预测的标签序列。

样本是一份可用来训练的完整数据。在监督学习中,样本由实例及其标签组成,用s_i=(x_i,y_i)或s_i=(x_i,y_i)表示第i个样本,而实例x_i也称为未标记的样本。在无监督学习中,样本没有标签,可直接用实例表示,即:s_i=x_i。

 

二、机器学习模型实现算法分类

设样本集S={s_1,s_2,…,s_m}包含m个样本。

对分类和回归任务来说,每个样本s_i=(x_i,y_i)包括一个实例x_i和一个标签y_i,实例由n维特征向量表示,即x_i=(x_i^(1),x_i^(2),…,x_i^(n))。

对聚类任务来说,样本即实例,不包括标签,s_i=x_i=(x_i^(1),x_i^(2),…,x_i^(n))。

对标注任务来说,样本s_i=(x_i,y_i)包括一个观测序列x_i=(x_i^(1),x_i^(2),…,x_i^(n))和一个标签序列y_i=(y_i^(1),y_i^(2),…,y_i^(n))。

1:决策函数模型

决策函数模型是将实例x=(x^(1),x^(2),…,x^(n))与标签y之间的关系看作一种映射,用函数Y=f(X)来表示,X是定义域,它是所有实例特征向量的集合,Y是值域R。

在分类、聚类和回归任务中,模型从样本集中学习到该映射,并依据该映射对测试样本x给出预测值y,用y=f(x)表示。在分类任务中,标签是预先确定的有限个离散值,因此该映射是从实例特征向量集合到有限个离散的映射。在回归任务中,标签是无限多的连续值,因此该映射是从实例特征向量集合到连续值的映射。在聚类任务中,训练之前标签是不确定的(有的算法事先要指定标签的数量),需要算法在训练过程中分析训练样本的分布情况并建立簇结构,从而建立映射关系,依据映射关系给簇内样本分配标签。

常用的决策函数分类模型有决策树、随机森林、逻辑回归、Softmax回归、支持向量机等模型。

常用的决策函数聚类模型有k均值、DBSCAN、AGNES等模型。

常用的决策函数回归模型有决策树、线性回归、多项式回归、局部回归、支持向量机等模型。

2:概率模型

在概率模型中,将实例x=(x^(1),x^(2),…,x^(n))与标签y看作是两个随机变量的取值,随机变量记为X和Y。

机器学习算法能够有效的前提是假设同类数据(包括训练数据和测试数据等)具有相同的统计规律性。

对监督学习来说,假设输入的随机变量X和输出的随机变量Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布概率函数。模型的训练集和测试集被看作是依联合概率分布P(X,Y)独立同分布产生的。

对无监督学习来说,假设输入的随机变量X服从概率分布P(X),模型的训练集和测试集是依P(X)独立同分布产生。

聚类任务的输入是无标签的样本,算法要自行分析样本数据的分布结构形成由条件概率表述的模型P ̂(Y|X),并对测试样本x给出预测簇标签y ̂。有些聚类算法的标签值个数是超参数,要由用户事先指定。有些聚类算法则可以自行确定标签值个数。常用的概率聚类模型有高斯混合聚类模型。

在分类任务中,用条件概率分布函数P ̂(Y|X)来描述从输入到输出的概率映射关系,在训练时,算法要从训练数据中学习到该分布函数。在预测时,对测试样本x,模型计算所有候选标签y的条件概率P ̂(y|x),取最大值对应的y为测试样本x的预测标签值y ̂。常用的概率分类模型有朴素贝叶斯模型、逻辑回归模型。

在标注任务中,输入的x=(x^(1),x^(2),…,x^(n))表示一个可观测的序列,该序列的元素存在一定的关联关系。像天气温度、股票价格、语音数据等,可以看作向后单向关联关系的序列。而像文字句子,句子中的字一般与上文、下文双向语境都有关。

标注任务的输出是与x对应的标签序列y=(y^(1),y^(2),…,y^(n)),标签取值于标签值空间。标签值空间一般远小于观测值空间。也就是说,标注模型输出的也是一个序列,它与输入序列等长。

在训练时,算法要学习到从序列x到序列y的条件概率P ̂(y^(1),y^(2),…,y^(n)|x^(1),x^(2),…,x^(n))。在预测时,按照该条件概率模型以概率最大的方式对新的输入序列找到相应的输出标签序列。具体来讲,就是对一个输入序列x=(x^(1),x^(2),…,x^(n))找到使条件概率P ̂(y^(1),y^(2),…,y^(n)|x^(1),x^(2),…,x^(n))最大的标记序列y ̂=(y ̂^(1),y ̂^(2),…,y ̂^(n))。

常用的概率标注模型有隐马尔可夫模型、条件随机场模型等。

概率模型又可以分为生成模型(generative model)和判别模型(discriminative model)。

生成模型学习到的是联合概率分布P(X,Y),然后由联合概率分布求出条件概率分布作为预测模型: P(Y|X)=P(X,Y)/P(X)

判别模型直接学习到条件概率分布P(Y|X)作为预测模型。

生成模型是所有特征以及标签的全概率模型,它学习到了全面的信息,可以计算出任意给定条件下的概率值,因此可以用到多方面概率预测问题上。而判别模型针对性强,直接面对问题,模型的适应性有限。

3.神经网络模型 

人工神经网络(Artificial Neural Network,ANN)简称神经网络(NN),是一种模仿脑结构及其功能的信息处理系统。神经网络在机器学习的分类、聚类、回归和标注任务中都有重要作用。

人工神经元(简称神经元)是神经网络的基本组成单元,它是对生物神经元的模拟、抽象和简化。现代神经生物学的研究表明,生物神经元是由细胞体、树突和轴突组成的。通常一个神经元包含一个细胞体和一条轴突,但有一个至多个树突。

受生物神经元对信息处理过程的启迪,人们提出了很多人工神经元模型,其中影响最大的是1943年心理学家McCulloch和数学家W.Pitts提出的M-P模型。

x^(i)表示来自其它神经元的输入信息,i=1,2,…,n。w^(i)表示输入信息对应的连接系数值。∑表示对输入信息进行加权求和。θ是一个阈值,模拟生物神经元的兴奋“限度”。输入信息经过加权求和后,与阈值进行比对,再通过一个映射,得到输出y。

 

f(∙)称为激励函数或转移函数,它一般采用非线性函数。

 

就M-P模型而言,神经元只有兴奋和抑制两种状态,因此,它的激励函数f(∙)定义为单位阶跃函数,输出y只有0和1两种信号。

单位阶跃函数u(∙)不连续,在优化计算时难以处理,常用近似的阈值函数来代替它,例如虚线所示的Sigmoid函数。

 单个神经元的作用有限,只能处理线性问题。但如果将神经元连接成神经网络,并采用非线性的激励函数,则具有强大的处理非线性问题的能力。

理论上,可以通过将神经元的输出连接到另外神经元的输入而形成任意结构的神经网络。但目前应用较多的是层状结构。 层状结构由输入层、隐层和输出层构成,其中可以有多个隐层

从信息处理方向来看,神经网络分为前馈型和反馈型两类。前馈型网络的信息处理方向是从输入层到输出层逐层前向传递。输入层只接收信息,隐层和输出层具有处理信息的能力。相邻层之间的节点是全连接关系,同层节点、跨层节点之间没有连接关系。有些特别设计的前馈神经网络会在个别同层节点之间或者个别跨层节点之间引入连接关系,如深度学习中的残差网络。

反馈型网络中存在信息处理反向传递,即存在从前面层到后面层的反向连接。反向传递会使得信息处理过程变得非常复杂,难以控制。

经过设计的神经网络可以用来完成机器学习的分类、聚类、回归和标注任务。

神经网络的网络结构可以看作是有向图,用S表示。神经网络中,每条连接都有一个连接系数,每个隐层节点和输出层节点都有一个阈值,这些参数(包括连接系数和阈值)用W表示。可以用N(S,W)表示神经网络。

一般来讲,网络结构S是预先设计好的,不存在学习问题。神经网络的参数W是通过训练从训练样本集中学习到的。如果通过学习不能达到预想要求,则可能需要重新设计网络结构S。目前在神经网络方面的研究大多是针对某一具体问题提出一个新的有针对性的网络结构S,还没有一个通用的能解决不同问题的网络结构。

传统神经网络模型中,常用于处理分类和回归问题的有BP神经网络,用于处理聚类问题的有SOM神经网络。

在以神经网络为基础的深度学习为特征提取问题提供了有效的解决方法之后,机器学习才得以异军突起,得到广泛应用。深度学习带来的革命性变化是弥合了从底层具体数据到高层抽象概念之间的鸿沟,使得学习过程可以自动从大量训练数据中学习特征,不再需要过多人工干预,实现了所谓的端到端(end to end)学习。

深度学习的具体算法一般是与某类具体应用紧密相关的,如图像识别问题与卷积神经网络、序列标注问题与循环神经网络等,还没有一个通用的模型或结构。

创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93134.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

100%都会感染,第一波症状最重,后面会轻。家里一定要备这些东西!

这是某医院院长在医院内部会议上关于新冠防治的强调内容,我听了很受教育,觉得非常有必要普及开来,我相信这位院长的专业性。这段会议发言的录音已经在网上流传,由于录音听起来费时且不宜传播,我已将录音转为文字&#…

Kibana入门教程

一、什么是Kibana   Kibana 是一个开源的分析和可视化平台,Kibana 提供搜索、查看和与存储在 Elasticsearch 索引中的数据进行交互的功能。开发者或运维人员可以轻松地执行高级数据分析,并在各种图表、表格和地图中可视化数据 二、安装使用 ①&#xf…

社招前端常考手写面试题总结

手写 Promise const PENDING "pending"; const RESOLVED "resolved"; const REJECTED "rejected";function MyPromise(fn) {// 保存初始化状态var self this;// 初始化状态this.state PENDING;// 用于保存 resolve 或者 rejected 传入的值…

【Python机器学习】使用决策树模型预测消费者未来消费行为实战(附源码和数据集 超详细)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一个预测未来消费行为的示例,即已经采集了过去消费行为的信息,并用来建立一个模型以对未来的消费行为进行预测。该示例简要演示了数据预处理、提取特征、选择模型、训练模型、评估模型、应用等阶段&a…

ModStartCMS v5.4.0 输入过滤增强,导入导出支持

ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用,支持后台一键快速安装,让开发者能快的实现业务功能开发。 系统完全开源,基于 Apache 2.0 开源协议,免费且不限制商业使用。 功能特性 丰富的模块市…

【Java初阶】面向对象三大特性之继承

一、继承 理解继承 Cat继承了Animal类,其中:Animal类称为父类/基类或超类,Cat可以称为Animal的 子类/派生类,继承之后,子类可以复用父类中成员,子类在实现时只需关心自己新增加的成员即可 Java中不支持多继…

DBCO-PEG24-O-amine,DBCO-PEG24-O-NH2,二苯并环辛炔-二十四聚乙二醇-O-氨基

DBCO-PEG24-O-amine中叠氮化物和DBCO基团,DBCO 点击化学可以在水性缓冲液中运行,也可以在有机溶剂取决于底物分子的性质。带有 PEG 臂的试剂会增加化合物的亲水性。DBCO 试剂已应用于生物偶联、标记和化学生物学。 DBCO系列产品包括可用于进一步连接的DB…

机器学习回归模型相关重要知识点总结

回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 一、线性回归的假设是什么 线性:自变量(x)和因变量(y)之间应该存在线性关系&…

PYNQ -z2 与 PC主板网口直连上网 可ping通外网

文章目录1.下载映像文件并烧录到板子2. 将usb和网线连接到电脑上3.将网络改为共享模式4. 使用xshell新建串口通信连接到板子5. 更改板子ip与PC 同一网段6. 通过ip地址访问7. 访问外网1.下载映像文件并烧录到板子 可以参考 烧录镜像 2. 将usb和网线连接到电脑上 3.将网络改为共…

【轻量级开源ROS 的机器人设备(5)】--(1)拟议的框架——µROS节点

前文链接: 【轻量级开源ROS 的机器人设备(4)】--(3)通信实现 【轻量级开源ROS 的机器人设备(4)】--(2)通信实现 【轻量级开源ROS 的机器人设备(4&#xff…

Docker+Jenkins+Gitee+Harbor+WebHooks实现CI/CD!

🎶 文章简介:DockerJenkinsGiteeHarborWebHooks实现CI/CD! 💡 创作目的:DockerJenkinsGiteeHarborWebHooks实现CI/CD! ☀️ 今日天气:天气有些阴沉 📝 每日一言:如果你执…

【设计模式】策略模式

【设计模式】策略模式 文章目录【设计模式】策略模式一:策略模式简介二:策略模式使用场景三:策略模式总结四:策略模式实战一:策略模式简介 在策略模式(Strategy Pattern)中,一个类的…

[附源码]Node.js计算机毕业设计房地产销售系统Express

项目运行 环境配置: Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术: Express框架 Node.js Vue 等等组成,B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境:最好是Nodejs最新版,我…

怎么把图片转换成excel文件?

作为一个办公人员,难免会遇到图片里面有一些内容数据,需要编辑成Excel表格。如果我们按照上面图片表格,创建一个新的文件,这样就非常费时费力,还容易出错。其实小伙伴们如果需要,可以借助软件直接把图片变成…

聚观早报 | 百度 APP 上线疫情指数;辣条第一股卫龙在港上市

今日要闻:百度 APP 上线疫情指数;辣条第一股卫龙在港上市;特斯拉股价大跌引投资者不满;苹果将允许下载第三方商店;京东调集快递小哥驰援北京百度 APP 上线疫情指数 近日,百度 APP 正式上线「疫情指数」&…

CRM客户管理系统源码带手机端+Uniapp小程序源码+调试部署视频

一套Java大型CRM客户关系管理源码带手机端和小程序源码(带调试部署视频) 了解CRM源码更多信息可私信我。 相关技术: 1. 前端:Vue 2. 后端:Spring boot 3. 数据库:MySQL 4.小程序端:UNIAPP …

C++画图之GOC编程 第6课 通天云梯

Goc编程第一课 Goc编程第一课_哔哩哔哩_bilibili Goc编程第一课扩展加复习 Goc编程第一课扩展加复习_哔哩哔哩_bilibili Goc编程第二课 Goc编程第二课_哔哩哔哩_bilibili Goc编程第三课 Goc编程第三课_哔哩哔哩_bilibili Goc编程第四课 Goc编程第四课_哔哩哔哩_bilibili G…

程序员开发10年无法突破架构师?那是因为这个环节没做对

“架构师”对于程序员来讲,一定是大部分程序员所追求以及渴望达到的一个高度。那么,到底需要达到什么要求才能算是架构师呢?下面为大家分享一张Java架构师的岗位职责图,大家可以先看看参考参考。 从图中可以看出,架构师…

机器学习~从入门到精通(一)knn算法数据集处理训练模型

一、机器学习的概念 机器学习的概念: 重点在于学习 ,区别于让机器去执行我们定义好的规则 我们让机器去学习,也就是具备一定的预测能力,需要我们给机器大量的数据,以及给定对于这些数据 机器如何去看待的规则&#x…

小程序框架与生命周期

目录 框架 响应的数据绑定 页面管理 基础组件 丰富的 API 逻辑层 App Service 小程序的生命周期 注册页面 使用 Page 构造器注册页面 在页面中使用 behaviors 使用 Component 构造器构造页面 页面的生命周期 页面路由 页面栈 路由方式 注意事项 模块化 模块化…