人工智能开发实战常用分类算法归纳与解析

news2024/9/21 16:41:27

内容导读

  1. 决策树
  2. 贝叶斯分类器
  3. 最近邻分类器
  4. 支持向量机
  5. 神经网络

一、决策树

决策树(Decision Tree)是用于决策的一棵树,从根节点出发,通过决策节点对样本的不同特征属性进行划分,按照结果进入不同的分支,最终达到某一叶子节点,获得分类结果。

以下是一个简单的垃圾邮件分类决策树。

上边决策树对邮件的标题、内容分词和分词频率分别进行评估,然后进入不同的选择分支,最终完成分类。

可见,决策树的构建过程是按照样本特征的优先级或重要性确定树的层次结构,使其叶子节点尽可能属于同一类别。

决策树常用于基于规则的等级评估、比赛结果预测和风险研判等。

二、贝叶斯分类器

在一些应用中,特征集和类变量之间的关系是不确定的,也就是说,我们很难通过一些先验知识直接预测它的类标号,这种情况产生的原因可能是多方面的,如噪音、主要变量的缺失等。

对于这类求解问题,可以将其视为一个随机过程,使用概率理论来分析。

例如:我们不能直接预测随意一次投币的结果是正面(类1)还是反面(类0),但我们可以计算出它是正面或反面的概率。

贝叶斯(Bayes Classifier)分类器就是对于给定的分类项,利用下式贝叶斯定律,求解该分类项在条件下各类别中出现的概率,哪个概率最大,就将其划分为哪个类别。

上式的解释是:X,Y是一对随机变量,X出现的前提下Y发生的概率P(Y ΙX )等于Y出现的前提下X发生的概率P(Y ΙX )

与Y出现的概率P(Y )的乘积然后再除以X出现的概率P(X )。

仍以垃圾邮件过滤为例,使用贝叶斯方法通过考虑关键词在邮件中出现的概率来辨别垃圾邮件。

假设收到一封由n个关键词组成的邮件E,x=[1,0]分别表示正常邮件和垃圾邮件,那么就可以根据n个关键词出现在以往邮件中的正常邮件概率p(x=1|E)和这n个关键词出现在以往邮件中的垃圾邮件概率p(x=0|E)的大小来判定该邮件是否为垃圾邮件,

如果:p(x=1|E)> p(x=0|E),则为正常邮件,否则为垃圾邮件。

根据贝叶斯定理,

上式中p(x=1)和p(x=0)可以根据邮箱中正常邮件和垃圾邮件的个数计算出来,而p(E)

的计算则是根据贝叶斯分类假设,所有的特征变量(关键词)都是独立作用于决策变量,

因此有:

上式中的p(Ei) 表示所有邮件中关键词Ei的概率,于是就根据贝叶斯分类器解决了此垃圾邮件分类问题。

由于贝叶斯分类器有坚实的数学基础作为支撑,模型参数较少,对缺失数据不敏感,其分类效率稳定,在文本分类、图像识别和网络入侵检测等方面得到广泛应用。

三、最近邻分类器

我们把每个具有n个特征的样本看作n维空间的一个点,对于给定的新样本,先计算该点与其它样本点的距离(相似度),然后将新样本指派为周围k个最近邻的多数类,这种分类器称为最近邻方法(k-Nearest Neighbor,KNN)。

该分类器的合理性可以用人们的常规认知来说明:判别一个人是好人还是坏人,可以从跟他走得最近的k个人来判断,如果k个人多数是好人,那么可以指派他为好人,否则他是坏人。

在下图中,求待分类样本x的类别。

由图可知,如果取k=3个最近邻,则x被指派为正方形类;如果取k=5个最近邻,则x被指派为三角形类。

由此可见,k的取值大小对分类结果是有影响的,另外,当样本数据较大时,计算相似度所消耗的时间和空间较高,导致分类效率低。

还有,从上图可以看出,采用多数表决方法来判别x的类别,是没有考虑与x不同距离的近邻对其影响的程度,显然,一个远离x的近邻对x的影响是要弱于离它近的近邻的。

尽管k近邻分类器有诸如上述缺点,但该分类技术是基于具体的训练实例进行预测,不必为训练集建立模型,还可以生成任何形状的决策边界,从而能提供灵活的模型表示,在数字和像识别等方面得到较好的应用。

四、支持向量机

支持向量机(Support Vector Machine,SVM)的基本思想是通过非线性映射α,把样本空间映射到一个高维的特征空间,将原本空间线性不可分的问题,转化成在高维空间通过一个线性超平面将样本完全划分开。

例如,在下图中,左边二维空间的样本点,无法线性划分,但通过映射到三维空间,却可以用一个平面将这些样本完全分开。

SVM是一种有坚实统计学理论支撑的机器学习方法,其最终的决策函数只由位于超平面附件的几个支持向量决定,该方法不仅算法简单,而且具有较好的鲁棒性,特别适合解决样本数据较少、先验干预少的非线性分类、回归等问题。

五、神经网络

神经网络(Neural Network)分类器由输入层、隐藏层和输出层构成,是通过模仿人脑神经系统的组织结构及其某些活动机理,来呈现人脑的许多特征。其基本结构如下图所示。

上图中每个节点代表一个神经元,节点之间的连线对应权重值w,输入变量x经过神经元时被激活函数φ赋予权重并加上偏置,将运算结果传递到下层网络的神经元,在输出层中,神经元对各个输入进行线性加权求和,并经符号函数sgn处理,最后给出输出值y

若该神经网络用于分类,在检验阶段,如果yi=max(y1,...,yp),则该预测样本为第i类的可能性最大,即判定该样本属于第i类。

更多内容请持续关注本站!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145275.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于yolov8的肉鸡健康状态检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的肉鸡健康状态检测系统是一个先进的目标检测应用,旨在通过图像分析实现对肉鸡健康状态的快速、准确评估。该系统利用了YOLOv8模型的尖端技术,该模型由Ultralytics公司开发,具有卓越的检测精度和速度。 YOLOv8模型采…

新书出版,大陆首本NestJS图书《NestJS全栈开发解析:快速上手与实践》

新书全栈实战项目:数字门店管理平台开源啦🎉🎉🎉 GitHub地址(持续更新NestJS企业级实践):欢迎star⭐️⭐️⭐️ 前端ReactTypeScriptVite 后端NestMySQLRedisDocker 前言 对,你没看…

教程 | ArcGIS Pro如何自动保存数据编辑内容

目录 1、工程自动保存 2、数据编辑自动保存 世界上最痛苦的事情就是: 软件崩溃,我没保存!!! 电脑死机,我没保存!!! 突然断电,我没保存!&…

星云股份战略运营副总裁袁智勇︱如何培养“能打胜仗”的项目经理

全国项目经理专业人士年度盛会 福建星云电子股份有限公司总裁办战略运营副总裁袁智勇先生受邀为PMO评论主办的全国项目经理专业人士年度盛会——2024第四届中国项目经理大会演讲嘉宾,演讲议题为“如何培养“能打胜仗”的项目经理”。大会将于10月26-27日在北京举办&…

MUNIK谈ASPICE系列专题分享(十)ASPICE配置管理如何做

前言: ASPICE(Automotive Software Process Improvement and Capability dEtermination)是一种用于评估汽车行业软件开发过程成熟度的模型。配置管理是ASPICE中的一个关键过程领域(KPA),它涉及到对软件项目…

C++list的使用:尾插、头插、insert、erase、reverse、sort等的介绍

文章目录 前言一、尾插、头插、insert、erase二、reverse、sort总结 前言 Clist的使用&#xff1a;尾插、头插、insert、erase、reverse、sort等的介绍 一、尾插、头插、insert、erase #include <iostream> #include <list>using namespace std;void test_list1(…

下拉框QComboBox

文本 // 获取和设置当前条目的索引 int currentIndex() const void setCurrentIndex(int index)// 获取和设置当前条目的文本 QString currentText() const void setCurrentText(const QString &text)// 获取和设置指定索引条目的文本 QString itemText(int index) co…

老友记台词 第二季 第一集 Friends 201(全英版)

文章目录 201 The One With Ross New Girlfriend[Scene: Central Perk, Phoebe is recapping last season, and as she talks we see a montague of scenes from Ross and Rachel.][Scene: The Airport, continued from last season, Rachel is waiting for Ross to come of th…

【PLW004】基于Python网络爬虫与推荐算法的新闻推荐平台v1.0(Python+Django+NLP+Vue+MySQL前后端分离)

基于Python网络爬虫与推荐算法的新闻推荐平台。 网络爬虫&#xff1a;通过Python实现新浪新闻的爬取&#xff0c;可爬取新闻页面上的标题、文本、图片、视频链接&#xff08;保留排版&#xff09; 推荐算法&#xff1a;权重衰减标签推荐区域推荐热点推荐融合推荐算法。 文章目录…

计算机毕业设计 二手图书交易系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

k8s的一些命令

kubectl get nodes &#xff1a;查看节点的状态 查看Pod的状态&#xff1a; kubectl get pod --all -namespacesPending,ContainerCreating,ImagePullBackOff都表明Pod没有就绪&#xff0c;Running才是就绪状态 查看Pod的具体情况&#xff1a; kubectl describe pod podnamek…

# 利刃出鞘_Tomcat 核心原理解析(十一)-- Tomcat 附加功能 WebSocket -- 3

利刃出鞘_Tomcat 核心原理解析&#xff08;十一&#xff09;-- Tomcat 附加功能 WebSocket – 3 一、Tomcat专题 - WebSocket - 案例 - OnMessage分析 1、WebSocket DEMO 案例 实现流程分析&#xff1a;OnMessage 分析 2、在项目 dzs168_chat_room 中&#xff0c;在 websocke…

软件开发详解:同城O2O系统源码的架构设计与外卖跑腿APP的开发要点

随着互联网技术的发展&#xff0c;O2O&#xff08;OnlinetoOffline&#xff09;模式迅速成为了各类服务行业的核心运营模式。同城O2O系统不仅整合了线上和线下的资源&#xff0c;还可以通过智能调度和大数据分析提升用户体验和运营效率。接下来&#xff0c;我将详细探讨同城O2O…

iOS平台RTSP|RTMP直播播放器技术接入说明

技术背景 大牛直播SDK自2015年发布RTSP、RTMP直播播放模块&#xff0c;迭代从未停止&#xff0c;SmartPlayer功能强大、性能强劲、高稳定、超低延迟、超低资源占用。无需赘述&#xff0c;全自研内核&#xff0c;行业内一致认可的跨平台RTSP、RTMP直播播放器。本文以iOS平台为例…

渗透测试综合靶场 DC-1 通关详解

Vulnhub是一个提供各种漏洞环境的靶场平台&#xff0c;非常适合安全爱好者和渗透测试初学者进行学习和实践。在这个平台上&#xff0c;你可以下载多种虚拟机&#xff0c;这些虚拟机预装了各种漏洞&#xff0c;让你可以在本地环境中进行渗透测试、提权、漏洞利用和代码审计等操作…

9.18日常记录

一.信号和槽机制 信号和槽:是对象之间通信的一种机制 信号classA不关心有多少槽函数与之绑定&#xff0c;它只管触发信号&#xff0c;具体要触发哪些槽函数&#xff0c;是由Qt的信号和槽机制来实现的。这样的话就充分的体现了面向对象的解耦原则了&#xff0c;因为对于classA来…

上线跨境电商商城的步骤

上线一个跨境电商商城涉及多个步骤&#xff0c;从前期准备到上线后的维护。以下是一些关键步骤&#xff1a; 1. 市场调研与规划 目标市场分析&#xff1a;研究目标市场的需求、竞争对手和消费者行为。法律法规&#xff1a;了解并遵守目标市场的法律法规&#xff0c;包括税收、…

生产环境必备:Docker 搭建 Nexus 全流程与批量上传 Jar 包实战

目录 1.创建docker-compose文件 2.域名代理无域名需求可跳过 2.1创建nginx的compose &#xff08;映射端口更具实例进行改进&#xff09; 2.2创建nginx.conf 3.访问nexus 4.创建储存库以及批量上传jar包 4.1批量上传jar包 4.2创建两个sh脚本 4.3执行脚本 4.4成功验证 …

bug的处理流程是什么?一文教你快速学会bug的处理流程

一、Bug的属性 1、Bug重现环境 这个应该是我们重现bug的一个前提&#xff0c;如果没有这个前提&#xff0c;我们可能会无法重现问题&#xff0c;或者跟本就无从下手。 2、操作系统 这个是一般软件运行的一大前提&#xff0c;基本上所有的软件都依赖于操作系统之上的&#x…

中、美、德、日制造业理念差异

合格的产品依赖稳定可靠的人机料法环&#xff0c;要求减少变量因素&#xff0c;增加稳定因素&#xff0c;避免“熵”增&#xff1b;五个因素中任何一个不可控&#xff0c;批次产品的一致性绝对差&#xff1b; 日本汽车企业&#xff0c;侧重“人”和“环”&#xff0c; 倚重是人…