数据挖掘(5.1)--贝叶斯分类

news2024/11/25 12:59:25

目录

前言

正文

1.主观概率

2.贝叶斯定理

1.基础知识

2.贝叶斯决策准则

3.极大后验假设

4.例题

2.朴素贝叶斯分类模型

朴素贝叶斯分类器的算法描述:

朴素贝叶斯算法特点

3.贝叶斯信念网

贝叶斯网络的建模包括两个步骤 

贝叶斯信念网特点


5f47eb409cca4ac9b7f50d3013086fcf.png
开往夏天的列车

前言

贝叶斯分类方法是统计学的分类方法,它利用概率统计知识预测给定元组属于特定类的概率。贝叶斯分类基于贝叶斯定理。最简单的贝叶斯分类算法称为朴素贝叶斯分类法。.

正文

1.主观概率

贝叶斯方法是一种研究不确定性的推理方法,不确定性常用贝叶斯概率表示,它是一种主观概率,是个人主观的估计,随个人的主观认识的变化而变化

对它的估计取决于先验知识的正确和后验知识的丰富和准确,因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化,基于后验知识的一种判断,取决于对各种信息的掌握

2.贝叶斯定理

1.基础知识

已知事件A发生的条件下,事件B发生的概率,叫做事件B在事件A发生下的条件概率,记为 P(B|A) ,其中 P(A) 叫做先验概率,  P(B|A) 叫做后验概率,计算条件概率的公式为:

925dd72c46e34f188d8e3817147faf43.png

后然=似然*先验 /证据因子

条件概率公式通过变形得到乘法公式:

b602e52422a149a38e3b76ffaf803854.png

设A,B为两个随机事件,如果有 P(AB) = P(A)P(B)成立,则称事件A和B相互独立。此时有  P(A|B) = P(A) 成立。 

疾病诊断示例

两个诊断(检查)结论:患者有癌症(+);或者无癌症(-)

先验知识:所有人口中,患病率0.8%

有病患者确诊准确率98%,无病患者确诊准确率97%

P(cancer) = 0.008  P(!cancer) = 0.992

P(+|cancer) = 0.98  P(-|cancer) = 0.02

P(+|!cancer) = 0.03  P(-|!cancer) = 0.97

 设 B1, B2,…, Bn 为互不相容事件,P(Bi)>0, i=1, 2,…, n,且 eq?%5Cbigcup_%7Bi%3D1%7D%5E%7Bn%7DBi%3D%5COmega ,对任意的事件eq?A%5Csubset%20%5Cbigcup_%7Bi%3D1%7D%5E%7Bn%7DBi,计算事件A概率的公式为:

a783f6210419497f861b86e67ec1a867.png

P(A) >0,则在事件A发生的条件下,事件Bi发生的概率为:                             

223fe3d7216e4eacbf77950c6b67ced8.png ,称该公式为贝叶斯公式

2.贝叶斯决策准则

如果对于任意 ij,都有P(Ci|X) > P(Cj|X) 成立,则样本模式 X 被判定为类别 Ci

3.极大后验假设

根据贝叶斯公式可得到一种计算后验概率的方法:在一定假设的条件下,根据先验概率和统计样本数据得到的概率,可以得到后验概率。

P(c)是假设c的先验概率,它表示c是正确假设的概率,P(X) 表示的是训练样本X的先验概率,P(X|c) 表示在假设c正确的条件下样本X发生或出现的概率,根据贝叶斯公式可以得到后验概率的计算公式:

eb0259ac97a84d8ea671dd02ffb7473f.png

p设C为类别集合也就是待选假设集合,在给定未知类别标号样本X时,通过计算找到可能性最大的假设cC,具有最大可能性的假设或类别被称为极大后验假设(maximum a posteriori),记作 :

186c6575516347c9a14d62b6ce968fd8.png

4.例题

8a91f9e59d34405e8252034af6638232.png

假设当天的天气情况:X = { Sunny, Hot, High, Weak },判断今天是否可以打网球?

①统计个数

0c818713dc224f59ae94d62060fcd417.png

 ②计算先验概率

6359ac6a67674402b26c7eb6c1c9adae.png

 ③计算后验概率(由于我们是判断当日是否出去打球,所以下面计算时,只计算上面一部分)

71dcfe74d0244f1fbd7998cf3fddd4ec.png

P(Yes | X) = P(Yes)*P(Sunny|Yes)*P(Hot|Yes)*P(High|Yes)P(Weak|Yes)

= 9/14 * 2/9 * 2/9 * 3/9 * 6/9 ≈ 0.0071

P(No | X) = P(No)*P(Sunny|No)*P(Hot|No)*P(High|No)P(Weak|No)

= 5/14 * 3/5 * 2/5 * 4/5 * 2/5 ≈ 0.0026

2.朴素贝叶斯分类模型

朴素贝叶斯分类模型:算法逻辑简单、运算速度快、分类耗时短、精度高

以属性的类条件独立性假设为前提,即在给定类别状态条件下,属性之间是相互独立的

朴素贝叶斯分类器的算法描述:

  1. 初始化:随机选择一个类别作为“先验概率”,通常设为0.5。这意味着在训练过程中,我们始终将样本分为两个类别:正例(或支持例,positive example)和负例(或拒绝例,negative example)。
  2. 计算后验概率:对于每个样本,我们需要计算其属于各个类别的后验概率。对于给定的样本,我们可以使用贝叶斯公式来计算其属于各个类别的后验概率:P(C|X) = (P(X|C) * P(C)) / P(X);其中,P(C|X) 是样本 X 在类别 C 下的后验概率,P(X|C) 是类别 C 下样本为正例的似然度,P(C) 是类别 C 的先验概率,P(X) 是样本 X 的边际概率。
  3. 选择最优类别:根据所有样本的后验概率,选择具有最高概率的类别作为最终预测结果。

需要注意的是,朴素贝叶斯分类器假设特征之间相互独立。在实际应用中,这种假设可能并不总是成立,因此需要对模型进行调整以适应特定的数据分布。此外,朴素贝叶斯分类器在处理缺失值和噪声数据时可能表现不佳。

66d98f970c1c4194b37d5a77396494a0.png

朴素贝叶斯分类器的结构示意图

朴素贝叶斯算法特点

优点

逻辑简单、易实现、分类过程中时间空间开销比较小;

算法比较稳定、具有比较好的健壮性

缺点

有属性间类条件独立的这个假定,而很多实际问题中这个独立性假设并不成立,导致分类效果下降。

3.贝叶斯信念网

贝叶斯信念网络,简称贝叶斯网络,用图形表示一组随机变量之间的概率关系

贝叶斯网络有两个主要成分:

  • 一个有向无环图,表示变量之间的依赖关系
  • 一个条件概率表,把各结点和它的直接父结点关联起来 

在贝叶斯信念网中,每个结点还关联一个概率表。如果结点X没有父母结点,则表中只包含先验概率P(X),如果结点X只有一个父母结点Y,则表中包含条件概率P(X|Y),如果结点X有多个父母结点 {Y1, Y2,…, Yk} ,则表中包含条件概率  P(X|Y1, Y2,…, Yk)                                   

贝叶斯网络的建模包括两个步骤 

  • 创建网络结构
  • 预估每一个结点在概率表中的概率值

贝叶斯信念网特点

  • BBN提供了一种用图形模型来捕获特定领域的先验知识的方法;
  • 网络结构确定,添加新变量就十分容易;
  • 贝叶斯网络很适合处理不完整的数据;
  • 对模型的过分拟合问题是非常鲁棒的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/578841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++第七章:类

类 一、定义抽象数据类型1.1 定义抽象数据类型类的用户 1.2 定义一个书籍类引入this引入const成员函数类作用域和成员函数在类的外部定义成员函数定义一个返回this对象的函数 1.3 定义类相关的非成员函数定义read和print函数最终代码 1.4 构造函数合成的默认构造函数某些类不能…

真相只有一个——真正排名

这里写目录标题 1.题目描述2.解题思路3.代码展 所属专栏:脑筋急转弯❤️ 🚀 >博主首页:初阳785❤️ 🚀 >代码托管:chuyang785❤️ 🚀 >感谢大家的支持,您的点赞和关注是对我最大的支持…

【论文阅读】Group Emotion Detection Based on Social Robot Perception

【论文阅读】Group Emotion Detection Based on Social Robot Perception 摘要1.介绍2.相关工作3.方法4.数据集生成5.模拟与结果6.讨论 摘要 本篇博客参考MDPI sensors 2022收录的论文Group Emotion Detection Based on Social Robot Perception,对其主要内容进行总…

第三期:那些年,我们一起经历过的链表中的浪漫

PS:每道题解题方法不唯一,欢迎讨论!每道题后都有解析帮助你分析做题,答案在最下面,关注博主每天持续更新。 1. 两个链表的第一个公共节点 “我走过我的世界,再从你的世界走一遍” “你走过你的世界&#x…

1688商品ID采集一件代发详情页面数据

本篇博文介绍了对1688商品详情API的二次封装,将URL参数封装成Python函数,直接传入参数即可获取搜索结果,例如1688商品标题、价格、一件代发、sku属性和URL等。提供了详细的代码示例和接口调用Demo。 1688.item_get-获得1688商品详情数据 1.请…

C语言中的类型转换

C语言中的类型转换 隐式类型转换 整型提升 概念: C语言的整型算术运算总是至少以缺省(默认)整型类型的精度来进行的为了获得这个精度,表达式中字符和短整型操作数在使用之前被转换为普通整型,这种转换成为整型提升 如…

MySQL | JDBC连接数据库详细教程【全程干货】

文章目录 一、什么是JDBC?二、JDBC工作原理三、使用JDBC连接MySQL数据库【✔】1、安装对应数据驱动包2、将jar包导入项目中3、编写代码连接数据库【⭐】1️⃣ 创建数据源2️⃣ 和数据库建立网络连接3️⃣ 构造SQL语句4️⃣ 执行SQL语句5️⃣ 断开连接,释…

【AI提示】ChatGPT提示工程课程(吴恩达OpenAI)推理文本(中文chatgpt版)

设置 Setup产品评论文本情感(正面/负面)Sentiment (positive/negative)识别情绪类型从客户评论中提取产品和公司名称一次完成多项任务Inferring topics 推断主题为某些主题制作新闻提醒 Inferring 推理 在本课中,您将从产品评论和新闻文章中推…

计算机专业主要学习什么

2020计算机专业主要学习什么 1计算机专业都学习哪些方面的知识 1、可视化编程 掌握编程方法和可视化技术,熟悉一个可视化平台及其软件开发技术。能够获取Delphi编程人员系列,Java Basic或VB开发专家认证。 就业方向:企业,政府&…

Elasticsearch:验证 Elasticsearch Docker 镜像并安装 Elasticsearch

Elasticsearch 可以作为 Docker 镜像使用。 www.docker.elastic.co 上提供了所有已发布的 Docker 图像和标签的列表。 源文件在 Github 中。此软件包包含免费和订阅功能。 开始 30 天试用以试用所有功能。 从 Elasticsearch 8.0 开始,默认启用安全性。 启用安全性后…

为什么很多企业把35岁视为分水岭

(点击即可收听) 为什么很多企业把35岁视为分水岭 有时候,别人的故事,若干年后,就是自己的故事,只要身在互联网这个行业里,可以说,每个人都避免不了35岁危机 不要五十步笑百步 前阵子,朋友圈一位行业知名大佬,35岁,每天兢兢业业,任劳任怨,本以为安稳渡过3个月试用期,正快要转正时…

AutoEncoder GAN

AE Auto-Encoder (AE) 是20世纪80年代晚期提出的,它是一种无监督学习算法,使用了反向传播算法,让目标值等于输入值。 是神经网络的一种,经过训练后能尝试将输入复制到输出。三层网络结构:输入- 隐层- 输出自编码网络…

一道经典的网红面试题:从URL输入到页面展现到底发生了什么?

目录 🏮 前言 一、URL 到底是啥 二、域名解析(DNS) 三、TCP 三次握手 四、发送 HTTP 请求 五、服务器处理请求并返回 HTTP 报文 六、浏览器解析渲染页面 1.根据 HTML 解析 DOM 树 2.根据 CSS 解析生成 CSS 规则树 3.结合 DOM 树和…

MySQL高级篇复盘笔记(一)【存储引擎、索引、SQL优化、视图、触发器、MySQL管理】

❤ 作者主页:欢迎来到我的技术博客😎 ❀ 个人介绍:大家好,本人热衷于Java后端开发,欢迎来交流学习哦!( ̄▽ ̄)~* 🍊 如果文章对您有帮助,记得关注、点赞、收藏、…

解决“Adobe Premiere安装后无法启动“问题

昨天在Win10 专业版上安装Adobe Premiere2019(后面简称 Adobe Pr2019)时,发现Pr2019安装之后无法启动,有时,桌面上有时会产生空白的Premiere图标。换了好几个Adobe Premirere安装包,都是如此。正在苦思冥想中,突然灵机…

YOLOv5独家原创改进,ShuffleNetV2网络结构,改进ShuffleNetV2准确率低问题

目录 一、介绍1、轻量化目标检测的瓶颈2、YOLOv5和ShuffleNetV2的概述 二、ShuffleNetV2的架构1、ShuffleNetV2的基本单元——ShuffleNet Unit2、ShuffleNetV2的网络结构 三、ShuffleNetV2的特点1、高效的通道重排操作2、逐通道矩阵乘法3、轻量级和高精度的平衡 四、YOLOv51、Y…

【2023 AI 写作工具大盘点】国内外 45 款免费 AI 写作神器汇总,轻松成为创作高手!

0. 未来百科 未来百科(https://nav.6aiq.com),是一个知名的AI产品导航网站 —— 为发现全球优质AI工具而生 。目前已 聚集全球3000优质AI工具产品 ,旨在帮助用户发现全球最好的AI工具,同时为研发AI垂直应用的创业公司提供展示窗口&#xff0c…

蓝海项目拼多多海外版Temu让外国人也体验砍一刀,普通人的机会

拼多多海外版Temu是一款专为全球华人打造的购物平台,它的出现为海外华人提供了更加便捷、实惠的购物体验。Temu的诞生,不仅是拼多多在海外市场的一次尝试,更是对全球华人消费需求的一次深入了解和满足。 一、Temu的背景 拼多多是中国最大的社交电商平台之一,它的出现改…

SaaS CRM系统的优势,与本地部署相比哪个更方便?

CRM系统主要有两种部署方式,分别是云部署和本地部署。那么,本地部署CRM软件真的比SaaS CRM好吗?本文将为您分析两种部署方式的区别,来为您答疑解惑。 云部署CRM的含义: 云部署CRM系统是指将CRM系统部署在云端&#x…

vue字符串拼接的多种方法

在 vue项目中,我们可以使用多个不同的方法来拼接字符串。今天我们就来介绍一下 vue中各种方法的用法。 第一种方法:使用 lodash进行字符串拼接,这是最简单的一个方法,它最大的缺点就是它比较慢,需要时间去执行拼接&…