朴素贝叶斯算法的介绍

news2025/1/10 23:56:58

一、朴素贝叶斯算法的介绍

1.什么是朴素贝叶斯算法?

朴素贝叶斯算法(Naive Bayes Algorithm)是一种基于贝叶斯定理和特征独立性假设的概率分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等任务。

朴素贝叶斯算法的基本思想是基于训练数据中的特征和标签之间的概率关系,通过计算后验概率来进行分类预测

2.朴素贝叶斯算法的应用场景

朴素贝叶斯算法在许多应用场景中都有广泛的应用,特别适合以下情况:

  1. 文本分类:朴素贝叶斯算法在文本分类任务中表现出色,例如垃圾邮件过滤、情感分析、新闻分类等。它可以根据文本中出现的词语频率或TF-IDF值进行分类。

    在这里插入图片描述

    在这里插入图片描述

  2. 多类别分类:朴素贝叶斯算法适用于多类别分类问题,可以处理多个离散类别或标签

  3. 实时分类:朴素贝叶斯算法具有快速的训练和预测速度,适合实时分类任务,如实时推荐系统、实时广告点击率预测等。

  4. 高维数据:朴素贝叶斯算法在高维数据集上表现良好,对于特征维度较大的问题,它的计算复杂度较低,能够高效地进行分类。

  5. 弱相关特征:朴素贝叶斯算法的特征独立性假设使得它对于特征之间的相关性较弱的问题表现良好,当特征之间的相关性较弱或可以近似为独立时,朴素贝叶斯算法能够提供较好的分类效果。

  6. 数据稀疏性:朴素贝叶斯算法对于数据的稀疏性具有较好的鲁棒性,在训练数据中存在大量缺失值或零值的情况下仍能有效工作。

3.贝叶斯公式和朴素贝叶斯公式
  • 贝叶斯公式:

    贝叶斯公式(Bayes’ theorem)是概率论中的一个重要公式,用于计算在给定一些观察到的证据的情况下,某个事件的后验概率。贝叶斯公式如下:
    P ( A ∣ B ) = ( P ( B ∣ A ) ∗ P ( A ) ) / P ( B ) P(A|B) = (P(B|A) * P(A)) / P(B) P(AB)=(P(BA)P(A))/P(B)
    其中,P(A|B) 表示在观察到事件 B 发生的情况下,事件 A 发生的概率;P(B|A) 表示在事件 A 发生的情况下,事件 B 发生的概率;P(A) 表示事件 A 发生的先验概率;P(B) 表示事件 B 发生的先验概率。

  • 朴素贝叶斯公式:

    朴素贝叶斯公式是在贝叶斯公式的基础上,引入了"朴素"假设,假设特征之间相互独立。根据朴素贝叶斯公式,可以计算在给定一组特征的条件下,某个类别的后验概率。朴素贝叶斯公式如下:
    P ( y ∣ x 1 , x 2 , . . . , x n ) = ( P ( x 1 ∣ y ) ∗ P ( x 2 ∣ y ) ∗ . . . ∗ P ( x n ∣ y ) ∗ P ( y ) ) / P ( x 1 , x 2 , . . . , x n ) P(y|x1, x2, ..., xn) = (P(x1|y) * P(x2|y) * ... * P(xn|y) * P(y)) / P(x1, x2, ..., xn) P(yx1,x2,...,xn)=(P(x1∣y)P(x2∣y)...P(xny)P(y))/P(x1,x2,...,xn)
    其中,P(y|x1, x2, …, xn) 表示在给定特征 x1, x2, …, xn 的条件下,类别 y 的后验概率;P(x1|y), P(x2|y), …, P(xn|y) 表示在类别 y 的条件下,特征 x1, x2, …, xn 出现的概率;P(y) 表示类别 y 的先验概率;P(x1, x2, …, xn) 表示特征 x1, x2, …, xn 的联合概率。

4.朴素贝叶斯算法的计算步骤
  1. 数据预处理:首先对输入数据进行预处理,包括特征选择、特征缩放、处理缺失值等操作。
  2. 计算类别的先验概率:根据训练数据,计算每个类别出现的先验概率。先验概率可以通过简单地计算每个类别在训练数据中的样本数量与总样本数量的比例得到。
  3. 计算特征的条件概率:对于每个特征,计算在给定类别下的条件概率。这需要计算每个特征在每个类别下的频率或概率。
  4. 应用贝叶斯定理:根据贝叶斯定理,利用先验概率和条件概率计算后验概率,即在给定特征条件下每个类别的概率。
  5. 预测分类结果:对于新的未知样本,根据计算得到的后验概率,选择具有最高概率的类别作为预测结果。

朴素贝叶斯算法中的"朴素"指的是特征之间的独立性假设,即假设每个特征在给定类别下是相互独立的。这个假设简化了计算过程,但在实际应用中可能与实际情况不符。

以上是朴素贝叶斯算法的一般计算步骤,具体实现时可能还会包括平滑处理、处理连续特征、处理离散特征等额外的步骤,以适应具体的问题和数据。

5.朴素贝叶斯算法的优缺点

优点:

  1. 算法简单高效:朴素贝叶斯算法的计算速度较快,适用于处理大规模数据集
  2. 对小规模数据表现良好:即使在小样本情况下,朴素贝叶斯算法仍然能够提供合理的分类结果
  3. 可解释性强:朴素贝叶斯算法基于简单的概率模型,分类过程可解释性强,能够提供关于特征对分类结果的影响程度的信息。
  4. 处理多类别问题:朴素贝叶斯算法能够处理多类别分类问题,且在类别数量较多的情况下也能保持较好的性能
  5. 对缺失数据鲁棒性强:朴素贝叶斯算法对于缺失数据具有较好的鲁棒性,在训练数据中存在缺失值或零值的情况下仍能有效工作。

缺点:

  1. 特征独立性假设限制:朴素贝叶斯算法假设各个特征之间相互独立,但在实际应用中,很多特征之间存在相关性,这种假设可能不符合实际情况,导致分类性能下降。
  2. 对输入数据的分布假设:朴素贝叶斯算法通常假设输入数据符合特定的分布,如高斯分布,如果数据的分布与该假设不符,则可能导致分类结果不准确。
  3. 对数量较大的特征空间表现不佳:当特征空间较大时,朴素贝叶斯算法需要估计大量的参数,可能会导致参数估计不准确,影响分类结果。
  4. 类别之间的类别概率估计不准确:当某个类别在训练集中没有样本出现时,朴素贝叶斯算法会给出概率为零的预测结果,这可能导致误分类。
6.朴素贝叶斯算法和逻辑回归算法的区别

朴素贝叶斯算法和逻辑回归算法是两种常见的分类算法,它们在一些方面有一些区别:

  1. 假设不同:朴素贝叶斯算法基于朴素贝叶斯公式,假设特征之间相互独立,而逻辑回归算法没有明确的假设。逻辑回归通过学习权重参数来建立特征与目标变量之间的关系。
  2. 模型类型:朴素贝叶斯算法是生成模型,它通过学习类别的先验概率和特征的条件概率来建模,从而得到每个类别的后验概率。逻辑回归算法是判别模型,它直接建立特征与目标变量之间的条件概率,通过将输入特征映射到一个概率空间进行分类。
  3. 数据假设:朴素贝叶斯算法假设特征之间相互独立,这在处理文本分类等问题时可能不符合实际情况。逻辑回归算法没有这个假设,可以更灵活地处理特征之间的相关性。
  4. 参数估计:朴素贝叶斯算法通过计算先验概率和条件概率来估计模型参数,可以直接使用最大似然估计或贝叶斯估计等方法。逻辑回归算法通过最大似然估计或梯度下降等方法来估计模型参数。
  5. 处理连续特征:朴素贝叶斯算法可以处理连续特征,常用的方法有高斯朴素贝叶斯、多项式朴素贝叶斯等。逻辑回归算法也可以处理连续特征,但需要进行适当的特征缩放或转换。

总体而言,朴素贝叶斯算法在处理大规模文本分类等问题时具有较好的效果,而逻辑回归算法更适用于建模特征与目标变量之间的直接关系,并且对特征相关性的建模更加灵活

二、朴素贝叶斯的计算案例

1.案例一

在这里插入图片描述

联合概率、条件概率与相互独立

  • 联合概率:包含多个条件,且所有条件同时成立的概率
    • 记作:P(A,B)
  • 条件概率(用贝叶斯公式计算):就是事件A在另外一个事件B已经发生条件下的发生概率
    • 记作:P(A|B)
  • 相互独立:如果P(A,B) = P(A)*P(B),则称事件A与事件B相互独立

先计算几个简单的概率:

  • 女神喜欢的概率:

    P(喜欢)=4/7

  • 职业是程序员并且体型匀称的概率

    P(程序员,匀称) = 1/7

  • 在女神喜欢的条件下,职业是程序员的概率

    P(程序员|喜欢) = 2/4 = 1/2

  • 在女神喜欢的条件下,职业是程序员、体重超重的概率

    P((程序员,超重)|喜欢) = 1/4

下面计算:在小明是产品经理并且体重超重的情况下,如何计算小明被女神喜欢的概率?

  • 贝叶斯公式计算:

    P(喜欢|(产品,超重)) = {P((产品,超重)|喜欢) * P(喜欢)}/P(产品,超重)

    上式中,

    • P((产品,超重)|喜欢) 和P(产品,超重) 都是0,导致无法计算结果。这是因为样本量太少了,不具有代表性。
    • 但在现实中,肯定存在职业是产品经理并且体重超重的人,所以P(产品,超重)不可能为0。
  • 这时候,就需要引入朴素贝叶斯公式来进行计算

    • 朴素贝叶斯,就是假定特征与特征之间相互独立,即职业与体型两个特征相互独立。

    • 则按照朴素贝叶斯公式计算如下:

      则P(产品,超重) = P(产品) * P(超重) = (2/7) * (3/7) = 6/49 
      
      P((产品,超重)|喜欢) = P(产品|喜欢) * P(超重|喜欢) = (1/2) * (1/4) = 1/8
      
      P(喜欢|(产品,超重)) = {P((产品,超重)|喜欢) * P(喜欢)}/P(产品,超重)
      				  = {(1/8) * (4/7)}/(6/49)
      				  = 7/12
      

由上述朴素贝叶斯公式计算可得,在小明是产品经理并且体重超重的情况下,小明被女神喜欢的概率为7/12。

2.案例二(文本分类计算)

通过前四个训练样本,判断第五个样本,属于China类的概率

在这里插入图片描述

  • 计算过程
    P ( Y e s ∣ ( C h i n e s e , C h i n e s e , C h i n e s e , T o k y o , J a p a n ) ) = [ P ( ( C h i n e s e , C h i n e s e , C h i n e s e , T o k y o , J a p a n ) ∣ Y e s ) ∗ P ( Y e s ) ] / P ( C h i n e s e , C h i n e s e , C h i n e s e , T o k y o , J a p a n ) = [ P ( C h i n e s e ∣ Y e s ) 3 ∗ P ( T o k y o ∣ Y e s ) ∗ P ( J a p a n ∣ Y e s ) ] ∗ P ( Y e s ) / [ P ( C h i n e s e ) 3 ∗ P ( T o k y o ) ∗ P ( J a p a n ) ] P(Yes|(Chinese,Chinese,Chinese,Tokyo,Japan)) = [P((Chinese,Chinese,Chinese,Tokyo,Japan)|Yes) * P(Yes)]/P(Chinese,Chinese,Chinese,Tokyo,Japan) = [P(Chinese|Yes)^3*P(Tokyo|Yes)*P(Japan|Yes)]*P(Yes)/[P(Chinese)^3*P(Tokyo)*P(Japan)] P(Yes(Chinese,Chinese,Chinese,Tokyo,Japan))=[P((Chinese,Chinese,Chinese,Tokyo,Japan)Yes)P(Yes)]/P(Chinese,Chinese,Chinese,Tokyo,Japan)=[P(ChineseYes)3P(TokyoYes)P(JapanYes)]P(Yes)/[P(Chinese)3P(Tokyo)P(Japan)]

    # 属于China类总共有8个词,其中Chinese占5个
    P(Chinese|Yes)=5/8
    # 属于China类总共有8个词,其中Tokyo占0个
    P(Tokyo|Yes)=0/8
    # 属于China类总共有8个词,其中Japan占0个
    P(Japan|Yes)=0/8
    

    从上面例子可以得到 P(Tokyo|Yes) 和 P(Japan|Yes) 都为0,这是不合理的,如果词频列表中有很多出现次数都是0,很可能计算结果都为0。

  • 解决方法:引入拉普拉斯平滑系数

    • 拉普拉斯公式:
      P ( x ) = ( c o u n t ( x ) + λ ) / ( N + λ ∗ V ) P(x) = (count(x) + λ) / (N + λ * V) P(x)=(count(x)+λ)/(N+λV)
      其中:

      • count(x) 是事件x出现的次数(观察到的频数);
      • N 是总的事件数(总的样本数或观察数);
      • V 是事件的可能取值的总数(唯一的事件数量);
      • λ 是拉普拉斯平滑系数,一般取1。
    • 经过平滑处理后的值:

      # 这里count(x)=5,N=8,λ=1。V指的是"文档中的词"这一特征总共有几种值(6种值:Chinese、Beijing、Shanghai、Macao、Tokyo、Japan)
      
      # 则经过平滑处理后的值如下
      
      P(Chinese|Yes)=5/8=(5+1)/(8+6)=6/14=3/7
      
      P(Tokyo|Yes)=0/8=(0+1)/(8+6)=1/14
      
      P(Japan|Yes)=0/8=(0+1)/(8+6)=1/14
      
      # 然后再代入公式计算最终结果即可
      

三、朴素贝叶斯的代码实现案例

1.API介绍
  • sklearn.naive_bayes.MultinomialNB(alpha=1.0)
    • 朴素贝叶斯分类算法
    • alpha:拉普拉斯平滑系数
2.案例:商品评论分析

在这里插入图片描述

2.1步骤分析
  1. 获取数据
  2. 数据基本处理
    • 取出内容列,对数据进行分析
    • 判定评判标准
    • 选择停用词
    • 把内容处理,转换成标准格式
    • 统计词的个数
    • 准备训练集和测试集
  3. 模型训练
  4. 模型评估
2.2代码实现
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 1.获取数据
data = pd.read_csv("./data/书籍评价.csv",encoding="gbk")

# 2.数据基本处理
# 2.1 取出内容列,对数据进行分析
content = data["内容"]

# 2.2 判定评判标准
data.loc[:,"评价"]
# 添加一列“评价标号”,值为1代表这一评论是好评
data.loc[data.loc[:,"评价"]=="好评","评价标号"]=1
# 添加一列“评价标号”,值为0代表这一评论是差评
data.loc[data.loc[:,"评价"]=="差评","评价标号"]=0

# 2.3 选择停用词
stopwords=[]
with open("./data/stopwords.txt",mode="r",encoding="utf-8") as f:
    lines = f.readlines()
    for tmp in lines:
        line = tmp.strip()
        stopwords.append(line)
        
# 对停用词进行去重
stopwords = list(set(stopwords))

# 2.4 把内容处理,转换成标准格式
comment_list = []
for tmp in content:
    # 把一句句话分割成一个个词:需要用jieba
    seg_list = jieba.cut(tmp,cut_all=False)
    seg_str = ",".join(seg_list)
    comment_list.append(seg_str)
    
# 2.5 统计词的个数
con = CountVectorizer(stop_words=stopwords)
X = con.fit_transform(comment_list)

# 2.6 准备训练集和测试集
# 取前十行作为训练集
x_train = X.toarray()[:10,:]
y_train = data["评价"][:10]
# 取第十行以后的作为训练集
x_test = X.toarray()[10:,:]
y_test = data["评价"][10:]

# 3.模型训练,朴素贝叶斯算法,拉普拉斯系数为1
estimator = MultinomialNB(alpha=1)
estimator.fit(x_train,y_train)
y_pre = estimator.predict(x_test)
print("预测值为:\n",y_pre)
print("真实值为:\n",y_test)

# 4.模型评估
estimator.score(x_test,y_test)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/599170.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenMMLab AI实战营第二期(1)计算机视觉与OpenMMLab概述

通过今天课程的学习,算是比较大的扩展了我的视野,近期主要学一些强化学习的知识,没有想到计算机视觉领域已经发展的这么迅猛,很多以前只是在脑海里想象的计算机视觉应用场景,原来OpenMMLab已经实现了。我比较对目标检测…

人脸识别(Java+ Face++实现)

人脸识别(Java Face实现) 一. 概述 Face的核心技术是基于深度学习的人脸识别技术,其算法在准确率和速度方面都处于领先地位。该公司的产品和服务包括人脸识别SDK、人脸识别API、人脸比对服务、人脸检测服务、活体检测服务等。这些产品和服务广…

在树莓派3B+上安装Pytorch1.7

在树莓派3B上安装Pytorch1.7(应该是最简单的方法了)_package libopenblas-dev has no installation cand_Chauncey_Wang的博客-CSDN博客由于项目要求,我需要在树莓派上安装pytorch这就有几个问题,首先吧,咱们和外面之间有一道长城&#xff0c…

计算机网络 七大性能指标【速率】【带宽】【吞吐量】【时延】【时延带宽积】【往返时间】【利用率】

计算机网络 速率(bit/s 数据的传送速率)带宽(频域-频带宽度,时域-最高速率)吞吐量(单位时间的 数据量)时延(一端传送到另一端所需的时间)1. 发送时延(发送所用…

来自6种编程语言的祝福:欢乐六一儿童节

六一儿童节的由来是为了纪念在法西斯侵略战争中死难的儿童,反对帝国主义的虐杀和毒害儿童,保障儿童权利。1949年11月,国际民主妇女联合会在莫斯科召开大会,决定每年的6月1日为全世界少年儿童的节日,即国际儿童节。 六一…

RPC(1):软件项目架构变化简述

1单体架构 1.1架构图 单体架构就是一个项目里面包含这个项目中全部代码。一个应用搞定全部功能。 DNS 服务器可以是单映射,也可以配置多个映射。 1.2软件代码结构 在单体架构项目中,团队都是通过包(package)进行区分每个模块。 总体包结构&#xff…

Android进阶 :实现自定义View

Android进阶:实现自定义View 导语 有时候我们会想要实现一些复杂或者是独特的组件效果,这时候系统提供的组件可能不能满足我们的需求,这个时候我们一般就会有两个解决办法,一是上网查找开源的控件库,一些流行的开源库…

【JUnit技术专题】「入门到精通系列」手把手+零基础带你玩转单元测试,让你的代码更加“强壮”(夯实功底篇)

手把手零基础带你玩转单元测试,让你的代码更加“强壮” 前言介绍JUnit是什么?JUnit和xUnit之间的关系 JUnit的基本概念JUnit的特点什么是一个单元测试用例 JUnit的用法JUnit的最佳实践案例分析创建一个类创建 Test Case 类创建 Test Runner 类 JUnit总体…

Web实验二 CSS基本样式实验

实验原理 通过创建CSS样式文件,理解CSS样式基本属性作用及意义。 实验目的 理解CSS基本概念及功能 理解CSS样式的设计原则 理解并掌握CSS样式的基本声明方法 理解并掌握多种CSS选择器的使用方法 理解并掌握字文本、表格、超链接等元素常用属性的使用方法 理解并掌握…

机器人学:DH参数总结(传统DH方法和改进DH方法)

1. 传统DH参数方法 1.1 确定坐标系的方法 定义:杆 i i i的近端是关节 i i i,远端是关节 i 1 i1 i1. 【下面的规则参考上面的图看得更清楚】 对于 n n n自由度机器人,可用以下步骤建立与各杆件 i ( i 0 , 1 , … , n ) i(i0,1,…,n) i(i0,…

【iOS底层探索- Block原理分析-循环引用】

文章目录 前言准备工作1. Block的分类2. Block的内存分析捕获外部变量引用计数的变化堆栈释放的差异总结 3. Block的循环引用3.1 什么是循环引用?案例引入 循环引用解决方法1. 强弱共舞2. 手动中断循环引用3. 参数形式解决循环引用(block传参&#xff09…

汇编指令执行过程及CS与IP和DS寄存器关系与变化

内存指令及寄存器初始值: CS:2000H IP:0 DS:1000H AX:0 BX:0 上面在内存中的汇编指令是如何执行的? 验证: 在debug下用a指令先向内存写入下面指令,然后用u指令查看 mov ax,2000 mov ds,ax mov ax,[0008] mov ax,[0002] 在debug下用a指令先向内存写入下面指令,然后用u指…

Computer之Compilation:Cmake的简介、安装、案例应用之详细攻略

Computer之Compilation:Cmake的简介、安装、案例应用之详细攻略 目录 Cmake的简介 Cmake的安装 1、官方下载 2、执行安装程序,并按照提示进行安装 3、验证测试 Cmake的案例应用 Cmake的简介 CMake(Cross-platform Make)是一…

【嵌入式烧录/刷写文件】-1.7-将一个文本文件转换为Motorola S-record(S19/SREC/mot/SX)文件

案例背景(共5页精讲): 有如下两个文本文件(*.txt,*.ini,*.asc…)转换成Motorola S-record(S19/SREC/mot/SX)文件。常用于Key密钥,signature签名…的导入,或对一段数据计算出hex记录的最后一个字…

服务器性能优化方法

文章目录 服务器性能优化方法什么是服务器并发处理能力?什么方法衡量服务器的并发能力?怎么提高服务器的并发处理能力?**1,提高CPU并发计算能力**(1)多进程&多线程(2)减少进程切…

spring cloud搭建(eureka)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习新东西是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习…

力扣高频SQL50题(基础版)——第二天

力扣高频SQL50题(基础版)——第二天 1 文章浏览Ⅰ 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 1.2 示例sql语句 # Write your MySQL query statement below SELECT distinct author_id id FROM Views WHERE author_idviewer_id ORDER BY id asc1.3 运行截图 2 无…

基于MSP430送药小车 ----- 基础篇【2021年全国电赛(F题)】

文章目录 一、赛题1. 任务2. 要求3. 说明 二、构思 分析1. 引脚利用2. PID算法3. 灰度循迹及标志位4. 视觉模块5. 直角转弯、原地转向 三、硬件清单四、逻辑设计1. 近端送药2. 中端送药3. 远端送药 五、程序设计1. OpenMV2. 灰度循迹3. 装药卸药 总结 一、赛题 1. 任务 设计并…

Linux Socket 分包 和 粘包 问题 - 解决方案

分包和粘包在TCP网络编程中是非常常见的,分包会造成 接收端 接收的数据不全的问题,粘包会造成接收多余的数据的文件。 这里做一个举例,例如客户端A要发送字符串“helloworld”给服务器B,A是一次性发送,但TCP有可能会将…

A Unified Conditional Framework for Diffusion-based Image Restoration

A Unified Conditional Framework for Diffusion-based Image Restoration (Paper reading) Yi Zhang, CUHK, CN, arXiv2023, Cited:0, Code, Paper 1. 前言 最近,扩散概率模型(Diffusion Probabilistic Models,DPMs)在图像生成…