本文重点
贝叶斯算法的应用很广泛,其中最经典的应用就是垃圾邮件的分类,本节课程通过垃圾邮件的例子来看一下贝叶斯算法存在的一些问题,我们应该如何解决它?
垃圾邮件分类
给定一封电子邮件,我们如何判断这封电子邮件是垃圾邮件还是正常邮件,这是机器学习中的二分类问题。如果我们选择使用朴素贝叶斯分类器,那目标就是判断P(“垃圾邮件”|“具有某特征”)是否是否大于1/2(因为是二分类的问题)。
假如现在我们拥有垃圾邮件5000封,正常邮件5000封,现在有一封邮件为:
恭喜!您的条件已达标,特通知您获得申请金卡资格
那么我们如何判断这封邮件是垃圾邮件,我们只需要计算下面的概率
P(“垃圾邮件”|“恭喜!您的条件已达标,特通知您获得申请金卡资格”)
它等于:
但是这样算有一个问题,因为完完整整拥有这句话的邮件太少了,(无论是垃圾邮件还是非垃圾邮件),所以这是一个问题。
那么我们可以不从句子的角度来进行处理,我们可以从分词的角度来进行处理。
恭喜!您的条件已达标,特通知您获得申请金卡资格可以处理为(恭喜,您,的,条件&#x