什么是重复词语?
我们预测一封邮件是否是垃圾邮件,前面已经介绍,我们需要对其进行分词处理,问题是分词处理之后很有可能有重复的词,那么这重复的词如何处理,这里我们介绍三种方式:
1.多项式模型
2.伯努利模型
3.混合模型
重复的情况举例
现在有一个垃圾邮件,它的内容是代开发票。增值税发票,正规发票,那么我们将其分词处理为(“代开”,“发票”,“增值税”,“发票”,“正规”,“发票”),我们可以看到发票出现了三次,那么我们下面来看一下不同的模型处理的方式有什么不同
多项式模型
在统计计算P(“发票”|S)时,每个被统计的垃圾邮件样本中重复的词语也统计多次,并不是按一次处理