朴素贝叶斯分类器有大量应用,下面这个例子来自某国两个城市的人群,通过分析这些人发布的征婚广告信息,来比较这两个城市的人们在广告用词上是否不同。如果结论确实是不同,那么他们各自的常用词是哪些?
具体步骤:
1、收集数据:从RSS源收集数据
2、准备数据:将文本文件解析成词条向量
3、分析数据:检查词条确保解析的正确性
4、训练算法
5、测试算法:观察错误率,确保分类器可用。可以修改切分程序,以降低错误率,提高分类结果
6、使用算法:构建一个完整的程序,封装所有内容。给定两个RSS源,该程序会显示最常用的公共词。
下面将使用来自不同城市的广告训练一个分类器,然后观察分类器的效果。我们的目的并不是使用该分类器进行分类,而是通过观察单词和条件概率值来发现与特定城市相关的内容。
收集数据:导入RSS源
使用Universal Feed Parser是Python最常用的RSS程序库。
def calcMostFreq(vocabList,fullText):
import operator
freqDict={}
for token in vocabList:
freqDict[token]=fullText.count(token)
sortedFreq=sorted(freqDict.iteritems(),key=operator.itemgetter(1),reverse=True)
return sortedFreq[:30]
def localWords(feed1,feed0):
import operator
docList=[]
classList=[]
fullText=[]
minLen=min(len(feed1['entries']),len(feed1['entries']))
for i in range(minLen):
wordList=textParse(feed1['entries'][i]['summary'])
docList.append(wordList)
fullText.extend(wordList)
classList.append(1)
wordList=textParse(feed0['entries'][i]['summary'])
docList.append(wordList)
fullText.extend(wordList)
classList.append(0)
vocabList=createVocabList(docList)
#去掉出现次数最高的那些词
top30Words=calcMostFreq(vocabList,fullText)
for pairW in top30Words:
if pairW[0] in vocabList:
vocabList.remove(pairW[0])
trainingSet=list(range(2*minLen))
testSet=[]
for i in range(20):
randIndex=int(random.uniform(0,len(trainingSet)))
testSet.append(trainingSet[randIndex])
del(trainingSet[randIndex])
trainMat=[]
trainClasses=[]
for docIndex in trainingSet:
trainMat.append(bagOfWords2Vec(vocabList,docList[docIndex]))
trainClasses.append(classList[docIndex])
p0V,p1V,pSpam=trainNBO(array(trainMat),array(trainClasses))
errorCount = 0
for docIndex in testSet:
wordVector = bagOfWords2Vec(vocabList, docList[docIndex])
# 对测试集分类
if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
errorCount = errorCount + 1
print('错误率:', float(errorCount) / len(testSet))
分析数据:显示地域相关的用词
先对向量pSF与pNY进行排序,然后按照顺序打印:
def getTopWords(ny,sf):
import operator
vocabList, p0V, p1V = localWords(ny, sf)
topNY = [];
topSF = []
for i in range(len(p0V)):
if p0V[i] > -6.0: topSF.append((vocabList[i], p0V[i]))
if p1V[i] > -6.0: topNY.append((vocabList[i], p1V[i]))
sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
for item in sortedSF:
print(item[0])
sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
for item in sortedNY:
print(item[0])
函数getTopWords()使用两个RSS源作为输入,然后训练兵测试朴素贝叶斯分类器,返回使用的概率值。然后创建两个列表作为元组的存储。与之前返回排名最高的X个单词不同,这里可以返回大于某个阈值的所有词。这些元组会按照它们的条件概率进行排序。