贝叶斯分类器

news2024/12/23 22:44:19

分类算法用来判断给定数据项所属的类别,即种类或类型。比如,可以根据某些特征来分辨一部电影属于哪个流派,等等。这样,流派就是我们要预测的类别。第10章“预测性分析与机器学习”还会对机器学习做进一步介绍。此刻,我们要讨论的是一个名为朴素贝叶斯分类的流行算法,它常常用于进行文本文档的研究。

朴素贝叶斯分类是一个概率算法,它基于概率与数理统计中的贝叶斯定理。贝叶斯定理给出了如何利用新证据修正某事件发生的概率的方法。例如,假设一个袋子里装有一些巧克力和其他物品,但是这些我们没法看到。这时,我们可以用P(D)表示从袋子中掏出一块深色巧克力的概率。同时,我们用P(C)代表掏出一块巧克力的概率。当然,因为全概率是1,所以P(D)和P(C)的最大取值也只能是1。贝叶斯定理指出,后验概率与先验概率和相似度的乘积成正比,具体公式如下所示:

上面公式中,P(C|D)是在事件C发生的情况下事件D发生的可能性。在我们还没有掏出任何物品之前,P(D)= 0.5,因为我们尚未获得任何信息。实际应用这个公式时,必须知道P(C|D)和P(C),或者能够间接求出这两个概率。

朴素贝叶斯分类之所以称为朴素,是因为它简单假设特征之间是相互独立的。实践中,朴素贝叶斯分类的效果通常都会很好,说明这个假设得到了一定程度的保证。近来,人们发现这个假设之所以有意义,理论上是有依据的。不过,由于机器学习领域发展迅猛,现在已经发明了多种效果更佳的算法。

下面,我们将利用停用词或标点符号对单词进行分类。这里,将字长作为一个特征,因为停用词和标点符号往往都比较短。

为此,需要定义如下所示的函数:

def word_features(word):  return {'len': len(word)}def isStopword(word):  return word in sw or word in punctuation

下面,对取自古登堡项目的shakespeare-caesar.txt中的单词进行标注,以区分是否为停用词,具体代码如下所示:

labeled_words = ([(word.lower(), isStopword(word.lower())) for word in words])random.seed(42)random.shuffle(labeled_words)print labeled_words[:5]

下面显示了5个标注后的单词:

[('was', True), ('greeke', False), ('cause', False), ('but', True), 
('house', False)]

对于每个单词,我们可以求出其长度:

featuresets = [(word_features(n), word) for (n, word) in labeled_words]

前几章介绍过拟合,以及通过训练数据集和测试数据集的交叉验证来避免这种情况的方法。下面将要训练一个朴素贝叶斯分类器,其中90%的单词用于训练,剩下的10%用于测试。首先,创建训练数据集和测试数据集,并针对数据展开训练,具体代码如下所示:

cutoff = int(.9 * len(featuresets))train_set, test_set = featuresets[:cutoff], featuresets[cutoff:]classifier = nltk.NaiveBayesClassifier.train(train_set)

如今,拿出一些单词,检查该分类器的效果。

classifier = nltk.NaiveBayesClassifier.train(train_set)print "'behold' class", classifier.classify(word_features('behold'))print "'the' class", classifier.classify(word_features('the'))

幸运的是,这些单词的分类完全正确:

'behold' class False'the' class True

然后,根据测试数据集来计算分类器的准确性,具体代码如下所示:

print "Accuracy", nltk.classify.accuracy(classifier, test_set)

这个分类器的准确度非常高,几乎达到85%。下面来看哪些特征的贡献最大:

print classifier.show_most_informative_features(5)

结果显示,在分类过程中字长的作用最大:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/340557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分布式ID生成方案

文章目录前言一、分布式ID需要满足的条件二、分布式ID生成方式基于UUID数据库自增数据库集群数据库号段模式redis ID生成基于雪花算法(Snowflake)模式百度(uid-generator)美团(Leaf)滴滴(Tinyid…

queue(二)优先级队列解决 合并K个已排序链表(hard)

合并k个已排序的链表_牛客题霸_牛客网【牛客题霸】收集各企业高频校招笔面试题目,配有官方题解,在线进行百度阿里腾讯网易等互联网名企笔试面试模拟考试练习,和牛人一起讨论经典试题,全面提升你的技术能力https://www.nowcoder.com/practice/65cfde9e5b9…

[MySQL教程②] - MySQL介绍和发展史

目录 ❤ MySQL介绍 ❤ 什么是数据库 ❤ 什么是数据 ❤ 数据库管理系统 ❤ NoSQL特性总览 ❤ NoSQL的分类、特点、典型产品 ❤ 常见的数据库产品有哪些? ❤ Oracle公司产品介绍 Oracle数据库版本介绍 Oracle的市场应用 MySQL数据库版本介绍 MyS…

阅读MySQL必知必会,查缺补漏

MySQL自带数据库 information_schema:是MySQL自带的数据库,主要保持MySQL数据库服务器的系统信息,比如数据库的名称,数据库表的名称,字段名称,存储权限等。 performance_schema:是MySQL系统自…

大数据技术架构(组件)32——Spark:Spark SQL--Execute Engine

2.2、Spark SQL2.2.1、Execute EngineSparkSql的整体提交执行流程和Hive的执行流程基本上一致。站在通用的角度,对于SparkSql来说,从Sql到Spark的RDD执行需要经历两个大的阶段:逻辑计划和物理计划逻辑计划层面会把用户提交的sql转换成树型结构…

2022级上岸浙理工MBA的复试经验提炼和备考建议

在等待联考成绩出来的那段时间,虽然内心很忐忑,但还是为复试在积极的做准备,虽然也进行了估分大概有201分,但成绩和分数线没下来之前,只能尽量多做些一些准备把。因为笔试报了达立易考的辅导班,对于浙江理工…

复现随记~

note(美团2022) 比较简单的越界漏洞,堆本身并没有什么漏洞,而且保护并没全开,所以逆向思维。必然是ROP类而非指针类,故我们着重注意unsigned int等无符号数前后是否不一致 int __fastcall edit(__int64 a1) {int idx; // [rsp14…

[全栈工程师]从0到封神

全栈工程师 一个可以独立完成产品开发的人 目标规划全栈工程师参与社区的问题回答gitCode来自选择专业的问答为什么选择软件工程当初对软件工程这个专业的期待和想象是什么当初希望自己是如何投入这个专业的学习的曾经做过什么准备,或者立下过什么FLAG吗CSDN的我的介…

【idea】idea生产类注释和方法注释

网上有很多类似的文章,但是我在按照他们的文章设置后,出现了一些问题,因此我这边在解决了问题后,总结一篇文章,发出来给大家借鉴一下。在此先说明一下idea的版本,是2020.1.3 设置动态模板,File…

应用场景二:西门子PLC通过无线WIFI连接上位机

应用场景描述: 西门子PLC通过桥接器的无线WIFI连接上位机通讯,可以同时支持S7TCP、ModbusTCP和MQTT协议,上位机可以支持西门子编程软件(Micro/WIN、STEP7、博途),组态软件(Wincc、组态王、OPC软…

基于卷积神经网络的立体视频编码质量增强方法_余伟杰

基于卷积神经网络的立体视频编码质量增强方法_余伟杰提出的基于TSAN的合成视点质量增强方法全局信息提取流像素重组局部信息提取流多尺度空间注意力机制提出的基于RDEN的轻量级合成视点质量增强方法特征蒸馏注意力块轻量级多尺度空间注意力机制概念扭曲失真孔洞问题失真和伪影提…

【OpenCV图像处理系列一】OpenCV开发环境的安装与搭建(Ubuntu + Window都适用)

🔗 运行环境:OpenCV,Ubuntu,Windows 🚩 撰写作者:左手の明天 🥇 精选专栏:《python》 🔥 推荐专栏:《算法研究》 #### 防伪水印——左手の明天 #### &#x…

Hadoop集群搭建详细步骤

目录 一、模板虚拟机环境准备 1.新建一台虚拟机hadoop100,并且配置好网络 3.安装 epel-release 4.其他工具 5. 配置普通用户具有root权限,方便后期加sudo执行root权限的命令 6.删除/opt/目录下的所有文件 7.在/opt/目录下创建文件夹,并…

RocketMQ底层源码解析——事务消息的实现

1. 简介 RocketMQ自身实现了事务消息,可以通过这个机制来实现一些对数据一致性有强需求的场景,保证上下游数据的一致性。 以电商交易场景为例,用户支付订单这一核心操作的同时会涉及到下游物流发货、积分变更、购物车状态清空等多个子系统…

基于javaee的电影碟片租赁管理系统的设计

技术:Java、JSP、框架等摘要:随着信息技术在管理中的广泛应用,管理信息系统(MIS)的实施在技术上逐渐成熟。为了适应时代的发展,降低管理成本,提高工作效率,企业需要加强对内部资源(人、钱、物)的有效管理&a…

Android测试包安装方式汇总

背景:作为一名测试,尤其是移动端测试,掌握app的安装方式是必备的基本技能,因此将Android测试包不同格式不同方式的安装方式进行一个总结分享​,仅供大家学习参考。 一、设备调试准备 1、设备打开开发者模式&#xff…

医学生考研考博太卷,一篇文章轻松助力上岸(一)

考研考博太卷了,卷不过,想没想过本科发一篇文章呢? 330分考研人淘汰390分考研人这个故事,大家应该都知道吧。 本专栏带你六个月内,搞定一篇文章,本科生发文章也很容易。 在卷考研的同时,再卷…

应用场景一:西门子PLC通过桥接器连接MQTT服务器

应用场景描述: 云平台、MES等数据采集、设备管理系统,需要通过MQTT的方式,上传和下发数据,MQTT服务器可以获取PLC的实时状态数据,也可以下发控制指令。桥接器提供4G、WIFI和有线三种连接方式。 网络拓扑:…

GRBL源码简单分析

结构体说明 GRBL里面的速度规划是带运动段前瞻的,所以有规划运动段数据和微小运动段的区分 这里的“规划运动段”对应的数据结构是plan_block_t,前瞻和加减速会使用到,也就是通过解析G代码后出来的直接直线数据或是圆弧插补出来的拟合直线数据…

【链式二叉树】数据结构链式二叉树的(万字详解)

前言: 在上一篇博客中,我们已经详解学习了堆的基本知识,今天带大家进入的是二叉树的另外一种存储方式----“链式二叉树”的学习,主要用到的就是“递归思想”!! 本文目录1.链式二叉树的实现1.1前置说明1.2结…