基于朴素贝叶斯分类器的钞票真伪识别模型

news2025/1/22 13:02:41

基于朴素贝叶斯分类器的钞票真伪识别模型

内容

本实验通过实现钞票真伪判别案例来展开学习朴素贝叶斯分类器的原理及应用。

本实验的主要技能点:

1、 朴素贝叶斯分类器模型的构建

2、 模型的评估与预测

3、 分类概率的输出

源码下载

环境

  • 操作系统:Windows10、Ubuntu18.04
  • 工具软件:Anaconda3 2019、Python3.7
  • 硬件环境:无特殊要求
  • 核心库:
    • numpy 1.19.4

    • ipython 7.16.2

    • scikit-learn 0.24.2

    • pandas 1.1.5

    • mglearn 0.1.9

原理

1、数据集

钞票数据集包括1371行、5列,前四列是钞票的四个光学图像指标(即样本的特征),最后一列是钞票的真伪(0-真币,1-假币,即样本的标签)。因为训练数据是有标签的,因此本实验是监督学习中的一个分类问题。

请添加图片描述

本任务涉及以下几个环节:

a)加载、查看数据集

b)获取样本的特征数组和标签数组

d)将数据集拆分为训练集和测试集

e)构建模型拟合数据、评估并做出预测

2、分割测训练集和测试集

sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.25, random_state=0)

在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数 ,参数列表如下

  • train_data:被划分的样本特征集
  • train_target:被划分的样本标签
  • test_size:如果是浮点数,在0-1之间,表示样本占比;如果是整数的话就是样本的数量
  • random_state:是随机数的种子
    • 若为None时,每次生成的数据都是随机,可能不一样
    • 若为整数时,每次生成的数据都相同

步骤

打开notebook 开发环境,新建ipynb文件,命名为实验一:基于朴素贝叶斯分类器的钞票真伪识别模型.ipynb保存在当前项目根目录下的code文件夹中。

步骤一 加载、查看数据集

我们使用pandas读取数据集文件,增加列名。

from sklearn.naive_bayes import GaussianNB # 引入高斯朴素贝叶斯分类器
from sklearn.model_selection import train_test_split # 数据集拆分
from IPython.display import display	# 显示

import pandas as pd
import numpy as np

# 读取钞票数据文件
banknote = pd.read_csv('../dataset/banknote.csv')

# 添加列名
banknote.columns=['feature0', 'feature1','feature2','feature3','class']

# 显示数据框
display(banknote)

显示结果:

请添加图片描述

钞票的四个特征分别对应其光学图像检测参数:

  • feature0-小波变换图像指标

  • feature1-小波偏斜变换图像指标

  • feature2-小波峰度变换图像指标

  • feature3-图像熵

共1371条数据,4个特征列,1个标签列。

步骤二 将数据集拆分为训练集和测试集

# 获得样本特征数组data(前4列)
data = banknote.values[:,0:4]

# 获得样本标签数组target(最后一列)
target = banknote.values[:,-1]

print(data.shape) # 查看样本特征数组形状
print(target.shape) # 查看样本标签数组形状

# 数据集拆分,辅助函数可以很快地将实验数据集划分为任何训练集(training sets)和测试集(test sets)。
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.25, random_state=0)

print(X_train.shape, X_test.shape) # 查看拆分结果

显示结果:

(1371, 4)
(1371,)
(1028, 4) (343, 4)

步骤三 创建模型,评估并预测

# 创建贝叶斯分类器
model = GaussianNB().fit(X_train, y_train) # 训练

# 输出模型在训练集和测试集上的准确率
train_score = model.score(X_train, y_train) # 得分
test_score = model.score(X_test, y_test)
print(train_score, test_score)

# 在测试集上预测钞票真伪
num = 10 # 显示的样本数量
y_pred = model.predict(X_test) # 预测
print('y_pred:', y_pred[:num]) # 预测结果
print('y_true:', y_test[:num]) # 实际结果
y_proba = model.predict_proba(X_test[:num]) # 预测结果的概率(每个样本为真钞和假钞的概率)
print(np.around(y_proba, decimals=3))

输出结果:

0.8424124513618677 0.8542274052478134
# 预测结果(0-真币,1-假币)
y_pred: [0. 0. 1. 0. 0. 0. 0. 0. 1. 1.]
y_true: [1. 0. 1. 0. 0. 0. 0. 0. 1. 1.]
# 预测结果个概率
[[0.588 0.412]
 [0.998 0.002]
 [0.    1.   ]
 [0.998 0.002]
 [0.998 0.002]
 [0.953 0.047]
 [0.681 0.319]
 [0.994 0.006]
 [0.    1.   ]
 [0.054 0.946]] 

贝叶斯分类器除可以输出预测结果外,还可以输出样本属于每个类别的可能性概率,可以通过predict_proba方法来输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/414142.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode.130 被围绕的区域

题目链接 Leetcode.130 被围绕的区域 mid 题目描述 给你一个 m x n的矩阵 board,由若干字符 X和 O,找到所有被 X围绕的区域,并将这些区域里所有的 O用 X填充。 示例 1: 输入:board [[“X”,“X”,“X”,“X”],[“X…

stm32霸道-lvgl移植学习(一)

文章目录效果有用链接要求创建工程屏幕驱动以及触屏驱动LVGL PortWidgets demo其它效果 目前显示驱动显示较慢,后续会优化。 有用链接 LVGL官网 代码下载 要求 要求最低要求 建议要求架构16、32、64位微控制器或微处理器时钟 > 16 MHz > 48 MHzFlash/RO…

《低代码PaaS驱动集团企业数字化创新白皮书》-平台化加低代码提供破解之道(1)

平台化加低代码提供破解之道 大型企业亟需通过下一代平台开发技术实现软件创新,实现对海量数据的采集加工,以及企业内部数据的互联互通,帮助客户以低成本、短周期、高效率的方式实现数字化应用,进而赋能业务创新。基于此&#xf…

408--计算机网络--网络层总结1

目录 一、网络层概述: 1、网络层的主要任务: 2、网络层向上提供两种服务: 二、IPV4地址分类与子网划分: 1、分类编址: 一、网络层概述: 1、网络层的主要任务: 络层的主要任务就是将分组从…

【数据库基操】启动与连接MySQL数据库

一、启动与关闭 只介绍一种方法: 打开命令行工具,以管理员身份运行 1.启动数据库 net start mysql80 //80是在安装的时候设置的名字(默认),不用在意 2.关闭数据库 net stop mysql80 如题已经成功&#…

java获取本机ip的方法

Java中有一个类叫 Application,可以用来获取本机 ip,也可以用来获取网络连接的信息,例如网络上有什么主机、需要访问本机的主机名等。但是这个类只能在本机上使用,如果要访问外部的主机,还需要使用其它的方法。 首先在…

教育大数据总体解决方案(5)

(4)错题整理 将学生的本次考试错题进行集中整理,提炼出所有题目的题干和正确的答案。 (5)提高方案 分析学生对知识点掌握情况,推算出学生的进步空间以及下次考试的预测拔高分数。根据学生本次考试错误知识点…

你的APP内存还在暴增吗?试着用Bitmap管理下内存~

作者:layz4android 相信伙伴们在日常的开发中,一定对图片加载有所涉猎,而且对于图片加载现有的第三方库也很多,例如Glide、coil等,使用这些三方库我们好像就没有啥担忧的,他们内部的内存管理和缓存策略做的…

Java垃圾回收机制GC完全指南,让你彻底理解JVM运行原理

1、GC过程 1)先判断对象是否存活(是否是垃圾) 可以通过引用计数算法和可达性分析算法来判断,由于引用计数算法无法解决循环引用的问题,所以目前使用的都是可达性分析算法 2)再遍历并回收对象(回收垃圾) 可以通过垃圾收集器&…

使用Schrödinger Python API系列教程 -- 介绍 (一)

使用Schrdinger Python API系列教程 – 介绍 (一) 本文档可从Schrdinger网站www.schrodinger.com/pythonapi访问。 从Python文档字符串生成的完整API文档可以在这里访问 介绍 在最高级别上,Schrdinger Python API提供了一个基本的分子结构类,并允许与…

redis总结之-jedis

redis总结之-jedis4. Jedis4.1 Jedis简介4.1.1 编程语言与redis4.1.2 准备工作4.1.3 代码实现4.2 Jedis简易工具类开发4.2.1 基于连接池获取连接4.2.2 封装连接参数4.2.3 加载配置信息4.2.4 获取连接4.3 可视化客户端总结计划 1. Redis 入 门(了解)&…

LNMP网站框架搭建(编译安装的方式)

1. Nginx的工作原理 php-fpm.conf 是控制php-fpm守护进程的 php.ini是php解析器 工作进程: 1.客户端通过域名进行请求访问时,会找Nginx对应的虚拟主机 2. Nginx对该请求进行判断,如果是静态请求,Nginx会自行处理,并将处理结果…

因果推断14--DRNet论文和代码学习

目录 论文介绍 代码实现 DRNet ReadMe 因果森林 论文介绍 因果推断3--DRNet(个人笔记)_万三豹的博客-CSDN博客 摘要:估计个体在不同程度的治疗暴露下的潜在反应,对于医疗保健、经济学和公共政策等几个重要领域具有很高的实…

ERP系统有什么用?主要是这三方面

ERP 是Enterprise Resource Planning 的缩写,即企业资源计划系统,是建立在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策运行手段的管理平台。它实现了企业内部资源和企业相关的外部资源的整合。通过软件把企业的人、财、物、产、供、销及相应的物…

socket 到底是个啥

哈喽大家好,我是咸鱼 我相信大家在面试过程中或多或少都会被问到这样一个问题:你能解释一下什么是 socket 吗 我记得我当初的回答很是浅显:socket 也叫套接字,用来负责不同主机程序之间的网络通信连接,socket 的表现…

整柜海运到美国的规格和收费标准是什么

整柜海运是指将所有货物安装在一个整箱内,由发货人和收货人共同操作,而目的港的收货人一般只有一个,方便操作。整柜海运到美国的主要流程有以下几个步骤:订舱、装柜、报关、海运、清关、提柜和送货。实际上,国际物流出…

IDEA 2023.1 最新变化

IntelliJ IDEA 2023.1 最新变化 在 IntelliJ IDEA 2023.1 中,我们根据用户的宝贵反馈对新 UI 做出了大量改进。 我们还实现了性能增强,从而更快导入 Maven,以及在打开项目时更早提供 IDE 功能。 新版本通过后台提交检查提供了简化的提交流程…

写博客8年与人生第一个502万

题记:我们并非生来强大,但依然可以不负青春。 原本想好好写一下如何制定一个目标并通过一点一滴的努力去实现,这三年反思发现其实写自己的经历并不重要。 很多人都听过一句话:榜样的力量是无穷的。 更现实和实际的情况是&#x…

【LeetCode】每日一题:移除元素

目录 题目: 思想1:暴力解法 思想2:创建一个temp数组 思想3:双指针 👻内容专栏:《LeetCode刷题专栏》 🐨本文概括:27.移除元素 🐼本文作者:花 碟 &#x1…

电商评论数据爬取--R语言

1.网络爬虫 1.1 什么是网络爬虫 网络爬虫(web crawler),也被称为网络蜘蛛(web spider),是在万维网浏览网页并按照一定规则提取信息的脚本或者程序。 浏览网页时,一般流程如下: 利…