图像分类卷积神经网络模型综述

news2024/11/28 18:54:06

图像分类卷积神经网络模型综述

遇到问题

图像分类:核心任务是从给定的分类集合中给图像分配一个标签任务。
本地路径
输入:图片
输出:类别。

数据集

MNIST数据集

MNIST数据集是用来识别手写数字,由0~9共10类别组成。
从MNIST数据集的SD-1和SD-3构建的,其中包含手写数字的二进制图像:
本地路径
MNIST数据集将SD-3作为训练集,将SD-1作为测试集,但SD-3比SD-1更容易识别,原因在于SD-3来源于人工调查局雇员,
SD-1来源于高中生,以上表明分类结果要独立于完整样本集中训练集和测试集的选择,因此,通过混合MNIST数据集来建立新
的数据集很有必要,SD-1有58537幅图像,由500位作者书写,排列混乱,SSD-3的图像是顺序的,新的训练集共有60000幅图像,
一部分来源于SD-1的前250位作家书写,剩余部分来源于SD-3.新的测试集有60000幅图像,部分来源于SD-1剩余250位作家所书写,一部分来源于SD-3。

新数据集成为MNIST数据集,共10个类别:

  • 在LeNEt5实验中,训练集共60000幅图像,测试集共10000幅图像。
  • 数据集包含4个文件

train-images-idx3-ubyte:训练集图像 train-labels-idx1-ubyte:训练集标签 t10k-images-idx3-ubyte:测试集图像 t10k-labels-idx1-ubyte:测试集标签

图像像素28*28.
本地路径

IMagenET训练数据集

ImageNet数据集是具有超过1500万幅带标签的高分辨率图像数据库,这些图像大约属于22000个类别,这些图像由互联网收集,并由人工使用亚马逊的机械土耳其众包工具贴上标签。
本地路径

从2010年开始,每年举行一次名为ImnageNet的大规模视觉识别挑战赛,ILSVRC使用ImageNet的子集

  • 类别,共1000个类别
  • 数量:总共大约有120万幅训练图像,其中,每个类别大约包含1000幅图像。
  • 验证集合:50000幅验证图像
  • 测试集:50000幅测试图像。

深度卷积网络模型在ImageNet数据集上进行训练和测试,衡量模型优劣的指标为 t o p − 1 和 t o p − 5 top-1和top-5 top1top5错误率。

top-5错误率

对每幅图像同时预测5个标签类别,若预测的五个类别任意之一为该图像的正确标签,则视为预测正确,那么预测错误的概率为top-5错误率。

top-1错误率

若对图像预测一次,预测错误的概率为top-1错误率。

CIFAR-10/100数据集

CIFAR-10数据集

本地路径

  • 分辨率为32 × \times × 32
  • 类别:共10个类别
  • 数量:共有60 000幅彩色图像。其中,每个类别包含6 000幅图像。
  • 训练集:包含50000幅彩色图像。
  • 测试集:包含10 000幅彩色图像。图像取自10个类别,每个类别分别取1 000幅。

CIFAR-100数据集

• 类别:共100个类别
• 数量:共60000幅图像。其中,每个类别包含600幅图像
• 训练集:每个类别有500幅
• 测试集:每个类别有100幅

CIFAR-100中的100个类被分成20个大类别。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)

SVHN数据集

该数据集用来检测和识别街景图像中的门牌号,从大量街景图像的剪裁门牌号图像中收集,包含600000幅小图像。


这些图像以两种格式呈现

  • 一种是完整的数字,即原始的,分辨率可变的,彩色门牌号图像,每个图像包括检测到数字转录以及字符级的边界框。
  • 一种是剪裁数字,图像的尺寸被调整为固定的 32 × 32 32 \times 32 32×32像素。
    SVHN数据集分为3个子集,73 257幅图像用于训练,26 032幅图像用于测试,531 131幅难度稍小的图像作为额外的训练数据。
    类别**:10个类别,数字1~9对应标签1~9,而“0”的标签则为10**
    •训练集:73257张图像
    •测试集:26032张图像
    •数据集格式**:带有字符级边界框的原始图像**。

评价标准

混淆矩阵

根据分类时预测与实际的情况,做出如下表格。

https://mp.weixin.qq.com/s/kAEZP20U0iRikuVKzeSe3w

准确率

准确率 = 正确预测的正反例数/总数
A C C = ( T P + T N ) / ( T P + T N + F P + F N ) = ( A + D ) / ( A + B + C + D ) ACC = (TP + TN)/(TP + TN + FP + FN) = (A + D)/(A + B + C + D) ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)

误分类率

误分类率 = 错误预测的正反例数/总数
误分类率 = 1 - ACC

查准率

查准率、精确率 = 正确预测到的正例数/预测正例总数。

召回率

查全率、召回率 = 正确预测到正例数/实际正例总数

F1 score

精确率与召回的调和平均值。

应用场景

  • 智能楼宇中,根据人脸识别,识别员工为本大楼员工时,自动进行打卡,自动按工作流程设定电梯。
  • 智能酒店中,根据人脸识别,办理自动入住,根据会员等级自动对接专属服务等。
  • 电商行业中,根据图像识别、搜索类似商品
  • 教育行业中,根据人脸特征,记录学生的听课状态(打盹、走神、小动作、举手等)。
  • 交通行业中,自动识别违规驾驶员
  • 新零售行业中,根据人脸识别会员,实现到店提醒、导购引导、定制化运营等
  • 公共交通中,实现刷脸支付。
  • 游戏行业中,虚拟现实相关游戏。

解决框架

图像分类解决框架如下

第一步

输入:图像image

第二步

图像特征提取
方法1: 传统算法(手工提取特征) - HOG、SIFT等
方法2:**深度学习(自动提取特征)- 卷神经网络(CNN)、自注意机制(Transformer)**等

第三步

分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax

第四步

输出:类别(label)
)、自注意机制(Transformer)**等

第三步

分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax

第四步

输出:类别(label)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423175.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ctfshow web入门web119-124

1.web119 和118题类似,只不过是过滤了PATH 0可以用任何字符代替,比如A,{A},A,{0} KaTeX parse error: Expected }, got # at position 2: {#̲SHLVL}1,或者{##},${#?} {PHP_VERSION:~A}2,php版本为x.x.2时 ${#IFS}3(linux下是3,…

IntelliJ IDEA 2023.1正式发布,Maven项目大提速支持Apache Dubbo

你好,我是YourBatman:做爱做之事❣交配交之人。 📚前言 一年一个大版本,共计3个中型版本,北京时间2023年3月月29日终于迎来了IntelliJ IDEA今年的首个版本2023.1。老规矩,吃肉之前,可以先把这…

顺丰科技x腾讯安全iOA联合案例获云安全联盟CSA 2022安全革新奖

近年来,随着云计算、大数据、物联网等技术的加速创新和应用,一场数字化的变革开始席卷各行各业。远程办公、业务协同、分支互联等需求涌现,随之而来的还有更加复杂多元的高级网络攻击。在此背景下,传统的基于边界的网络安全防护理…

矩阵键盘+CH559制作国产USB矩阵键盘

矩阵键盘+CH559制作国产USB矩阵键盘 文章目录 矩阵键盘+CH559制作国产USB矩阵键盘为什么选择CH559作为主控芯片?如何实现该款矩阵USB键盘?如何将矩阵键盘的信号转化为USB键盘信号?原材料: 矩阵键盘(附带行列键码定义)CH559开发板将矩阵键盘的所有排线连接到单片机的GPIO引…

基于stm32mp157 linux开发板ARM裸机开发教程5:ARM微处理器指令系统(连载中)

前言: 目前针对ARM Cortex-A7裸机开发文档及视频进行了二次升级持续更新中,使其内容更加丰富,讲解更加细致,全文所使用的开发平台均为华清远见FS-MP1A开发板(STM32MP157开发板) 针对对FS-MP1A开发板&…

Python | Python的自我介绍(前世今生)

本文概要 本篇文章主要介绍Python这门语言的前世今生,适合刚入门的小白或者想了解Python历史的同学,文中描述很详细,具有一定的学习价值,感兴趣的小伙伴快来一起学习吧。 个人简介 ☀️大家好!我是新人小白博主朦胧的…

【机器学习】样本不均衡(class-imbalance)——解决方案与问题思考

目录问题提出问题重述与再理解第一个问题:假如样本不均衡,哪种分类器的泛化性能较好?第二个问腿:在样本不均衡的情况下,如何获得更健壮的模型问题解决方法样本不均衡对机器学习模型会造成什么影响什么模型适合样本不均…

小黑今天上午着急忙慌实习公司楼下笔试,晚上准备和尚香疯狂星期四明天继续现场笔试的leetcode之旅:1091. 二进制矩阵中的最短路径

小黑代码1 class Solution:def shortestPathBinaryMatrix(self, grid: List[List[int]]) -> int:# 一定无解的情况if grid[0][0] 1 or grid[-1][-1] 1:return -1# 矩阵长度n len(grid)# 起点即终点if n 1:return 1# 访问集合seen {(0, 0)}# 初始化队列q collections.…

射频功率放大器在空气耦合超声检测系统中的应用

实验名称:空气耦合超声检测系统研究方向:超声测试设备:ATA-8202射频功率放大器、探头、ATA-5620前置放大器、超声波接收器、数据采集卡、计算机。实验过程:图:空气耦合超声检测锂电池系统锂电池空气耦合超声检测具体过…

TryHackMe-Year of the Dog(Linux渗透测试)

Year of the Dog 谁知道呢?狗咬了一口! 端口扫描 循例nmap Web枚举 进80 用gobuster扫了一圈没有任何发现,图像也没有隐写 在主页的请求头的cookie有一个id 改成其他错误值会导致异常,看见叫id,习惯性加个了引号 爆…

【java】集合类

文章目录集合根接口LIST列表迭代器Queue|Deque|PriorityQueueSet集合HashSetLinkedHashSetTreeSet键盘读入MapHashMapLinkedHashMapStream流stream()ints()Collections工具类集合根接口 所有的集合类最终都是实现自集合根接口的,比如ArrayList类,它的祖先…

走向国际市场,怎样用Facebook广告抢占商机?

在当今全球化的商业世界中,企业要想在国际市场中占据一席之地,除了打造优质产品和服务外,有效的营销手段也是至关重要的。 而Facebook作为全球最大的社交媒体平台,其广告投放服务为企业提供了一个快速、便捷、有效的推广途径。那…

安全校验和框架---JWT和Shrio

安全架构 加密 分类 可逆加密和不可逆加密 不可逆加密:常见的不可逆加密算法有MD5,HMAC,SHA1、SHA-224、SHA-256、SHA-384,和SHA-512,其中SHA-224、SHA-256、SHA-384; 可逆加密分为对称加密和非对称加密…

2023最新面试题-Java-5

自定义类加载器 1. 为什么需要自定义类加载器 网上的大部分自定义类加载器文章,几乎都是贴一段实现代码,然后分析一两句自定义ClassLoader的 原理。但是我觉得首先得把为什么需要自定义加载器这个问题搞清楚,因为如果不明白它的作用的情况 …

人工智能动物农场的猪、牛和蟑螂

人工智能动物农场的猪、牛和蟑螂 农业正在成为由人工智能驱动的以数据为中心的业务。中国的大型科技公司正在使用神经网络支持的计算机视觉、可穿戴设备和预测分析算法来重新构想猪、鸡、牛、鹅和蟑螂养殖。 《南华早报》报道称,好医生制药集团每年在中国东南部的四…

OpenHarmony社区运营报告(2023年3月)

目录 本月快讯 一、代码贡献 二、生态进展 三、社区治理 五、社区活动 六、社区及官网运营 本月快讯 • 《OpenHarmony 2022年度运营报告》于3月正式发布,2022年OpenAtom OpenHarmony(以下简称“OpenHarmony”)开源项目潜心务实、深耕发展&am…

优化Key顺序提升ClickHouse查询性能

ClickHouse 键列顺序不仅影响表压缩效果,对查询性能也有很大影响,正确使用键列的顺序可以跳过大粒度数据范围,提高查询效率。本文通过示例进行测试不同场景的查询性能,从而让我们了解如何选择键列及其顺序。 测试数据 首先创建并…

从DY用户页面获取作品列表

最近DY的web端更新比较频繁,所以搞了很多方案来应对更新问题。 本文内容是其中一种方案,从用户主页的HTML响应内容中抽取user信息和作品列表数据。 下图中出现的内容都是在html名为RENDER_DATA的script标签中,以urlencode编码。 比如昵称、粉…

copilot技巧

copilot技巧 csdn排版不太好,推荐notion查看:https://superb-face-6ae.notion.site/copilot-25cf0f9882364056b5c76909b3a66ef9 一些基础原理: 我们想要使用copilot来干嘛呢?来生成代码。 怎样让它生成代码呢?给它一…

【PyTorch】第七节:数据加载器

作者🕵️‍♂️:让机器理解语言か 专栏🎇:PyTorch 描述🎨:PyTorch 是一个基于 Torch 的 Python 开源机器学习库。 寄语💓:🐾没有白走的路,每一步都算数&#…