【22-23 春学期】人工智能基础--AI作业10-经典卷积网络

news2024/11/25 12:32:10

LeNet & MNIST
LeNet是由Yann LeCun及其合作者于1998年开发的一种具有开创性的卷积神经网络架构。它的设计目的是识别手写数字并执行图像分类任务。MNIST是一个用于手写数字识别的大型数据库,常被用于训练图像处理系统。LeNet与MNIST的关系在于,LeNet经常被用于MNIST数据集的训练和测试。

AlexNet & CIFAR
AlexNet是由Alex Krizhevsky,Ilya Sutskever和Geoffrey Hinton在2012年开发的深度卷积神经网络架构。AlexNet包含多个卷积层、池化层、全连接层和激活函数,并引入了Dropout技术以减少过拟合现象。CIFAR是一个包含两个子数据集的图像分类数据库:CIFAR-10和CIFAR-100。尽管AlexNet最初是针对ImageNet数据集开发的,但它的架构和训练方法也可以应用于其他图像分类任务,如CIFAR数据集。

VGG Net
VGG Net是一种深度卷积神经网络架构,由Oxford University的Visual Geometry Group(VGG)团队于2014年开发。VGG Net在当年的ImageNet大规模视觉识别挑战(ILSVRC)中取得了优异成绩,以其简洁的结构和卓越的性能获得了广泛关注。VGG Net的核心思想是通过使用较小的卷积核(如3x3)和多个连续卷积层来增加网络深度,从而提高模型的表达能力。VGG Net有多个版本,如VGG-16和VGG-19,这些数字代表网络中包含的权重层(卷积层和全连接层)的数量。

GoogLeNet & Inception v1
GoogLeNet是一种深度卷积神经网络架构,由Google的研究人员于2014年开发。GGoogLeNet的核心创新是引入了一种名为Inception的模块结构,因此GoogLeNet有时也被称为Inception v1。Inception模块的主要思想是将多个卷积核大小的卷积层和池化层并行堆叠,从而在不同尺度上捕捉图像特征。具体而言,Inception模块包含1x1、3x3、5x5的卷积层(加入1x1卷积层进行降维以减少计算量)和3x3最大池化层。这些层在同一级别并行操作,然后将它们的输出连接起来,形成一个更丰富的特征表示。

ResNet
ResNet(Residual Network)是由Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun于2015年提出的一种深度卷积神经网络架构。ResNet在2015年的ImageNet大规模视觉识别挑战(ILSVRC)中获得了冠军,同时在分类、定位、检测和分割等任务上取得了前所未有的成绩。ResNet的关键创新是引入残差连接(residual connections)来解决深度神经网络中的梯度消失和退化问题。


(188条消息) 【人脸检测】MTCNN网络解析_码上游的博客-CSDN博客

(188条消息) 【详解】卷积神经网络(CNN)概念及大体流程_卷积神经网络流程图_码上游的博客-CSDN博客

 什么是卷积神经网络?

卷积神经网络结构包括:卷积层,池化层,全连接层。每一层有多个特征图,每个特征图通过一种卷积滤波器提取输入的一种特征,每个特征图有多个神经元。

卷积层:卷积神经网路中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。

卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。比如我们看一张猫的图片,可能看到猫的眼镜或者嘴巴就知道这是张猫片,而不需要说每个部分都看完了才知道,啊,原来这个是猫啊。所以如果我们可以用某种方式对一张图片的某个典型特征识别,那么这张图片的类别也就知道了。这个时候就产生了卷积的概念。举个例子,现在有一个4*4的图像,我们设计两个卷积核(卷积核也称为特征提取器,或者过滤器),看看运用卷积核后图片会变成什么样。

                                 激励层:对卷积层的输出结果进行一次非线性映射
                                              常用的激励函数:Sigmoid函数、Tanh函数、ReLU函数.
                                              CNN激励函数一般为ReLU,其特点为:收敛快、求梯度简单、较脆弱。

池化层: 池化层夹在连续的卷积层中间,有两个作用:

1、为了减少训练参数的数量,降低卷积层输出的特征向量的维度;

2、只保留最有用的图片信息,减少噪声的传递。

通常来说,池化方法一般有以下两种:

MaxPooling(最大池化):取滑动窗口里最大的值

AveragePooling(平均池化):取滑动窗口内所有值的平均值

通过上一层2 * 2的卷积核操作后,我们将原始图像由4 * 4的尺寸变为了3 * 3的一个新的图片。池化层的主要目的是通过降采样的方式,在不影响图像质量的情况下,压缩图片,减少参数。简单来说,假设现在设定池化层采用MaxPooling,大小为2 * 2,步长为1,取每个窗口最大的数值重新,那么图片的尺寸就会由3 * 3变为2 * 2(计算公式:输出边长=(输入边长–卷积核边长)/步幅+ 1;(3-2)+1=2)。从上例来看,会有如下变换:

接下来说一下Zero Padding:到现在为止,我们的图片由4 * 4,通过卷积层变为3 * 3,再通过池化层变化2 * 2,这只是一层卷积,如果我们再添加几层,那么图片岂不是会越变越小?这个时候我们就会引出“Zero Padding”(补零),它可以帮助我们保证每次经过卷积或池化输出后图片的大小不变,如,上述例子我们如果加入Zero Padding,再采用3*3的卷积核,那么变换后的图片尺寸与原图片尺寸相同,如下图所示:

通常情况下,我们希望图片做完卷积操作后保持图片大小不变,所以我们一般会选择尺寸为3 * 3的卷积核和1的zero padding,或者5 * 5的卷积核与2的zero padding,这样通过计算后,可以保留图片的原始尺寸。那么加入zero padding后的feature_map尺寸 =( width + 2 * padding_size - filter_size )/stride + 1。

全连接层: 两层之间所有神经元都有权重连接,通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的。

作用:全连接层在整个卷积神经网络起到“分类器”的作用。提取特征、进行分类。

这就是一个完整的卷积神经网络,如果想要叠加层数,一般也是叠加“Conv-Pooing",通过不断的设计卷积核的尺寸,数量,提取更多的特征,最后识别不同类别的物体。做完Max Pooling后,我们就会把这些数据“拍平”,丢到Flatten层,然后把Flatten层的output放到full connected Layer里,采用softmax对其进行分类。

1.1总结

CNN基本流程图:

1.什么是MTCNN网络?

MTCNN(多任务卷积神经网络)将人脸区域检测与人脸关键点检测放在了一起,总体可分为P-Net、R-Net、和O-Net三层网络结构。

MTCNN是由中国科学院深圳研究院在2016年提出的专门用于人脸检测的多任务神经网络模型。该模型主要由3个级联网络组成,分别为可以快速生成候选框的P-Net网络、进行候选框过滤的R-Net网络和生成最终边界框并且标出人脸特征点的O-Net网络。该模型主要运用了图像金字塔、非极大抑制(NMS)和边框回归技术(Bounding-Box Regression)。

MTCNN实现人脸检测与对齐在一个网络里实现了人脸检测与五点标定的模型,主要是通过CNN模型级联实现了多任务学习网络。整个模型分为三个阶段,第一阶段通过一个浅层的CNN网络快速产生一系列的候选窗口(P-Net网络);第二阶段通过一个能力更强的CNN网络过滤掉绝大部分非人脸候选窗口(R-Net网络);第三阶段通过一个能力更加强的网络找到人脸上面的五个标记点(O-Net网络)。

2.内部实现原理?

首先输入原始图片集,图片在进入3个级联网络前会通过图像金字塔技术对图片进行尺寸重新划分,将原图缩放为不同的尺度,从而构成图像金字塔;然后将这些不同尺寸的图片送入3个级联网络进行训练,这是为了让网络可以检测到不同大小的人脸而进行的多尺度检测。

在完成图像金字塔后,生成的图像会进入MTCNN的第一个网络层,即P-Net网络层。P-Net全称为Proposal Network,该网络也是一个全连接网络,对于上一步输入的图像,通过全卷积网络(FCN)初步提取图像特征并且给出初步的标定边框,这时会出现许多标定边框,因为P-Net会通过一个人脸分类器将可能为人脸的部分都打上边框。在该网络的最后会通过Bounding-Box Regression与NMS对刚才生成的边框进行初步筛查,丢弃不符合标准的标定边框。P-Net网络结构如图所示。

 从P-Net网络输出的标定边框的人脸区域会进入下一个网络,即R-Net网络进行处理。

R-Net全称Refine Network,该层网络从结构上讲就是一个基本的卷积神经网络,比P-Net多了一层全连接层,这使得对脸部特征点和边框的筛选将更为严格。

对网络中输入的值进行更加细化的选择,并且舍去大部分错误,该层也会利用人脸关键点定位器对人脸关键点进行定位以及边框回归,最后利用Bounding-Box Regression与NMS对结果作进一步优化,将可信度较高的人脸区域输出给下一层网络,即O-Net网络。R-Net网络的网络结构如图所示。

O-Net网络的全称为Output Network,该层网络基本结构与R-Net网络结构相似,多了一层卷积层,网络结构更加复杂,拥有更好的性能,模型优化也更好。在该层对输入图像进行人脸判别、人脸边框回归以及特征点定位,最后在图片中输出人脸区域的5个特征点。O-Net网络结构如图所示。

3.MTCNN网络实施流程? 

将原始图片输入MTCNN网络,让MTCNN网络可以准确地识别出人脸和关键点。然后通过检测到的5个关键点,再根据“三庭五眼”理论将人脸的眼睛、嘴巴和耳朵分为了3个区域,定义了左、右眼中心点连线与水平方向的夹角为q,眼部区域宽度为W,高度为H=w/2。从鼻尖点位C向左右嘴角连线作垂线,记垂距为D。嘴部区域上、下沿分别取该垂线及其延长线上D/2和3D/2处。这样在检测时可将这3个部分分开检测,不同的区域、不同的动作会产生不同的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/539230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二十六、搜索与图论——SPFA算法(单源最短路 + 负权边 + Bellman-Ford 时间复杂度优化)

SPFA算法主要内容 一、基本思路1、算法概念2、SPFA 算法步骤算法步骤注意事项 3、SPFA算法进行负环判断 二、Java、C语言模板实现SPFA 算法SPFA求负环 三、例题题解 一、基本思路 1、算法概念 概念: SPFA 算法是 Bellman-Ford算法 的队列优化算法的别称&#xff0…

〖大学生·技术人必学的职业规划白宝书 - 职业规划篇⑤〗- 利用职业能力模型拆解目标岗位

历时18个月,采访 850 得到的需求。 不管你是在校大学生、研究生、还是在职的小伙伴,该专栏有你想要的职业规划、简历、面试的答案。说明:该文属于 大学生技术人职业规划白宝书 专栏,购买任意白宝书体系化专栏可加入TFS-CLUB 私域社…

redis高级篇(2)---主从同步

一)搭建主从架构: 单节点Redis的并发能力是有限的,所以说要想进一步提高Redis的并发能力,就需要搭建主从集群,实现读写分离,因为对于Redis来说大部分都是读多写少的场景,更多的要进行读的压力,最基本都要是…

7.Redis管道/流水线

这里写目录标题 是什么?Redis pipelining 案例演示:小总结Pipeline与原生批量命令对比Pipeline与事务对比使用Pipeline注意事项 (Redis是一种基于客户端-服务端模型以及请求/响应协议的TCP服务。一个请求会遵循以下步骤: 1 .客户…

[云原生] 破局微服务通信:探索MegaEase服务网格的创新之路

文章目录 [云原生]破局微服务通信:探索MegaEase服务网格的创新之路解析MegaEase:服务网格领域的领先者 1. MegaEase的背景和使命拓展: 2. MegaEase的核心产品:EaseMesha. 动态服务发现与负载均衡b. 弹性和容错机制c. 安全性与身份认证d. 可观…

M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割

文章:M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation 作者:Enze Xie, Zhiding Yu, Daquan Zhou, Jonah Philion, Anima Anandkumar, Sanja Fidler, Ping Luo, Jose M. Alvarez 编辑&#xff1…

SpringBoot内置Tomcat 配置和切换

目录 SpringBoot内置Tomcat 配置和切换 基本介绍 内置Tomcat 的配置 application.yml配置 对上面代码解释一下方便理解 通过类来配置Tomcat 注销application.yml 对tomcat 配置,完成测试 切换WebServer, 演示如何切换成Undertow 修改pom.xml , 排除tomcat…

sqli_labs17 ——更新注入

输入用户名admin密码随便输入,发现回显提示是成功修改密码,更新就是指的更新密码 想要在用户栏测试闭合,但是都回显的是hacker 利用自己的字典查了一下也全部回显的一样的数据,那说明这个用户栏是设定了严格的过滤的,结…

前端3D技术概述

操作系统、编译原理、计算机图形学被传为程序员的三大浪漫,每个方向都易懂难深,但作为程序员对每个方向还是要有基本的认识和判断,毕竟贯穿虚拟和现实生活的桥梁是搭建在抽象之上的,这三大浪漫是抽象化的课代表。本次我们认识下计…

Spring 五大类注解、方法注解、对象注入简化 Bean 操作

目录 为什么要使用注解 配置扫描文件: 1.配置扫描路径 1. 五大类注解: 五大类注解有哪些? 1.1 Controller: 1.1.1 存储 Bean 1.1.2 读取 Bean 1.2 Service: 1.2.1 存储 Bean 1.2.2 读取 Bean 1.3 Repository&a…

Hadoop的基本概念和架构

Hadoop的基本概念和架构 学习路线 hadoop的基本概念和架构hadoop的安装和配置hadoop的HDFS文件系统hadoop的MapReduce计算框架hadoop的YARN资源管理器hadoop的高级特效,如HBase,Hive,Pig等hadoop的优化和调优hadoop的应用场景,如…

23种设计模式之组合模式(Composite Pattern)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将23种设计模式中的组合模式,此篇文章为一天学习一个设计模式系列文章,后面会分享其他模式知识。 如果文章有什么需要改进的地方还请大佬不…

跨平台应用开发进阶(六十三):微信小程序开发

文章目录 一、前言二、开发物料准备2.1 个性化小程序2.2 开发时如何调用API2.3 微信小程序开发常用组件库2.3.1 WeUI2.3.2 Vant Weapp2.3.3 iView Weapp2.3.4 ColorUI2.3.5 Wux Weapp2.3.6 TaroUI2.3.7 MinUI 三、创建一个UNI-APP项目四、进行调试4.1 启动微信开发者工具4.2 调…

网络基础进阶

1、交换机接口类型 Console口:也称为:串口接口,一般用于与PC连接,用于配置和监控交换机。百兆以太网接口:用于连接计算机和交换机之间的通信。Console到的网络接口:俗称交叉串口,是用于连接交换…

Day.js 常用方法

Day.js是一个极简的JavaScript库,可以为现代浏览器解析、验证、操作和显示日期和时间,文件大小只有2KB左右,下载、解析和执行的JavaScript更少。 官网:Day.js中文网 1. 安装 npm install dayjs --save 2.引入 3. 初始化日期 …

基于开源大模型Vicuna-13B构建私有制库问答系统

本教程专注在怎么使用已经开源的模型和项目,构建一个可以私有化部署的问答知识库,而且整体效果要有所保障。 主要工作包括: 选择基础模型,openAI,claude 这些商用的,或者其他的开源的,这次我们…

vue 全局注册--

注册全局-过滤器 filters 的 js 文件 /*** 格式化单位展示* param value* param unit* returns {string}*/const unitFormatter function (value , unit ) {value value || -return value ([, -].includes(value) ? : unit) }export default {unitFormatter }vue -ma…

如何使用ArcGIS进行字段连接

(本文首发于“水经注GIS”公号,关注公号免费领取地图数据 当我们的shapefile文件属性表中的数据不够丰富,而Excel表格中的数据很丰富的时候,我们可以通过两个数据之间的共有字段进行连接,这里为大家介绍一下ArcGIS中字…

五、easyUI中的datagrid(数据表格)组件

1.datagrid(数据表格)组件的概述 datagrid以表格形式展示数据,并提供了丰富的选择、排序、分组和编辑数据的功能支持。datagrid的设计用于缩短开发时间,并且使开发人员不需要具备特定的知识。它是轻量级的且功能丰富,…

MDM(移动设备管理策略系统)、MAM、MCM作用

目录 定义 MDM MAM MCM 作用 定义 MDM 移动设备管理是一种软件应用程序,用于管理企业中的终端,如笔记本电脑、智能手机、平板电脑等。随着越来越多的员工使用这些设备,各种形式和规模的企业现在都转向移动设备管理,以增强数据安全性并提高生产力。 Device Management…