深度学习神经网络笔记--卷积神经网络

news2024/10/12 4:22:18
  • 为什么要用卷积
    • 捕捉特征,如文末的图)
    • 不受位置影响(左右,前后,上下)
    • 可以参考下图:
  • 卷积操作
    • 可移动的小窗口与图像数据逐元素相乘后相加
    • 小窗口是滤波器,卷积核,(权重矩阵)
    • 需要注意的问题:
      • stride:步长
      • 卷积核的个数:决定输出的depth,卷积核个数
      • 填充值zerp-padding:外圈补0
        • 为什么要补零:确保卷积核能够覆盖输入图像的边缘区域,同时保持输出特征图的大小
  • 卷积神经网络构造:
    • input Layer:原始图像数据:三个颜色通道组成二维矩阵,表示像素强度值,进行预处理
      • 去均值:把图像位置拉回坐标系原点
      • 归一化:类似正态标准化,线性代数便准化,数据分为变成0-1
      • PCA主成分分析数据降维,白化:降低输入数据的冗余性。
    • Conv Layer:图像与卷积核卷积操作:
      • 输出尺寸=(样本尺寸-过滤器尺寸+2*填充)/步幅+1
      • 保持画幅不变的步幅为1的零填充值:(K-1)/2
    • Relu Layer:应用激活函数(ReLU)引入非线性(为了使网络学习复杂特征)实际上其实就是Relu(x) = max(0,x),当然会有一些其他变体。
    • (要多层堆叠:提取更高级被的特征,深层次特征有更复杂的模式)
    • Pooling Layer:减小特征图的大小来减少计算复杂性,有助于提取重要特征。(图像处理大致是压缩图像)
      • 特征不变
      • 特征降维
      • 防止过拟合
      • 选择池化窗口内的最大值(maxPooling或平均值averagePooling来实现
    • FC全连接与输出:处理分类标签,回归值,其他任务结果。

常见的 CNN 模型(一些链接是其他读起来有帮助的博主写的,一些是原论文)

  1. LeNet
    • 特点:最早的卷积神经网络之一,结构相对简单,包含卷积层、池化层和平坦层。
    • 用途:主要用于手写数字识别,如 MNIST 数据集。
  2. AlexNet
    • 特点:在 2012 年的 ImageNet 大赛中获得冠军,引入了 ReLU 激活函数和 Dropout 正则化技术,提高了模型的深度和精度。
    • 用途:图像分类、目标检测等任务。
  3. VGGNet
    • 特点:通过堆叠多个小尺寸的卷积核(如 3×3)来代替较大的卷积核,使得网络更深且参数更少。
    • 用途:图像分类、图像风格转移、特征提取等。
  4. GoogLeNet(Inception 网络)
    • 特点:采用了 Inception 模块,该模块允许网络在同一层中学习不同尺度的特征,并通过 1×1 卷积减少通道数来降低计算成本。
    • 用途:图像分类、目标检测等。
  5. ResNet(残差网络)
    • 特点:引入了残差块(Residual Block),通过跳线连接(Skip Connection)解决了深层网络中的梯度消失问题。
    • 用途:图像分类、目标检测、人脸识别等。
  6. DenseNet
    • 特点:每一层都与前面的所有层相连,通过密集连接的方式最大化特征重用,减少参数数量,同时增强特征传播。
    • 用途:图像分类、目标检测等。
  7. MobileNet
    • 特点:为移动设备设计,通过深度可分离卷积(Depthwise Separable Convolution)来减少计算量。
    • 用途:在嵌入式设备上实时处理图像和视频数据。
  8. SegNet
    • 特点:专为图像分割设计,使用编码器-解码器结构,编码器通常是一个预训练的 CNN,如 VGG-16,解码器负责从编码器的输出中重建像素级别的标签。
    • 用途:语义分割。

(有特定的需求可以通过链接调转或者自行获取论文代码看博客等方式再仔细研究)

上述内容是结合博客,论文等内容总结归纳的自己的学习笔记

无商业用途

如果侵犯到您的权利请联系我删除,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206861.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

毕业设计之—基于ManTra-Net的图像篡改检测方法研究与应用实现

1.摘要 随着互联网、社交媒体和简易图像操作工具的普及,图像篡改带来的问题日益严重。为了解决这一问题,研究者们利用深度卷积神经网络来检测图像篡改并定位篡改区域。为此我们训练了一个ManTra-Net模型,该模型以TensorFlow为后端&#xff0c…

什么是网络安全等级保护?企业如何建立安全系统?一篇带你快速了解→:

等保测评的定义与目的 等保测评旨在评估信息系统的安全性,并根据评估结果给予相应的安全等级。该等级反映了信息系统在保护国家安全、经济安全、社会公共利益以及个人合法权益方面的能力。通过等保测评,可以确保信息系统符合国家法律法规的要求&#xf…

DSP CMD文件使用

背景描述: 在CCS编译代码时出现如下警告 解决方法: 找到cmd文件(这里是用的系统自动生成的),在Section部分找到对应的核 #ifdef CORE7.text > CORE7_L2_SRAM.stack > CORE7_L2_SRAM.bss > CORE7_L2_SRAM.cio &g…

(28)QPSK调制信号使用矩形脉冲成形的误符号率和误比特率MATLAB仿真

文章目录 前言一、系统模型说明二、MATLAB仿真代码三、MATLAB仿真结果四、仿真结果分析 前言 在QPSK通信系统仿真时,经常会加入调制信号的脉冲成形模块,本文将讨论在这种情况下信道的信噪比该如何设置,并给出MATLAB仿真代码,画出…

滑动窗口_⽔果成篮找到字符串中所有字⺟异位词

⽔果成篮 904. 水果成篮 - 力扣(LeetCode) 相当于求数字种类不超过2的最长字字符串 我们先看一看例4.从第一个元素开始最长字符串3331,下一次从第二个位置数吗?没必要,因为只有当字符串中数字种类变为1时,…

库的相关使用

1.1 库的概念 库是由.c文件编译生成的二进制文件。 库的内部就是各种函数的实现。 windows中库的格式: xxx.dll -- 动态库 xxx.lib -- 静态库 linux中库的格式: libxxx.a --- 静态库 libxxx.so --- 动态库 2.1 静态库的制作和使用 2.1.1 静态库的…

9.2分新剧教你如何面对生活的苦涩与温暖

如果你最近在寻找一部既温暖治愈,又能引发思考的好剧,《住宅区的两人》无疑是个不错的选择。虽然没有大起大落的情节,但它却用温柔的叙事方式和细腻的情感刻画赢得了观众的心,目前在豆瓣上拿下了9.2的高分。这部剧带给人的不仅仅是…

图片懒加载(lazyload )

图片懒加载 懒加载(Lazy Loading)是一种计算机编程技术,用于延迟初始化对象或资源,直到它们实际需要使用时才进行加载或初始化。这种技术可以提高程序的启动速度和性能,减少不必要的资源消耗,特别是在处理…

基于头脑风暴优化的模糊PI控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 头脑风暴优化(Brain Storm Optimization, BSO)是一种受人类集体创新过程启发的群体智能算法。它通过模拟团队成员之间的信息交流和想法生成来寻找最优解…

【含开题报告+文档+PPT+源码】基于SpringBoot+Vue医药知识学习与分享平台的设计与实现

开题报告 本论文介绍了一个名为岐黄之家的知识学习与分享平台的设计与实现。该平台旨在为用户提供一个交流、学习和分享医药知识的空间。论文首先介绍了中医院交流平台的背景和相关研究现状。随着互联网的快速发展,中医学的学习和交流需求逐渐增多,因此…

77.【C语言】EOF的解释

1.cplusplus网的介绍 在这几篇文章提到过,但没有详细阐释过EOF的细节 24.【C语言】getchar putchar的使用E4.【C语言】练习:while和getchar的理解32.【C语言】详解scanf 75.【C语言】文件操作(3) cplusplus网的介绍 点我跳转 翻译 常量 EOF 文件结束(End-Of-Fi…

新版Win32高级编程教程-学习笔记01:应用程序分类

互联网行业 算法研发工程师 目录 新版Win32高级编程教程-学习笔记01:应用程序分类 控制台程序 强烈注意 窗口程序 启动项 程序入口函数 库程序 静态库 动态库程序 几种应用程序的区别 控制台程序 本身没有窗口,其中的doc窗口,是管…

大数据之——VWare、Ubuntu、CentOs、Hadoop安装配置

前言:这里很抱歉前几期考研专题以及PyTorch这些内容都没有更新,并不是没有在学了,而是事太鸡儿多了,前不久刚刚打完华为开发者比赛,然后有紧接着高数比赛、考研复习,因此这些后续文章都在草稿状态中&#x…

yolov8-melodic-cam-anconda环境配置及目标检测

1、基础环境安装 安装配置cuda、Anconda等环境,具体安装参考如下: https://blog.csdn.net/weixin_45702256/article/details/142555187 2、torch安装 下载链接:https://pytorch.org/ 根据配置下载对应版本,CUDA11.4 可用11.3下…

【c数据结构】队列详解!(模拟实现、OJ练习实操)

队列的概念 队列就像排队,先进先出,zz先到先得(队头的人先出去,队尾的人排在最后出去) 对比栈 队列示意图 概念:只允许在⼀端进⾏插⼊数据操作,在另⼀端进⾏删除数据操作的特殊线性表&#xff…

68 Netty

68 Netty 参考资料 【硬核】肝了一月的Netty知识点 概念 Netty 是一个高性能、异步事件驱动的网络应用框架,简化了 Java 网络编程,适用于构建高效、可扩展的网络服务器和客户端。 Netty 是基于 Java NIO 的异步事件驱动的网络应用框架,使…

访问远程桌面或共享文件夹,输入正确凭证,但提示登录没有成功或者用户名密码不正确

可以在目标机器试试以下方法: winR 打开 "gpedit.msc" 本地组策略编辑器,导航到 计算机配置 > Widnows 设置 > 安全设置 > 本地策略 > 安全选项 找到 网络访问:本地账户的共享和安全模型,把 仅来宾 改为 …

介绍各种编程语言

记得点个赞再看哦 常见的编程语言 在当今的计算机编程领域,有许多种编程语言,以下是一些常见的编程语言: Python:是一种代表简单思想的语言,具有极其简单的语法,是FLOSS(自由/开放源码软件&…

简单解析由于找不到xinput1_3.dll,无法继续执行代码的详细解决方法

电脑上突然跳出“由于找不到xinput1_3.dll,无法继续执行代码”的提示,这着实令人心烦,特别是当你正着急使用相关软件或者程序的时候。别担心,其实有五种科学有效的解决办法。大家得清楚,xinput1_3.dll是一个在众多软件…

快速总结HAT

HAT:Activating More Pixels in Image Super-Resolution Transformer 图像恢复(Image restoration)是计算机视觉中的一个经典问题,它的目的是从给定的低质量(LQ)输入重建高质量(HQ)图像。 在SwinIR基础上…