[PyTorch][chapter31][卷积]

news2025/1/11 2:39:26

前言:

      卷积神经网络 是 计算机视觉里面应用非常广泛的一个模型。

      卷积神经网络 成功案例 人脸识别,指纹识别等应用.

      卷积的本质是图像的特征提取, 在冈萨雷士版本《数字图像处理》处理有专门的章节讲解

各种卷积核,在通讯原理里面,卷积主要用于数字信号调制成模拟信号,信号采样。

   卷积神经网络的特征提取思想跟 传统的数字图像 处理里面的SURF,SIFT 算法很像。

目录:

      1: 图片表示

      2:  80年代DNN 问题   what's wrong with Linear

      3:  感受野 Receptive Field

      4:  卷积核


一  图片表示

     我们常处理的图片分为RGB 图片和 黑白图片。

1.1  黑白图片

      MINIST手写数字识别 

    28*28 的Martix,矩阵里面的元素 取值范围 0-255, 代表对应位置的像素点的灰度值。

可以通过图像二值化算法把该值变换为0-1范围内 

1.2 彩色图片

  如常用的RGB 图像

  如果忽略alpha 通道,剩余3个通道 R, G,B

Python 有Image 库可以操作该图像,具体如下示例

# -*- coding: utf-8 -*-
"""
Created on Fri May  5 16:37:52 2023

@author: chengxf2
"""

from PIL import Image

img = Image.open("D:\\AI\\img\\1.jpg")

#​返回两个元素,宽和高。im.size ⇒ (width, height)
width, height = img.size[0],img.size[1]
im2 = Image.new("RGB",img.size, "white")

for h in range(height):
    for w in range(width):
        #​返回给定位置的像素
         pix = img.getpixel((w,h))
         #​修改给定位置的像素
         r,g,b = pix[0],pix[1],pix[2]
         if r>125 and r-20>g and r-20>b:
             im2.putpixel((w,h),(r,0,0))

im2.show()

二 80年代DNN 问题   what's wrong with Linear

   问题: 参数量太大

  这里重点介绍一下CNN 诞生的原因

 以MNITST 手写数字识别,输入数据为28*28=784的一张图像

常用如下的DNN结构,进行识别处理(下图少画了一个隐藏层)

        DNN 处理的问题:

        计需要参数量太大,按照DNN结构y=w*x

      则需要的权重系数个数

     W^1=784*256=200704

    W^2=256*256=65536

   W^3=256*256=65536 

  W^4=256*256=65536

  W^5=256*10=2560

  则需要的参数量为

  W=(W^1+W^2+W^3+W^4+W^5)/1024=390K

   如果每个参数用4字节的浮点数存储,则

 需要内存  =390k*4/1024=1.6MB

 在80年代,处理器只有几十KB,这个网络参数无法装入内存中.

后来为了解决该问题,提出了感受野的概念(卷积),降低了网络

运行的参数量


三 感受野 Receptive Field

 

如上图 有很多物品,小男孩一眼关注到的是局部蛋糕,

然后才会慢慢看到其它的物品。

基于上述思想,为了解决参数量过大问题(早期) 后来提出了一种基于权值共享的感受野概念,比如LeNet-5

比如原来DNN 网络: 输入层到隐藏层 

W^1=784*256=200704

 这里面隐藏层256,使用共同的3*3卷积核(权值系数),

则只需要 W^1=9,极大的降低了参数量

如下图,对于隐藏层每个节点

全连接层 权限系数个数为784

卷积层    权值系数个数为9个

 


四  卷积操作(Convolution Operation)

  卷积定义:

     设 f(x), g(x) 是R1上的两个可积分函数,作积分

       y(t)=\int f(\tau)g(t-\tau)d \tau

   《数字图像处理》有详细介绍各种卷积卷积核,主要是用于图像的特征提取(灰度平均值,边缘,纹理等特征)传统数字图像的卷积核里面的权重系数是固定不变的,但是在深度学习里面

卷积核里面的权重系数是通过训练学习得到的.

如下图

  

   

卷积运算

  c=1*0.5+1*0.5+1*0.5+1*0.5+1*0.5+1*0.5+1*0.5+1*0.5-4*0=4

 例2 

 

f(\tau) 函数看作卷积核

  g(t-\tau) 看作图像向左移位,则卷积后矩阵里面

的元素,就是每次移位t 步后,卷积核和图像重叠的面积.

参考:

课时61 什么是卷积-1_哔哩哔哩_bilibili

https://zhuanlan.zhihu.com/p/553987644

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/502482.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MOD09A1、MYD09A1 文件说明

总体介绍 文件全称为 MODIS Terra/Aqua Surface Reflectance 8-Day L3 Global 500 m。文件名称的示例为 “MOD09A1.A2000337.h11v05.005.2006342055602.hdf”。下载下来的 hdf 包括 13 个子数据集,一个 tile 包括 2400*2400 个像元。各数据集的性质如下表所示。 Sci…

51单片机基础实验1

一.51单片机 51单片机,也称为AT89C51,是一种基于Intel 8051架构的8位单片机。它是广泛应用于嵌入式系统和微控制器领域的常见芯片之一。其具有高度灵活性、可编程性和可靠性,因此被广泛应用于各种应用场景中。 51单片机的主要特点包括&…

三十、组播技术——IGMP、IGMP-snooping、PIM-DM、PIM-SM

文章目录 组播概述1、IP组播通信概念2、组播和单播ip地址3、组播MAC4、组播应用场景5、PIM、IGMP、IGMP-snooping 一、IGMP 协议二、PIM DM(密集模式)1、配置示例如下:2、PIM DM的局限性 三、PM SM(稀疏模式) 组播概述…

【python学习】基础篇-文件与系统-os 模块及 os.path 相对路径与绝对路径

在 Python 中,内置了os 模块及其子模块 ospath,用于对目录或文件进行操作。 在使用 os 模块或者 os.path 模块时,应首先使用 import 语句将其导入,然后才可以使用它们提供的函数或方法。 1、常用操作目录函数 2.相对路径与绝对路…

如何手写一个支持H.265的高清播放器

概述 音视频编解码技术在当前的互联网行业中十分热门,特别是高清视频播放器的开发,其中包括4K、8K等超高清分辨率的播放器,具有极高的市场需求和广泛的应用场景。H265编码技术更是实现高清视频压缩的重要手段之一。如果想要掌握音视频编解码…

微服务部署:蓝绿发布、滚动发布、灰度发布、金丝雀发布

前言 在项目迭代的过程中,不可避免需要上线。上线对应着部署,或者重新部署;部署对应着修改,修改则意味着风险。 1.蓝绿发布(Blue/Green Deployment) ①定义 蓝绿部署是不停老版本,部署新版本然后进行测试。确认OK后将流量切到新…

ADSP21489之CCES开发笔记(十一)

一、主模式固件加载: 1、激活SPICLK信号,并将SPI_FLG0_O引脚拉低。 2、将读取命令0x03和24位地址0x000000写入从设备。如图24-4所示。 图24-4 二、PCAG时钟选择与配置。 1、来源晶振 2、来源Pin脚 其中来源Pin脚配置PCAG时,需将PCG_CTLx1上加…

如何生成api接口获取宝贝商品详情,商品详情接口,产品详情

API (Application Programming Interface)是指应用程序接口,它是一种通过编写一组统一的规则,开发一个软件来与其他应用程序进行通讯的技术。API可以方便应用程序之间的交流和数据共享,以及增强应用程序的功能。 在现代应用程序中&#xff0…

23.自定义指令

像是 v-if,v-for,v-model 这些是官方指令,vue允许开发者自定义指令 目录 1 mounted 1.1 基本使用 1.2 第一个形参 1.3 第二个形参 2 updated 3 函数简写 4 全局自定义指令 1 mounted 当指令绑定到元素身上的时候,就会自动触发mounted()…

MySQL---基本操作DQL(基本查询语法,算术运算符,比较运算符,逻辑运算符,位运算符)

1. 基本查询语法 select [all|distinct] <目标列的表达式1> [别名], <目标列的表达式2> [别名]... from <表名或视图名> [别名],<表名或视图名> [别名]... [where<条件表达式>] [group by <列名> [having <条件表达式>]] [o…

【Mysql】数据更新过程redo log、脏页 到磁盘文件

简介 Mysq 执行一条SQL记录时&#xff0c;会首先将数据写入 redo log&#xff0c;然后更新到内存上&#xff0c;等到满足特定条件之后&#xff0c;才将数据写入到数据库磁盘文件。 redo log也保存在磁盘上&#xff0c;和数据库磁盘文件的区别&#xff0c;在于写入的方式。red…

asp.net+sqlserver企业财务管理系统

1 系统概述5 1.1 研究的背景5 1.2 研究的意义5 1.3 主要研究内容6 2 系统开发环境6 2.1开发工具介绍6 2.1.1 Visual Studio介绍6 2.1.2 SQL Server介绍7 2.1.3 IIS介绍8 2.2 动态网站技术介绍8 2.3开发模式B/S介绍8 3 需求分析9 3.1 需求分析9 3.1.1系统用户需求9 3.1.2系统功能…

Vue学习笔记2 - Vue常用指令

上一章 【Vue学习笔记2 -naxVue是什么 】讲了Vue的基本概念。 本章来学习一下Vue常用指令。 1&#xff0c;v-text 绑定文本 2&#xff0c;v-html 绑定 html 3&#xff0c;v-for for循环 4&#xff0c;v-show 显示/隐藏 5&#xff0c;v-if/v-esle-if/v-else 条件式 6&…

open3d 源码阅读octree_*.py

目录 1. 从点云中创建octree 2. 从体素网格中创建octree 3. 遍历octree 1. 从点云中创建octree octree_find_leaf.py convert_from_point_cloud 建立octree&#xff0c;查询点云中某个点在octree中哪个叶子节点。 # --------------------------------------------------…

Redis(连接池)

SpringBoor环境下使用redis连接池 依赖&#xff1a; <dependencies><dependency><groupId>com.yugabyte</groupId><artifactId>jedis</artifactId><version>2.9.0-yb-11</version></dependency><dependency><…

乘势而上,在社科大能源管理硕士项目的引领下,更上一层楼

很多人都说&#xff0c;生活的起点不重要&#xff0c;重要的是你最后抵达到哪里。进入职场的门槛后&#xff0c;我们一路过关打怪才拥有了如今的职位。在享受喜悦的同时&#xff0c;有为未来做规划吗&#xff0c;乘势而上才是明智的抉择&#xff0c;让我们在社科大能源管理硕士…

Seata 1.6.1整合SpringCloud实现分布式事务(含代码)

一、环境: seata 1.6.1spring cloud :2021.0.6spring cloud alibaba: 2021.0.4.0nacos: 2.2.1mysql: 8二、部署seata-server 2.1 启动nacos 这里不再赘述 2.2 下载seata-server 下载地址:https://seata.io/zh-cn/blog/download.html 下载后解压,即为seata-server端,提…

摄影测量-笔记(理解篇)

1、基本原理 基于测量中的前方交会原理。 在两个已知点上分别拍摄一张影像&#xff0c;通过人眼观测&#xff08;一只眼睛观察一张影像上的同名点a1和a2&#xff09;&#xff0c;就能得出空间对应点A的坐标。空间景物通过传感器构像&#xff0c;再用人眼观察构像的像片产生生…

GPT 学术优化版使用指南 -- GPT Academic

目录 1. 项目介绍 1.1 简介 1.2 功能说明 2. 环境配置 2.1 本地安装