卷积神经网络(CNN)原理与实现

news2025/1/12 0:49:25
  • 卷积神经网络(CNN)
    • 卷积神经网络原理
    • 卷积神经网络的数学推导
    • 卷积层反向传播算法数学推导
    • 卷积层实现代码

卷积神经网络(CNN)

卷积神经网络原理

卷积神经网络是一种用于图像、语音、自然语言等数据的深度学习模型,其核心思想是使用卷积操作提取输入数据的特征,从而实现数据分类、目标检测、图像分割等任务。

卷积操作是卷积神经网络的核心操作,它通过卷积核(也称为滤波器)对输入数据进行卷积运算,提取出输入数据的特征。具体来说,卷积操作对于每个位置,将卷积核中的值与输入数据的对应位置相乘,然后将所有乘积相加得到输出数据的对应位置的值。卷积核的大小、步长和填充方式都可以影响卷积操作的输出结果。

卷积神经网络通常包括卷积层、池化层、全连接层等多个层次。卷积层用于提取输入数据的特征,通过多个卷积核进行卷积操作,得到多个特征图(feature map)。池化层用于降低特征图的空间分辨率,减少计算量和参数数量。全连接层用于将特征图映射到目标类别,通常包含多个神经元,并使用softmax函数进行输出。

卷积神经网络在训练过程中通常使用反向传播算法进行梯度下降优化。反向传播算法可以通过将目标函数的梯度反向传递回网络中的每个神经元,计算每个神经元的梯度,并使用梯度下降更新网络参数,从而最小化目标函数。

卷积神经网络的数学推导

卷积神经网络(CNN)的核心操作是卷积(convolution),卷积的本质是信号处理中的一种数学运算,将两个函数进行叠加并积分,得到一个新的函数。

在CNN中,卷积的输入是一个二维矩阵(通常是图像)和一个卷积核(也称为滤波器)。卷积核是一个小的二维矩阵,大小通常为3x3或5x5,其内部的数值是需要通过训练学习得到的。
在这里插入图片描述

下面是卷积的数学推导过程:

设输入矩阵为 X ∈ R H × W X\in R^{H\times W} XRH×W,卷积核为 K ∈ R K h × K w K\in R^{K_h\times K_w} KRKh×Kw,其中 H H H表示矩阵的高度, W W W表示矩阵的宽度, K h K_h Kh表示卷积核的高度, K w K_w Kw表示卷积核的宽度。

在进行卷积操作时,将卷积核沿着输入矩阵的每个位置进行滑动,对应位置的元素相乘并相加,得到输出矩阵 Y ∈ R ( H − K h + 1 ) × ( W − K w + 1 ) Y\in R^{(H-K_h+1)\times(W-K_w+1)} YR(HKh+1)×(WKw+1)。具体来说,输出矩阵 Y Y Y的第 i i i行第 j j j列的元素为:

y i , j = ∑ m = 1 K h ∑ n = 1 K w x i + m − 1 , j + n − 1 k m , n y_{i,j}=\sum\limits_{m=1}^{K_h}\sum\limits_{n=1}^{K_w}x_{i+m-1,j+n-1}k_{m,n} yi,j=m=1Khn=1Kwxi+m1,j+n1km,n

其中, x i + m − 1 , j + n − 1 x_{i+m-1,j+n-1} xi+m1,j+n1表示输入矩阵 X X X的第 i + m − 1 i+m-1 i+m1行第 j + n − 1 j+n-1 j+n1列的元素, k m , n k_{m,n} km,n表示卷积核 K K K的第 m m m行第 n n n列的元素。

需要注意的是,在卷积操作时通常还会进行填充(padding)和步长(stride)的设置。填充是在输入矩阵的边缘添加一些额外的元素,使得卷积操作后输出矩阵的大小与输入矩阵相同;步长是在滑动卷积核时的间隔,可以控制输出矩阵的大小。

卷积神经网络通常会在卷积层后加入激活函数,如ReLU函数,来增加非线性能力。此外,卷积神经网络还可以通过池化(pooling)层来减小特征图的大小,从而减少计算量和参数数量。池化层通常采用最大池化(max pooling)或平均池化(average pooling)操作,对每个特征图的每个小区域进行取最大值或取平均值的操作,从而得到更小的特征图。

卷积神经网络的数学推导主要是通过卷积操作、激活函数和池化操作实现。在卷积神经网络中,每个卷积层通常包含多个卷积核,每个卷积核对应一个特征图(也称为卷积映射)。因此,每个卷积层输出的是多个特征图,这些特征图可以进一步传递到下一层进行计算。

在进行卷积神经网络的训练过程中,通常采用反向传播算法(backpropagation)来求解模型参数。反向传播算法基于梯度下降的思想,通过计算损失函数对模型参数的偏导数(梯度),从而不断更新模型参数,使得模型能够更好地拟合训练数据。

总之,卷积神经网络的数学推导涉及到卷积操作、激活函数和池化操作,这些操作是卷积神经网络的核心。在进行训练时,通常采用反向传播算法来求解模型参数,从而使得模型能够更好地拟合训练数据。

卷积层反向传播算法数学推导

卷积层反向传播算法是卷积神经网络中最为核心的算法之一,其目的是求解每个卷积核的权重参数和偏置项的梯度,从而进行模型参数的更新。

卷积层反向传播算法的数学推导主要分为两个步骤:前向传播和反向传播。前向传播通过卷积操作和激活函数对输入数据进行处理,得到输出数据;反向传播根据误差对输出数据的梯度,利用卷积操作对输入数据的梯度进行计算,进而求解每个卷积核的梯度。

下面是卷积层反向传播算法的数学推导:

假设输入数据为 X X X,卷积核为 W W W,偏置项为 b b b,输出数据为 Y Y Y。其中, X X X W W W 的维度分别为 C i n × H i n × W i n C_{in} \times H_{in} \times W_{in} Cin×Hin×Win C o u t × C i n × K h × K w C_{out} \times C_{in} \times K_h \times K_w Cout×Cin×Kh×Kw Y Y Y 的维度为 C o u t × H o u t × W o u t C_{out} \times H_{out} \times W_{out} Cout×Hout×Wout K h K_h Kh K w K_w Kw 分别表示卷积核的高度和宽度, H o u t H_{out} Hout W o u t W_{out} Wout 分别表示输出数据的高度和宽度。

前向传播的数学表达式为:

Y k , i , j = σ ( ∑ c = 1 C i n ∑ p = 1 K h ∑ q = 1 K w X c , i + p − 1 , j + q − 1 W k , c , p , q + b k ) Y_{k,i,j}=\sigma(\sum_{c=1}^{C_{in}}\sum_{p=1}^{K_h}\sum_{q=1}^{K_w}X_{c,i+p-1,j+q-1}W_{k,c,p,q}+b_k) Yk,i,j=σ(c=1Cinp=1Khq=1KwXc,i+p1,j+q1Wk,c,p,q+bk)

其中, σ \sigma σ 表示激活函数。这里使用了 k k k i i i j j j 分别表示第 k k k 个特征图、第 i i i 行、第 j j j 列的像素点。通过前向传播,我们可以得到输出数据 Y Y Y

反向传播的数学表达式为:

∂ L ∂ X c , i , j = ∑ k = 1 C o u t ∑ p = 1 K h ∑ q = 1 K w W k , c , p , q ∂ L ∂ Y k , i + p − 1 , j + q − 1 \frac{\partial L}{\partial X_{c,i,j}}=\sum_{k=1}^{C_{out}}\sum_{p=1}^{K_h}\sum_{q=1}^{K_w}W_{k,c,p,q}\frac{\partial L}{\partial Y_{k,i+p-1,j+q-1}} Xc,i,jL=k=1Coutp=1Khq=1KwWk,c,p,qYk,i+p1,j+q1L

∂ L ∂ W k , c , p , q = ∑ i = 1 H o u t ∑ j = 1 W o u t X c , i + p − 1 , j + q − 1 ∂ L ∂ Y k , i , j \frac{\partial L}{\partial W_{k,c,p,q}}=\sum_{i=1}^{H_{out}}\sum_{j=1}^{W_{out}}X_{c,i+p-1,j+q-1}\frac{\partial L}{\partial Y_{k,i,j}} Wk,c,p,qL=i=1Houtj=1WoutXc,i+p1,j+q1Yk,i,jL

∂ L ∂ b k = ∑ i = 1 H o u t ∑ j = 1 W o u t ∂ L ∂ Y k , i , j \frac{\partial L}{\partial b_k}=\sum_{i=1}^{H_{out}}\sum_{j=1}^{W_{out}}\frac{\partial L}{\partial Y_{k,i,j}} bkL=i=1Houtj=1WoutYk,i,jL

其中, L L L 表示损失函数。通过反向传播,我们可以求解出每个卷积核的梯度,从而进行模型参数的更新。

解释一下上述公式的含义:

首先,由于卷积操作是可微分的,因此可以通过链式法则来求解输入数据 X X X 的梯度。假设 L L L 表示损失函数,则 Y Y Y L L L 的梯度为 ∂ L ∂ Y k , i , j \frac{\partial L}{\partial Y_{k,i,j}} Yk,i,jL,因此可以通过卷积操作来计算 X X X L L L 的梯度。

反向传播中第一个公式表示, X c , i , j X_{c,i,j} Xc,i,j L L L 的梯度等于所有输出数据 Y k , i + p − 1 , j + q − 1 Y_{k,i+p-1,j+q-1} Yk,i+p1,j+q1 L L L 的梯度乘以对应的权重 W k , c , p , q W_{k,c,p,q} Wk,c,p,q 的和。其中, k k k 取遍所有特征图, p p p q q q 分别表示卷积核在 H H H W W W 方向上的偏移量。

反向传播中第二个公式表示, W k , c , p , q W_{k,c,p,q} Wk,c,p,q L L L 的梯度等于所有输入数据 X c , i + p − 1 , j + q − 1 X_{c,i+p-1,j+q-1} Xc,i+p1,j+q1 L L L 的梯度乘以对应的输出数据 Y k , i , j Y_{k,i,j} Yk,i,j 的和。同样地, k k k 取遍所有特征图, i i i j j j 分别表示输出数据在 H H H W W W 方向上的偏移量。(解释与公式矛盾)

反向传播中第三个公式表示, b k b_k bk L L L 的梯度等于所有输出数据 Y k , i , j Y_{k,i,j} Yk,i,j L L L 的梯度的和。

在实际应用中,通常会采用基于梯度下降的优化算法来进行模型参数的更新。在卷积层反向传播算法中,可以通过上述公式计算出每个卷积核的梯度,然后利用梯度下降算法对模型参数进行更新,从而提高模型的性能。

卷积层实现代码

下面是一个使用 NumPy 实现的简单 Conv2d 类的示例代码:

import numpy as np

class Conv2d:
    def __init__(self, in_channels, out_channels, kernel_size, stride=1, padding=0, bias=True):
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.kernel_size = kernel_size
        self.stride = stride
        self.padding = padding
        self.bias = bias

        # 初始化卷积核和偏置项
        self.weights = np.random.randn(out_channels, in_channels, kernel_size, kernel_size)
        self.bias_values = np.zeros(out_channels)

    def forward(self, x):
        # 计算输出大小
        out_h = int((x.shape[2] + 2*self.padding - self.kernel_size) / self.stride + 1)
        out_w = int((x.shape[3] + 2*self.padding - self.kernel_size) / self.stride + 1)

        # 对输入数据进行填充
        x = np.pad(x, [(0, 0), (0, 0), (self.padding, self.padding), (self.padding, self.padding)], mode='constant')

        # 初始化输出数据
        output = np.zeros((x.shape[0], self.out_channels, out_h, out_w))

        # 对每个通道进行卷积操作
        for i in range(self.out_channels):
            # 对每个像素进行卷积操作
            for h in range(out_h):
                for w in range(out_w):
                    # 计算卷积结果
                    conv = np.sum(x[:, :, h*self.stride:h*self.stride+self.kernel_size, w*self.stride:w*self.stride+self.kernel_size] * self.weights[i, :, :, :], axis=(1,2,3))
                    # 加上偏置项
                    conv += self.bias_values[i]
                    # 存储卷积结果
                    output[:, i, h, w] = conv

        return output

这个示例实现了一个简单的 Conv2d 类,其构造函数接受输入通道数、输出通道数、卷积核大小、步长、填充和偏置项等参数。在构造函数中,我们随机初始化了卷积核和偏置项。

forward 函数接受输入数据 x,并根据卷积核大小、步长和填充对输入数据进行填充。然后,我们对每个通道和每个像素进行卷积操作,并将结果存储在输出数据中。在卷积操作中,我们使用 NumPy 的数组乘法和求和操作实现了卷积运算,并加上了偏置项。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1476942.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

tmux 工具常用命令

Tmux 是一个终端复用器(terminal multiplexer),类似于 GNU screen 非常有用,属于常用的运维管理工具。 安装步骤 Ubuntu apt install tmux centos yum install tmux常用命令 以下所有快捷键,均是 ctrlb 按完之后先…

SpringBoot+Vue全栈开发-刘老师教编程(b站)(二)

创建SpringBoot项目 1.配置maven 出现bug java: 无法访问org.springframework.boot.SpringApplication 错误的类文件: /D:/maven/repository/org/springframework/boot/spring-boot/3.0.0/spring-boot-3.0.0.jar!/org/springframework/boot/SpringApplication.class 类…

react-router 源码之matchPath方法

1. 基础依赖path-to-regexp react-router提供了专门的路由匹配方法matchPath(位于packages/react-router/modules/matchPath.js),该方法背后依赖的其实是path-to-regexp包。 path-to-regexp输入是路径字符串(也就是Route中定义的path的值)&…

AI:145-智能监控系统下的行人安全预警与法律合规分析

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,希望…

vscode 设置打开终端的默认工作目录/路径

vscode 设置打开终端的默认工作目录/路径** 文章目录 vscode 设置打开终端的默认工作目录/路径**打开vscode,打开设置UI 或是设置JSON文件,找到相关设置项方式1:通过打开settings.json的UI界面 设置:方式2:通过打开设置settings.j…

应急响应靶机训练-Web1【题解】

前言 接上文,应急响应靶机训练-Web1。 此文为应急响应靶机训练-Web1【题解】篇 解题过程 视频版: 另外,师傅们可以关注一下我们的bilibili,以后跟应急响应相关的靶机都会在bilibili发布一份视频 应急响应靶机训练-Web1【题解…

【MySQL】主从同步原理、分库分表

主从同步原理 1. 主从同步原理 MySQL 经常先把命令拷入硬盘的日志,再执行日志的命令,这样的好处: 日志的位置固定,拷入硬盘的开销不大;将命令先准备好,而不是边读边执行,性能更好,…

TCGA临床及肿瘤信息解读

TCGA临床信息各英文列解读 地址:https://docs.gdc.cancer.gov/Data_Dictionary/viewer/#?viewtable-entity-list&anchorclinical 一些用药 Cisplatin:顺铂,顺铂的作用机制主要通过与DNA结合,形成DNA-顺铂加合物&#xff0…

练习 2 Web [ACTF2020 新生赛]BackupFile 1

[ACTF2020 新生赛]BackupFile 1 Web常规题目 首先尝试查找常见的前端页面index.php之类的,没找到 题目有个“BackupFile”——备份文件 尝试用工具遍历查找相关的文件 御剑没扫出来,搜索搭建好dirsearch后,扫出来的index.php.bak 扫描工…

【4.3计算机网络】网络规划与设计

目录 1.网络规划2.逻辑网络设计3.物理网络设计 1.网络规划 需求分析->通信规范分析->逻辑网络设计->物理网络设计->实施阶段 2.逻辑网络设计 3.物理网络设计 例题1: 解析:选A。 例题2: 解析:选A。 例题3. 解析&am…

2024年小程序云开发CMS内容管理无法使用,无法同步内容模型到云开发数据库的解决方案,回退老版本CMS内容管理的最新方法

一,问题描述 最近越来越多的同学找石头哥,说cms用不了,其实是小程序官方最近又搞大动作了,偷偷的升级的云开发cms(内容管理)以下都称cms,不升级不要紧,这一升级,就导致我…

uniapp:启动图 .9png 制作教程

1、工具安装:自行下载Android Studio 2、制作.9png 注意上图3条黑线的位置,意思是:标注黑线的位置可以进行缩放。 对其大多数启动图来说,标注以上3条黑线即可。

Sora的潜力与影响:对视频制作、广告、娱乐等行业的深度解析

随着技术的飞速发展,OpenAI推出的Sora模型已经引起了广泛关注。作为一款强大的视频生成工具,Sora不仅改变了视频制作的传统模式,更对广告、娱乐等多个行业产生了深远影响。本文将深度解析Sora的潜力与影响,探讨其在视频制作、广告…

JVM之CMS垃圾收集器详解

CMS垃圾收集器 CMS回收流程 官网: https://docs.oracle.com/javase/8/docs/technotes/guides/vm/gctuning/cms.html#concurrent_mark_sweep_cms_collector CMS(Concurrent Mark Sweep)收集器是一种以获取 最短回收停顿时间为目标的收集器。 采用的是"标记-清除…

重拾前端基础知识:CSS3

重拾前端基础知识:CSS3 前言边框圆角阴影图片 背景渐变文本字体多列动画与过渡2D 转换3D 转换过渡动画 网格布局弹性盒子(重点)父元素设置子元素设置 响应式设计设置 Viewport构建响应式网格视图12栅格媒体查询 案例讲解图片按钮分页 浏览器支…

面试数据库篇(mysql)- 10事务中的隔离性是如何保证

锁:排他锁(如一个事务获取了一个数据行的排他锁,其他事务就不能再获取该行的其他锁mvcc : 多版本并发控制MVCC 全称 Multi-Version Concurrency Control,多版本并发控制。指维护一个数据的多个版本,使得读写操作没有冲突 MVCC的具体实现,主要依赖于数据库记录中的隐式字段…

进程间通信的常见方式

进程间通信是计算机系统中不同进程之间进行数据交换和共享信息的方式。 父子进程之间其他地址空间不一样,但共享同一块内核空间。进程间通信的本质还是通过内核开辟缓冲区,一个进程写,一个进程读这样的工作原理。 常见的通信方式包括&#x…

一键安装|卸载 mysql 8.2.0 shell脚本

场景:为了在无网、外网 mysql 安装方便,这里分享一个自己编写得 shell脚本 这里以当前最新版 mysql 8.2.0;centos-7 二进制包下载: 下载地址 mysql_install.sh #!/bin/bash # 解压安装包 tar -xf mysql-8.2.0-linux-glibc2.17-x8…

Unity - 相机画面为黑白效果

一、 在Hierarchy中创建一个Global Volume,并设置它为局部作用 二、 将场景出现的作用域范围缩小至相机所在位置,将相机包含即可。 三、添加覆盖组件Color Adjustments,并将Saturation直接拉为-100 。 此时,相机拍摄画面为黑白,场景视图中…

ifcplusplus 示例 函数中英文 对照分析

有需求,需要分析 ifc c渲染,分析完,有 230个函数,才能完成一个加载,3d加载真的是大工程! 函数中英文对照表,方便 日后开发,整理思路顺畅!!!&#…