【机器学习】CNN的数学基础

news2024/9/20 20:40:25

鑫宝Code

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础
💫个人格言: "如无必要,勿增实体"


文章目录

  • CNN的数学基础
    • 1. 引言
    • 2. 卷积运算
      • 2.1 连续卷积
      • 2.2 离散卷积
      • 2.3 互相关
    • 3. 激活函数
      • 3.1 ReLU (Rectified Linear Unit)
      • 3.2 Sigmoid
      • 3.3 Tanh
    • 4. 池化操作
      • 4.1 最大池化
      • 4.2 平均池化
    • 5. 损失函数
      • 5.1 均方误差(MSE)
      • 5.2 交叉熵
    • 6. 反向传播算法
      • 6.1 链式法则
      • 6.2 卷积层的反向传播
      • 6.3 池化层的反向传播
    • 7. 优化算法
      • 7.1 随机梯度下降(SGD)
      • 7.2 动量法
      • 7.3 Adam
    • 8. 正则化技术
      • 8.1 L2正则化
      • 8.2 Dropout
    • 9. 初始化方法
      • 9.1 Xavier初始化
      • 9.2 He初始化
    • 10. 结论

CNN的数学基础

1. 引言

卷积神经网络(Convolutional Neural Network,CNN)作为深度学习中的重要模型,其强大性能背后蕴含着丰富的数学原理。本文将深入探讨CNN的数学基础,包括卷积运算、激活函数、池化操作、反向传播算法以及优化方法等核心概念。通过对这些数学基础的理解,我们可以更好地把握CNN的本质,为进一步优化和创新CNN模型奠定基础。
在这里插入图片描述

2. 卷积运算

2.1 连续卷积

在数学中,连续函数的卷积定义如下:

( f ∗ g ) ( t ) = ∫ − ∞ ∞ f ( τ ) g ( t − τ ) d τ (f * g)(t) = \int_{-\infty}^{\infty} f(\tau)g(t-\tau)d\tau (fg)(t)=f(τ)g(tτ)dτ

其中, f f f g g g是两个可积函数, ∗ * 表示卷积操作。

2.2 离散卷积

在CNN中,我们主要关注离散卷积。对于二维离散卷积,其定义为:

( I ∗ K ) ( i , j ) = ∑ m ∑ n I ( m , n ) K ( i − m , j − n ) (I * K)(i,j) = \sum_{m}\sum_{n} I(m,n)K(i-m,j-n) (IK)(i,j)=mnI(m,n)K(im,jn)

其中, I I I是输入(如图像), K K K是卷积核(或称滤波器)。

2.3 互相关

实际上,CNN中使用的"卷积"操作更准确地说是互相关(cross-correlation):

( I ⋆ K ) ( i , j ) = ∑ m ∑ n I ( i + m , j + n ) K ( m , n ) (I \star K)(i,j) = \sum_{m}\sum_{n} I(i+m,j+n)K(m,n) (IK)(i,j)=mnI(i+m,j+n)K(m,n)

这里 ⋆ \star 表示互相关操作。与真正的卷积相比,互相关不需要将卷积核翻转。

在这里插入图片描述

3. 激活函数

激活函数为神经网络引入非线性,增强模型的表达能力。

3.1 ReLU (Rectified Linear Unit)

ReLU是目前最常用的激活函数之一:

f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)

其导数为:

f ′ ( x ) = { 1 , if  x > 0 0 , if  x ≤ 0 f'(x) = \begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases} f(x)={1,0,if x>0if x0

3.2 Sigmoid

Sigmoid函数将输入映射到(0, 1)区间:

σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+ex1

其导数为:

σ ′ ( x ) = σ ( x ) ( 1 − σ ( x ) ) \sigma'(x) = \sigma(x)(1 - \sigma(x)) σ(x)=σ(x)(1σ(x))

3.3 Tanh

Tanh函数将输入映射到(-1, 1)区间:

tanh ⁡ ( x ) = e x − e − x e x + e − x \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} tanh(x)=ex+exexex

其导数为:

tanh ⁡ ′ ( x ) = 1 − tanh ⁡ 2 ( x ) \tanh'(x) = 1 - \tanh^2(x) tanh(x)=1tanh2(x)

4. 池化操作

池化操作用于降低特征图的空间分辨率,减少参数数量和计算量。

4.1 最大池化

最大池化选择池化窗口内的最大值:

y i j = max ⁡ ( m , n ) ∈ R i j x m n y_{ij} = \max_{(m,n) \in R_{ij}} x_{mn} yij=(m,n)Rijmaxxmn

其中, R i j R_{ij} Rij是以 ( i , j ) (i,j) (i,j)为中心的池化窗口。

4.2 平均池化

平均池化计算池化窗口内的平均值:

y i j = 1 ∣ R i j ∣ ∑ ( m , n ) ∈ R i j x m n y_{ij} = \frac{1}{|R_{ij}|} \sum_{(m,n) \in R_{ij}} x_{mn} yij=Rij1(m,n)Rijxmn
在这里插入图片描述

5. 损失函数

损失函数衡量模型预测与真实标签之间的差距。

5.1 均方误差(MSE)

对于回归问题,常用均方误差:

L M S E = 1 N ∑ i = 1 N ( y i − y ^ i ) 2 L_{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2 LMSE=N1i=1N(yiy^i)2

其中, y i y_i yi是真实值, y ^ i \hat{y}_i y^i是预测值, N N N是样本数量。

5.2 交叉熵

对于分类问题,常用交叉熵损失:

L C E = − ∑ i = 1 C y i log ⁡ ( y ^ i ) L_{CE} = -\sum_{i=1}^C y_i \log(\hat{y}_i) LCE=i=1Cyilog(y^i)

其中, C C C是类别数, y i y_i yi是真实标签(one-hot编码), y ^ i \hat{y}_i y^i是预测概率。

6. 反向传播算法

反向传播是训练神经网络的核心算法,用于计算损失函数对各层参数的梯度。

6.1 链式法则

反向传播基于链式法则:

∂ L ∂ w = ∂ L ∂ y ⋅ ∂ y ∂ x ⋅ ∂ x ∂ w \frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} \cdot \frac{\partial x}{\partial w} wL=yLxywx

其中, L L L是损失函数, w w w是待优化的参数。

6.2 卷积层的反向传播

对于卷积层,我们需要计算损失函数对卷积核权重的梯度:

∂ L ∂ K = ∑ i , j ∂ L ∂ Y i j ⋅ X i j \frac{\partial L}{\partial K} = \sum_{i,j} \frac{\partial L}{\partial Y_{ij}} \cdot X_{ij} KL=i,jYijLXij

其中, K K K是卷积核, Y Y Y是输出特征图, X X X是输入特征图。

6.3 池化层的反向传播

对于最大池化,梯度只传递给池化窗口中的最大值元素:

∂ L ∂ x m n = { ∂ L ∂ y i j , if  x m n = max ⁡ ( m , n ) ∈ R i j x m n 0 , otherwise \frac{\partial L}{\partial x_{mn}} = \begin{cases} \frac{\partial L}{\partial y_{ij}}, & \text{if } x_{mn} = \max_{(m,n) \in R_{ij}} x_{mn} \\ 0, & \text{otherwise} \end{cases} xmnL={yijL,0,if xmn=max(m,n)Rijxmnotherwise

对于平均池化,梯度平均分配给池化窗口内的所有元素:

∂ L ∂ x m n = 1 ∣ R i j ∣ ∂ L ∂ y i j \frac{\partial L}{\partial x_{mn}} = \frac{1}{|R_{ij}|} \frac{\partial L}{\partial y_{ij}} xmnL=Rij1yijL

7. 优化算法

优化算法用于更新网络参数,最小化损失函数。

7.1 随机梯度下降(SGD)

最基本的优化算法是随机梯度下降:

w t + 1 = w t − η ∇ L ( w t ) w_{t+1} = w_t - \eta \nabla L(w_t) wt+1=wtηL(wt)

其中, η \eta η是学习率, ∇ L ( w t ) \nabla L(w_t) L(wt)是损失函数关于参数 w t w_t wt的梯度。

7.2 动量法

动量法引入了历史梯度信息,加速收敛:

v t + 1 = γ v t + η ∇ L ( w t ) w t + 1 = w t − v t + 1 \begin{aligned} v_{t+1} &= \gamma v_t + \eta \nabla L(w_t) \\ w_{t+1} &= w_t - v_{t+1} \end{aligned} vt+1wt+1=γvt+ηL(wt)=wtvt+1

其中, γ \gamma γ是动量系数。

7.3 Adam

Adam结合了动量法和自适应学习率:

m t = β 1 m t − 1 + ( 1 − β 1 ) ∇ L ( w t ) v t = β 2 v t − 1 + ( 1 − β 2 ) ( ∇ L ( w t ) ) 2 m ^ t = m t 1 − β 1 t v ^ t = v t 1 − β 2 t w t + 1 = w t − η v ^ t + ϵ m ^ t \begin{aligned} m_t &= \beta_1 m_{t-1} + (1-\beta_1) \nabla L(w_t) \\ v_t &= \beta_2 v_{t-1} + (1-\beta_2) (\nabla L(w_t))^2 \\ \hat{m}_t &= \frac{m_t}{1-\beta_1^t} \\ \hat{v}_t &= \frac{v_t}{1-\beta_2^t} \\ w_{t+1} &= w_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t \end{aligned} mtvtm^tv^twt+1=β1mt1+(1β1)L(wt)=β2vt1+(1β2)(L(wt))2=1β1tmt=1β2tvt=wtv^t +ϵηm^t

其中, β 1 \beta_1 β1 β 2 \beta_2 β2是衰减率, ϵ \epsilon ϵ是一个小常数。

8. 正则化技术

正则化用于防止过拟合,提高模型的泛化能力。

8.1 L2正则化

L2正则化在损失函数中添加参数的平方和:

L r e g = L + λ 2 ∑ w w 2 L_{reg} = L + \frac{\lambda}{2} \sum_w w^2 Lreg=L+2λww2

其中, λ \lambda λ是正则化系数。

8.2 Dropout

Dropout随机丢弃一部分神经元,可以看作是集成学习的一种形式。在训练时:

y = f ( W x ) ⊙ m , m i ∼ Bernoulli ( p ) y = f(Wx) \odot m, \quad m_i \sim \text{Bernoulli}(p) y=f(Wx)m,miBernoulli(p)

其中, ⊙ \odot 表示元素wise乘法, m m m是一个二元掩码, p p p是保留神经元的概率。
在这里插入图片描述

9. 初始化方法

参数初始化对CNN的训练至关重要。

9.1 Xavier初始化

Xavier初始化适用于tanh激活函数:

W ∼ U ( − 6 n i n + n o u t , 6 n i n + n o u t ) W \sim U\left(-\sqrt{\frac{6}{n_{in} + n_{out}}}, \sqrt{\frac{6}{n_{in} + n_{out}}}\right) WU(nin+nout6 ,nin+nout6 )

其中, n i n n_{in} nin n o u t n_{out} nout分别是输入和输出的神经元数量。

9.2 He初始化

He初始化适用于ReLU激活函数:

W ∼ N ( 0 , 2 n i n ) W \sim N\left(0, \sqrt{\frac{2}{n_{in}}}\right) WN(0,nin2 )

10. 结论

本文深入探讨了CNN的数学基础,包括卷积运算、激活函数、池化操作、反向传播算法、优化方法、正则化技术和初始化方法等核心概念。这些数学原理构成了CNN的理论基础,对于理解CNN的工作原理、改进现有模型和设计新的架构都至关重要。

随着深度学习的不断发展,CNN的数学理论也在不断完善和扩展。例如,群论在解释CNN的等变性方面发挥了重要作用,而信息论则为理解CNN的表示学习能力提供了新的视角。未来,结合更多数学分支的研究将有助于我们更深入地理解CNN,推动其在各个领域的应用和创新。

End

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2054978.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【html+css 绚丽Loading】 - 000007 虚空灵瞳

前言:哈喽,大家好,今天给大家分享htmlcss 绚丽Loading!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 &#x1f495…

一条短视频变现23万!不上班也能赚钱的路子

AI助力,让创意在短视频界翻涌成金。 这个项目不仅展示了AI技术在内容创作上的巨大潜力,更为那些希望在短视频平台上实现快速变现的创作者提供了一条可行之路。 何以破局,唯有行动。 我们相信每个人都有机会成为AI时代的弄潮儿。 01 项目…

SSM无人共享棋牌室的设计与实现---附源码99858

目 录 1 绪论 1.1 研究背景 1.2 研究意义 1.3国内外研究或应用现状: 1.4论文结构与章节安排 2 无人共享棋牌室系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据增加流程 2.2.2 数据修改流程 2.2.3 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析…

轻松上手!2024年图片转PDF工具操作指南

图片以其直观、生动的特点,成为传递信息的重要载体;而PDF文件则凭借其跨平台兼容性等特点在文档保存、传输及展示方面展现出巨大优势。因此,将图片转化为PDF格式的需求日益增长。那么,图片转为pdf怎么弄这次我们一起来探索。 1.F…

使用git时出现的问题总结

问题1 fatal: Unable to create ‘V:/Web/Vue3_admin/.git/index.lock’: File exists. 解决方法 删除 .git文件中的 index.lock 问题2 error: open("~$数据库表格.xlsx"): Permission denied error: unable to index file ~$数据库表格.xlsx 解决:要…

SpringBean的实例化,后置处理器以及生命周期

目录 一.Bean实例化的基本流程: Bean对象----->BeanDefinition信息对象 BeanDefintion存储到一个名为beanDefinitionMap中 对象存储在一个名为singletonObjects的Map中 Bean实例化的基本流程: 二.Spring的后处理器 Bean工厂后处理器- BeanFacto…

【C++题解】1137 - 纯粹素数

欢迎关注本专栏《C从零基础到信奥赛入门级(CSP-J)》 问题:1137 - 纯粹素数 类型:自定义函数 题目描述: 纯粹素数是这样定义的:一个素数,去掉最高位,剩下的数仍为素数,…

23D题分析

AM 分析方法:FFT,fc/fcfm/fc-fm调幅系数:ma Am/Ac,信号幅度 除 直流偏置调制方式:先给m(t)加Am直流偏置,再乘载波调制,如图: 公式: 5. 波形: 调幅系数&…

聚星文社和虹猫哪个好

聚星文社和虹猫是两个不同的公司,各有各的特点。下面是它们各自的优点: 聚星文社:Docshttps://docs.qq.com/doc/DRU1vcUZlanBKR2xy 聚星文社是一家传媒公司,专注于出版漫画、动画、小说等内容,拥有丰富的IP资源和创作…

Focal Loss 的详细解释

Focal Loss 是一种专为解决类别不平衡问题而设计的损失函数,最初由 Facebook AI 研究团队在 2017 年提出,特别用于物体检测任务(如 RetinaNet 模型)。在这些任务中,正负样本(即目标对象和背景)的…

mybatis druid postgresql statement超时原理原理

yaml设置超时 mybatis-plus:mapper-locations: classpath:/mapper/*.xml # MyBatis Mapper XML文件的位置type-aliases-package: com.company.mi.entity # 实体类所在的包configuration:default-statement-timeout: 10 configuration 设置超时 BaseStatementHandler设置超时 …

高校能耗监测

为了对校园能耗实行量化管理、实时监测,需要建立一个完善的监管体系校园节能监管体系。而节能监管体系的核心是能耗监测平台,本文介绍了一种基于智能网关的能耗监测系统的建设方法,并给出了系统的具体建设实施方法,具有一定的理论…

无法找到模块“vuex”的声明文件。“../node_modules/vuex/dist/vuex.mjs”隐式拥有 “any“ 类型。

写一个模拟的springbootvuw的demo的时候,需要用到vuex,结果按照示例,安装好, 行以下命令,安装Vuex ,注:我的项目是vue2的项目,所以安装的是3.6.2版本的vuex npm install vuex3.6.2…

【MySQL进阶之路】数据类型

目录 概览 整型 bit类型 小数类型 FLOAT和DOUBLE 精度丢失问题 decimal 字符串类型 char varchar char和varchar 时间类型 enum和set 个人主页:东洛的克莱斯韦克-CSDN博客 【MySQL进阶之路】MySQL基础——从零认识MySQL-CSDN博客 概览 分类数据类型说…

如何使用dd命令制作银河麒麟系统镜像U盘启动盘?

如何使用dd命令制作银河麒麟系统镜像U盘启动盘? 1、引言2、准备工作1. 准备Linux系统2. 下载银河麒麟系统镜像3. 准备U盘 3、制作U盘启动盘1. 查看U盘设备路径2. 使用dd命令写入镜像3. 等待写入完成 4、验证与使用 💖The Begin💖点点关注&…

Windows内核学习之Demo1隐藏进程

内核层如下&#xff1a; 读写进程内存不太想写&#xff0c;以后再补吧 #include <ntifs.h>#define DEVICE_NAME L"\\Device\\MyDevice" #define SYMLINK_NAME L"\\DosDevices\\MyDevice" #define IOCTL_PROCESS_MEMORY CTL_CODE(FILE_DEVICE_UNKNO…

Maven 缺失jar手动安装

Maven 缺失jar手动安装 依赖报缺失&#xff0c;手动到nexus下载jar包 执行以下命令&#xff0c;安装。 mvn install:install-file -DgroupIdcom.xmal -DartifactIdesbhelper -Dversion2.0 -Dpackagingjar -DfileD:\lorepository\com\esbhelper-2.0.jarmvn install:install…

8.19Qt作业

运用属性版本和静态成员函数实现 消息对话框 主要函数 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);this->setWindowFlag(Qt::FramelessWindowHint);th…

C++初学(13)

13.1、for循环的组成部分 for循环的组成部分完成下面这些步骤&#xff1a; (1)设置初始值。 (2)执行测试&#xff0c;看看循环是否应当继续。 (3)执行循环操作。 (4)更新用于测试的值。 C循环设计中包含这要素&#xff0c;很容易识别&#xff0c;初始化、测试和更新操作工…

【Linux操作系统】进程控制

目录 一、进程创建1.1 认识fork1.2 写时拷贝 二、进程终止2.1 进程退出2.2 函数退出2.3 exit 三、进程等待四、程序替换 一、进程创建 1.1 认识fork fork函数是系统调用接口&#xff0c;用来创建子进程的 根据进程的pid&#xff0c;可以看出父进程fork后分为父进程和子进程…