计算机视觉:卷积神经网络(CNN)基本概念(二)

news2025/4/1 5:24:21

第一章:计算机视觉中图像的基础认知
第二章:计算机视觉:卷积神经网络(CNN)基本概念(一)
第三章:计算机视觉:卷积神经网络(CNN)基本概念(二)
第四章:搭建一个经典的LeNet5神经网络

接上一篇《计算机视觉:卷积神经网络(CNN)基本概念(一)》

二、图像特征

三、什么是卷积神经网络?

四、什么是灰度图像、灰度值?

灰度图像是只包含亮度信息的图像,没有颜色信息。灰度值(Gray Value)是指图像中每个像素点的亮度值,用于表示该像素的明暗程度。在灰度图像中,每个像素的灰度值通常是一个介于 0 和 255 之间的整数,其中:

  • 0 表示黑色(最暗)
  • 255 表示白色(最亮)
  • 中间值 表示不同程度的灰色

灰度值的计算

对于彩色图像(通常表示为 RGB 格式),可以通过将红、绿、蓝三个通道的值转换为单个灰度值来生成灰度图像。常见的灰度值计算公式包括:

  • 加权平均法:Gray=0.299×R+0.587×G+0.114×B,这个公式考虑了人眼对不同颜色的敏感度,其中红色的权重最低,绿色的权重最高。
  • 平均法:Gray=(R+G+B) / 3,这个公式简单地取三个通道值的平均值。
  • 最大值法:Gray=max(R,G,B),这个公式取三个通道值中的最大值作为灰度值。

五、特征抽取的具体过程

卷积操作

  • 定义:输入图像与卷积核进行卷积运算,生成特征图。
  • 示例:一个 3x3 的卷积核在 64x64 的图像上滑动,计算每个位置的加权和,生成一个新的 62x62 的特征图。
  • 公式:高度 H = (图片高度 - 卷积核的高度 + 2 * 填充圈数) / 卷积核移动步长 + 1

激活函数

  • 定义:通过激活函数(如 ReLU)引入非线性,使网络能够学习更复杂的模式。
  • 示例:ReLU 激活函数将负值变为 0,正值保持不变。

池化操作

  • 定义:通过池化操作(如最大池化)减少特征图的尺寸,保留最重要的信息。
  • 示例:2x2 的最大池化操作将 62x62 的特征图降采样为 31x31 的特征图。

多层卷积和池化

  • 定义:通过多层卷积和池化操作,逐步提取更高层次的特征。
  • 示例:第二个卷积层会生成 64 个新的特征图,每个特征图捕捉了更复杂的局部特征。

展平

  • 定义:最终,将多维的特征图展平成一维向量,输入到全连接层进行分类。假设经过卷积和池化操作后,得到的特征图的尺寸为 H×W×C,其中 H 是高度,W 是宽度,C 是通道数。展平操作将特征图展平成一个一维向量,尺寸为 H×W×C。
  • 为什么要展平?,也就是为什么要改变形状,
    - 展平不会改变像素值!
    - 展平不会改变数据本身的信息!
    - 展平为了对口型!
    - 展平为了科学计算!
    - 展平为了矩阵相乘!
  • 示例:假设经过卷积和池化操作后,得到的特征图的尺寸为 31x31x64,展平成 61184 维的向量。

全连接

  1. 全连接层的定义
    • 在全连接层中,每个神经元都接收前一层所有神经元的输出,并通过加权求和和激活函数来计算自己的输出。

在这里插入图片描述

  1. 全连接层的结构
    在这里插入图片描述

  2. 全连接层的作用

    1. 特征整合
      全连接层可以整合前一层的特征,将局部特征组合成全局特征。这对于分类任务尤为重要,因为它需要综合考虑输入数据的所有信息来做出最终的决策。
      卷积层和池化层提取的是图像的局部特征,而全连接层可以将这些局部特征整合成全局特征。这对于分类任务非常重要,因为最终的分类决策需要综合考虑图像的所有信息。
    2. 分类和回归
      全连接层通常用于神经网络的最后几层,用于输出最终的分类结果或回归值。例如,在图像分类任务中,全连接层可以将卷积层提取的特征图展平成一维向量,然后通过多层全连接层进行分类。
      全连接层的输出层通常用于分类任务,将前一层的特征映射到类别标签。在手写数字识别任务中,全连接层的输出层将特征映射到 10 个类别(0 到 9)。
    3. 非线性变换
      全连接层通过激活函数引入非线性,使神经网络能够学习更复杂的模式和关系。常见的激活函数包括 ReLU、Sigmoid、Tanh 等。
    4. 参数学习
      全连接层的权重和偏置是通过反向传播算法进行学习的。在训练过程中,损失函数的梯度会通过全连接层传递,更新权重和偏置,从而使模型逐渐优化。

六、CNN的简单案例

这段代码实现一个简单的神经网络模型,用于拟合正弦函数 sin(x), 有4 层全连接层,CNN学习非线性关系。我们可以用一个简单的神经网络来学习这个关系。假设神经网络的结构如下:
输入层:1 个节点
隐藏层:3个隐藏层,第一个隐藏层50个节点,第二个隐藏层80 个节点,第三个隐藏层50 个节点,使用 ReLU 激活函数
输出层:1 个节点,使用线性激活函数

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt

# 数据准备
# 使用 numpy 库生成从 −2π 到 2π 的等间距数字序列 x,共有1000个点。
x = np.linspace(-2 * np.pi, 2 * np.pi, 1000)
# 计算每个 x 值对应的 sin(x) 值,并存储在 y 中。
y = np.sin(x)
# 然后将这些数据转换为 PyTorch 张量并调整形状以适应后续的神经网络输入要求:
x_tensor = torch.tensor(x, dtype=torch.float32).view(-1, 1)
y_tensor = torch.tensor(y, dtype=torch.float32).view(-1, 1)

# 定义神经网络模型
# 定义了一个名为 SimpleNN 的类,继承自 torch.nn.Module,它是一个简单的全连接神经网络模型,包含4层线性变换(全连接层),每层之间使用ReLU激活函数。
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(1, 50)
        self.fc2 = nn.Linear(50, 80)
        self.fc3 = nn.Linear(80, 50)
        self.fc4 = nn.Linear(50, 1)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.relu(self.fc3(x))
        x = self.fc4(x)
        return x

# 训练模型
# 初始化一个 SimpleNN 模型实例、均方误差(MSE)损失函数以及Adam优化器。
model = SimpleNN()
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)
# 在每个训练周期中,先清除之前的梯度(optimizer.zero_grad()),
# 然后通过模型前向传播得到预测输出(outputs),计算损失值(loss),
# 执行反向传播更新模型权重(loss.backward() 和 optimizer.step())。
for epoch in range(2000):
    optimizer.zero_grad()
    outputs = model(x_tensor)
    loss = criterion(outputs, y_tensor)
    loss.backward()
    optimizer.step()
    # 每200个周期打印一次当前的损失值,观察训练过程中的收敛情况。
    if (epoch + 1) % 200 == 0:
        print(f'Epoch [{epoch+1}/2000], Loss: {loss.item():.4f}')

# 测试模型并绘图
# 将模型设置为评估模式(model.eval())
model.eval()
with torch.no_grad():
	# 在不启用自动求导的情况下(torch.no_grad()),用训练好的模型对输入数据 x_tensor 进行预测。
    predictions = model(x_tensor)

# 使用 matplotlib 绘制原始的正弦曲线和模型的预测曲线,比较两者的拟合效果。这有助于直观地了解模型的拟合程度。
plt.scatter(x, y, label='True Data')
plt.plot(x, predictions.numpy(), color='red', label='Predictions')
plt.legend()
plt.show()

输出结果,从拟合曲线上看,CNN 学习得很好,在这个例子中,神经网络通过隐藏层的 ReLU 激活函数学会了输入 x 和输出 y=sin(x) 之间的非线性关系。通过训练,模型能够很好地拟合这个非线性函数。

Epoch [200/2000], Loss: 0.0002
Epoch [400/2000], Loss: 0.0005
Epoch [600/2000], Loss: 0.0000
Epoch [800/2000], Loss: 0.0003
Epoch [1000/2000], Loss: 0.0000
Epoch [1200/2000], Loss: 0.0003
Epoch [1400/2000], Loss: 0.0006
Epoch [1600/2000], Loss: 0.0007
Epoch [1800/2000], Loss: 0.0002
Epoch [2000/2000], Loss: 0.0002

在这里插入图片描述
现在把 上面 4 层全链接,改层 2 层,
神经网络的结构如下:
输入层:1 个节点
隐藏层:1个隐藏层,50 个节点,使用 ReLU 激活函数
输出层:1 个节点,使用线性激活函数
看看是什么效果:

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt

# 数据准备
x = np.linspace(-2 * np.pi, 2 * np.pi, 1000)
y = np.sin(x)
x_tensor = torch.tensor(x, dtype=torch.float32).view(-1, 1)
y_tensor = torch.tensor(y, dtype=torch.float32).view(-1, 1)

# 定义神经网络模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(1, 50)
        self.fc4 = nn.Linear(50, 1)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.fc4(x)
        return x

# 训练模型
model = SimpleNN()
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

for epoch in range(2000):
    optimizer.zero_grad()
    outputs = model(x_tensor)
    loss = criterion(outputs, y_tensor)
    loss.backward()
    optimizer.step()
    if (epoch + 1) % 200 == 0:
        print(f'Epoch [{epoch+1}/2000], Loss: {loss.item():.4f}')

# 测试模型并绘图
model.eval()
with torch.no_grad():
    predictions = model(x_tensor)

plt.scatter(x, y, label='True Data')
plt.plot(x, predictions.numpy(), color='red', label='Predictions')
plt.legend()
plt.show()

输出结果,很明显,只有 2 层的情况下,CNN 只学习到x和 y 的一部分非线性关系。

Epoch [200/2000], Loss: 0.1304
Epoch [400/2000], Loss: 0.0929
Epoch [600/2000], Loss: 0.0745
Epoch [800/2000], Loss: 0.0720
Epoch [1000/2000], Loss: 0.0718
Epoch [1200/2000], Loss: 0.0713
Epoch [1400/2000], Loss: 0.0708
Epoch [1600/2000], Loss: 0.0707
Epoch [1800/2000], Loss: 0.0706
Epoch [2000/2000], Loss: 0.0706

在这里插入图片描述
浅层网络(2层)损失:0.0706 → 拟合不足
深层网络(4层)损失:0.0002 → 近乎完美拟合

为什么CNN需要多层卷积?
浅层学习局部特征(边缘、纹理)
深层学习全局语义(物体部件、整体结构)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2300063.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构-红黑树】

文章目录 红黑树红黑树介绍红黑树的五个基本性质红黑树的平衡原理红黑树的操作红黑树的操作 代码实现节点实现插入和查询操作 红黑树 红黑树介绍 红黑树(Red-Black Tree)是一种自平衡的二叉查找树(Binary Search Tree, BST)&…

dify.ai 配置链接到阿里云百练等云厂商的 DeepSeek 模型

要将 dify.ai 配置链接到阿里云百练等云厂商的 DeepSeek 模型. 申请阿里云百练的KEY 添加模型 测试模型

应用分层、三层架构和MVC架构

前言 在前面中,我们已经学习了Spring MVC 的一些基础操作,那么后面就用一些简单的案例来巩固一下。 在开始学习做案例之前,我们先来了解一下在软件开发中常见的设计模式和架构。 应用分层 含义 应用分层是一种软件开发设计思想&#xff0…

Apache Struts2 - 任意文件上传漏洞 - CVE-2024-53677

0x01:漏洞简介 Apache Struts 是美国 Apache 基金会的一个开源项目,是一套用于创建企业级 Java Web 应用的开源 MVC 框架(将软件分为模型(Model)、视图(View)和控制器(Controller&a…

传统混合专家模型MoE架构详解以及python示例(DeepSeek-V3之基础)

我们已经了解到DeepSeek-V3的框架结构基于三大核心技术构建:多头潜在注意力(MLA)、DeepSeekMoE架构和多token预测(MTP)。而DeepSeekMoE架构的底层模型采用了混合专家模型(Mixture of Experts,MoE)架构。所以我们先了解一下传统混合专家模型MoE架构。 一、传统混合专家模…

安全筑基,智能赋能:BeeWorks IM引领企业协同新纪元

在数字经济高速发展的今天,企业通讯系统已从单纯的信息传递工具演变为支撑业务创新的核心平台。传统通讯工具在安全性、智能化、协同性等方面的不足,严重制约着企业的数字化转型进程。BeeWorks IM系统以其创新的技术架构和智能化功能,正在重新…

solidworks零件的绘制学习

1、拉伸凸台拉伸切除可以在一个零件中打孔,如下图: 2、旋转凸台配合旋转切除; 3、薄壁特征:在拉伸凸台,旋转凸台中都有;在一个面中画完草图,然后选择拉伸凸台或旋转凸台,里面就会出…

llama.cpp部署 DeepSeek-R1 模型

一、llama.cpp 介绍 使用纯 C/C推理 Meta 的LLaMA模型(及其他模型)。主要目标llama.cpp是在各种硬件(本地和云端)上以最少的设置和最先进的性能实现 LLM 推理。纯 C/C 实现,无任何依赖项Apple 芯片是一流的——通过 A…

Spring源码分析のBean创建流程(上)

文章目录 前言一、preInstantiateSingletons1.1、getMergedLocalBeanDefinition1.2、isFactoryBean 二、getBean 前言 原生Spring在refresh方法中,会在finishBeanFactoryInitialization:preInstantiateSingletons方法中直接创建所有非懒加载的单例Bean。…

DeepSeek笔记(二):DeepSeek局域网访问

如果有多台电脑,可以通过远程访问,实现在局域网环境下多台电脑共享使用DeepSeek模型。在本笔记中,首先介绍设置局域网多台电脑访问DeepSeek-R1模型。 一、启动Ollama局域网访问 1.配置环境变量 此处本人的操作系统是Windows11,…

基于大数据的全国热门旅游景点数据分析系统的设计与实现

【大数据】基于大数据的全国热门旅游景点数据分析系统的设计与实现(完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统主要包括登录注册、系统首页、图表分析、数据管理和个人信息五大功能模…

【Unity3D】Jenkins Pipeline流水线自动构建Apk

目录 一、准备阶段 二、创建Pipeline流水线项目 三、注意事项 四、扩展 1、Pipeline添加SVN更新项目Stage阶段 一、准备阶段 1、安装tomcat 10.0.5 Index of apache-local/tomcat/tomcat-10 2、安装jdk 17 Java Archive Downloads - Java SE 17.0.13 and later 3、…

Edge浏览器翻译|自动翻译设置

文章目录 Edge浏览器翻译|自动翻译设置右键翻译显示原文 Edge浏览器翻译|自动翻译设置 在 Microsoft Edge 浏览器中使用 Microsoft Translator - Microsoft 支持 进入浏览器设置,从首选语言列表中移除多余的语言设置 网站将以受支持语言列表中的第一种语言进行显示。若要重新…

基于微信小程序的场地预约设计与实现

第3章 系统设计 3.1系统设计目标 本系统的实现可以帮助体育馆场地信息的管理。帮助管理员对注册用户管理以及用户预约管理。同时可以帮助用户进行场地预约。本系统可以实现用户足不出户预约到需要的场地,为用户提供场地信息了解的平台。 3.2系统功能结构图 本系统的…

腾讯发布混元-3D 2.0: 首个开源高质3D-DiT生成大模型

在之前的文章中已经和大家介绍过腾讯HunYuan-3D 1.0,感兴趣的小伙伴可以点击下面链接阅读~ HunYuan-3D 是首个开源高质3D-DiT生成大模型,几何与纹理解藕生成,一键将创意具象化。 2.0模型架构图及介绍 2.0模型将几何和纹理生成解耦&#xff0…

计算机性能与网络体系结构探讨 —— 基于《计算机网络》谢希仁第八版

(꒪ꇴ꒪ ),Hello我是祐言QAQ我的博客主页:C/C语言,数据结构,Linux基础,ARM开发板,网络编程等领域UP🌍快上🚘,一起学习,让我们成为一个强大的攻城狮&#xff0…

基于vue3实现的课堂点名程序

设计思路 采用vue3实现的课堂点名程序&#xff0c;模拟课堂座位布局&#xff0c;点击开始点名按钮后&#xff0c;一朵鲜花在座位间传递&#xff0c;直到点击结束点名按钮&#xff0c;鲜花停留的座位被点名。 课堂点名 座位组件 seat.vue <script setup>//组合式APIimpo…

kkFileView二开之pdf转图片接口

kkFileView二开之Pdf转图片接口 kkFileView二开系列文章&#xff1a;1 kkFileView源码下载及编译2 Pdf转图片接口2.1 背景2.2 分析2.2 接口开发2.2.1 编写Pdf转图片方法2.2.2 编写转换接口 2.3 接口测试2.3.1 Pdf文件准备2.3.2 pdf2Image 3 部署 kkFileView二开系列文章&#x…

神经网络常见激活函数 9-CELU函数

文章目录 CELU函数导函数函数和导函数图像优缺点pytorch中的CELU函数tensorflow 中的CELU函数 CELU 连续可微指数线性单元&#xff1a;CELU&#xff08;Continuously Differentiable Exponential Linear Unit&#xff09;,是一种连续可导的激活函数&#xff0c;结合了 ELU 和 …

什么是网关?网关有什么作用?API网关的主要功能,SpringCloud可以选择有哪些API网关?什么是限流算法?网关如何实现限流?一篇文章读懂网关的前世今生

1、什么是网关&#xff1f; API网关&#xff08;API Gateway&#xff09;是一种中间层服务器&#xff0c;用于集中管理&#xff0c;保护和路由对后端服务的访问。它充当了客户端与后端服务之间的入口点&#xff0c;提供了一组统一的接口管理和控制API的访问。 2、网关示意图 3…