图像卷积操作

news2024/9/21 12:43:30

目录

一、互相关运算

二、卷积层

三、图像中目标的边缘检测

四、学习卷积核

五、特征映射和感受野


一、互相关运算

       严格来说,卷积层是个错误的叫法,因为它所表达的运算其实是互相关运算(cross-correlation),而不是卷积运算。在卷积层中,输入张量和核张量通过互相关运算产生输出张量。

       首先,我们暂时忽略通道(第三维)这一情况,看看如何处理二维图像数据和隐藏表示。在 下图中,输入是高度为 $3$、宽度为 $3$ 的二维张量(即形状为 $3 \times 3$ )。卷积核的高度和宽度都是 $2$,而卷积核窗口(或卷积窗口)的形状由内核的高度和宽度决定(即 $2 \times 2$ )。

       在二维互相关运算中,卷积窗口从输入张量的左上角开始,从左到右、从上到下滑动。当卷积窗口滑动到新一个位置时,包含在该窗口中的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到一个单一的标量值,由此我们得出了这一位置的输出张量值。

       在如上例子中,输出张量的四个元素由二维互相关运算得到,这个输出高度为 $2$、宽度为 $2$,如下所示:

$ 0\times 0+1\times 1+3\times 2+4\times 3=19, $$ $$ 1\times 0+2\times 1+4\times 2+5\times 3=25, $$ $$ 3\times 0+4\times 1+6\times 2+7\times 3=37, $$ $$ 4\times 0+5\times 1+7\times 2+8\times 3=43. $

       注意,输出大小略小于输入大小。这是因为卷积核的宽度和高度大于1,而卷积核只与图像中每个大小完全适合的位置进行互相关运算。所以,输出大小等于输入大小 $n_h \times n_w$ 减去卷积核大小 $k_h \times k_w$ 加 $1$,即:

$(n_h-k_h+1) \times (n_w-k_w+1).$

       接下来,我们在`corr2d`函数中实现如上过程,该函数接受输入张量`X`和卷积核张量`K`,并返回输出张量`Y`。

import torch
from torch import nn
from d2l import torch as d2l
def corr2d(X, K):
    """计算二维互相关运算"""
    h, w = K.shape
    Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))   # 先算出输出张量的形状并初始化为0
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i:i + h, j:j + w] * K).sum()   # 输出张量的每一个元素都是X与K经过某种计算得到的
    return Y    # 返回二维互相关运算后的结果Y

       我们来验证上述二维互相关运算的输出。

X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])
K = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
print(corr2d(X, K))
tensor([[19., 25.],
        [37., 43.]])

二、卷积层

       卷积层对输入和卷积核权重进行互相关运算,并在添加标量偏置之后产生输出。所以,卷积层中的两个被训练的参数是卷积核权重和标量偏置,如下图所示。就像我们之前随机初始化全连接层一样,在训练基于卷积层的模型时,我们也随机初始化卷积核权重。

       基于上面定义的`corr2d`函数实现二维卷积层。在`__init__`构造函数中,将`weight`和`bias`声明为两个模型参数。前向传播函数调用`corr2d`函数并添加偏置。

class Conv2D(nn.Module):
    def __init__(self, kernel_size):
        super().__init__()
        self.weight = nn.Parameter(torch.rand(kernel_size))
        self.bias = nn.Parameter(torch.zeros(1))

    def forward(self, x):
        return corr2d(x, self.weight) + self.bias

       高度和宽度分别为 $h$ 和 $w$ 的卷积核可以被称为 $h \times w$ 卷积或 $h \times w$ 卷积核。我们也将带有 $h \times w$ 卷积核的卷积层称为 $h \times w$ 卷积层。

三、图像中目标的边缘检测

       如下是卷积层的一个简单应用:通过找到像素变化的位置,来检测图像中不同颜色的边缘。

       首先,我们构造一个 $6\times 8$ 像素的黑白图像。中间四列为黑色($0$),其余像素为白色($1$)。

X = torch.ones((6, 8))
X[:, 2:6] = 0
print(X)
tensor([[1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.]])

       接下来,我们构造一个高度为 $1$、宽度为 $2$ 的卷积核`K`。当进行互相关运算时,如果水平相邻的两元素相同,则输出为零,否则输出为非零。

K = torch.tensor([[1.0, -1.0]])

       现在,我们对参数`X`(输入)和`K`(卷积核)执行互相关运算。如下所示,输出`Y`中的1代表从白色到黑色的边缘,-1代表从黑色到白色的边缘,其他情况的输出为0。

Y = corr2d(X, K)
Y
tensor([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.]])

       现在我们将输入的二维图像转置,再进行如上的互相关运算。其输出如下,之前检测到的垂直边缘消失了。不出所料,这个卷积核`K`只可以检测垂直边缘,无法检测水平边缘。

corr2d(X.t(), K)
tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

四、学习卷积核

       如果我们只需寻找黑白边缘,那么以上`[1, -1]`的边缘检测器足以。然而,当有了更复杂数值的卷积核,或者连续的卷积层时,我们不可能手动设计滤波器。那么我们可以学习由`X`生成`Y`的卷积核。

       现在让我们看看是否可以通过仅查看“输入-输出”对来学习由`X`生成`Y`的卷积核。我们先构造一个卷积层,并将其卷积核初始化为随机张量。接下来,在每次迭代中,我们比较`Y`与卷积层输出的平方误差,然后计算梯度来更新卷积核。为了简单起见,我们在此使用内置的二维卷积层,并忽略偏置。

# 构造一个二维卷积层,它具有1个输入通道、1个输出通道和形状为(1,2)的卷积核
conv2d = nn.Conv2d(1, 1, kernel_size=(1, 2), bias=False)    # 因为我们前面用的是二维互相关运算corr2d()由X生成的Y,因此不需要bias

# 这个二维卷积层使用四维输入和输出格式(批量大小、通道、高度、宽度),
# 其中批量大小和通道数都为1
X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 6, 7))
lr = 3e-2  # 学习率

for i in range(10):
    Y_hat = conv2d(X)
    l = (Y_hat - Y) ** 2    # 使用均方误差
    conv2d.zero_grad()
    l.sum().backward()
    # 迭代卷积核
    conv2d.weight.data[:] -= lr * conv2d.weight.grad    # 手写实现梯度下降
    if (i + 1) % 2 == 0:
        print(f'epoch {i+1}, loss {l.sum():.3f}')
epoch 2, loss 6.422
epoch 4, loss 1.225
epoch 6, loss 0.266
epoch 8, loss 0.070
epoch 10, loss 0.022

       在10次迭代之后,误差已经降到足够低。现在我们来看看我们所学的卷积核的权重张量。

conv2d.weight.data.reshape((1, 2))
tensor([[ 1.0010, -0.9739]])

       我们学习到的卷积核权重非常接近我们之前定义的卷积核`K`。

五、特征映射和感受野

       下图中输出的卷积层有时被称为特征映射(feature map),因为它可以被视为一个输入映射到下一层的空间维度的转换器。

       在卷积神经网络中,对于某一层的任意元素 $x$,其感受野(receptive field)是指在前向传播期间可能影响 $x$ 计算的所有元素(来自所有先前层)。

       请注意,感受野可能大于输入的实际大小。让我们用上图为例来解释感受野:给定 $2 \times 2$ 卷积核,阴影输出元素值 $19$ 的感受野是输入阴影部分的四个元素。假设之前输出为 $\mathbf{Y}$,其大小为 $2 \times 2$,现在我们在其后附加一个卷积层,该卷积层以 $\mathbf{Y}$ 为输入,输出单个元素$z$。在这种情况下,$\mathbf{Y}$ 上的 $z$ 的感受野包括 $\mathbf{Y}$ 的所有四个元素,而输入的感受野包括最初所有九个输入元素。

       因此,当一个特征图中的任意元素需要检测更广区域的输入特征时,我们可以构建一个更深的网络。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1325667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023_Spark_实验三十二:消费Kafka数据并保存到MySQL中

实验目的:掌握Scala开发工具消费Kafka数据,并将结果保存到关系型数据库中 实验方法:消费Kafka数据保存到MySQL中 实验步骤: 一、创建Job_ClickData_Process 代码如下: package examsimport org.apache.kafka.clien…

【C++初阶】第一站:C++入门基础(下)

前言: 紧接着上两篇文章,c入门基础(上):C入门基础(上) c入门基础(中):C入门基础(中) 继续补充完c初阶入门基础的知识点,本章知识点包括: 引用和指针的区别、内联函数、auto关键字(C11)、基于范围的for循环…

开源投票微信小程序源码系统+超强的盈利模式+礼物道具刷不停+完整的代码包 附带安装部署教程

微信小程序的日益普及,越来越多的企业和开发者开始关注如何利用小程序进行业务拓展和创新。投票微信小程序源码系统就是在这样的背景下应运而生。这款源码系统旨在为广大开发者提供一个功能强大、易于扩展的投票系统,以满足各种行业和场景的需求。 以下…

vp与vs联合开发-Ini配置文件

1.*.ini文件是Initialization file的缩写,即为初始化文件,是Windows系统配置文件所采用的存储格式,统管Windows的各项配置, 2.可以用来存放软件信息、注册表信息等 3.可以使用代码方式和手动编辑操作 ,一般不用直接编辑…

工业互联网平台存在意义是什么?国内有哪些工业互联网平台?

一、工业互联网平台存在意义是什么? 工业互联网平台是一个连接设备与服务、数据与人的跨行业、跨领域的全新工业平台。工业互联网平台利用了互联网、物联网、大数据、AI等技术,集成各类工业设备,不断采集和分析数据,以实现设备状…

分享一些实用工具和学习网站

1 前言 虽然已经工作过几年的时间了,但是学习的脚步是不能停止的,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。…

外汇天眼:五大常见交易心理陷阱,你中了几个?

抗争的心理 我们从小所受的教育都是建立在抗争和竞争的基础上,如征服自然,战胜各种艰难障碍,与困难搏斗。 这种意识已经深深地扎根于我们的内在。 当我们进入证券市场还是带着这样的心理意识。 我们常常看到一些各行各业的精英来到证券市场…

SAP ABAP 双击回应

导语:最近在做带自定义屏幕的功能开发,用户希望点击屏幕上的内容进行穿透。 一、需求 用户希望点击下面屏幕上的客户代码,穿透到BP界面,这种功能在SAP标准的屏幕上屡见不鲜,研究一下了,这个属于屏幕上的【…

算法----Dota2 参议院

题目 Dota2 的世界里有两个阵营:Radiant(天辉)和 Dire(夜魇) Dota2 参议院由来自两派的参议员组成。现在参议院希望对一个 Dota2 游戏里的改变作出决定。他们以一个基于轮为过程的投票进行。在每一轮中,每…

64. 最小路径和已解答 23.12.07(一)补

给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 说明:每次只能向下或者向右移动一步。 示例 1: 输入:grid [[1,3,1],[1,5,1],[4,2,1]] 输出:7…

数据结构和算法-二叉排序树

文章目录 二叉排序树总览二叉排序树的定义二叉排序树的查找二叉排序树的插入二叉排序树的构造二叉排序树的删除删除的是叶子节点删除的是只有左子树或者只有右子树的节点删除的是有左子树和右子树的节点 查找效率分析查找成功查找失败 小结 二叉排序树 总览 二叉排序树的定义 …

泽攸科技SEM台式扫描电子显微镜

泽攸科技是一家国产的科学仪器公司,专注于研发、生产和销售原位电镜解决方案、扫描电镜整机、台阶仪、探针台等仪器。目前台式扫描电镜分为三个系列:ZEM15、ZEM18、ZEM20。 ZEM15台式扫描电镜: ZEM18台式扫描电镜: ZEM20台式扫描…

FA-238V (MHz范围晶体单元微型低轮廓SMD)

FA-238V晶振是EPSON推出的一款额定频率12MHz至15.999MHz的石英晶体谐振器,它能够实现高效、稳定的数据传输,外形尺寸(3.2 2.5 0.7mm)具有小型超薄、 稳定性好,这种微型化的设计不仅提升了设备的整体性能,…

网络安全知识图谱 图数据库介绍及语法

本体构建: 资产: 系统,软件 威胁: 攻击: 建模: 3个本体 5个实体类型 CWE漏洞库 http://cwe.mitre.org/data/downloads.html CPECP攻击模式分类库 http://capec.mitre.org/data/downloads.html CPE通用组件库 http:…

Java如何将中文转化为拼音

Java中可以使用第三方库pinyin4j来实现中文转拼音。 首先&#xff0c;需要引入pinyin4j的jar包&#xff0c;可以在pinyin4j的官方网站&#xff08;http://pinyin4j.sourceforge.net/&#xff09;下载&#xff0c;也可以通过Maven引入。 Maven引入依赖&#xff1a; <depend…

多表插入、删除操作(批量)——后端

多表插入 场景&#xff1a;当添加一个菜品时&#xff0c;还需要记录菜品的口味信息&#xff0c;因此需要对菜品表&#xff08;dish&#xff09;和口味表&#xff08;dish_flavor&#xff09;同时进行插入操作。 两个表的字段&#xff1a; 代码思路&#xff1a;由DishControll…

用JVS低代码实现业务流程的撤回和重新开始

在当今的数字化时代&#xff0c;业务流程的效率和准确性对于企业的运营至关重要。在实际业务场景中&#xff0c;我们可能需要处理一些复杂的流程&#xff0c;例如申请审批流程、合同签订流程等。这些流程在执行过程中可能会遇到各种情况&#xff0c;例如某个审批步骤需要重新审…

Spring Boot学习随笔- 文件上传和下载(在线打卡、附件下载、MultipartFile)

学习视频&#xff1a;【编程不良人】2021年SpringBoot最新最全教程 第十二章、文件上传、下载 文件上传 文件上传是指将文件从客户端计算机传输到服务器的过程。 上传思路 前端的上传页面&#xff1a;提交方式必须为post&#xff0c;enctype属性必须为multipart/form-data开发…

百度智能云上新:一手实测!0门槛、分钟级打造智能体

“大模型时代真正的价值在于AI原生应用” 继腾讯云推出高性能应用服务HAI&#xff0c;10分钟创建AIGC应用之后&#xff0c;百度云昨天在智算大会上也发布了AI云生应用平台AppBuilder&#xff0c;号称0门槛、分钟级打造智能体agent。AI赛道好不热闹。小编今天就带大家来实测一把…

全光谱护眼灯哪个牌子好?全光谱备考护眼台灯推荐

什么是全光谱&#xff1f;全光谱指的是光谱中包含紫外光、可见光、红外光的光谱曲线&#xff0c;并且在可见光部分中红绿蓝的比例与阳光近似&#xff0c;显色指数接近于100的光谱。太阳光的光谱可以称作全光谱&#xff0c;太阳光的色温是随着四季和早晚时间变化而变化&#xff…