PyTorch深度学习实战(5)——计算机视觉基础

news2025/2/1 14:04:20

PyTorch深度学习实战(5)——计算机视觉基础

    • 0. 前言
    • 1. 图像表示
    • 2. 将图像转换为结构化数组
      • 2.1 灰度图像表示
      • 2.2 彩色图像表示
    • 3 利用神经网络进行图像分析的优势
    • 小结
    • 系列链接

0. 前言

计算机视觉是指通过计算机系统对图像和视频进行处理和分析,利用计算机算法和方法,使计算机能够模拟和理解人类的视觉系统。通过计算机视觉技术,计算机可以从图像和视频中提取有用的信息,实现对环境的感知和理解,从而帮助人们解决各种问题和提高效率。本节中,将介绍计算机中的图像表示,并介绍如何利用神经网络进行图像分析,为计算机视觉的高级任务和应用奠定基础。

1. 图像表示

数字图像文件(通常扩展名为“JPEG”或“PNG”)由像素数组组成,像素是图像的最小构成元素。在灰度图像中,每个像素都是 0255 之间的标量值,0 表示黑色,255 表示白色,介于 0255 之间的值都是灰色值(像素值越小,像素越暗)。
形式上,图像可以描述为 2D 函数 f ( x , y ) f(x, y) f(x,y),其中 ( x , y ) (x, y) (x,y) 是空间坐标,而 f ( x , y ) f(x, y) f(x,y) 是图像在点 ( x , y ) (x, y) (x,y) 处的亮度或灰度或颜色值,其中:

  1. x ∈ [ 0 , h − 1 ] x∈ [0, h-1] x[0,h1],其中 h h h 是图像的高度
  2. y ∈ [ 0 , w − 1 ] y∈ [0, w-1] y[0,w1],其中 w w w 是图像的宽度
  3. f ( x , y ) ∈ [ 0 , L − 1 ] f(x, y)∈ [0,L-1] f(x,y)[0L1],其中 L = 256 L=256 L=256 (对于8位灰度图像)

而彩色图像中的像素是三维矢量,分别对应于红色、绿色和蓝色通道中的标量值,可以定义三个函数来分别表示红色、绿色和蓝色值。这三个单独的函数中的每一个都遵循与为灰度图像定义的 f ( x , y ) f(x, y) f(x,y) 函数相同的公式。我们将这三个函数的子索引 RGB 分别表示为 f R ( x , y ) f_R(x, y) fR(x,y) f G ( x , y ) f_G(x, y) fG(x,y) f B ( x , y ) f_B(x, y) fB(x,y)
一个图像的像素值数量通常为 height x width x c,其中 height 表示像素的行数,width 表示像素的列数,c 表示通道数,对于彩色图像 c3 (红色、绿色和蓝色强度分量各占据一个通道),对于灰度图像 c1,下图表示包含 4 x 4 像素及其相应标量值的灰度图像:

灰度图像表示

像素值为 0 表示黑色,而 255 表示白色,0-255 中间的值表示不同强度的灰色值。彩色图像中,通常使用 RGB 模型表示图像,RGB 模型是一种加法颜色模型,其中原色(在 RGB 模型中,原色是红色 R、绿色 G 和蓝色 B) 混合在一起就可以用来表示广泛的颜色范围。
每个原色 (R, G, B) 通常表示一个通道,其取值范围为 [0, 255] 内的整数值。因此,每个通道有共 256 个可能的离散值,其对应于用于表示颜色通道值的总比特数 ( 2 8 = 256 2^8=256 28256)。此外,由于有三个不同的通道,使用 RGB 模型表示的图像称为 24 位色深图像:

加色法
在上图中,可以看到 RGB 颜色空间的“加法颜色”属性:

  • 红色加绿色会得到黄色
  • 蓝色加红色会得到品红
  • 蓝色加绿色会得到青色
  • 三种原色加在一起得到白色

因此,如前所述,RGB 颜色模型中,特定颜色可以由红、绿和蓝值分量合成表示,将像素值表示为 RGB 三元组 (r, g, b)。典型的 RGB 颜色选择器如下图所示:

颜色选择器

2. 将图像转换为结构化数组

2.1 灰度图像表示

我们首先介绍如何转换灰度图像,将灰度图像转换为结构化数组,并进行可视化。

(1) 导入 cv2 (用于从磁盘读取图像) 和 matplotlib (用于绘制加载的图像)库,并读取图像:

import cv2
import matplotlib.pyplot as plt
img = cv2.imread('1.jpeg')

在以上代码中,利用 cv2.imread 方法读取图像,将图像转换为像素值数组。

示例图像

(2) 裁剪第 100-600 行以及第 100-900 列之间的图像,将图像转换为灰度图像并进行绘制:

img = img[100:600,100:900]
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
plt.imshow(img_gray, cmap='gray')
plt.show()

灰度图像

以上代码得到的图像可以表示为 500 x 800 像素数组。接下来,我们减少用于表示图像的像素数量,例如在 25 x 40 阵列上可视化像素值。

(3) 将图像转换为 25 x 40 数组并进行绘制:

img_gray_small = cv2.resize(img_gray,(40, 25))
plt.imshow(img_gray_small, cmap='gray')
plt.show()

图像缩放

可以看到,用较少的像素来表示相同的图像会导致输出图像变得模糊。

(4) 接下来,我们检查像素值:

print(img_gray_small)

输出结果如下所示,为了便于观察,我们仅查看前四行像素值:

[[251 252 252 252 253 253 253 253 254 254 254 254 254 254 254 254 254 254
  254 255 255 255 255 255 255 255 255 255 255 249 205 200 183 193 215 199
  200 192 212 250]
 [250 248 251 252 253 253 253 253 254 254 254 254 254 254 254 254 254 254
  254 254 254 254 254 255 255 255 255 255 255 252 193 229 234 184 184 176
  217 178 233 244]
 [222 205 226 237 237 253 253 253 253 254 254 254 254 254 254 254 254 254
  242 252 254 254 254 254 254 255 255 255 255 253 239 227 243 229 216 166
  231 205 214 251]
 [221 237 235 228 200  73  46  42 138  91  74  78 237 254 254 254 254 253
  232 244 248 250 250 253 254 250 253 255 255 251 240 246 250 237 241 206
  213 229 212 252]
 [...]]

我们可以将像素值显示在对应像素上,如下所示:

在对应像素上现实像素值

如图所示,接近 255 的像素看起来更亮,而接近 0 的像素看起来更暗。

2.2 彩色图像表示

我们也可以将以上步骤用于彩色图像上,每个像素可以表示为 3 维向量,最亮的红色像素表示为 (255,0,0),图像中的纯白色像素表示为 (255,255,255)。接下来,将彩色图像转换为结构化像素值数组。

(1) 导入相关库并加载图像:

import cv2
import matplotlib.pyplot as plt
img = cv2.imread('1.jpeg')

(2) 裁剪图像并绘制图像:

img = img[100:600,100:900]
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) 
plt.imshow(img)
plt.show()
print(img.shape)
# (500, 800, 3)

彩色图像裁剪

在以上代码中,使用 cv2.cvtcolor 方法对通道进行了重新排序。这是因为使用 cv2 导入图像时,通道的顺序是:蓝色-绿色-红色 (BGR),但通常,我们习惯于以“红色-绿色-蓝色”的 RGB 通道查看图像。

(3) 打印右下角的 3 x 3 像素阵列,并绘制像素值:

crop = img[-3:,-3:]
print(crop)
'''
[[[ 80 152  86]
  [ 77 148  82]
  [ 74 146  80]]

 [[ 82 153  87]
  [ 81 150  87]
  [ 79 148  85]]

 [[ 81 151  81]
  [ 88 154  90]
  [ 88 154  90]]]
'''
plt.imshow(crop)
plt.show()

彩色图像表示

将图像转换为结构化的数字数组(即将图像读入 Python 内存)使我们能够对图像(表示为数字数组)执行各种数学运算,利用这种数据结构可以执行计算机视觉各种任务,例如分类、检测和分割等。

3 利用神经网络进行图像分析的优势

在传统计算机视觉中,在将数据输入到模型之前需要利用专业知识为每张图像提取一些特征。接下来,我们根据以下示例图像介绍传统计算机视觉如何获取特征,以了解通过训练神经网络避免手动提取图像特征的优势。

  • 直方图特征:对于一些任务,图片中的光照(或者说图像中亮像素和暗像素的比例)十分重要,如夜视应用。下图展示了示例图像的直方图,可以看到图像的亮度较高:

直方图特征

  • 边和角点特征:对于图像分割等任务,需要获取与每个目标对应的像素集,提取边是一种有效的做法;而在图像匹配等任务中,检测关键点则至关重要,这些关键点是图像中角点的子集。下图表示在示例图像中获得的边和角点:

边和角点特征

  • 色彩分离特征:在自动驾驶汽车的交通信号灯检测等任务中,通常需要了解交通信号灯上显示的颜色。下图显示了示例图像的红色、绿色和蓝色通道:

色彩分离特征

  • 图像梯度特征:了解颜色在像素级别的变化同样可能非常重要,不同的纹理具有不同的梯度,因此可以将图像梯度用作纹理检测器。事实上,获取梯度是进行边缘检测的先决条件。下图显示了示例图像的整体梯度及其 xy 方向上的分量:

图像梯度特征

以上特征只是诸多图像特征中的一小部分,构建这些特征需要了解图像和信号分析方面的大量知识,并且应该充分了解哪些特征最适合解决问题。即使满足这两个约束条件,也不能保证能够找到正确的输入特征组合,即使找到这样的特征,也不能保证其在新的应用场景中能够起作用。
基于神经网络的模型不仅能提取正确的特征,还能学习如何进行最佳组合完成目标任务,解决了传统特征提取的缺点,也就是说,神经网络既可以作为特征提取器,也可以作为分类器。
综上,利用神经网络进行图像分析具有以下几个优势:

  • 自动特征学习:传统的图像分析方法需要手动提取特征,而神经网络可以自动学习图像中的特征表示。通过多层神经网络的堆叠和训练,网络可以学习到不同层次的特征抽象,从低层次的边缘和纹理到高层次的对象和语义概念。这种自动特征学习使得神经网络在复杂的图像分析任务中表现出色。
  • 非线性建模能力:神经网络是一种非线性模型,可以更好地建模和捕捉图像中的非线性关系。由于图像具有丰富的结构、纹理和形态信息,线性模型无法充分表示这些复杂特征。神经网络通过激活函数和多层连接来引入非线性变换,从而更好地适应各种图像分析任务。
  • 鲁棒性和泛化能力:神经网络在大规模数据集上进行训练,并具有较强的鲁棒性和泛化能力。这意味着网络能够处理具有不同视角、光照条件、噪声等变化的图像,并且在未见过的数据上也能有良好的表现。通过合理设计和训练,神经网络可以对图像中的变化和干扰具有一定的容忍度。
  • 端到端学习:神经网络可以实现端到端学习,从原始图像输入到最终的输出结果,无需手工设计复杂的流程和特征转换。这简化了图像分析系统的开发和部署过程,同时减少了人工错误和信息损失。通过端到端学习,神经网络可以直接从数据中学习到有效的表示和决策规则。
  • 可扩展性和灵活性:神经网络可以通过增加网络层数、调整神经元数量以及引入不同的模块和结构来提高模型的能力。这使得神经网络具有很强的可扩展性和灵活性,在各类图像分析任务中可以根据需求进行调整和优化。

小结

利用神经网络进行图像分析能够自动学习特征、处理非线性关系、具有鲁棒性和泛化能力,并且支持端到端学习和可扩展性,这使其成为当今计算机视觉领域的主要技术手段之一。本节介绍了计算机视觉的基本概念以及图像在计算机中的表示方法,为计算机视觉的高级任务奠定了基础。

系列链接

PyTorch深度学习实战(1)——神经网络与模型训练过程详解
PyTorch深度学习实战(2)——PyTorch基础
PyTorch深度学习实战(3)——使用PyTorch构建神经网络
PyTorch深度学习实战(4)——常用激活函数和损失函数详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/762841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Scala(二)

第2章 变量和数据类型 2.1 注释 Scala注释使用和Java完全一样。 注释是一个程序员必须要具有的良好编程习惯。将自己的思想通过注释先整理出来,再用代码去体现。 1)基本语法 (1)单行注释:// (2&#xff0…

高时空分辨率、高精度一体化预测技术的风、光、水自动化预测技术的应用

第一章 预测平台讲解及安装 一、高精度气象预测基础理论介绍 综合气象观测数值模拟模式; 全球预测模式、中尺度数值模式; 二、自动化预测平台介绍 Linux系统 Crontab定时任务执行机制 Bash脚本自动化编程 硬件需求简介 软件系统安装 …

独立站该怎么带来客户流量?来看看这五大方法吧!

建立独立站是为了让更多的人知道你的品牌和产品,从而吸引潜在客户并转化为销售机会。以下是一些可以帮助独立站带来客户流量的方法: 01.SEO(搜索引擎优化): 优化网站的SEO,使得搜索引擎能够更好地找到你的…

MyBatis之慎用association

这里先总结一下 association 存在的问题。 一、内嵌查询时存在报错Id找不到及内存溢出隐患 二、一对多关系数据重复问题 三、多层嵌套内层 association 查询结果为null 或 非预期的值 一、内嵌查询时存在报错Id找不到及内存溢出隐患 参考: https://www.lmlphp.co…

DP358/321/323/324运算放大器芯片

DP358、DP321、DP323、DP324是一款低噪声、低压、低 功耗轨到轨输出运放大器,该系列放大器的增益带宽为 11MHz,压摆率为 8.5V/uS,其中DP323 在掉电工作模式下待机电流小于1uA。该系列放大器可以广泛应用于各种电子产品领域。 主要特性: 轨到轨最大输入…

电脑提示msvcr110.dll丢失怎样修复呢?推荐三个修复方法

Windows系统总是不可避免会出现系统报错,提示msvcr110.dll丢失,无法运行启动软件程序,主要就是由于系统的msvcr110.dll丢失或者损坏。msvcr110.dll是Microsoft Visual C Redistributable软件包中的一个文件,它是由Microsoft Visua…

【文生图系列】Stable Diffusion Webui安装部署过程中bug汇总(Linux系统)

文章目录 bugs虚拟环境pythongfpgan和cython bugs 看网上部署stable diffusion webui的教程,很简单。而且我也有部署stable diffusion v1/v2的经验,想着应该会很快部署完stable diffusion webui,但是没想到在部署过程中,遇到各种…

【数据分析 - 基础入门之pandas篇③】- pandas数据结构——DataFrame

文章目录 前言一、DataFrame创建1.1 字典创建1.2 NumPy二维数组创建 二、DataFrame切片2.1 行切片2.2 列切片2.3 行列切片 三、DataFrame运算3.1 DataFrame和标量的运算3.2 DataFrame之间的运算3.3 Series和DataFrame之间的运算 四、DataFrame多层次索引4.1 多层次索引构造1.隐…

AJAX异步请求JSON数据格式

目录 前言 1.AJAX的实现方式 1.1原生的js实现方式 1.2JQuery实现方式 2.1语法 3.JSON数据和Java对象的相互转换 3.1将JSON转换为Java对象 3.2将Java对象转换为JSON 前言 AJAX:ASynchronous JavaScript And XML 异步的JavaScript 和 XML。 Ajax 是一种在…

在安卓里用c++显示骨骼动画

1. 程序模块图 2. 编译第三方库Assimp 2.1 下载 官网下载5.0.0版本,https://codeload.github.com/assimp/assimp/zip/refs/tags/v5.0.0 2.2 生成安卓编译链 解压后在assimp-5.0.0下建文件夹BuildAssimp 放两个脚本make_standalone_toolchain.bat python D:/Android/Sdk/nd…

安达发|各部门实施APS系统前后有哪些变化?

众所周知,生产计划部门是制造企业的重要部门,承担销售、采购、仓储、质量检验和生产的各个部门的协调工作。APS 先进计划排程系统系统通过人工智能算法跟踪所有资源,包括材料、设备、人员、客户需求、订单变更等,自动快速计算出“…

odoo-031 odoo13和odoo16的网站上添加显示变体描述 Website Add Variant Description

文章目录 测试环境需求描述实现步骤实际效果思路说明 测试环境 Odoo 版本: odoo13 和 odoo16 Python 版本:3.6.9 操作系统:Ubuntu 18.04 需求描述 添加变体描述,显示在 form 视图;在网站上动态显示产品变体描述。 …

QT之智能指针

如果没有智能指针,程序员必须保证new对象能在正确的时机delete,四处编写异常捕获代码以释放资源,而智能指针则可以在退出作用域时(不管是正常流程离开或是因异常离开)总调用delete来析构在堆上动态分配的对象。 来看看一个野指针例子 程序将会…

在 3ds Max 中创建逼真的玻璃材质

推荐: NSDT场景编辑器助你快速搭建可二次开发的3D应用场景 尽管本教程基于 3ds Max,但相同的设置适用于许多其他 3D 产品。 注意:单击每个步骤中的缩略图可查看更大的屏幕截图,其中包括视口和用户界面的相关部分。 步骤 1由于本教…

Linux的权限管理精细总结

(该图由AI绘制 关注我 学习AI画图) 目录 一、权限概述 1、权限的基本概念 2、为什么要设置权限 3、Linux用户身份类别 4、user文件拥有者 5、group文件所属组内用户 6、other其他用户 7、特殊用户root 二、普通权限管理 1、ls -l命令查看文件…

LED显示屏的8个常见信号干扰因素及解决方法

LED显示屏在使用过程中可能会受到多种信号干扰因素的影响,导致显示效果不理想或出现问题。以下是LED显示屏常见的信号干扰因素以及对应的解决方法: 1,电源干扰: 干扰因素:电源波动、电源噪声等。 解决方法&#xff1a…

jenkins发布使用邮件添加审批

首先安装好Email Extension Plugin插件并在 system下配置好邮件 然后配置流水线需要的参数 ![在这里插入图片描述](https://img-blog.csdnimg.cn/418fc89bfa89429783a1eb37d3e4ee26.png#pic_center pipeline如下: def skipRemainingStages false //是否跳过生…

【原创】实现GPT中Transformer模型之框架概念

作者:黑夜路人 时间:2023年7月 GPT是什么意思 GPT的全称是 Generative Pre-trained Transformer(生成型预训练变换模型),它是基于大量语料数据上训练,以生成类似于人类自然语言的文本。其名称中的“预训练”…

Knife4j-的使用(详细教程)

文章目录 前言一、简介二、版本参考三、基本使用1. 导入相关依赖2. 比对效果3. 增强特性应用 四、Spring-Cloud 整合1. 项目准备2. 实现步骤2.1 依赖引入2.2 编写配置类2.2.1基础信息配置2.2.2 配置接口信息2.2.3 安全认证配置 2.3 常用注解的使用2.3.1 Api2.3.2 ApiOperation2…

计算机组成2——存储系统

1. 硬件构成、工作原理、评价指标 2.主存储器 基本构成为DRAM&SRAMROM,工作原理为串行访问特点是采用多体交叉提高读取速度 RAM工作原理 SRAM的读写过程如下: WE控制读写; CS为片选信号; VCC为接地端; GND为…