tf.image.decode_jpeg(别名tf.io.decode_jpeg)函数工作原理分析

news2025/1/6 20:02:14

1 问题提出

最近在阅读某个论文的源代码时, 发现作者在读取图像数据时没有使用PIL.Image或opencv库,而是使用了tf.image.decode_jpeg,代码节选如下:

# tf1中的函数, 用于读取文件
# tf2中该函数更改为了tf.io.read_file
image_contents = tf.read_file(img_path)

# tf.image.decode_jpeg别名tf.io.decode_jpeg, 用于将JPEG编码的图像解码为uint8张量
# channels参数设置返回的张量的通道数量
image = tf.image.decode_jpeg(image_contents, channels=3)

在这里加载的原始数据是灰度数据,即通道数为1。

然而作者为了使用预训练的VGG16模型,在加载数据时将通道数channels参数设置为了3。

因为预训练的VGG16模型在ImageNet数据集上进行的预训练,而ImageNet的单张图片数据是形状为[3, 224, 224]的矩阵,这意味着预训练的VGG16模型的结构要求输入数据的通道数为3。

所以在使用预训练的VGG16模型时,如果处理的数据是灰度数据,需要额外处理将通道数变换为3。

我了解到的做法有4种:

(1)使用一个卷积核为1的卷积(Conv 1X1)将灰度图像的通道数增大为3

(2)处理预训练的VGG16的第一个卷积的参数,将三通道的权重参数求和

例如第一个卷积是

Conv2d(3, 64, kernel_size=(4, 4), stride=(1, 1), padding=(1, 1))

那么权重矩阵就是64个[3, 4, 4]的矩阵,即形状为[64, 3, ,4, 4]的矩阵

将第2个维度的参数求和,则权重矩阵变换为形状为[64, 1, ,4, 4]的矩阵

(3)将灰度图在第一个维度复制三遍,则图像数据从[1, h, w]变换为[3, h, w]

(4)使用伪彩色处理算法将灰度图转换为彩色图像,从而将图像数据从[1, h, w]变换为[3, h, w]

一般是通过查表法或者其他映射函数将灰度值映射到指定的R,G,B值

伪彩色相关参考资料:

https://www.cnblogs.com/CiciXuanblog/p/15986085.htmlhttps://www.cnblogs.com/CiciXuanblog/p/15986085.html

【OpenCV 例程300篇】203. 伪彩色图像处理_opencv neser_youcans_的博客-CSDN博客NASA 公布了蟹状星云 (Crab Nebula )的观测图像。茫茫太空,距离我们几亿光年的宇宙真是这样绚丽迷人吗?NASA 专家撰文指出,蟹状星云彩色照片实际上人工合成的图像,这是不是暗示照片中的彩色是伪造的?伪彩色图像在形式和视觉表现为彩色图像,但其所呈现的颜色并非图像的真实色彩重现,仅仅是各颜色分量的像素值合成的结果。..................https://blog.csdn.net/youcans/article/details/125298385

图像分析——伪彩色图像、heatmap图像 | 码农家园一、Opencv 伪彩色图像最重要的是cv2.applyColorMap(heatmap, cv2.COLORMAP_JET),将np.unit8格式的矩阵转化为colormap,第二个参数有很多种配色方案,上面这...https://www.codenong.com/cs106899632/

进而我就产生了一个疑问:

如果channels参数设置为3,那么在函数tf.image.decode_jpeg的处理过程中具体是以上四种做法的3还是4呢?

我复现该论文使用的pytorch框架,搞清楚tf.image.decode_jpeg的工作原理对我来说很重要,而官方文档里面没有提到此事,因此我开始尝试解析。

tf.image.decode_jpeg函数的文档链接如下:

TensorFlow函数教程:tf.io.decode_jpeg_w3cschooltf.io.decode_jpeg函数 别名: tf.image.decode_jpeg tf.io.decode_jpegtf.io.decode_jpeg(    contents,    channels=_来自TensorFlow官方文档,w3cschool编程狮。https://www.w3cschool.cn/tensorflow_python/tf_io_decode_jpeg.htmltf.io.decode_jpeg  |  TensorFlow v2.2.0https://tensorflow.google.cn/versions/r2.2/api_docs/python/tf/io/decode_jpeg

2 理论分析

如果tf.image.decode_jpeg使用的第3种方法, 那么三个通道的像素值是一样的。

如果使用的第4种方法,那么三个通道的像素值大概率是不一样的。

因此只需要将tf.image.decode_jpeg处理后的数据的像素值输出看看就知道了

3 实验代码以及结果

测试代码如下:

test.jpg是一张灰度图像

# 观察tf.image.decode_jpeg的工作原理
# 图像路径
current_img_path = './test.jpg'
# 读取图像文件
raw_img_data = tf.io.read_file(current_img_path)
# 获取像素值矩阵
# dct_method='INTEGER_ACCURATE'是为了保证读取出来的像素值与Image.open保持一致
# 不加的话, tf的API可能会为了加速读取而造成值的不准确, 进而限制模型训练中的上限性能
# 参考资料:
# https://www.coder.work/article/6243772
image1 = tf.image.decode_jpeg(raw_img_data, channels=3, dct_method='INTEGER_ACCURATE').numpy()   # 使用tf.image.decode_jpeg函数,通道参数设置为3
# 使用tf.image.decode_jpeg函数,通道参数根据原始数据自行确定
image2 = tf.image.decode_jpeg(raw_img_data, dct_method='INTEGER_ACCURATE').numpy()
# 使用Image.open读取图像,指定为灰度图
image3 = np.array(Image.open(current_img_path).convert("L"))
# 在数据末尾增加一个维度
image3 = np.expand_dims(image3, axis=2)

# 查看矩阵形状
print(image1.shape)   # (288, 352, 3)
print(image2.shape)  # (288, 352, 1)
print(image3.shape)  # (288, 352, 1)

在运行时使用debug模式,在最后一行打上断点

再使用pycharm的SciView观察三个矩阵的数据(也可以使用print函数+矩阵切片的方式观察数据)

发现tf.image.decode_jpeg使用的第3种方法, 三个通道的像素值是一样的

截图如下:

image1矩阵数据如下

image2矩阵数据如下

 

 image3矩阵数据如下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/542031.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux权限的概念及理解】

目录 一、认识linux下的用户分类二、什么叫权限三、没有权限会怎么样(见一见)四、权限的修改问题4.1chmod指令4.2chown指令4.3chgrp指令 五、两个问题粘滞位5.1Question15.2Question25.3粘滞位 一、认识linux下的用户分类 Linux下有两种用户&#xff1a…

mysql中的Redo log

目录标题 前言redolog保证持久性redolog工作过程 redo log中的WAL(先写日志,再写磁盘【写入redo log file】)刷盘策略 重要参数innodb_flush_log_at_trx_commit如何选择 Redo log file日志文件日志文件组redo log刷盘与数据页刷盘redo log何时…

Vue CLI Todo-List案例

3.7. Todo-List 案例 组件化编码流程 拆分静态组件:组件要按照功能点拆分,命名不要与html元素冲突实现动态组件:考虑好数据的存放位置,数据是一个组件在用,还是一些组件在用 一个组件在用:放在组件自身即…

Cesium入门之八:Cesium加载矢量数据

目录 一、什么是矢量数据二、Cesium支持的矢量数据格式KML格式KmlDataSource CZML格式CzmlDataSource GeoJSON格式GeoJsonDataSource 三、Cesium加载GeoJSON数据格式的中国地图示例 一、什么是矢量数据 矢量数据是用于描述地理空间几何特征的一类基于向量的地理信息数据&#…

RabbitMQ的几种通讯方式及其代码示例

文章目录 一、引言二、RabbitMQ介绍三、RabbitMQ安装四、RabbitMQ架构4.1 官方的简单架构图4.2 RabbitMQ的完整架构图4.3 RabbitMQ 通讯方式4.4 Hello-World案例演示4.5 基本原理 五、SpringBoot整合RabbitMQ的使用5.1 导入依赖5.2 在application.properties中增加配置5.3 Hell…

前端学习--Vue(2)

一、Vue简介 1.1 概念 Vue是一套用于构建用户界面的前端框架 框架:现成解决方案,遵守规范去编写业务功能 指令、组件、路由、Vuex、vue组件库 1.2 特性 数据驱动视图 vue连接页面结构和数据,监听数据变化,自动渲染页面结构…

Vue--》Vue 3 路由进阶——从基础到高级的完整指南

目录 Vue3中路由讲解与使用 路由的安装与使用 路由模式的使用 编程式路由导航 路由传参 嵌套路由 命名视图 重定向与别名 Vue3中路由讲解与使用 Vue 路由是 Vue.js 框架提供的一种机制,它用于管理网页上内容的导航。Vue 路由可以让我们在不刷新页面的情况下…

【ChatGPT】通过 ChatGPT 用文字描述来绘制插画

点击上方“独立开发者杂谈” 喜欢本文,请置顶或星标 使用文字描述绘制插画具有以下好处 无需绘画技巧,体验与AI结合,创意灵活性,节省时间。 使用 Figma 工具 Figma (https://www.figma.com)是一款流行的设计…

Linux:iptables防火墙

Linux:iptables防火墙 一、iptables防火墙概述1.1 iptables防火墙1.2 netfilter/iptables 关系 二、Linux防火墙基础2.1 iptables的表、链结构2.2 数据包控制的匹配流程 三、编写防火墙规则3.1 基本语法、控制类型3.2 添加、查看、删除规则等3.3 规则的匹配条件3.3.…

黑马Redis原理篇

黑马Redis原理篇 1、数据结构1.1、动态字符串SDS1.2、IntSet1.3、Dict1.4、ZipList1.5、QuickList1.6、SkipList1.7、RedisObject1.8、五种数据结构1. String(小EMBSTR,大RAW (SDS),少量整数INT)2. List(Redis3.2之后使用QuickList实现&#…

CSDN周赛52期及53期浅析

好久没写题解了,没办法,C站的题目更新的速度太慢了,重复考过去的老题已经不能再进步了。52期还混了个名次,总要写篇文章完成一下任务。而53期就惨了去了,三道选择题全蒙错了。 反正我个人觉得在现在C站的OJ环境里考选…

手撸鉴权系统——SpringBoot2+Vue2(一定惊喜满满,万字长文)

初衷: 一直不太理解整个前后端的鉴权,跨域等问题,抽空两个晚上整理出万字文章,也是对于自己的一个交代,现在共享出来,希望大家也能受益,将使用过程在这里一一详述,还是多说一句&…

【图论(1)】图的存储、遍历与拓扑排序

5月16-5月18日学习内容 文章目录 一、图是什么二、图的存储1、直接存边法2、邻接矩阵法3、邻接表法4、链式前向星时间复杂度分析 三、图的遍历DFSBFS 四、拓扑排序(今天实在没时间写了,明天写) 一、图是什么 这是oi.wiki给的定义 简而言之…

ENVI制图——土地利用专题图

ENVI制图 0 前言1 数据准备2 数据预处理2.1 先在arcmap中把数据导出为tif格式,然后加入envi(别问我为什么要先用arcmap处理,因为这是envi制图教程 :( )2.2 直接把tif格式的数据拖进envi,此时看不到数据类别&#xff0c…

低代码+AI:助力企业数字化转型,揭示未来发展趋势

问个问题:你有没有亲自去了解、使用近期爆火的生成式人工智能——ChatGPT? 如果答案是否定的,作为企业数字化转型的前沿先锋小Z,建议你一定要去亲自尝试它。虽然人工智能技术已经发展多年,但OpenAI所发布的ChatGPT&…

瑞吉外卖 - 新增菜品功能(16)

某马瑞吉外卖单体架构项目完整开发文档,基于 Spring Boot 2.7.11 JDK 11。预计 5 月 20 日前更新完成,有需要的胖友记得一键三连,关注主页 “瑞吉外卖” 专栏获取最新文章。 相关资料:https://pan.baidu.com/s/1rO1Vytcp67mcw-PD…

(十)Spring源码阅读:finishBeanFactoryInitialization方法

一、概述 该方法是实例化bean的主要方法,它实现的主要流程如下图所示。 这是方法执行的主要流程图。 具体执行流程如下图,我们将按照具体执行流程一个个介绍具体的方法。 二、主要方法 finishBeanFactoryInitialization内部调用了getBean方法。 getBea…

AIGC+机器人=具身智能?硅谷最酷的两个男人不谋而合预演“下个浪潮”

收集整理|小鱼新的AI题材层出不穷,这次轮到“机器人AI"融合而成的具身智能概念。 “硅谷钢铁侠"马斯克和热爱黑色皮衣的"显卡教父”黄仁勋均作出积极表态,可谓不谋而合。 当地时间5月16日,特斯拉2023年年度股东大会召开&…

unity DoTween动画插件的使用(最全)

DOTween是最常用的动画插件之一,比使用Unity自带脚本写动画,方便很多。 插件获取 untiy商店插件地址 https://assetstore.unity.com/packages/tools/animation/dotween-hotween-v2-27676 DOTween商城地址,开发文档 http://dotween.demigiant.com 导入和设置 DOTween首次使…

离散数学_九章:关系 —— 拓扑排序

拓扑排序 背景知识相容一个引理什么是拓扑排序 拓扑排序算法(伪代码)几个实例例1例2 假设一个项目由20个不同的任务构成。某些任务只能在其他任务结束之后完成。如何找到关于这些任务的顺序? 为了对这个问题建模,我们在任务的集合…