【多尺度融合:基于深度学习:压缩图像伪像:blocking artifact】

news2025/1/13 7:44:01

Deep learning-based compressed image artifacts reduction based onmulti-scale image fusion

(基于多尺度图像融合的基于深度学习的压缩图像伪影减少)
在基于块的图像/视频压缩平台中,视觉上明显的压缩伪像之一称为blocking artifact(阻塞伪像)。本文提出了一种基于多尺度图像融合的深层网络来消除图像压缩伪影 (通常用image deblocking表示)。最近基于深度学习的相关方法通常基于显式图像先验以每像素方式使用损失函数来学习深度模型,以便直接产生干净的图像。在提出的深度框架中,首先对输入图像进行下采样,同时自然减少了blocking artifact。然后,我们的多尺度图像融合模型用于将不同的down-scaled版本 (较少的伪像) 与输入图像 (具有较严重的伪像) 融合,以估计阻塞伪像。通过从输入图像中扣除估计的伪像,可以显着消除阻塞伪像,并同时保留大多数原始图像细节。

介绍

基于软件/硬件实现的简单性和规律性的好处,基于块的图像编码已在图像压缩中流行,用于表示或存储图像和视频数据。为了实现图像浓缩—> 图像通常被分解成许多 (非重叠的) 平方块,然后通过应用变换 (例如,离散余弦变换形式或DCT) 和量化操作来处理每个单独的块。依靠该方法,在不同的多媒体通信应用中提出了一些图像或视频压缩范例,例如JPEG、mpeg-x和H.26X。图像压缩的主要目的是通过有效地表示大量的视觉数据并保留一定质量的恢复媒体数据来适应存储限制或信道带宽限制。对于低比特率压缩,依赖于基于块的DCT的技术通常会在恢复的图像或视频数据中引起视觉上令人不快的伪像,通常由阻塞伪像表示。伪像可以通过相邻块边界附近的像素值的可见变化来解释 。我们的主要目的是开发一个深层框架,用于消除块伪影,并为基于块的压缩图像实现可接受的视觉质量,特别是对于低比特率的应用。
已经提出学到方法用以消除伪影,一种最实用的方法是后处理,它适合通过进一步恢复解码的图像而嵌入到任何现有的压缩平台中。用于减少图像块伪影的后处理方法分为两类:增强方法和恢复方法。

Enhancement-based approaches for image deblocking

基于图像增强的方法主要是根据人类感知的特定伪影结构和视觉敏感性来提高感知图像的视觉质量。传统上,沿块边界进行后过滤是为了消除块伪像。图像增强方法通常旨在平滑可见的伪影,以代替致力于恢复像素的原始值。基于以下事实,它可能是稍微启发式的: 在客观标准下不执行任何优化。这种方法的主要好处是计算复杂度较低。
具体来说,有一种经典的解块方法 (由SA-DCT表示),该方法依赖于形状自适应变换滤波。此外,提出了沿块边界执行阻塞伪影的检测。设计了四种模式的滤波器,以通过分析频率区域的活动来消除不同频率范围内的阻塞伪影。此外,在H.264 (或AVC) 中使用的环内滤波器应用了简单的操作来检查沿块边界的伪像,并消除它们执行拾取的滤波操作。此外,HEVC中使用的两个环内滤波器是SAO (采样自适应偏移) 滤波器和去块滤波器。用于解块的过滤器减轻了转换后的块边界处的不连续性。此外,提出了一种基于FPGA设计的双边滤波器,用于实时图像去噪。最近,提出了一种基于小波变换的跟踪边缘角的方法,用于消除解压缩图像的阻塞伪影。

Restoration-based approaches for image deblocking

对于图像恢复方法 ,基于感知的图像数据和图像的先验知识,将消除压缩伪影视为信号恢复问题。一个经典的例子是POCS (projection onto convex sets) 技术 。POCS定义了一个封闭的凸集 (包括几个约束),其中项目与从原始图像得出的图像先验知识一致。此外,为了消除解压缩图像中的图像阻塞伪影,提出了一组依赖于POCS的图像量化约束。
另一方面,一些图像恢复方法倾向于优化最优性标准,这些标准受从图像先验获得的一些约束 (例如,稀疏先验) 的限制。例如,提出了基于JPEG图像的稀疏表示的解块框架。它训练了一个字典,用于依靠训练集稀疏地表示图像。然后,将训练好的字典应用于稀疏表示图像,以消除具有错误阈值约束的图像的阻塞伪像。在 先前的论文中,我们已将图像解块表述为基于自学习的稀疏信号分解问题,而无需有关所采用的压缩算法的任何先验知识。
随着深度学习的发展,认为基于深度学习的方法 在图像去块方面通常显著优于大多数传统方法,基于以下描述的可能原因。首先,使用深度网络体系结构,深度学习将有效地扩展灵活性和有效利用图像特征的能力。其次,受益于几个先进的规范和学习算法,训练过程将加快,性能也将得到提高。第三,深度学习非常适合在最近功能强大的GPU (图形处理单元) 计算系统上进行并行处理 ,以提高运行时性能。

贡献和新颖性

1)提出一个新颖的多尺度深度模型,通过缩小感知图像自然消除了阻塞伪影,然后应用提出的多尺度图像融合模型融合不同的缩小版本和原始输入来估计阻塞事实。
2)在统一的深度融合框架中共同学习多任务 (图像超分辨率和区块伪影估计)。
3)在我们的深度网络中集成残差学习和多个损失函数,其中损失函数被施加到网络的多个层 (不仅在输出层) 中,以实现更好,更快的收敛和优化性能。
4)在我们的深度融合网络中,利用多个损失函数类型,包括 (或MSE,即均方误差) 和SSIM (结构相似性)损失,以实现更好的解块性能。
值得注意的是,我们对具有可见阻挡伪影的感知图像的下采样和超分辨版本进行评估的主要动机是两个。首先,对具有可见阻塞伪影的图像进行下采样自然会在一定程度上减少阻塞伪影。应用超分辨率 (SR) CNN模块无法恢复通过下采样消除的大多数阻塞伪影。这将有利于图像去块的目的。具有阻塞伪影的图像自降尺度的想法是受我们先前基于稀疏学习的研究工作的启发,该研究工作用于图像SR和去块中的联合学习。已证明对于图像SR和去块是可行的。其次,融合输入图像 (具有阻塞伪影) 及其超解析版本 (从具有阻塞伪影减少的下采样版本) 将有利于两者中残差网络的学习。

相关工作

残差网络图
请添加图片描述

Loss functions for optimization of deep models

在深度网络中,损耗层计算网络输出和地面真相之间的差 (例如,在多个视觉应用中生成的和参考图像块/补丁之间的比较)。因此,损失函数将有效地驱动网络学习以产生所需的输出。损失函数的最流行的选择是MSE (均方误差) 或2范数函数,因为它在几个优化应用中的简单性和平滑性。处理后的图像补丁 α 和地面真相 β (大小相同) 的L2损失函数表示为:
请添加图片描述
(其中Pand ρ 分别表示补丁的像素集和第 ρ 个像素的索引)
ℓ 2损失函数可能会受到一些限制。例如,ℓ 2与人类观察者感知的图像质量弱相关。主要原因包括,由于噪声的影响独立于图像的局部特性。然而,人类视觉系统对噪声的敏感性通常依赖于图像局部特性 (例如,对比度、结构和亮度)。因此,应考虑更多类型的损失函数来满足本文的目的,以恢复JPEG压缩伪影所遭受的图像质量。为了产生视觉上令人愉悦的输出图像,广泛使用的损失函数是SSIM (结构相似性,一种众所周知的基于感知的模型,用于估计感知的图像质量) [37]。SSIM指数可以在两个大小相同的图像补丁 α 和 β 之间计算:
请添加图片描述
L1也被考虑其中,由于平方差的原因,对于训练集中可能包含的异常值,则将产生L2损失函数的影响,从而导致更大的误差。
请添加图片描述

Proposed deep image fusion model for blocking artifacts reduction

提出的模型图如下:
请添加图片描述
该模型由两个超分辨率 (SR) CNN和一个伪像估计 (用AE表示) CNN模块组成,以实现基于块变换 (例如JPEG) 压缩图像的块伪像的去除。

图像的阻塞伪影主要是由基于块的图像压缩系统 (例如JPEG) 引起的。当将变换编码 (例如,DCT) 应用于有损压缩的图像块时,每个块的变形系数被量化。虽然每个块被单独量化,并且相邻块被不同地量化,但显著的视觉不连续性将出现在块边界处,尤其是在低比特率压缩 (使用较粗的量化) 时。
为了消除解码图像的阻塞伪影 (使用JPEG压缩) 以获得良好的视觉体验,本文将其表述为学习感知图像的阻塞伪影 (或输入图像与其未压缩的干净版本之间的残差) 的残差学习问题,并提出了一种新颖的深层模型来解决该问题。通过考虑具有可见块伪影 ε 的解码压缩图像I,使得I = IO+ε,其中IO表示I的原始未压缩版本。我们的目标是学习伪像 ε,并通过从I中删除 ε 来大致恢复原始图像IO (由Ideblocked表示)。

Proposed multi-scale image fusion model based on deep learning

我们的多尺度图像融合模型的主要目的是估计输入图像I中的阻塞伪影 (具有可见的阻塞伪影)。

Proposed super-resolution CNN module in proposed multi-scale deep image fusion model

为了融合输入图像I的两个不同的缩小版本 (Id_1和Id_2),我们建议首先提高较低分辨率图像 (Id_2) 的分辨率。为了有效地增强尺寸 (W/4) × (H/4) × c的缩小图像Id_2,我们通过CNN提出了一种新颖的单图像SR (超分辨率) 技术。传统的基于深度学习的SR架构 通常首先将输入LR (低分辨率) 图像放大到所需的大小,然后再将其输入到学习的CNN中 (以增强分辨率),这使得SR运算可以在HR (高分辨率) 空间中形成,计算成本更高。取而代之的是,我们借用的想法来设计一种轻巧的CNN,该CNN直接选择LR图像作为输入并生成其HR版本。此外,为了获得更好的SR性能,我们集成了residual学习,快捷连接和子像素CNN技术,以形成我们的SR CNN架构。
请添加图片描述
们的SR CNN模块中的特征提取网络由9层的级联组成,其中每个层由具有3 × 3的滤波器大小和偏置的CNN形成,以及一个PReLU (参数ReLU) 单元 (用于非线性) [49]。PReLU是ReLU的推广,它可调节地训练整流器的参数,并在不显著的额外计算负载下提高精度 。每个层输出都传递到下一层,以减少由以下层操作产生的特征,因为对于SR应用程序而言,本地特征比全局特征更为关键。此外,为了很好地导出本地和全局特征,所有层输出都通过快捷连接技术 (用于保存特征图) 连接,以形成重建网络的输入。

在重建网络中,我们利用1 × 1 cnn来减小由特征提取网络的特征图级联引起的输入尺寸 (通道数),重建网络由两条具有1 × 1卷积运算的平行路径组成。两条路径的输出被串接,然后由另一个1 × 1卷积层来实现网络的输出。通常,使用1 × 1 cnn的主要优点包括减少前一层的尺寸/通道,以及增加网络表示的非线性。更具体地说,重建网络由两条平行路径组成,其中一条由2层1 × 1 CNN,bias和PReLU单元级联形成,另一条仅由一层形成,也由1 × 1 CNN,bias和PReLU组成。然后将两条并行路径的输出连接起来,将其馈送到1 × 1 CNN层中,以获得重建网络输出。
我们的SR方法会不断将集成反馈到下一层 (子像素卷积层) 中,以进一步产生SR结果。为了使尺寸为w × h × c (c表示颜色通道的数量) 的输入图像在区域和垂直方向上增加空间分辨率,以获得尺寸的放大版本 (rw × rh × c),我们的重建网络将为每个输出大小为w × h × c的r2通道。输出通道被馈送到子像素卷积层中,以重建最终的SR图像。
,通过学习一个放大滤波器阵列来实现子像素卷积层,以将来自重建网络的输出特征图放大到最终的HR输出。关键思想是实现一个周期洗牌算子,用于将尺寸为r2 × w × h × c的张量的元素向后扩展到尺寸为rw × rh × c的形状的张量,如下图所示 (在这个例子中r = 2):
请添加图片描述
请添加图片描述

Artifacts estimation convolutional neural network module in proposed multi-scale image fusion model

我们的AE CNN的主要目标是基于两个输入来估计解码压缩图像的阻塞伪影: 1) 具有阻塞伪影的原始图像 (I);2)它的 “roughly” deblocked version通过第一次按比例缩小I获得(用于自然减少阻塞伪影),并放大它 (由我们的SR CNN与图像融合)。我们在我们的AE CNN中设计了一个用于特征提取的估计模块。估计模块 (由图6中的红色虚线圈出的范围表示) 是根据快捷方式连接结设计的,由几个3 × 3的CNN、bias、PReLU单元和一个串联单元 (用Concat表示) 组成。在串联了K个级联估计模块的中间输出图之后,接着是下面的两个CNN层,可以获得输入的估计的阻塞伪影 (输入和输出图像之间的残差),参数K根据经验设置为7,以在去块性能和计算复杂度之间进行折衷。
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/79415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CubeIDE新建工程

使用CubeIDE新建工程 开发流程如图(图片来源于b站教程): 1、新建工程 打开CubeIDE,选择文件>新建>STM32Project 软件自己会下载hal库,首次下载可能会有些慢,请耐心等待。 下载完成后,自…

基于java+springmvc+mybatis+jsp+mysql的个人所得税服务系统

项目介绍 随着居民的收入不断提高,个人都需要缴纳一定比例的个人所得税,传统的方式是去税务大厅人工缴纳,为了解决这种人工交税的方式,特此开发了一个在线交税的网站,本系统采用java语言开发,后端采用ssm框…

微服务框架 SpringCloud微服务架构 微服务保护 34 规则持久化 34.2 实现push 模式

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 微服务保护 文章目录微服务框架微服务保护34 规则持久化34.2 实现push 模式34.2.1 规则管理模式 - 实现push 模式34 规则持久化 34.2 实现p…

【LeetCode每日一题:1827. 最少操作使数组递增~~~贪心遍历模拟】

题目描述 给你一个整数数组 nums (下标从 0 开始)。每一次操作中,你可以选择数组中一个元素,并将它增加 1 。 比方说,如果 nums [1,2,3] ,你可以选择增加 nums[1] 得到 nums [1,3,3] 。 请你返回使 num…

Opencv中关于特征点匹配定位的问题(一)

Opencv中关于特征点匹配定位的问题回顾定位回顾 在我们检测到特征点之后,通常进行特征点的匹配。 首先我们先回顾一下使用Brute-Force匹配器来进行匹配。 import cv2 import numpy as np import matplotlib.pyplot as plt#读取图片 imgcv2.imread(./newmm.png) te…

【图像边缘检测】拉普拉斯算法图像边缘检测与增强【含Matlab源码 456期】

⛄一、拉普拉斯图像增强算法优化简介 图像Laplace变换是基本图像增强算法,原始图像通过Laplace变化后会增强图像中灰度突变处的对比度,使图像中的细节部分得到增强并保留了图像的背景色调,图像的细节比原始图像更加清晰。基于Laplace的图像增强已经成为图像锐化处理的基本工具…

SpringBoot快速入门

SpringBoot快速入门1.Spring Boot是什么2.IDEA创建Spring Boot项目3.测试业务4.application.properties的基本配置1.Spring Boot是什么 众所周知 Spring 应用需要进行大量的配置,各种 XML 配置和注解配置让人眼花缭乱,且极容易出错,因此 Spr…

ADI Blackfin DSP处理器-BF533的开发详解30:鼠标的光标显示应用(含源代码)

硬件准备 ADSP-EDU-BF533:BF533开发板 AD-HP530ICE:ADI DSP仿真器 软件准备 Visual DSP软件 硬件链接 触摸屏的硬件设计原理图 功能介绍 代码实现了读取触摸屏坐标,并将触摸屏坐标换算为液晶屏的显示坐标,将光标数据叠加到背…

我的开源项目:文件快递柜-匿名口令分享文本,文件-像拿快递一样取文件

口令传送箱 解决问题 很多时候,我们都想将一些文件或文本传送给别人,或者跨端传递一些信息,但是我们又不想为了分享,而去下载一些七里八里的软件,这时候,我们就可以使用口令传送箱,像拿快递一…

Docker快速入门—高级篇【快速浏览版】

文章目录1.Mysql复杂安装详细解说1.1 安装mysql主从复制2.Redis复杂安装详细解说2.1 分布式存储算法2.2 Redis主从安装2.2.1 Redis集群3主3从的说明2.2.2 Redis集群配置2.2.3 主从容错切换迁移案例2.2.4 主从扩容案例2.2.5 主从缩容案例3.Dockerfile解析⭐️3.1 Dockerfile简介…

no matching host key type found. Their offer: ssh-rsa 问题解决

最近升级了Mac OS Ventura 13.0.1后发现ssh指定密钥登录服务器失败。 no matching host key type found. Their offer: ssh-rsa 进入当前用户的.ssh目录发现比之前系统多了一个config文件 查看sshd版本,发现升级了,需要指定算法参数 解决办法&#xff…

12月11日第壹简报,星期日,农历十一月十八

12月11日第壹简报,星期日,农历十一月十八1. 北京急救中心呼吁:无症状、轻症患者勿拨打120,为危重症患者留出通道;钟南山:发热患者可先在家做抗原检测,如持续发热再去医院检查。2. 湖北省第一条高…

解读YOLO v7的代码(一)模型结构研究

YOLO v7在今年7月份推出,模型的性能和速度相比以往版本有了很大的提升。我也想好好研究一下YOLO v7模型,因此把官方的代码库下载下来进行研究,尝试更好的理解这个模型。 从文档中我们可以看到,如果要从头开始训练,可以…

Linux系统的开机自启动

本文为joshua317原创文章,转载请注明:转载自joshua317博客 Linux系统的开机自启动 - joshua317的博客 当你使用windows操作系统时,开机后总会有各种软件自我启动完成,你并没有在桌面上点击它们的图标启动。比如某些安全卫士,某些…

享元模式分析与实践

享元就是共享单元(元素)的意思。单元代表了整体的部分,如果一个对象其中的部分是稳定的不会改变的,那么这个部分即可以共享。享元模式的用途就是复用对象的单元,让对象的节省内存。 一、享元模式与单例模式区别 单例…

基于C++实现(控制台)停车场管理系统【100010020】

停车场管理系统 1 需求分析 1.1问题描述 停车场内只有一个可停放 n 辆汽车的狭长通道,且只有一个大门可供汽车进出。 汽车在停车场内按车辆到达时间的先后顺序,依次由北向南排列(大门在最南端,最先到达的第一辆车停放在停车场…

vite3+vue3二次封装antdvue组件方法

有时候,第三方的组件库不能满足我们的业务需求,就有必要对别人的组件进行再次的封装,下面我们以antdvue里面的button组件二次封装为例,研究下封装的过程 最后效果 基础代码 <template><div><a-button type="primary" v

网络爬虫urllib库常用函数解析

文章目录前言urllib介绍urllib发送请求urllib编码与解码urllib异常处理urllib使用IP代理urllib使用cookie前言 快期末了&#xff0c;有个数据挖掘的大作业需要用到python的相关知识&#xff08;这太难为我这个以前主学C的人了&#xff0c;不过没办法还是得学&#x1f602;&…

我的周刊(第069期)

我的信息周刊&#xff0c;记录这周我看到的有价值的信息&#xff0c;主要针对计算机领域&#xff0c;内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。&#x1f3af; 项目ChatGPT[1]本周最火爆的项目是 ChatGPT 应该没有意义…

ChatGPT使用初体验

ChatGPT使用初体验 注册chatGPT ChatGPT官网&#xff1a;https://openai.com/blog/chatgpt/ 登录官网进行账号注册&#xff1a; 我相信以各位小伙伴的能力是可以成功注册到账号的。 ChatGPT使用 自从在抖音上、CSDN上看到众多大佬对ChatGPT的一致好评&#xff0c;顿时我就…