CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列

news2025/1/5 9:16:13

1、Activating More Pixels in Image Super-Resolution Transformer

基于Transformer的方法在低级别视觉任务中,如图像超分辨率,表现出了令人印象深刻的性能。Transformer的潜力在现有网络中仍未得到充分发挥。为了激活更多的输入像素以实现更好的重建,提出了一种新的混合注意力Transformer(HAT)。它同时结合了通道注意力和基于窗口的自注意力方案,从而充分利用了它们各自的优势,即能够利用全局统计和强大的局部拟合能力。

此外,为了更好地聚合跨窗口信息,引入了一种重叠的交叉注意力模块,以增强相邻窗口特征之间的交互作用。在训练阶段,采用同一任务预训练策略来利用模型的潜力以实现进一步的改进。大量实验证明了所提出的模块的有效性,进一步扩展了模型以显示出该任务的性能可以得到极大的提高。整体方法在PSNR比现有最先进的方法高出1dB以上。

https://github.com/XPixelGroup/HAT

38663e8109517ecc3fc63e6bd1f37749.png

2、Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

扩散模型在单幅图像超分辨率和其他图像-图像转换任务中显示出良好的效果。尽管取得了这样的成功,但在更具挑战性的盲超分辨率任务中,它们的表现并没有超过最先进的GAN模型,在盲超分辨率任务中,输入图像的分布不均匀,退化未知。

本文介绍了一种基于扩散的盲超分辨率模型SR3+,为此,将自监督训练与训练和测试期间的噪声调节增强相结合。SR3+的性能大大优于SR3。在相同的数据上训练时,优于RealESRGAN。

0c16e3ead39f885bfef097a315e7a57f.png

3、Implicit Diffusion Models for Continuous Super-Resolution

图像超分辨率(SR)因其广泛的应用而受到越来越多的关注。然而,当前的SR方法通常受到过度平滑和伪影的影响,而大多数工作只能进行固定放大倍数。本文介绍了一种隐式扩散模型(IDM),用于高保真连续图像超分辨率。

IDM采用隐式神经表示和去噪扩散模型相结合的统一端到端框架,其中,在解码过程中采用了隐式神经表示来学习连续分辨率表示。此外,设计了一种比例自适应调节机制,其中包括低分辨率(LR)调节网络和一个比例因子,该比例因子调节分辨率并相应地调节最终输出中的LR信息和生成特征的比例,从而使模型适应连续分辨率要求。大量实验证实了IDM有效性,并展示其在先前艺术品中的卓越性能。代码在https://github.com/Ree1s/IDM

25efea52433adae753d787aeae9e61d6.png

4、Perception-Oriented Single Image Super-Resolution using Optimal Objective Estimation

相对于使用失真导向损失(如L1或L2)训练的网络而言,使用感知和对抗损失训练的单图像超分辨率(SISR)网络提供了高对比度输出。但是,已经表明,使用单个感知损失无法准确恢复图片中的局部不同形状,往往会产生不良伪像或不自然的细节。因此,人们尝试了各种损失的组合,例如感知、对抗和失真损失,但往往很难找到最优的组合。

本文提出了一种新的SISR框架,应用于每个区域进行最优目标生成,以在高分辨率输出的整体区域中生成合理的结果。具体来说,该框架包括两个模型:一个预测模型,用于推断给定低分辨率(LR)输入的最佳目标图;一个生成模型,生成相应的SR输出。生成模型基于提出的目标轨迹进行训练,该轨迹表示一组基本目标,使单个网络能够学习与轨迹上组合的损失相对应的各种SR结果。

在五个基准测试中,实验结果表明,该方法在LPIPS、DISTS、PSNR和SSIM度量上优于最先进的感知驱动SR方法。视觉结果也证明了方法在感知导向重构方面的优越性。代码和模型在https://github.com/seunghosnu/SROOEe40f1cf6ef1edb8839e190c64232c0f9.png

5、Structured Sparsity Learning for Efficient Video Super-Resolution

现有视频超分辨率(VSR)模型的高计算成本阻碍了它们在资源受限的设备(例如智能手机和无人机)上的部署。现有VSR模型包含相当多的冗余参数,拖慢推理效率。为了剪枝这些不重要的参数,根据VSR的特性开发了一种结构化剪枝方案,称为结构稀疏学习(SSL)。

SSL为VSR模型的多个关键组件设计了剪枝方案,包括残差块、递归网络和上采样网络。具体而言,为递归网络的残差块设计了一种残差稀疏连接(RSC)方案,以解放剪枝限制并保留恢复信息。对于上采样网络,设计了一个像素洗牌剪枝方案,以保证特征通道空间转换的准确性。此外观察到,在隐藏状态沿着递归网络传播时,剪枝误差会被放大。为缓解此问题,设计了时间微调(TF)。大量实验证明了SSL在定量和定性上都显著优于最近的方法。代码在https://github.com/Zj-BinXia/SSL

c1b300ccd5b7ee9713a375f07c153f1c.png

6、Super-Resolution Neural Operator

提出超分辨率神经算子(Super-resolution Neural Operator,SRNO),可以从低分辨率(LR)对应物中解决高分辨率(HR)图像的任意缩放。将LR-HR图像对视为使用不同网格大小近似的连续函数,SRNO学习了对应的函数空间之间的映射。

与先前的连续SR工作相比,SRNO的关键特征是:1)每层中的核积分通过Galerkin类型的注意力得到高效实现,在空间域中具有非局部特性,从而有利于网格自由的连续性;2)多层注意力结构允许动态潜在基础更新,这对于SR问题从LR图像“幻想”高频信息非常重要。

实验结果表明,SRNO在准确性和运行时间方面优于现有的连续SR方法。代码在https://github.com/2y7c3/Super-Resolution-Neural-Operator

008b50c6aaaeef59425ead7f230f5d5d.png

7、Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting

提出一种新的高质量、高效的视频分辨率提高方法,利用时空信息将视频准确地分成块,从而将块的数量和模型大小保持在最小。在现成的移动电话上部署模型,实验结果表明,方法实现了具有高视频质量的实时视频超分辨率。与最先进的方法相比,在实时视频分辨率提高任务中实现了28 fps的流媒体速度,41.6 PSNR,速度提高了14倍,质量提高了2.29 dB。代码将发布:https://github.com/coulsonlee/STDO-CVPR2023

86ac31f275d8e62c760ee1e55cf51a27.png

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

ec5390bf2dc73a8e7efcda377ad9ebe1.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/657767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ansible配置和模块

Ansible是一个基于Python开发的配置管理和应用部署工具,现在也在自动化管理领域大放异彩。它融合了众多老牌运维工具的优点,Pubbet和Saltstack能实现的功能,Ansible基本上都可以实现。 Ansible能批量配置、部署、管理上千台主机。比如以前需…

Python自动化测试基础必备知识点总结

一、自动化测试的概念 性能系统负载能力稳定性过载操作下的系统瓶颈自动化测试,使用程序代替人工,可以提高测试效率性,自动化测试能自动化使用代码模拟大量用户,让用户请求多页和多用户并发请求收集参数,并对系统负载…

使用UnityXR配置PICO开发环境

效果展示: 一、说明 本文环境搭建测试基于Unity2021.3.26版本进行的,插件版本为当前官方最新版本PICO_SDK_v2.1.5,根据官方的描述,PICO Unity Integration SDK v2.x.x 系列是长期维护版本,支持 PICO Neo3 和 PICO 4 全…

VFP提取源码中各项信息,快速转换语言,时间比钱值钱

您辛苦了很长时间,编写了一套很不错的管理软件,行业使用很不错,代码行10万,有一天一位外国客户找到您,说想购买使用您的软件,但显示语言需要是英语的,三五天内就要使用,你怎么办&a…

Windows 禁止 IE 自动跳转 Edge「整合方案」

前言 IE 已经合并进 Edge 浏览器,IE「正式入土」 RESPECT ​ 昨晚,公司系统更新(Edge)结束后,原本正常运行的 RPA 全部下线,原因如图: ​ 早上起来,又是充满希望的一天,于…

Autoware.universe中激光雷达感知部分简述,一看就懂,不懂请打我

文章目录 整体把握各部分阐述滤除多余的检测框 总结 整体把握 Autoware.universe中激光雷达感知部分的主要流程为: 将原始点云数据输入地面滤波器和深度学习检测算法,分别得到地面滤波后的点云points_no_ground和Object检测框(该检测框内包含中心点、位…

端午赠礼:软件测试万能面试脚本,一节课学会软件测试,欸嘿

​ 写在前面: 又到端午了,四舍五入接下来马上要过年了,新一波的跳槽旺季马上来临,不知道你是不是已经安于现状,还是蓄势待发呢?最近我和我的同事们一顿讨论,拟写了大家可能会遇到的面试情况&…

大数据基础平台实施及运维

一、大数据介绍 1、为什么使用大数据技术 数据量越来越大,数据分析的实时性越来越强,数据结果应用范围越来越广。(从用户的访问量、量、访问时间、访问频率,市场可以得到很多信息) 2、大数据的定义 数据收集、数据…

随机数发生器设计(五)

随机数发生器设计(五)- 重播种、输出、自测试 4 重播种函数5 输出函数6 自测试 4 重播种函数 重播种函数利用熵输入及额外输入更新种子,同时对内部状态进行更新。重播种操作函数如下: 函数定义:SM3_RNG_Reseed(workin…

【数据库原理与实践】记忆型章节作业汇总

填空题部分: Chp 8 安全性与完整性 part 1: 数据库的安全性是指保护数据库以防止不合法的使用所造成的( 数据泄露、更改或破坏 )。计算机系统有三类安全性问题,即( 技术安全 )、管理安全和…

【gitflow】 概念基本介绍

gitflow 简介 什么是gitflow? 我们大家都很会用git,但是我们很少去关心我们要怎么用branch和版本控制。 只知道master是第一个主分支,其他分支都是次要分支, 那你知道如下的问题如何回答吗? 如何保证主分支的稳定…

vue3+ts封装axios 配置BASE_URL拦截器 单个接口的拦截 全局拦截器

1. config.ts 书写BASE_URL ( service/request/config.ts) BASE_URL书写的方式很多 1: 直接在axios.create里面写死 ,在打包或者测试的时候手动进行修改BASE_URL 2:新建一个文件 在文件里面判断当前的环境 进行赋值BASE_URL 3:定义.env文件 …

线程间同步

线程间资源竞争 int count 0;void * add(void *arg){int val,i;for(i 0;i< 5000;i ){val count;printf("%p: %d\n",pthread_self(),val);count val 1;}return nullptr; }int main(){pthread_t tida,tidb;pthread_create(&tida,NULL,add,NULL);pthread_c…

python爬虫进行AES解密遇到的问题

1、TypeError: Object type <class ‘str’> cannot be passed to C code 报错如下&#xff1a; File "C:\Python311\Lib\site-packages\Crypto\Util\_raw_api.py", line 143, in c_uint8_ptrraise TypeError("Object type %s cannot be passed to C cod…

【改进算法】混合鲸鱼WOA和BAT算法(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

0101B站学习视频发留言找小伙伴-实用小工具系列

文章目录 1 起因2 找方法3 bilibili_api4 实现5 知识点结语 1 起因 经常在B站看学习视频&#xff0c;但是一个人学习&#xff0c;偶尔在想&#xff0c;我学的怎么样&#xff1f;有没有用&#xff1f;有没有谁可以一起交流下&#xff1f;好在现在有互联网&#xff0c;可以极大的…

WiFi各协议理论速度

一、总览 二、11b到11g提升点 802.11g工作在2.4G频段下&#xff0c;能够支持OFDM和CCK两种调制方式&#xff0c;提供16-QAM、64-QAM、BPSK和QPSK四种编码方式&#xff0c;我们通常说的54Mbps速率就是在2.4G频段下&#xff0c;通过OFDM调制&#xff0c;采用64-QAM编码的情况下实…

表达式和语句

表达式 可以被求值的代码&#xff0c;并将其计算出一个结果 语句 一段可以执行的代码&#xff0c;是一个行为&#xff0c;例如分支语句和循环语句 三大流程控制语句 以前写的代码&#xff0c;写几句就从上往下执行 &#xff0c;---顺序结构 有时候要根据条件 选择执行代码…

Spring源码之PostProcessor解析

系列文章目录 文章目录 系列文章目录前言一、PostProcessor是什么二、PostProcessor的作用三、Spring框架中有哪些PostProcessor呢BeanPostProcessorBeanFactoryPostProcessorInstantiationAwareBeanPostProcessorDestructionAwareBeanPostProcessorMergedBeanDefinitionPostPr…

Pinia 和 Vuex ,理解这两个 Vue 状态管理模式

Pinia和Vuex一样都是是vue的全局状态管理器。其实Pinia就是Vuex5&#xff0c;只不过为了尊重原作者的贡献就沿用了这个看起来很甜的名字Pinia。 本文通过Vue3的形式对两者的不同实现方式进行对比&#xff0c;让你在以后工作中无论使用到Pinia还是Vuex的时候都能够游刃有余。 …