浅析扩散模型与图像生成【应用篇】(四)——Palette

news2025/2/23 11:47:40

4. Palette: Image-to-Image Diffusion Models

  该文提出一种基于扩散模型的通用图像转换(Image-to-Image Translation)模型——Palette,可用于图像着色,图像修复,图像补全和JPEG图像恢复等多种转换任务。Palette是一种条件扩散模型,目的是根据输入的条件 x x x来构建分布 p ( y ∣ x ) p(y|x) p(yx),其中 x x x y y y都是图像的形式。作者采用了256*256的条件UNet架构作为网络模型,并通过图像级联的方式引入条件图像。目标损失函数如下 E ( x , y ) E ϵ ∼ N ( 0 , I ) E γ ∥ f θ ( x , γ y + 1 − γ ϵ ⏟ y ~ , γ ) − ϵ ∥ p p \mathbb{E}_{(\boldsymbol{x}, \boldsymbol{y})} \mathbb{E}_{\boldsymbol{\epsilon} \sim \mathcal{N}(0, I)} \mathbb{E}_{\gamma}\|f_{\theta}(\boldsymbol{x}, \underbrace{\sqrt{\gamma} \boldsymbol{y}+\sqrt{1-\gamma} \boldsymbol{\epsilon}}_{\tilde{\boldsymbol{y}}}, \gamma)-\boldsymbol{\epsilon}\|_{p}^{p} E(x,y)EϵN(0,I)Eγfθ(x,y~ γ y+1γ ϵ,γ)ϵpp其中 γ \gamma γ表示噪声的强度。在DDPM中 p = 2 p=2 p=2,即采用L2损失函数;而在其他的一些工作中,也有选择L1损失函数的。作者发现使用L2损失能够提高生成样本的多样性,而使用L1损失则会生成更加保守可信的结果。
  为了评估图像转换算法的性能,作者还给出了一个综合的评价指标,包含Inception Score (IS);Fréchet Inception Distance (FID); Classification Accuracy (CA),用预训练的ResNet-50分类器的Top-1分类准确率; Perceptual Distance (PD), 在Inception-V1特征空间中的欧氏距离。此外还引入了人类评估方式,即让人判断两张图片哪个是自然图片,哪个是生成图片,人类将生成图片误判为自然图片的比例,称为Fool Rate。
  作者在四个图像转换任务中对Palette的性能进行了测试,包括:

  • 图像着色:将灰度图像转换为彩色图像
  • 图像修复:将图像中被任意掩码的部分用真实的内容填充起来
  • 图像补全:把输入图像沿一个或多个方向进行扩展使其变得更大
  • JPEG图像恢复:将压缩过得JPEG图像恢复其图像细节

实验结果表明,在无需对任务进行单独调参和单独设计得条件下,Palette在多个任务中均取得了非常有竞争力的结果,甚至超过了许多针对任务开发的专用算法(包括基于GAN和自回归模型的)。
在这里插入图片描述
  接着作者研究了自注意力机制对扩散模型的影响,作者发现全局自注意力机制要优于局部自注意力机制,甚至不适用自注意力机制,通过增加更多的残差块或者使用空洞卷积来增大感受野,其性能都超过使用局部自注意力。最后,作者研究了多任务训练的影响,即使用多个任务的数据集同时对Palette进行训练。在大部分任务中(图像修复和图像着色)多任务训练的效果是不如针对任务单独训练的Palette方法的,而在JPEG图像恢复任务中,多任务训练的Palette甚至取得了更好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1478090.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

曲线的凹凸性与拐点【高数笔记】

1.什么是曲线的凹凸性 2.什么是曲线的拐点 3.拐点的特征 4.拐点与驻点有什么不同 5.拐点的表示方法与驻点有什么不一样 6.拐点与凹凸区间怎么求

Servlet 新手村引入-编写一个简单的servlet项目

Servlet 新手村引入-编写一个简单的servlet项目 文章目录 Servlet 新手村引入-编写一个简单的servlet项目一、编写一个 Hello world 项目1.创建项目2.引入依赖3.手动创建一些必要的目录/文件4.编写代码5.打包程序6.部署7.验证程序 二、更方便的处理方案(插件引入&am…

c++阶梯之内存管理

目录 1.c/c内存分布 2. C语言中的动态内存管理方式:malloc/calloc/realloc/free 3.c的内存管理方式 3.1 new/delete操作内置类型 3.2 new/delete操作自定义类型 3.3 实践中总结new与malloc的区别 1. new的用法比malloc更加的简单 2. new可以控制初始化&am…

C# OpenVINO Nail Seg 指甲分割 指甲检测

目录 效果 模型信息 项目 代码 数据集 下载 C# OpenVINO Nail Seg 指甲分割 指甲检测 效果 模型信息 Model Properties ------------------------- date:2024-02-29T16:41:28.273760 author:Ultralytics task:segment version&#…

遥感、航拍、影像等用于深度学习的数据集集合

遥感图像的纹理特征异常繁杂,地貌类型多变,人工提取往往存在特征提取困难和特征提取不准确的问题,同时,在这个过程中还会耗费海量的人力物力。随着计算力的突破、数据洪流的暴发和算法的不断创新,在具有鲜明“大数据”…

Python爬虫——Urllib库-上

这几天都在为了蓝桥杯做准备,一直在刷算法题,确实刷算法题的过程是及其的枯燥且枯燥的。于是我还是决定给自己找点成就感出来,那么Python的爬虫就这样开始学习了。 注:文章源于观看尚硅谷爬虫视频后笔记 目录 Urllib库 基本使…

Html零基础入门教程(非常详细)

文章目录 1.认识HTML2.html 框架3.HTML常见标签4.HTML语法特征5.列表 1.认识HTML html是超文本标记语言: 目前最新版本是html5,由w3c(万维网联盟)完成标准制定。 声明文档的类型是html5 超文本标记语言。 HTML ,全称“Hyper Text Markup Language(超文…

微信小程序图片展示淡入淡出纯WXSS实现,无需使用消耗性能的动画引擎

进入下面小程序可以体验效果: 以下代码的淡入淡出是切换图片的时候动画效果显示的。需要用其他方式,可以基于这个wxss修改即可 原理就是,图片默认样式的opacity 是 0,通过变量改变样式的opacity即可,然后需要有transi…

Vue纯前端实现链接生成二维码并支持下载

你好,我是小白Coding日志,一个热爱技术的程序员。在这里,我分享自己在编程和技术世界中的学习心得和体会。希望我的文章能够给你带来一些灵感和帮助。欢迎来到我的博客,一起在技术的世界里探索前行吧! 在现代 Web 应用…

(C语言)Sleep函数,system函数,数组练习,详解与运用

一维数组详解:http://t.csdnimg.cn/zahZF 二维数组详解:http://t.csdnimg.cn/h2mLe 我们看过可一维数组与二维数组,现在我们来进行简单的练习。 题目:编写代码,演⽰多个字符从两端移动,向中间汇聚 1. …

DFS之剪枝与优化

剪枝 1.优化搜索顺序:在大部分情况下,我们应该优先搜索分支较少的结点 2.排除等效冗余(在不考虑顺序的情况下,尽量用组合的方式来搜索) 3.可行性剪枝 4.最优性剪枝 5.记忆化搜索 165. 小猫爬山 - AcWing题库 import …

【快速上手QT】06-检测按键检测鼠标

今天聊聊事件,实际上我们在前两篇文章中就已经接触到了事件,分别是定时器事件和绘画事件,今天我们再来看看其他的事件。 我们打开QT助手,在QWidget的界面中找到下图中的地方。 我们可以看到很多函数的结尾都是Event,那…

日本极致产品力|200人的小型家族企业,如何年销7亿块巧克力?

蒂罗尔巧克力是日本经典的巧克力品牌。糖果业务是其早期的主营业务,在主营业务下滑的情况下,确立新的竞争方向、打造新产品、寻找新方法,成就巧克力极致产品力重回增长。 竞争环境变化:糖果主营业务持续下滑 始于1903年的松尾株式…

云原生架构技术揭秘:探索容器技术的奥秘

云原生的概念和演进都是围绕云计算的核心价值展开的,比如弹性、自动化、韧性,所以云原生所涵盖的技术领域非常丰富。 随着云计算技术的不断发展,云原生架构已经成为了新一代软件开发的重要趋势。本文将为您介绍云原生架构的相关技术&#xf…

产品经理岗位的任职资格和职业规划

产品经理主要是商业银行以客户为导向的,具体负责组织银行某一金融产品线的创新设计、生产营销和管理服务的工作。这类人士主要负责应用实施工作,其中产品线由一系列的产品构成,公司的产品经理主要分为全过程产品创新设计专家、全过程产品生产…

Decision Transformer

DT个人理解 emmm, 这里的Transformer 就和最近接触到的whisper一样,比起传统Transformer,自己还设计了针对特殊情况的tokens。比如whisper里对SOT,起始时间,语言种类等都指定了特殊tokens去做Decoder的输入和输出。 DT这里的作为输入的Tokens由RL里喜闻乐见的历史数据:…

QtCreator报Failed to parse qmlimportscanner output解决

错误如下: 定位错误位置 增加错误信息打印 打印执行命令 执行打印输出的命令,成功返回JSON 但输出的JSON对象不是json格式,而是命令 增加$$成功输出JSON 使用QtCreator12编译一次后,再使用QtCreator13成功编译通过,问题解决

Floyd算法、Dijkstra算法、基础拓扑排序

Floyd算法 Dijkstra算法 基础拓扑排序

TikTok运营应该使用什么IP?网络问题大全

想要迈过TikTok新手门槛,首先必须要学习的就是网络问题。很多人开始做TikTok账号或者TikTok小店时,都会遇到一些先前没有遇到的词汇和概念,比如原生IP,独享IP,甚至专线,那么一个IP可以做几个账号呢&#xf…

编译 qsqlmysql.dll QMYSQL driver not loaded

Qt 连接MySQL数据库,没有匹配的qsqlmysql.dll, 需要我们跟进自己Mysql 以及QT版本自行编译的。异常如下图: 安装环境为 VS2019 Qt5.12.12(msvc2017_64、以及源码) 我的安装地址:D:\Qt\Qt5.12.12 Mysql 8.1.0 默认安…