【可控图像生成系列论文(三)】北大 Context-Aware Unsupervised Text Stylization论文解读1

news2025/1/11 12:59:21
  • 【可控图像生成系列论文(一)】 简要介绍了论文的整体流程和方法;
  • 【可控图像生成系列论文(二)】则将就整体方法模型结构训练数据纹理迁移进行了更详细的介绍。

在这里插入图片描述

本篇将介绍来自 ACM MM 2018 的一篇字体风格化的可控生成工作《Context-Aware Unsupervised Text Stylization》,主要功能是无监督的文字风格化,输入为(a)中风格图的火焰+原始字体,得到风格化后的艺术字

整体流程

在这里插入图片描述

  • 作者提出了一种无监督的文本风格化算法。其中包括风格迁移(上图中蓝色)和布局设计(红色)两个方法。
  • 风格迁移:作者提出了保持可读性的结构迁移(Structure Transfer)和纹理迁移(Texture Transfer)算法,逐步缩小文本和风格图像之间的视觉差异,从而有效地平衡了文本的可读性和风格一致性,并证明了这些算法在二值文本和风格图像之间的风格转换中是有效的。
  • 布局设计:作者提出了一种上下文感知布局设计方法,以确定图像布局并将艺术文本无缝合成到背景图像中,从而创建出具有专业外观的视觉文本呈现。其中最佳文本布局由利用无缝性和美学提示的上下文感知布局设计算法确定。给定布局后,可以通过在上下文感知边界约束下的纹理合成将文本无缝嵌入背景中。

1-Guidance Extraction 引导图提取

在这里插入图片描述

  • 对纹理的感知是获取抽象意象的过程,这使我们能够从无序的事物中看到具体的图像(例如云)。这启发作者通过模拟人类对纹理信息的抽象过程,从源图像 S′ 中提取出二值意象 S。
  • S 作为引导图,其中白色像素表示文本内部(前景)的参考区域,黑色像素表示文本外部(背景)。前景和背景的边界描绘了 S′ 中纹理的形态特征。
  • 作者提出了一种简单但有效的两阶段方法,将纹理抽象为前景和背景,并很好地保留了源纹理的形态特征。
  • 具体来说,作者使用相对总变差(Relative Total Variation,RTV)1 去除纹理内部的颜色差异,获得结构图像   S ‾ ′ ~{\overline S^′}  S。然而,   S ‾ ′ ~{\overline S^′}  S 中纹理轮廓的细节也被平滑处理了(见图3(b)(f))。因此,作者提出了一种两阶段抽象方法:
    • 在第一阶段,将 S ′ S^′ S 中的像素抽象为细粒度的超级像素2,以精确匹配纹理轮廓。每个超级像素使用其在   S ‾ ′ ~{\overline S^′}  S 中的平均像素值作为其特征向量,以避免纹理差异。
    • 在第二阶段,通过 K-means 聚类(K = 2)将超级像素进一步抽象为粗粒度的前景和背景。图3展示了该两阶段方法生成的石膏墙精确抽象意象的示例。
  • 在这个示例中,结果在边界上比单阶段方法具有更多的细节,并且比最先进的标签图提取方法 3 错误更少(见图3(h)中放大的区域)。最后,检测 S ′ S^′ S 中的像素显著性 4,并将平均像素显著性较高的聚类设置为前景。

2-Structure Transfer 结构迁移

在这里插入图片描述

  • 直接使用通过 Guidance Extraction 提取的 S S S T T T 进行风格转移会导致不自然的纹理边界,如图4(a)所示。对此的解决方案是采用形状合成技术 5,以最小化 S S S T T T 之间的结构不一致性。
  • 在分层形状合成(Layered Shape Synthesis,LSS)6 中,形状被表示为多个分辨率下的边界片段集合,并通过优化双向相似性函数将一种形状的风格转移到另一种形状上。然而,在我们的任务中,这种方法没有考虑可读性,文本在调整后会变得不可读。

在这里插入图片描述

在这里插入图片描述
如图6底行所示,“H”被变形成“X”和“M”。因此,作者将笔画主干保护机制结合到 LSS 中,提出了一种保持可读性的结构转移方法。主要思想是调整笔画末端的形状,同时保留笔画主干的形状,因为字形的可读性主要由其主干形状决定。


  1. Li Xu, Qiong Yan, Yang Xia, and Jiaya Jia. 2012. Structure extraction from texture via relative total variation. ACM Transactions on Graphics 31, 6 (2012), 139. ↩︎

  2. Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurelien Lucchi, Pascal Fua, and Sabine Süsstrunk. 2012. SLIC superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence 34, 11 (2012), 2274–2282. ↩︎

  3. Yitzchak David Lockerman, Basile Sauvage, Rémi Allègre, Jean-Michel Dischler, Julie Dorsey, and Holly Rushmeier. 2016. Multi-scale label-map extraction for texture synthesis. ACM Transactions on Graphics 35, 4 (2016), 140. ↩︎

  4. Jianming Zhang and Stan Sclaroff. 2013. Saliency detection: A boolean map approach. In Proc. Int’l Conf. Computer Vision. 153–160. ↩︎

  5. Amir Rosenberger, Daniel Cohen-Or, and Dani Lischinski. 2009. Layered shape synthesis: automatic generation of control maps for non-stationary textures. ACM Transactions on Graphics 28, 5 (2009), 107. ↩︎

  6. Amir Rosenberger, Daniel Cohen-Or, and Dani Lischinski. 2009. Layered shape synthesis: automatic generation of control maps for non-stationary textures. ACM Transactions on Graphics 28, 5 (2009), 107. ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1858982.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【43 Pandas+Pyecharts | 京东某商品销量数据分析可视化】

文章目录 🏳️‍🌈 1. 导入模块🏳️‍🌈 2. Pandas数据处理2.1 读取数据2.2 查看数据信息2.3 查看数据描述信息 🏳️‍🌈 3. Pyecharts数据可视化3.1 销量(瓶)地图分布3.2 每月销量(瓶)3.3 男性女性购买数量…

《看不影子的少年》一部探讨偏见与接纳的电视剧❗

《看不见影子的少年》这部电视剧以其独特的视角和深刻的主题 给我留下了深刻的印象。该剧讲述了一位与众不同的少年 他无法在阳光下留下影子,象征着他在社会中的孤独与不被理解 观看过程中,可以感受到少年内心的挣扎与渴望 他渴望被接纳,渴…

【linux kernel】一文总结linux输入子系统

文章目录 一、导读二、重要数据数据结构(2-1)struct input_dev(2-2)input_dev_list和input_handler_list(2-3)struct input_handler 三、input核心的初始化四、常用API五、输入设备驱动开发总结(1)查看输入…

20240507-招商证券 基于鳄鱼线的指数择时及轮动策略

动量震荡指标构造 动量震荡指标为交易者提供了获利的钥匙。动量震荡指标测算了5根价格柱相对于34根价格柱的动量变化。首先计算最近5根价格柱的最高价和最低价间的中点的简单移动平均值,即(最高价最低价)12的简单移动平均,将得出的值减去最近34根价格柱的最高价和最低价中点的…

Spring Cloud:构建分布式系统的利器

引言 在当今的云计算和微服务架构时代,构建高效、可靠的分布式系统成为软件开发的重要任务。Spring Cloud 提供了一套完整的解决方案,帮助开发者快速构建分布式系统中的一些常见模式(例如配置管理、服务发现、断路器等)。本文将探…

Listary——最好用的电脑搜索文件软件

简易版: https://www.listary.com/download-completion?versionstable 完整功能版: Microsoft PowerToys | Microsoft Learn

【PA交易】BackTrader(一): 如何使用实时tick数据和蜡烛图

背景和需求 整合Tick数据是PA交易的回测与实盘基本需求。多数交易回测框架往往缺乏对大规模Tick数据直接而全面的支持。Tick数据因其体量庞大(例如,某棕榈油主力合约四年间的数据达8GB)为结合价格趋势与PA分析带来挑战,凸显了实时…

探索ChatTTS项目:高效的文字转语音解决方案

文章目录 📖 介绍 📖📒 ChatTTS 📒📝 项目介绍📝 项目亮点📝 UI 🎈 项目地址 🎈 📖 介绍 📖 在AI技术迅速发展的今天,文本到语音&…

[职场] 怎么写个人简历模板 #其他#知识分享

怎么写个人简历模板 怎么写个人简历模板1 姓名:xxx 性别:x 年龄:x岁 婚姻状况:x 最高学历:xx 政治面貌:xx 现居城市:xx 籍贯:xx 联系电话:xxxxxx 电子邮箱:xx…

CRMEB开源商城系统Java版:新零售时代的技术创新与实战案例

一、引言 随着新零售概念的兴起和电子商务的飞速发展,企业对商城系统的需求也日益多元化和个性化。CRMEB开源商城系统Java版,凭借其先进的技术架构、丰富的功能模块和灵活的扩展性,成为了众多企业构建和扩展自身电商业务的首选。本文将对CRM…

基于SpringBoot前后端分离在线骑行网站设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…

我是如何在markdown编辑器中完成视频的插入和播放的

如果你有更好用的编辑器组件,请一定推荐给我!!!(最好附带使用说明🤓️) 介绍 在开发一个社区页面的时候,需要完成发帖、浏览帖子的能力。这里考虑接入markdown编辑器进行开发,也符合大多数用户的习惯。 …

MM-LLM:Internvl_chat.v1.5论文解读

这个模型在我自己测的结果上也是表现优异,和glm4v打得有来有回。是目前开源的效果最佳的模型之一。 官方的评测榜单:https://huggingface.co/spaces/opencompass/open_vlm_leaderboard 摘要: 直接说提出了一个拉近开源和商业多模态模型的开…

强强联合 极光推送(JPush)成为华为生态市场首家推送类SDK服务商

近日,中国领先的客户互动和营销科技服务商,极光(Aurora Mobile,纳斯达克股票代码:JG)的核心产品极光推送(JPush)顺利通过华为开发者联盟的多项测试及审核,成为首家在Harm…

RN开发搬砖经验之—“Calculated frame index should never be lower than 0“崩溃问题分析

问题重现 崩溃堆栈: Back traces starts. java.lang.RuntimeException: java.lang.IllegalStateException: Calculated frame index should never be lower than 0at com.facebook.react.animated.NativeAnimatedModule$1.doFrameGuarded(NativeAnimatedModule.ja…

【FFMPEG+Mediamtx】 本地RTSP测试推流记录

利用本地FFMPEGMediamtx 搭建本地RTSP测试推流电脑摄像头 起因 本来要用qt的qml的Video做摄像头测试。 😔但是,不在现场,本地测试,又要测试rtsp流,又因为搜了一圈找不到一个比较好的在线测试rtsp推流网址&#x1f6…

JAVA每日作业day6.24

ok了家人们今天学习了一些关键字,用法和注意事项,静态代码块这些知识,闲话少叙我们一起看看吧。 一,final关键字 1.1 final关键字的概述 final: 不可改变。可以用于修饰类、方法和变量。 类:被修饰的类&a…

Hex文件与BIn文件的关系

单片机中Hex文件与BIn文件的关系 前言 时间:2024/6/24 官方网站:.hex文件解析:Hexadecimal (Intel-Format) File (.hex) Definition 参考博客:实现STM32烧写程序-(3) Hex文件结构-CSDN博客 文件:《Hexfrmt.pdf》描述了…

地信大四,实习重要吗?怎么找实习岗位?

“地信怎么找实习啊?” “实习三个月以上?暑假只有两个月啊” “什么岗位实习比较有用?” “助理类岗位是做什么?” …… 同学们好啊,不知不觉24年已经是过完一小半了,24届毕业的同学们也差不多就要迎来…

JSON.parse(JSON.stringify())导致的响应式属性丢失

console.log("formdata赋值前", this.formdata);console.log("row",row);console.log("row序列化后", JSON.parse(JSON.stringify(row)));this.formdata JSON.parse(JSON.stringify(row)); console.log("formdata赋值后", this.formd…