Generate Anything Anywhere in Any Scene #论文阅读

news2024/11/18 0:32:25

URL

https://arxiv.org/pdf/2306.17154

TD;DR

2023 年 6 月 Wisconsin 的文章。围绕 ip 保持做的扩展任务,核心目标是对指定 ip 可以生成任意大小的(指定 ip)、任意背景的图片,同时可以通过 bbox 控制物体位置和多物体生成。主页
在这里插入图片描述

标题中的:

  • anything = ip 保持
  • anywhere = 任意位置、任意大小
  • any scene = 任意背景

Model & Method

整体没有太多的方法创新,偏向于一个缝合怪的文章。ip 保持能力使用的是 dreambooth,位置控制的模型是 GLIGEN。

  • dreambooth 不赘述
  • GLIGEN 通过把位置、关键点等控制信息,通过一个额外的 attn 注入 SD。即下图的 g(ip 文本和控制信息,经过 mlp 得到)。gamma 是一个可学习的参数,作为一个 gate 开关来控制应该保留原模型信息的权重。TS 表示 token selection 操作,用来提取 visual token(剔除无用背景信息?)

在这里插入图片描述

当然,如果直接组合会出现如下图所示的问题,即生成的位置需要符合 dreambooth 训练数据的分布,如果出现在非训练数据的去他位置(或者其他比例)则会导致生成失败。

文章解释为 dreambooth 不仅学到了 ip 物体的语义信息,同样也会学物体的位置、大小等几何信息。所以在 dreambooth 推理的时候就会过拟合这部分学到的知识(不仅是 dreambooth,大部分需要 finetune 的方法比如 lora 都会有这个问题)
在这里插入图片描述
在这里插入图片描述

针对这个问题,作者给出的解法是做一些形状和位置的增广,包括:

  • 原图的随机 resize
  • 在一张灰色的画布上随机放置,只计算原图区域的 loss
    在这里插入图片描述

按照上面的思路训练完之后,又出现了一些额外的问题,如下图,包括:

  • 图像拼接问题
  • 多物体问题
  • 灰色背景问题
    在这里插入图片描述

作者认为问题 1 和问题 2 来源于训练时候只计算物体区域的 loss,而在 unet 中,随着深度逐渐增大,物体区域和物体边缘信息会发生融合。解法如下图。
思路就是加了 ip 对应的 rare token 作为非 bbox 区域内的 neg prompt、加了一些特定的 pos prompt(如 high quality、colorful image)
在这里插入图片描述

Dataset & Result

一些结果展示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Thoughts

  • 多物体的结果中没有太多的复杂交互
  • 文章里面的非物体区域采用单独的 neg prompt 生成策略可以留意一下。PS:分块 prompt 机制

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1706634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

当客户说价格比市场还要高,就这么回怼!

外贸客户说:价格高出市场价30%。我们给客户卖产品,难免会有讨价还价这回事,讨价还价也是一门技术活,得摸透客户心理还要在嘴皮子上占优势,局面还得拿到主动权… 所以今天给大家分享一些讨价还价的思路和要点,希望大家用…

若依新增页面,在左侧显示菜单栏的页面,可点击

选择指定的某个目录下 菜单名称,路由地址,组件路径这几个是必填的,其他的暂时就不用管了。 菜单名称:就是显示到左侧目录中的名称。 路由地址:自定义,一般写页面名称就可以。 组件路径:根据前端…

神奇的一万

在代码界,有个神奇的存在,它叫一万:eval()。 这个神奇的一万,在python和JavaScript中都存在,作用也是基本相同的。 Python中的eval函数能将字符串str当成有效的表达式来求值并返回计算结果。 …

四川易点慧电商抖音小店:引领潮流,打造电商新标杆

在数字化浪潮席卷全球的今天,电子商务以其独特的魅力和优势,正逐渐成为推动经济发展的重要力量。四川易点慧电子商务有限公司抖音小店,作为电商领域的一股新生力量,以其创新的经营理念和卓越的服务品质,迅速赢得了市场…

弘君资本炒股技巧:股票定向增发是什么意思?是好是坏?

股票定向增发是指已上市的公司向指定的组织或者个人投资者额外发行股份募集资金的融资方法,发行价格为发行前某一阶段的平均价的必定比例,增发的价格不得低于前二十个买卖日股票均价的80%。 例如,个股定增前二十个买卖股票平均价为…

降压芯片SL3036耐压100V 电机驱动板应用48-85V降压12V 1A以内

降压芯片SL3036以其卓越的耐压特性,能够在高达100V的电压环境下稳定运行,为电机驱动板等应用提供了强大的电源支持。这款芯片在电机驱动板中发挥着至关重要的作用,特别是在那些需要48-85V宽范围输入电压并降压至稳定12V输出的场景中&#xff…

Echarts圆环图偏移后 中心文字居中对齐实现

像上图中这样圆环图并不在div的中间时,中心的文本需要居中展示 一开始用left百分比但数据一旦变长或变短就会偏移 像这样 实在是太不美观了 所以我们这里使用动态的left通过文本的长度来计算 /*** 计算文本宽度* param {String|Number} text* param {String} font*…

再创佳绩丨达梦数据库一体机荣获2024数字中国创新大赛·信创赛道总决赛一等奖

5月24日,第七届数字中国建设峰会在福州盛大开幕,峰会内容安排包含开幕式、主论坛、分论坛、数字中国创新大赛、现场体验区及成果发布和专业工作会议等。武汉达梦数据库股份有限公司(以下简称达梦数据)受邀参加并在展、会、赛等多个环节深度参与。达梦全栈…

李廉洋:5.29黄金原油持续震荡,今日美盘行情走势分析及策略。

黄金消息面分析:美联储理事鲍曼周二表示,她支持要么先等等再开始放缓缩减资产负债表,要么采取比本月早些时候宣布的更温和的放慢缩表进程。鲍曼认为商业银行准备金水平仍然充足,这让官员们有更多时间来推进缩表进程。“在准备金接…

六一儿童节创意项目:教你用HTML5和CSS3制作可爱的雪糕动画

六一儿童节快到了,这是一个充满童趣和欢乐的日子。为了给孩子们增添一份节日惊喜,我们决定用HTML5和CSS3制作一个生动有趣的雪糕动画。通过这个项目,不仅能提升你的前端技能,还能带给孩子们一份特别的节日礼物。无论你是前端开发新…

unity接入live2d

在bilibili上找到一个教程,首先注意一点,你直接导入那个sdk,并且打开示例,显示的模型是有问题的,你需要调整模型上脚本的一个枚举值,调整它的渲染顺序是front z to我看教程时候,很多老师都没有提…

Python魔法之旅-魔法方法(01)

目录 一、概述 1、定义 2、作用 二、主要应用场景 1、构造和析构 2、操作符重载 3、字符串和表示 4、容器管理 5、可调用对象 6、上下文管理 7、属性访问和描述符 8、迭代器和生成器 9、数值类型 10、复制和序列化 11、自定义元类行为 12、自定义类行为 13、类…

SpringJDBC

1.前言 Spring JDBC可以帮助开发者节省大量开发工作 自动去处理一些低级细节 比如:异常处理、打开和关闭资源(Connection、PreparedStatement、Statement、ResultSet) 需要下载的jar包: spring-jdbc(普通jar包、源码jar包)由于没有依赖其他的jar包 所以只…

Kubernetes——监听机制与调度约束

目录 前言 一、监听机制 1.Pod启动创建过程 2.调度过程 1.指定调度节点 1.1强制匹配 1.2强制约束 二、硬策略和软策略 1.键值运算关系 1.硬策略——requiredDuringSchedulingIgnoredDuringExecution 2.软策略——preferredDuringSchedulingIgnoredDuringExecution …

像素匹配+均值homograph+结果

1. 像素匹配 2. 均值homography 转换前转换后 3. 比较 基准图转换图

yolov系列

学习一个深度学习网络,就看三点,1. 网络架构 2.输入输出 3.损失函数 yolov1 2015年诞生的YOLOv1创造性地使用端到端结构完成了物体检测任务,把检测问题转换成了回归问题,直接预测物体的类别和位置。 每个grid有30维,…

选择海外代理IP需要注意什么?

跨境电商近年来的兴起与发展,越来越多的跨境从业者从事该行业,但在从事跨境贸易中则需要海外IP代理来突破地域限制、提升访问速度和稳定性、防止账号关联以及保护隐私和安全。这些功能都有助于跨境电商企业在全球范围内拓展业务,提升竞争力&a…

基于RT-Thread的自控停车场

1.系统板原理图设计 2.系统板PCB设计 3. 屏幕和QT设计 (1)QT设计 (2)屏幕显示 4. 实物图 基于RT-Thread实时操作系统的停车场系统。 5. 车牌识别演示 识别车牌 6. 结果演示 基于RT-Thread的停车场系统

【一小时学会Charles抓包详细教程】免费安装Charles (2)

🚀 个人主页 极客小俊 ✍🏻 作者简介:程序猿、设计师、技术分享 🐋 希望大家多多支持, 我们一起学习和进步! 🏅 欢迎评论 ❤️点赞💬评论 📂收藏 📂加关注 Charles安装 …

曼城四连冠,剑南春与万千球迷共同见证“荣耀时刻”

执笔 | 洪大大 编辑 | 扬 灵 5月19日,英超2023-2024赛季第38轮比赛全面开打,凭借队员的出色发挥,曼城最终以3-1战胜西汉姆联,成功捧起了英超联赛的奖杯,成为英格兰足球顶级联赛100多年历史上第一支成就四连冠的豪门…