OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

news2024/11/29 11:21:02

之前的文章中和大家介绍过Flux团队开源了一系列工具套件,感兴趣的小伙伴可以点击下面链接阅读~

AI图像编辑重大升级!FLUX.1 Tools发布,为创作者提供了更强大的控制能力。

OminiControl 也开源了其可控生成模型。OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。或者实现将图片中的物品放到生成图片的指定位置。 主要有以下特点:

  • 通用控制:支持主题驱动控制和空间控制(例如边缘引导和绘画生成)的统一控制框架。

  • 极简设计:在保留原始模型结构的同时注入控制信号。仅向基础模型引入 0.1% 的额外参数。

相关链接

论文:https://arxiv.org/pdf/2411.15098

模型:https://huggingface.co/Yuanshi/OminiControl

试用:https://huggingface.co/spaces/Yuanshi/OminiControl

论文阅读

摘要

本文介绍了 OminiControl,这是一个高度通用且参数高效的框架,它将图像条件集成到预先训练的扩散变换器 (DiT) 模型中。OminiControl 的核心是利用参数重用机制,使 DiT 能够使用自身作为强大的主干对图像条件进行编码,并使用其灵活的多模态注意处理器对其进行处理。与现有方法不同,这些方法严重依赖具有复杂架构的附加编码器模块,OminiControl有以下特点:

  1. 有效且高效地结合了注入的图像条件,仅需 0.1% 的附加参数。

  2. 以统一的方式处理广泛的图像调节任务,包括主题驱动生成和空间对齐条件,例如边缘、深度等。

这些功能是通过对 DiT 本身生成的图像进行训练来实现的,这对主题驱动生成特别有益。广泛的评估表明,OminiControl 在主题驱动和空间对齐条件生成方面均优于现有的基于 UNet 和 DiT 的模型。此外,论文还发布了训练数据集 Subjects200K,这是一个包含超过 200,000 张身份一致图像的多样化集合,以及一条高效的数据合成管道,以推进主题一致生成的研究。

方法

扩散变压器 (DiT) 架构和图像调节的集成方法概述。 OminiControl利用了一个参数复用机制,使DiT能够使用自身作为强大的后端来编码图像条件,并通过其灵活的多模态注意力处理器处理这些条件。与现有依赖于具有复杂架构的额外编码模块的方法不同,OminiControl以仅0.1%的额外参数有效且高效地整合了注入的图像条件,并以统一的方式解决了包括主题驱动生成和空间对齐条件(如边缘、深度等)在内的广泛图像条件控制生成任务。

两种方法整合图像条件的结果比较。与直接添加相比,多模态方法表现出更好的条件跟踪效果。

来自Subjects200K 数据集的示例。每对图像显示同一物体在不同位置、角度和光照条件下的状态。该数据集包括各种物体,例如衣服、家具、车辆和动物,共计超过 200,000张图像。该数据集以及生成管道将公开发布。

结果

主题驱动生成

文字提示
  • 提示 1:此物品的近距离视图。它放在一张木桌上。背景是一个黑暗的房间,电视开着,屏幕上正在播放烹饪节目。屏幕上的文字写着“Omini Control!”。

  • 提示 2:电影风格的镜头。在月球上,这个物品驶过月球表面。上面有一面旗帜,上面写着“Omini”。背景是地球在前景中若隐若现。

  • 提示3:在一个包豪斯风格的房间里,这件物品被放置在一张闪亮的玻璃桌上,旁边放着一瓶鲜花。在午后的阳光下,百叶窗的阴影投射在墙上。

  • 提示 4:“在海滩上,一位女士坐在一把写着‘Omini’的沙滩伞下。她穿着这件衬衫,脸上挂着灿烂的笑容,身后背着冲浪板。背景是夕阳西下。天空呈现出美丽的橙色和紫色。”

试穿效果

场景变化

Dreambooth数据集

空间对齐控制

图像修复(左:原始图像;中:蒙版图像;右:填充图像)

  • 提示:蒙娜丽莎戴着一个白色的 VR 耳机,上面写着“Omini”。

  • 提示:一本黄色的书,封面上用大号字体写着“OMINI”。底部写着“for FLUX”的字样。

限制

  • 由于训练中缺乏人类数据,该模型的主体驱动生成主要针对物体而不是人类主体。

  • 主题驱动的生成模型可能不太适合FLUX.1-dev。

  • 发布的型号目前仅支持512x512的分辨率。

待办事项

  • 发布更高分辨率(1024x1024)的模型。

  • 发布训练代码。

结论

OminiControl 使用统一的 token 方法,为跨不同任务的 Diffusion Transformers 提供参数高效的图像调节控制,无需额外的模块。该方法优于传统方法,而新的 Subjects200K 数据集(包含超过 200,000 张高质量、主题一致的图像)支持主题一致生成的进步。结果证实了 OminiControl 在扩散模型中的可扩展性和有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2249713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3使用 element-plus图标el-icon-search不生效

使用el-icon-search图标不生效 源代码&#xff1a;<!-- 添加搜索按钮 --> <el-button type"primary" icon"el-icon-search" click"handleSearchByCode" > 搜索 </el-button> 原因&#xff1a;vue3不能直接使用el-icon-search…

分层架构 IM 系统之 Entry 设计实现

在分层架构中&#xff0c;Entry 向客户端提供了 TCP 长连接的接入能力&#xff0c;并对这些长连接的活性进行保活维护&#xff08;详见 分层架构 IM 系统之架构解读&#xff09;&#xff0c;所以在 Entry 服务内部有两个最核心的数据结构&#xff1a; Map<uid, fd>&#…

git rebase-优雅合并与修改提交

文章目录 简介rebase用于合并使用rebase修改提交cherry-pick 简介 在Git核心概念图例与最常用内容操作(reset、diff、restore、stash、reflog、cherry-pick)中我们已经介绍了git的最常用实用的命令。 在上面说的那篇文章中&#xff0c;我们只是简单提了一下rebase。 是因为r…

Android蓝牙架构,源文件目录/编译方式学习

Android 版本 发布时间 代号&#xff08;Codename&#xff09; Android 1.0 2008年9月23日 无 Android 1.1 2009年2月9日 Petit Four Android 1.5 2009年4月27日 Cupcake Android 1.6 2009年9月15日 Donut Android 2.0 2009年10月26日 Eclair Android 2.1 2…

Qt6.8安卓Android开发环境配置

时隔多年&#xff0c;重拾QtCreator下Android开发。发现Qt6下安卓开发环境配置变简单不少&#xff01;只需三步即可在QtCreator下进行Android开发&#xff1a; 一、使用Qt Mantenance Tool进行Android模块的安装&#xff1a; 如果感觉安装网速较慢&#xff0c;可以查看本人另外…

PHP获取安卓APK文件的信息(名称、版本、图标文件等)

最近业务需要一个功能&#xff0c;后台上传apk文件&#xff0c;需要自动获取到此apk的名称、版本、图标、PackageName等信息。网上查了很多资料&#xff0c;看大家都是使用aapt工具来获取信息&#xff0c;不过不能获取图标。后来发现有大神已经封装了一套组件【php-apk-parser】…

扫雷-完整源码(C语言实现)

云边有个稻草人-CSDN博客 在学完C语言函数之后&#xff0c;我们就有能力去实现简易版扫雷游戏了&#xff08;成就感满满&#xff09;&#xff0c;下面是扫雷游戏的源码&#xff0c;快试一试效果如何吧&#xff01; 在test.c里面进行扫雷游戏的测试&#xff0c;game.h和game.c…

Docker:在 ubuntu 系统上生成和加载 Docker 镜像

本文将介绍在 ubuntu系统上进行 Docker 镜像的生成和加载方法和代码。 文章目录 一、下载和安装 docker二、加载 docker 文件三、保存你的镜像四、将镜像上传到云端并通过连接下载和加载 Docker 镜像五、Docker 容器和本地的文件交互5.1 从容器复制文件到本地宿主机5.1.1 单个文…

【排序算法】之快速排序篇

思想&#xff1a; 分而治之&#xff0c;通过选定某一个元素作为基准值&#xff0c;将序列分为两部分&#xff0c;左边的序列小于基准值&#xff0c;右边的序列大于基准值&#xff0c; 然后再分别将左序列和右序列进行递归排序&#xff0c;直至每部分有序。 性质&#xff1a;这…

Unity中的数学应用 之 角色移动中单位化向量的妙用 (小学难度)

最近准备从简单到困难跟几个教程用以加强自己的业务能力&#xff0c;相信很多小伙伴都做过胡闹厨房这一个案例&#xff0c;其实这个案例比较初级&#xff0c;但是也包含了很多平常可能注意不到小细节&#xff0c;所以我就以它为举例&#xff0c;拓展其中的数学知识 CodeMonkey教…

远程视频验证如何改变商业安全

如今&#xff0c;商业企业面临着无数的安全挑战。尽管企业的形态和规模各不相同——从餐厅、店面和办公楼到工业地产和购物中心——但诸如入室盗窃、盗窃、破坏和人身攻击等威胁让安全主管时刻保持警惕。 虽然传统的监控摄像头网络帮助组织扩大了其态势感知能力&#xff0c;但…

简释下oracle的set define的使用场景

我们在使用oracle的时候&#xff0c;有些菜单表存在url字段&#xff0c;url字段中存在这&字符。但我们通过sql语句进行插入表记录的时候&#xff0c;数据库会提示要我们输入变量值。这个时候有些人难免会不知所措&#xff0c;今天告诉大家一个非常简单的办法解决。 一、问…

在ACK集群中自动化执行Ray Job

企业在管理集群资源时面临的主要挑战是任务量庞大而资源有限。为解决这一问题&#xff0c;需要优先将资源分配给关键部门或个人&#xff0c;并保持高度的灵活性以随时调整资源分配。本文将介绍如何提高企业集群资源的利用率&#xff0c;并通过统一的任务管理平台自动化处理来自…

分布式锁的实现原理

作者&#xff1a;来自 vivo 互联网服务器团队- Xu Yaoming 介绍分布式锁的实现原理。 一、分布式锁概述 分布式锁&#xff0c;顾名思义&#xff0c;就是在分布式环境下使用的锁。众所周知&#xff0c;在并发编程中&#xff0c;我们经常需要借助并发控制工具&#xff0c;如 mu…

【北京迅为】iTOP-4412全能版使用手册-第十九章 搭建和测试TFTP服务器

iTOP-4412全能版采用四核Cortex-A9&#xff0c;主频为1.4GHz-1.6GHz&#xff0c;配备S5M8767 电源管理&#xff0c;集成USB HUB,选用高品质板对板连接器稳定可靠&#xff0c;大厂生产&#xff0c;做工精良。接口一应俱全&#xff0c;开发更简单,搭载全网通4G、支持WIFI、蓝牙、…

webrtc 3A移植以及实时处理

文章目录 前言一、交叉编译1.Pulse Audio webrtc-audio-processing2.交叉编译 二、基于alsa进行实时3A处理1.demo源码2.注意项3.效果展示 总结 前言 由于工作需要&#xff0c;硬件3A中的AEC效果实在太差&#xff0c;后面使用SpeexDSP的软3A&#xff0c;效果依旧不是很好&#…

Python学习第十天--处理CSV文件和JSON数据

CSV&#xff1a;简化的电子表格&#xff0c;被保存为纯文本文件 JSON&#xff1a;是一种数据交换格式&#xff0c;易于人阅读和编写&#xff0c;同时也易于机器解析和生成&#xff0c;以JavaScript源代码的形式将信息保存在纯文本文件中 一、csv模块 CSV文件中的每行代表电…

Layui表格的分页下拉框新增“全部”选项

1、首先需要从后端接口获取表格的全部数据长度&#xff0c;这里以100为例。 2、根据请求到的数据进行表格的渲染。示例代码&#xff1a; let pageSize 5 let pageNo 1 let count 100 table.render({elem: XXX,done: function(res, curr, count){pageNo curr; // 将当前选…

CBK7运营安全

1 运营部门的角色 ​ prudent man、due care&#xff08;按要求执行&#xff09;VS due diligence&#xff08;承担管理者责任&#xff09; ​ 应尽关注&#xff1a;执行了负责任的动作降低了风险。 ​ 应尽职责&#xff1a;采取了所有必要的安全步骤以了解公司或个人的实际风…

AIGC引领金融大模型革命:未来已来

文章目录 金融大模型的应用场景1. **金融风险管理**2. **量化交易**3. **个性化投资建议**4. **金融欺诈检测和预防**5. **智能客户服务** 金融大模型开发面临的挑战应对策略《金融大模型开发基础与实践》亮点内容简介作者简介获取方式 在AIGC&#xff08;Artificial Intellige…