阿里团队刚发布的重磅图像生成基础模型,多重条件引导+图像合成,SD级别,5B参数...

news2024/9/25 13:26:49

一个多小时前刚发的论文,Composer: Creative and Controllable Image Synthesis with Composable Conditions。 我读完了快速帮大家概要一下啊。论文地址见文章最后。

阿里巴巴团队开发的这个重磅图像生成模型 Compose,支持多重引导条件的图像生成(合成)(扩散模型)。跟 Stable Diffuison 属于同等级别的基础模型,但路线有差异。

核心特点是支持多重引导条件的图像合成。论文里 公布的引导条件包括 (caption) 文本 prompt、(sketch) 草稿、(palette )调色板、(depthmap) 深度图、(Instances) 形状图、(masking)蒙版图、(Intensity)灰度图,以及风格参考图。可以用多张输入图片作为多重条件同时引导,生成/重组为结果图片。你可以理解为是一种高级的图像 remix。

模型规模:5B 参数。虽然参数也不是决定因素。5B 参数 (虽然参数规模不一定能跟效果挂钩)。同类基础模型的比较,DALLE-2: 3.5B, Google Imagen: 4.6 B, Stable Diffusion 的第一个版本,不到1B 参数。

使用Composer可以创建与输入图像类似的变体,通过设置引导条件的组合,灵活控制图像如何变化。Compose 将图像分解为具有代表性的因素 (representative factors),以所有这些因素为条件,训练扩散模型,对输入图像进行重组。在推理阶段,这些丰富的 intermediate representations 作为重组的要素发挥作用。

从 论文里的Demo看,效果不错。

下面两张demo图,每一行6张是生成的结果图片,侧面小图是用珍珠耳环少女图转化而成的 input condition, 底部小图/文本是调色板、深度图、草稿这些引导条件。

7a2ce5d6a5d755fe3dc47b2a2d4519f1.png

bd2c099a6911c89c7802f9b2513a3a2d.png

用文本prompt引导的风格迁移

7edc643812690f4c747afea3f16c3adb.png

Remix,风格插值(Style Interpolations)

efa5ec5295a5bcaf7ebfd3be4662a7b2.png

a57ea851569383741d19238550a30dff.png

input image (最左边娃娃图)+ 不同 sketch 引导图的重组合成 (Reformulation)。最右边一张 跟 神奈川冲浪图sketch 的合成让我影响深刻,integration 很 makesense,不生硬。69b17801f89fd36959e6844b9c45578d.png

4重引导条件 (shape + sketch + palette +  pic)的合成结果

5c8e1d19b41ba8108559cc6b7192fc7f.png

论文里提到了3种图像控制手段:1 插值 Interpolations(通过在两个图像的全局表示的嵌入空间中遍历,混合这两个图像以进行变异。Composer 能够精确控制在两个图像之间插值的要素以及需要保持不变的要素,产生多种插值方向),2 重构 Reconfigurations;3 ,指定可编辑区域 (蒙版),提供了强大的图像编辑\设计功能。

1. 图像插值 Interpolations 的demo。

第二行起,左边的小图是调色板、轮廓图等 引导条件,图中可见 加入引导条件后,对 第一行最左和最右两张图像remix 结果的影响。引导条件决定了remix 过程中的哪些图像要素得如何变化,哪些要素得到保留。

95a5a6c3ff5166336e29bf518ce62cc9.png

2. 图像重构 Reconfigurations 的 demo

d9c65b3e89074f7a0336d7733ab56b2f.png

a35efa442f95a1aa44983f5663fce2a7.png

3. 可编辑区域 (蒙版)的 demo

上面一排是 用 text prompt 编辑 蒙版区域,下面一排是用 调色板 编辑 蒙版区域

5b06d58e2f886129a4751b360bededcd.png

差不多就这些了。项目的Github 上承诺会逐步放出 代码和预训模型、带GUI的 Gradio 应用,兼容 SD2.1 的轻型模型。

从设计feature和 Demo的效果看,我个人感觉 Composer 会在消费级应用上更有竞争力,对普通人使用门槛更低,应用场景更广泛。

祝这个行业越来越卷 234b29787fe835d5bb1426dc179c18c5.pngf6ffffa2a5f8f3567d139acb93dbf98a.png8c87b149d94eb8f3c0420b148c9bae58.png

Github: https://github.com/damo-vilab/composer

Paper: arxiv.org/abs/2302.09778

Project page: damo-vilab.github.io/composer-page/


我刚刚发布了 AIGC 艺术家样式库 lib.KALOS.art 。4人小团队前后忙了4周。

- 目前全球规模最大,1300+艺术家共3万余张 4v1 样式图片,

- 覆盖三个主流图像生成模型

- 为每个艺术家都生成了8~11种常见主题,如 人像、风景、科幻、街景、动物、花卉等主题

711c2aa6e8f4631f2b2c682620100b2b.png

59b1e3f8137dc2958c41401f4eae4537.png

64f3e2d071898ff5c82781211430c93a.png

527b5d4aa105fa9a26c5df42dd469914.png

艺术家和多种主题的结合,会带来很多意想不到的结果

后现代舞台设计师去画废土科幻场景?or 立体主义雕塑家去画一张猫咪?

按人类惯有思维,用肖像画家去生成肖像,用风景画家去生成风景,其实限制了AI模型的创作力和可能性。希望 lib.kalos.art能帮你发掘AIGC的潜力,得到更多创作灵感

3ceea7966cdf99f7987d1f08eeb90de4.jpeg

bc2565dc4cf2539fc1dec8928eaeda4f.png

点击阅读原文,访问最新最全的 AIGC 艺术样式数据库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/372169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

containerd安装配置

containerd基本使用命令 containerd安装 容器运行时containerd安装配置 https://blog.csdn.net/rendongxingzhe/article/details/124595415 yum list | grep containerd containerd的本地CLI工具ctr命令 containerd的组件 containerd提供包括容器的运行、测试、发布和接口…

improve-1

类型及检测方式 1. JS内置类型 JavaScript 的数据类型有下图所示 其中,前 7 种类型为基础类型,最后 1 种(Object)为引用类型,也是你需要重点关注的,因为它在日常工作中是使用得最频繁,也是需要…

DevOps是什么?DevOps能够给我们带来什么?

目录专栏导读一、DevOps是什么?二、为什么会出现DevOps?1、容器化技术的发展,微服务架构的发展,直接促进了DevOps的迅速发展2、敏态需求的增加,即探索性工作的增加3、软件开发活动在企业经营活动中占比的不断增加4、企…

【华为OD机试模拟题】用 C++ 实现 - 水仙花数(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 获得完美走位(2023.Q1) 文章目录 最近更新的博客使用说明水仙花数题目输入输出描述示例一输入输出说明示例二输入输出Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。…

【华为OD机试模拟题】用 C++ 实现 - 获得完美走位(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 货币单位换算(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - 选座位(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - 停车场最大距离(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - 重组字符串(2023.Q1) 【华为OD机试模…

基于stm32计算器设计

这里写目录标题 完整de代码可q我获取1 系统功能设计2 系统硬件系统分析设计2.1 STM32单片机核心电路设计2.2 LCD1602液晶显示模块电路设计2.3 4X4矩阵键盘模块设计3 STM32单片机系统软件设计3.1 编程语言选择3.2 Keil程序开发环境3.3 FlyMcu程序烧录软件介绍3.4 CH340串口程序烧…

【华为OD机试模拟题】用 C++ 实现 - 最近的点(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 获得完美走位(2023.Q1) 文章目录 最近更新的博客使用说明最近的点题目输入输出示例一输入输出Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。 华为 OD 清单查看地址…

【基础篇0】Linux下ANACONDA与TF-LITE环境配置

0 写在前面:一些摸索与总结 对于Linux系统,我发现不管是电脑x86的Ubuntu还是树莓派arm的raspberry系统,在系统安装完毕后,总是自带一个特定版本的python.   例如我的ubuntu22.04自带的python版本是3.10,而高版本的py…

Vue3之组件

何为组件 组件化的概念已经提出了很多年了,但是何为组件呢?组件有啥优势?本文将会做出解答,首先我们需要弄清楚何为组件。在VUE的官网中的解释是: 组件允许我们将 UI 划分为独立的、可重用的部分,并且可以对…

Android 基础知识4-3.2 EditText(输入框)详解

一、EditText(输入框)介绍 EditText在开发中也是经常使用的控件,比如,要实现一个登录页面,需要用户输入账号、密码等信息,然后我们或得用户输入的内容,把它交给服务器来判断。因此,这…

【模拟集成电路】分频器(DIV_TSPC)设计

分频器(DIV_TSPC)设计前言一、DIV工作原理二、DIV电路设计(1)32分频原理图(2)D触发器原理图(3)D锁存器原理图(4)三输入与非门原理图三、DIV仿真测试32分频器测…

k8s学习之路 | Day15 k8s 中的 yaml 语法

文章目录yaml 基础什么是 yaml&#xff1f;yaml 特性适用场景基本语法规则数据类型yaml 对象yaml 数组yaml 纯量yaml 引用k8s 中的 yaml 语法\<string>\<Object>\<map[string]string>\<[]Object>\<boolean>示例 yaml 说明我在学习过程中&#xf…

【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 获得完美走位(2023.Q1) 文章目录 最近更新的博客使用说明最多获得的短信条数题目输入输出示例一输入输出说明示例二输入输出说明Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过…

优化WebView实现H5秒开

WebView与原生对比差在哪里&#xff1f;这里引用百度APP图片来说明。百度的开发人员将这一整个过程划分为了四个阶段&#xff0c;并统计出了各个阶段的平均耗时。可以看到&#xff0c;在初始化组件阶段就花费了 260 ms&#xff0c;首次创建耗时均值为 500 ms&#xff0c;毫无疑…

7-vue-2

vue3.2 自定义全局指令、局部指令 // 在src目录下新建一个directive文件&#xff0c;在此文件夹下新建一个index.js文件夹&#xff0c;接着输入如下内容 const directives (app) > {//这里是给元素取得名字&#xff0c;虽然是focus&#xff0c;但是实际引用的时候必须以v…

为赋能,创共赢~ 〖TFS_CLUB社区〗-〖星荐官计划〗来袭~ 期待各位小伙伴的加入~

文章目录❤️‍&#x1f525; TFS社区介绍❤️‍&#x1f525; 星荐官计划在直播结束之后&#xff0c;有几位小伙伴跟我说&#xff0c;想法是好的&#xff0c;但是会很难搞。试想一下如果真的是很容易做的事情&#xff0c;那岂不是人人都可以做&#xff1f;正因为难做&#xff…

PyQt5数据库开发2 5.2 QSqlRelationalTableModel

目录 一、Qt窗体设计 1. 新建Qt项目 2. 添加组件 3. 添加资源 4. 添加Action 5. 添加工具栏 6. 添加菜单项 7. 添加退出功能 二、SQL Server下建表插数据 1. 建立表 2. 插入数据 3. 单表数据 4. 联合查询 三、代码实现 1. 新建项目目录 2. 编译窗体文件和资…

[计算机网络(第八版)]第一章 概述(章节测试/章节作业)

随堂作业 练习版(无答案版) 1.2 因特网概述 1【单选题】因特网的前身是1969年创建的第一个分组交换网 A、internetB、InternetC、NSFNETD、ARPANET 2【单选题】因特网采用的核心技术是 A、TCP/IPB、局域网技术C、远程通信技术D、光纤技术 1.3 三种交换方式&#xff1a;电路…

mysql数据库表的创建与查看

mysql数据库表的创建与查看 一、mysql查看 查看所有数据库 show databases切换数据库 use 数据库名查看该数据库下所有的表名 show tables查看表的结构 desc 表名二、mysq创建 创建数据库 create database 数据库名;创建数据库设置编码 drop database if EXISTS dbname; creat…

Gehpi的网络布局

Gehpi的网络布局1. 力引导布局2. 辅助布局布局是网络可视化中的重要概念&#xff0c;指将点和边通过某种策略进行排布&#xff0c;应尽可能满足以下4个原则&#xff1a; 节点均匀分布在有限的区域内避免边的交叉和弯曲保持边的长度一致整体布局能反映图内在的特性 Gephi的布局…