KOSMOS-G-图像文本结合控制生成

news2025/1/13 8:03:31

文章目录

  • 摘要
  • 引言
  • 算法
    • 多模态语言建模
    • 图像解码器对齐
    • 微调instruction
  • 实验
  • 结论

论文: 《Kosmos-G: Generating Images in Context with Multimodal Large Language Models》
github: https://github.com/microsoft/unilm/tree/master/kosmos-g

摘要

当前text-to-image、vision-language-to-image已经取得不错进展,但对于多张图输入仍有待探索。本文提出KOSMOS-G,使用多模态大语言模型(MLLM)能力处理上述挑战。通过文本模态作为anchor,将MLLM与CLIP输出空间对齐,通过组合引导指令进行调优模型。KOSMOS-G证明一种独特zero-shot多群体目标驱动生成能力;instruction微调不需要更改图像解码器,因此可无缝替换CLIP,容易与UNET技术相结合。KOSMOS-G尝试在图像生成中将图像看做一种语言输入。

引言

MLLM优势:
1、内在的视觉-语言对齐;
2、其结构支持视觉-语言交错输入,容纳多张图像;
本文贡献如下
1、使用文本模态作为anchor,将MLLM输出空间与CLIP对齐;
2、提出一种组合指令微调任务;
3、得分蒸馏技术使得KOSMOS-G可与UNet技术结合;

算法

KOSMOS-G结构如图2,训练过程分为三步:
1、多模态语言模型。在多模态语料库上,从头开始预训练MLLM。包括单模态数据,跨模态成对数据,交错的多模态数据;
2、图像解码对齐。在文本数据上训练AlignerNet,通过CLIP监督对齐KOSMOS-G输出空间与U-Net的输入空间;
3、Instruction微调。基于图文组合生成任务微调KOSMOS-G。
在这里插入图片描述

多模态语言建模

作者使用 < s >及< /s >表示序列的开始和结束,< image >及< /image >表示图像表征的开始和结束,使用vision Transformer处理输入图像,获得输入序列embedding后送入Transformer-based decoder,通过自回归方式从左到右处理序列,通过softmax输出每个token的可能性;

图像解码器对齐

通过KOSMOS-G替换SD中CLIP文本编码器,主要关注点在于解决KOSMOS-G与图像解码器之间不对齐问题,作者发现如果直接fientune 会导致轻微不对齐以及图像质量受损。
作者通过AlignerNet,包括编码器M,解码器N,学习对齐KOSMOS-G的源空间S及CLIP目标空间T,使用仅包含文本的caption C进行训练,该过程如图3a,损失函数如式5,6,
在这里插入图片描述
在这里插入图片描述
AlignerNet结构如图3b
在这里插入图片描述

微调instruction

图像作为一个外部语言用于图像生成,使用等式3中扩散损失进一步微调KOSMOS-G。
在这里插入图片描述
为了重构所需数据,首先对图像进行caption,然后从caption提取实体,从图像获得分割结果,如图4所示,
在这里插入图片描述

实验

如图5,KOSMOS-G展示惊艳的零样本生成结果;
在这里插入图片描述
表1左为与DreamBench量化比较结果,右为与MS-COCO结果比较;
在这里插入图片描述
表2表明end-to-end微调导致没能生成合理图片
在这里插入图片描述
图7为一些应用案例
在这里插入图片描述

结论

KOSMOS-G,使用视觉+语言作为输入用于生成高保真度图像。使用在instruction之前先进行对齐的预训练策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1207712.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

朋友过生日送什么葡萄酒好呢

现在葡萄酒不但是活跃气氛、制造仪式感的酒精饮品&#xff0c;也是朋友之间礼尚往来的最佳礼品。有人问&#xff0c;朋友过生日送什么葡萄酒好呢&#xff1f;云仓酒庄的品牌雷盛红酒LEESON分享人们觉得红葡萄似乎太严肃&#xff0c;白葡萄酒颜色又太清淡&#xff0c;送一款什么…

pip安装到哪里

可以这样证明&#xff1a;

《QT从基础到进阶·二十六》绘制多个图形项(QGraphicsRectItem,QGraphicsLineItem,QGraphicsPolygonItem)

这个demo用QT实现了对多个图形项的绘制&#xff0c;包括矩形的绘制&#xff0c;直线的绘制和多边形的绘制&#xff0c;是之前一章中绘制矩形的增强版&#xff0c;之前一章节关于矩形的绘制可以参考&#xff1a;《QT从基础到进阶十五》用鼠标绘制矩形&#xff08;QGraphicsView、…

远程登录Linux方法(Linux平台相互远程;Windows远程登录Linux、远程编码、文件传输;无法远程登录的问题解决;c程序的编译)

在实际使用Linux系统过程中我们不可避免的需要远程登录Linux&#xff0c;这是因为未来大家使用Linux服务器的时候你所对应的那台Linux服务器不一定提供界面(服务器可能在外地)。本篇将会介绍远程登录Linux的方法。 文章目录 1. SSH介绍2. Linux平台相互远程及文件传输2.1 Linux…

准备搞OpenStack了,先装一台最新的Ubuntu 23.10

正文共&#xff1a;1113 字 25 图&#xff0c;预估阅读时间&#xff1a;2 分钟 依稀记得前面发了一篇Ubuntu的安装文档&#xff08;66%的经验丰富开发者和69%的学生更喜欢的Ubuntu的安装初体验&#xff09;&#xff0c;当时安装的是20.04.3的版本&#xff0c;现在看来已经是非常…

C语言数据结构-----栈和队列(概念,代码实现及简单练习)

前言 本篇主要介绍栈和队列的相关知识&#xff0c;练习以及代码实现。 代码主要展示部分功能的实现。完整代码在gitee上查看。 链接: 栈和队列的完整代码实现 文章目录 前言1.栈1.1 栈的概念及结构1.2 栈的实现1.3 栈的代码实现1.3.1 栈的初始化1.3.2 栈顶插入1.3.3 栈顶删除1…

若依框架修改包名报错

1.首先看下报错截图 启动GateWay 2.这个是因为 我改了里面的包名就是下面 ruoyi改成screen爆了上面的问题 3.那么关键的来了&#xff0c;我测了下 改了core不管启动gateway还是modules里面任何一个都会爆打不开工具类的问题 &#xff0c;我看了其他pom也没有引用core&#xff…

功能强大的国产API管理神器 Eolink,亲测好用

前言 大家好&#xff0c;我是小月&#xff0c;今天给大家讲讲最近很火的Eolink&#xff0c;一款功能强大且非常实用的国产 API管理工具。在我们日常的前端、后端开发测试过程中经常会用到API&#xff0c;特别是在大型项目中API管理工具也就必不可少。工欲善其事必先利其器&…

[模版总结] - 树的基本算法1 - 遍历

树结构定义 一种非线性存储结构&#xff0c;具有存储“一对多”关系的数据元素集合 种类 General Tree TrieB/B 树二叉树 满/完满/完全二叉树 完美BT : 除了叶子结点外所有节点都有两个字节点&#xff0c;每一层都完满填充完全BT&#xff1a; 除最后一层以外其他每一层都完美…

FaceBook登录提示密码错误的原因及解决方法

下面这一种类型的提示密码错误&#xff0c;大家首先能够想到的可能就是本身的账号密码有错误&#xff0c;但这个只代表其一。有一种情况的话&#xff0c;他可能根本不是账号或者密码的错误&#xff0c;他仅仅是因为注册的地方和登录的地方不太一样&#xff0c;也会造成这样的结…

【JavaEE初阶】IP协议简介

文章目录 前言&#x1f334;IP协议的概念&#x1f333;IP数据报&#x1f6a9;IPv4协议头格式&#x1f6a9;IPv6的诞生 &#x1f38d;IP地址&#x1f6a9;IP地址的格式&#xff1a;&#x1f6a9;IP地址的分类&#x1f388;网络号与主机号的划分 &#x1f6a9;特殊的IP地址&#…

QGIS之十九矢量投影

效果 步骤 1、准备数据 2、Qgis矢量投影 Qgis工具箱中搜索“投影” 3、结果

算法笔记-第七章-栈的应用(未完成)

算法笔记-第七章-栈的应用 栈的基本常识栈的解释一栈的解释二 栈的操作序列合法的出栈序列可能的出栈序列补充知识点 后缀表达式&#xff08;无优先级&#xff09; 栈的基本常识 栈&#xff08;Stack&#xff09;是只允许在一端进行插入或删除操作的线性表。 栈的解释一 栈的…

Vue dev-tools的安装

安装 Vue 开发者工具&#xff0c;装插件调试Vue应用 1.通过谷歌应用商店来进行安装&#xff08;国外网站&#xff09; 2.极简插件&#xff1a; 搜索 Vue -> 下载解压 -> 浏览器扩展模式打开&#xff0c;开发者模式 -> 将解压的CRX文件拖拽安装 -> 插件详情 &…

YOLOV8目标识别——详细记录从环境配置、自定义数据、模型训练到模型推理部署

一、概述 Yolov8建立在Yolo系列历史版本的基础上&#xff0c;并引入了新的功能和改进点&#xff0c;以进一步提升性能和灵活性。Yolov8具有以下特点&#xff1a; 高效性&#xff1a;Yolov8采用了新的骨干网络、新的Ancher-Free检测头和新的损失函数&#xff0c;可在CPU到GPU的…

在SpringBoot中使用EhCache缓存

在使用EhCache缓存之前&#xff0c;我们需要了解的是EhCache缓存是啥&#xff1f; Ehcache的概述 Ehcache是一个开源的Java缓存框架&#xff0c;用于提供高效的内存缓存解决方案&#xff0c;他可以用于缓存各种类型的数据&#xff0c;包括对象&#xff0c;查询结果&#xff0…

软件测试行业趋势分析

1 绪论 本文先对互联网对时代和社会变革进行了论述&#xff0c;然后再由互联网时代对软件工业模式变革进行了介绍&#xff0c;最后引出附属于软件工业的测试行业在新形势下的需求变化&#xff0c;并对趋势进行了分析&#xff0c;并最终给出了相关的从业人员的职业发展建议。 …

3DMAX建模基础教程:实例与复制

3D Studio Max&#xff0c;或称3DMAX&#xff0c;是一种专业的三维计算机图形软件&#xff0c;被广泛应用于电影、电视、游戏开发等领域。以下是一份关于3DMAX建模基础教程的实例与复制的详解。 3D模型实例化 实例化是一种重复使用相同对象的技术&#xff0c;而无需每次都创建…

搭建网站选择弹性云服务器

​ 弹性云服务器已成为建站的首选方案&#xff0c;弹性云服务器并从成本、灵活性、可扩展性和安全性等多个角度进行分析。 一、成本控制弹性云服务器以其优势的弹性计费模式&#xff0c;在建站初期成本控制中占据了重要地位。与传统的物理服务器相比&#xff0c;弹性云服务器可…

深度对话:以实在RPA Agent智能体安全机制破解LLM应用谜题

AI大模型席卷全球&#xff0c;为各个行业带来了颠覆式创新机遇&#xff0c;同时也打开了未知的潘多拉魔盒。随着大语言模型能力的不断增强和适用范围延伸&#xff0c;大模型本身带来的隐私泄漏、数据安全等问题越发成为各大厂商关注的核心&#xff0c;引发了各界更多的思考与发…