AIGC技术周报|为文生图模型提供“参考”;交互式prompt系统:让文生图模型更懂你

news2024/9/23 6:24:34

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及Dall·E 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。

交互式prompt系统:让文生图模型更懂你

文生图模型展示了基于文本提示生成高质量图像的能力。然而,写出准确理解用户创作意图的提示仍然不太容易。它通常涉及费时费力的反复试验过程。

为了应对这些挑战,该研究提出了 Promptify,这是一个交互式 prompt 系统,利用由大型语言模型提供支持的建议引擎,来帮助用户快速探索和写出各种提示。

如下图,Promptify 允许用户灵活地组织生成的图像,并且根据他们的偏好,对原始提示进行更改。这个反馈循环,使用户能够不断改进他们输入的 prompt,并增强所需的功能,避免不需要的功能。

图片

该研究表明,Promptify 能有效地促进文生图的工作流程,且优于现有基线工具。下图展示了使用 Promptify(上排)和 Automatic1111(下排)生成图像的示例。

图片

论文链接:
https://arxiv.org/abs/2304.09337

“即插即用”的组合推理框架

大型语言模型在各种自然语言处理任务中展现出了亮眼的能力。然而,它们大多数依然面临着固有的局限性,比如无法获取最新的信息,无法利用外部工具,也无法进行精确的数学推理(ChatGPT Plus 除外)。

为解决这些问题,该研究提出了一个即插即用的组合推理框架 Chameleon。它将各种程序集成为各种工具,包括大型语言模型、视觉模型、网络搜索引擎、Python 函数以及根据用户兴趣定制的基于规则的模块。

如下图,作为一个自然语言规划器,Chameleon 在接收到一个任务后,会推断出一个适当的工具序列,然后执行,从而产生一个最终的结果。

图片

值得注意的是,使用 GPT-4 的 Chameleon 在 ScienceQA 上取得了 86.54% 的准确率,比已公布的最佳几率模型提高了11.37%。

进一步的研究表明,与 ChatGPT 等其他大型语言模型相比,使用 GPT-4 作为规划器显示出更一致和合理的工具选择,并且能够推断出给定指令的潜在约束。

论文链接:
https://arxiv.org/abs/2304.09842

“看”见音乐:用于音乐可视化的文生视频模型

视觉效果是音乐体验的核心部分,因为它们可以放大通过音乐传达的情感和信息。然而,创建音乐可视化是一个复杂、耗时且资源密集的过程。

该研究提出了 Generative Disco,这一生成式 AI 系统可以使用大型语言模型和文生图模型帮助生成音乐可视化。用户选择要可视化的音乐间隔,然后从音乐片段(描绘为波形)中,系统引导用户生成连接声音、语言和图像的提示,一对开始和结束提示可以参数化视频剪辑的生成。

图片

该研究引入了用于改进生成的视频的设计模式:“过渡”,表示颜色、时间、主题或风格的变化,以及 “保持”,鼓励视觉强调和一致性。研究表明,该系统令人愉快、易于探索且表现力强。

参考链接:
https://arxiv.org/abs/2304.08551

为文生图模型提供“参考”

基于扩散模型的文生图模型,在生成高保真图像方面显示出令人惊讶的能力。为了进一步提高可编辑性并实现精细化生成,该研究引入了一个多输入条件的图像合成模型,将草图作为一个新的模态,与参考图像一起纳入。

该框架可以对一个预先训练好的扩散模型进行微调,利用参考图像完成缺失区域,同时受草图的约束。如下图,用户可以通过提供参考图像和草图来编辑场景,在两种模式的指导下改变前景和背景,并获得高质量的结果。

图片

该研究使得用户能够在扩散过程中充分利用部分草图和参考图像,从而控制输出的结构,实现对任意场景的修改。

论文链接:
https://arxiv.org/abs/2304.09748

AI生成新闻,开启卷轴叙事

短视频是许多年轻人寻找和消费内容的主要方式。新闻媒体希望以新闻卷轴的形式将短视频呈现给观众,但目前很难将传统新闻格式转化为与平台风格相匹配的简短、有趣的视频。

围绕新闻故事构建卷轴式叙事的方法有很多种,从中选定出某一种是一项挑战。这是因为不同的新闻故事需要不同的框架。因此,需要在娱乐和信息之间进行不同的权衡。

为了解决这个问题,该研究展示了一个名为 ReelFramer 的系统,这是一个共同创建系统,支持记者基于新闻印刷品创建新闻卷轴。该系统由框架和脚本编写、角色板和故事板三个阶段组成,能简化新闻卷轴创作的构思和原型过程。

下图展示了使用 ReelFramer 创建的新闻卷轴的静态截图。这部影片用角色扮演的方式为一篇关于康菲石油公司在阿拉斯加钻探石油的新闻文章进行展示。ReelFramer 可以帮助用户有效地探索设计空间,并为他们提供一个好的起点,大大降低了将文章转换为新闻卷轴的难度。

图片

论文链接:
https://arxiv.org/abs/2304.09653

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/452876.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM性能监测工具-JConsole

JVM性能监测工具-JConsole JConsole工具是JDK自带的图形化性能监控工具。并通过JConsole工具, 可以查看Java应用程序的运行概况, 监控堆信息、 元空间使用情况及类的加载情况等。 JConsole程序在%JAVA_HOM E%/bin目录下 或者你可以直接在命令行对他进…

【Java代码】MP3、flac歌曲批量生成同名的“xxx.lrc”歌词文件导入索尼黑砖二代

目录 1、准备条件2、实现方式3、代码环境和maven依赖4、Java代码5、示例1结果6、示例2结果7、一个小问题8、“音乐标签”下载地址 1、准备条件 网易云下载的MP3、flac后缀的歌曲若干首(ncm后缀的歌曲需要还原格式,不然会随着VIP过期而无法听&#xff09…

《CTFshow-Web入门》06. Web 51~60

Web 51~60 web51题解 web52知识点题解 web53知识点题解 web54知识点题解 web55知识点题解 web56知识点题解 web57知识点题解 web58知识点题解 web59题解 web60题解 ctf - web入门 web51 题解 相比上一题多过滤了 tac 命令。那换一个即可。 题解&#xff1a; url ?cnl<f…

go/java/C++覆盖率工具原理汇总学习记录

go–goc goc采用的是插桩源码的形式&#xff0c;而不是待二进制执行时再去设置breakpoints。这就导致了当前go的测试覆盖率收集技术&#xff0c;一定是侵入式的&#xff0c;会修改目标程序源码。直接看案例 package mainimport "fmt"func main() {test2(3)fmt.Prin…

Vue项目基于driverjs实现新用户导航

引导页就是当用户第一次或者手动进行触发的时候&#xff0c;提示给用户当前系统的模块介绍&#xff0c;比如哪里是退出&#xff0c;哪里是菜单等等相应的操作。 无论是开发 APP 还是 web 应用&#xff0c;新手引导都是一个很常见的需求&#xff0c;一般在这2个方面需要新手引导…

Java阶段二Day07

Java阶段二Day07 文章目录 Java阶段二Day07V17UserControllerDispatcherServletControllerRequestMapping V18DispatcherServletHandleMapping V19BirdBootApplication 线程池线程的执行过程线程池API 数据库数据库的基本概念数据库管理系统中常见的概念 SQL分类DDL语言-数据定…

浅析流媒体技术的发展趋势及EasyCVR视频技术的应用

随着科技的不断发展&#xff0c;流媒体已经成为人们日常生活中必不可少的一部分。为了进一步提高流媒体的质量&#xff0c;未来的技术革新方向将集中在以下几个方面&#xff1a; 1&#xff09;提高视频编解码技术的质量和效率 随着高清视频的普及&#xff0c;人们对流媒体的质…

GD32F470 移植STM32F429工程 Keil调试笔记

keil版本&#xff1a;5.25 安装 GigaDevice.GD32F4xx_DFP.3.0.4.pack Keil.STM32F4xx_DFP.2.15.0.pack 一、GD32F470 与 STM32F429 切换编译 1、原项目为STM32F429 工程&#xff0c;切换到GD32F470 只需在 Options for Target"“对话框的Device菜单中选中“GD32F470II”…

Http协议—请求的构造

目录 一、通过 form表单 构造HTTP请求 1、form 发送 Get 请求 &#xff08;1&#xff09;form 的重要参数 &#xff08;2&#xff09;input 的重要参数 2、通过 form 构造 Post 请求 二、通过 ajax 构造 HTTP 请求 1、基于 jQuery 中的 ajax 构造 &#xff08;1&#x…

动态网站开发讲课笔记07:EL和JSTL

文章目录 零、本节学习目标一、EL&#xff08;一&#xff09;EL基本语法1、EL的概念2、EL的语法3、案例演示&#xff08;1&#xff09;用EL读取保存的信息&#xff08;2&#xff09;使用Java代码与EL获取信息的对比 4、EL基本语法的特点 &#xff08;二&#xff09;EL中的标识符…

从语言模型到ChatGPT,大模型训练全攻略

文&#xff5c;python 前言 你是否想过&#xff0c;为什么ChatGPT能够如此火爆呢&#xff1f;我认为这主要是因为ChatGPT提供了好玩、有用的对话式交互功能&#xff0c;能够为用户提供帮助&#xff0c;而不仅仅是依靠“大”模型的魅力。毕竟&#xff0c;GPT-3在2020年就已经推出…

RedHat yum没有已启用源的解决方法

一般安装的红帽系统&#xff0c;自带的yum在没有付费的情况下是无使用的&#xff0c;所以我们要进行换源。 1、环境准备 先检查以下我们的linux系统环境&#xff0c;看看是不是Redhat7的版本 &#xff0c;出现如下图所示的界面 cat /etc/redhat-release 检查系统中是否安…

科技云报道:重塑增长新动能,“数智融合”捷径该如何走?

科技云报道原创。 如果说&#xff0c;过去是数字化转型的试验阶段&#xff0c;实施的是开荒动土、选种育苗&#xff0c;那么当前要进行的是精耕细作、植树造林。 数字化转型已进入了由个别行业、个别场景的“点状应用”向各行各业全流程、全环节“整体渗透”的关键期。 云计算…

yolov5-7.0 训练自己的数据集之检测数据集

YOLOv5是一种单阶段目标检测算法&#xff0c;有很高的精度和速度&#xff0c;因为项目需求&#xff0c;需要利用yolov5-7.0训练自己的目标检测数据集。 假设&#xff0c;环境已经配置完成&#xff01; 1&#xff09;准备数据集 在D:\Graduation_Project_Coding\network_class…

QGIS中导入dwg文件并使用GetWKT插件获取绘制元素WKT字符串以及QuickWKT插件实现WKT显示在图层

场景 QGIS在Windows上下载安装与建立空间数据库连接&#xff1a; https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/124108040 在上面实现QGIS的安装之后&#xff0c;版本是3.26.3。 业务需求: 1、在dwg文件上绘制多边形区域&#xff0c;并获取绘制区域的wkt字…

如何在美国虚拟主机上安装WordPress?

如果你想在美国虚拟主机上搭建一个博客网站&#xff0c;那么WordPress是一个非常好的选择。本文将介绍如何在美国虚拟主机上安装WordPress&#xff0c;帮助你快速建立一个美观、高效的博客网站。 一、选择合适的虚拟主机服务商 在安装WordPress之前&#xff0c;你需要选择一个可…

[Netty] Netty自带的心跳机制 (十五)

文章目录 1.IdleStateHandler介绍2.IdleStateHandler源码解析3.IdleStateHandler总结 1.IdleStateHandler介绍 Netty服务端心跳机制: IdleStateHandler, 这个类可以对三种类型的心跳检测。 ChannelHandler.Sharable public class IdleHandler extends ChannelInboundHandlerA…

redis7详解

Redis基础 文章目录 一、Redis入门概述是什么&#xff1f;能干嘛&#xff1f;主流功能与应用优势 Redis7新特性 二、Redis安装配置Redis7安装步骤Redis7卸载步骤 三、Redis10大数据类型Redis 键(key)1、Redis 字符串&#xff08;String&#xff09;2、Reids列表&#xff08;Lis…

java版本电子招标采购系统源码—企业战略布局下的采购

​ 智慧寻源 多策略、多场景寻源&#xff0c;多种看板让寻源过程全程可监控&#xff0c;根据不同采购场景&#xff0c;采取不同寻源策略&#xff0c; 实现采购寻源线上化管控&#xff1b;同时支持公域和私域寻源。 询价比价 全程线上询比价&#xff0c;信息公开透明&#xff0…

谷歌云 | 内部 HTTP(S) 负载均衡器现在可以在全球范围内访问

【本文由Cloud Ace整理发布&#xff0c;Cloud Ace 是谷歌云全球战略合作伙伴&#xff0c;拥有 300 多名工程师&#xff0c;也是谷歌最高级别合作伙伴&#xff0c;多次获得 Google Cloud 合作伙伴奖。 作为谷歌托管服务商&#xff0c;我们提供谷歌云、谷歌地图、谷歌办公套件、谷…