基于GPT-3和DALL-E的原创漫画生成

news2024/9/22 3:57:08

我花了上个月的时间探索如何使用 OpenAI 的 GPT-3 文本生成器和他们的 DALL-E 图像到文本系统来创建新的漫画,而无需编写任何源代码。 请注意,这两个系统都处于测试阶段,在我用完所有免费代币后,它们开始收取象征性的使用费。 不过效果还不错! 并且 OpenAI 授予用户将其生成的材料用于商业目的的权利。

在这里插入图片描述

推荐:用 NSDT场景设计器 快速搭建3D场景。

在本文中,我将提供有关 GPT-3 和 DALL-E 的一些背景知识,解释我如何使用这些系统创作漫画,并展示结果。 在此过程中,我将重点介绍 GPT-3 中的新文本生成功能,并解释我如何强制 DALL-E 以不同的视角和姿势绘制相同的角色。

1、使用 GPT-3 创建标题、角色和场景

我之前写过如何使用 OpenAI 的 GPT-3 文本生成器为模因创建有趣的字幕。 通过 AI-Memer 这个项目,我了解到 GPT-3 可能很有趣。

OpenAI 使用书籍和网页中的大量文本(包括喜剧材料)训练他们的 GPT-3 神经网络。 以下是 OpenAI 论文中训练数据的清单:
在这里插入图片描述

根据 OpenAI 的说法,一个“令牌”大约是一个单词的 3/4。 每页使用 500 个单词,即约 7.5 亿页文本。

为了使用 GPT-3,你必须在此处创建一个帐户。 创建帐户后,OpenAI 会提供价值 18 美元的信用额度,你可以在他们开始收费之前使用这些信用额度。 然后可以导航到 Playground,输入提示,它将生成新文本。

2、新漫画 #1 - 疯狂马克

我创作新漫画的第一步是根据主题概念生成标题。 使用 GPT-3 用户界面很容易做到。 我所做的只是问。 我输入“为关于大学体育的幽默漫画创作古怪的标题”并点击提交按钮。 请注意,我使用了模型、温度等的默认设置。这些设置效果很好。

在这里插入图片描述

系统显示了结果。

1. The Benchwarmers
2. Intramural Idiots
3. Out in Left Field
4. One Hitter Wonders
5. Bleacher Creatures
6. The Walk-ons
7. Touchdowns and Turnovers
8. The Mascots
9. Mark Madness
10. Shot Clock Shenanigans

我喜欢“Mark Madness”,所以我用了那个。 如果它们都不好,我可以点击撤消最后一个按钮并再次提交以创建一些新的。 GPT-3 有很多想法。

请注意,生成的标题不能保证在现实世界中是唯一的。 因此,我快速进行了一次谷歌搜索,但没有找到与名为“Mark Madness”的现有漫画相关的任何搜索结果。很好。

3、使用 GPT-3 创建角色

为了为新漫画创作角色,我设计了这个提示,“为一部名为 Mark Madness 的关于大学体育的新漫画创作主角。” 并点击提交。 以下是结果,生成的文本以粗体显示。

Create lead characters for a new comic strip about college sports called "Mark Madness."
1. Mark: A talented but under-appreciated college basketball player who dreams of making it to the NBA.
2. Jimmy Chitwood: Mark's talented but egotistical teammate who always seems to steal the spotlight.
3. Suzie Hurley: Mark's girlfriend and fellow student, who is always trying to get him to focus on his studies.
4. Mr. McNulty: Mark's crusty old basketball coach who is always harping on him to "play with more passion."
5. Dean Snyder: The dean of Mark's college, a highly respected academic institution that is also known for its Division I athletics.

这些角色看起来还不错。 例如,GPT3 认为主角应该是一位名叫马克的大学篮球运动员。

但请注意,角色集中似乎没有太多文化多样性。 GPT-3 的创建者在他们的论文中讨论了偏见和缺乏文化代表性的问题。

训练数据中存在的偏差可能会导致模型生成刻板印象或带有偏见的内容。 这是令人担忧的,因为模型偏见可能会通过巩固现有的刻板印象和产生贬低形象以及其他潜在危害,以不同的方式伤害相关群体中的人。 我们对模型中的偏差进行了分析,以便更好地理解 GPT-3 在公平性、偏差和代表性方面的局限性。 — Tom Brown 等人,OpenAI

他们继续讨论他们对模型中性别、种族和宗教偏见和文化代表性不足的分析。

4、使用命令编辑文本

OpenAI 在 GPT-3 中推出了一项新的文本编辑功能,目前处于测试阶段。 现在,你不仅可以通过响应提示来创建文本,还可以使用该系统使用文本命令编辑任何现有的散文。 为了测试这一点,我使用了上面的角色列表,并要求系统“让角色在文化和种族上更加多样化。”
在这里插入图片描述

这是结果。

1. Mark: A talented but under-appreciated college basketball player who dreams of making it to the NBA.
2. Enrique: Mark's talented but egotistical teammate who always seems to steal the spotlight.
3. Sandhya: Mark's girlfriend and fellow student, who is always trying to get him to focus on his studies.
4. Mr. McNulty: Mark's crusty old basketball coach who is always harping on him to "play with more passion."
5. Dean Wong: The dean of Mark's college, a highly respected academic institution that is also known for its Division I athletics.

好的,它改变了一些名字,比如 Jimmy 改为 Enrique,Suzie 改为 Sandhya,以使角色更加多样化。

5、创建场景

文本生成的最后一步是要求 GPT-3 在给定标题和字符的情况下创建一个场景。 这是我使用新生成的粗体文本的提示。

Create a scene with dialog for a comic strip about a college sports called "Mark Madness."
CHARACTERS:
Mark: A talented but under-appreciated college basketball player who dreams of making it to the NBA.
Enrique: Mark's talented but egotistical teammate who always seems to steal the spotlight.
Sandhya: Mark's girlfriend and fellow student, who is always trying to get him to focus on his studies.
SETTING: The basketball court after a big game.
Mark: Wow, we really killed it out there today!
Enrique: Yeah, no thanks to you. You're lucky I was there to carry the team.

那是一段很好的对话。 接下来,我将解释我是如何使用 DALL-E 来渲染这个场景的。

6、使用 DALL-E 从文本中绘制漫画

上个月,我写了一篇关于如何使用 OpenAI 的 DALL-E 图像创作系统来创作数字艺术的文章。 这是一个付费系统,目前处于测试阶段,可在此处注册。 输入文本提示并点击生成按钮,20 秒后,你会看到提示中描述的图像的四个版本。 它非常容易使用。

7、疯狂马克

对于 Mark Madness 漫画,我使用了这个提示,“在篮球场上的漫画中有两个穿着红色制服的角色,马克,一个才华横溢的大学篮球运动员,和恩里克,一个自负的队友。” 这是 DALL-E 创建的四张图片。
在这里插入图片描述

我喜欢第二个,但我需要在 Photoshop 中稍微清理一下。 并且我添加了 GPT-3 生成的标题和对话框,替换了文字气球中的乱码。 这是之前和之后的图像。
在这里插入图片描述

这有点像那些你需要找到十个不同之处的视觉谜题之一。 你能认出他们吗? 🙂

我喜欢漫画的整体外观,有一些可爱的细节,比如与团队颜色相匹配的红色垂直条。 然而,角色的眼睛根本不匹配。 我在 Photoshop 中使用了一个小技巧来复制马克的右眼和恩里克的左眼。 当然,我在对话框中使用了 Comic Sans 字体。

8、新漫画 #2 - 一场演出

我使用相同的过程为使用 GPT-3 的第二部漫画创建标题、角色描述和场景。 这次我从提示开始,“为关于车库乐队的幽默漫画创建古怪的标题。” 该批次的最佳标题是一次一次演出。 为角色生成文本后,我使用此提示生成图像:“三位音乐家的漫画,吉他手 Clive,贝斯手 Jemma 和弹电钢琴的 Raj。”

这是结果。

在这里插入图片描述

这次第一张图片似乎是最好的。 这是我在 Photoshop 中清理并添加标题前后的样子。

在这里插入图片描述

我从最初的设计中挑选了大胆的黑色外观。 我不得不将图像向下挤压一点,以便为顶部的标题腾出空间。 不需要太多清理,但我确实在 Photoshop 中添加了音符流。

9、新漫画 #3 - ML Mayhem

对于这个,我想看看我是否可以制作一个三面板漫画。 我从 GPT-3 的这个提示开始,“为新的技术漫画创建古怪的标题。”
在这里插入图片描述

它想出了一些不错的点子。

  1. “ML Mayhem”
  2. “G33k5 Uprising”
  3. “Coding Crazy”
  4. “Cyber security Shenanigans”
  5. “The Great Cloud Catastrophe”

10、为 M.L. Mayhem创建角色

我喜欢 ML Mayhem,但我将其风格化为 M.L. Mayhem。 然后我要求 GPT-3 创建主角。 生成的文本以粗体显示。

Create lead characters for a new techy comic strip called "M.L. Mayhem"
1. Millie is a brilliant young coder who spends her days creating new ways to make life easier for her friends and family.
2. Lily Nguyen is Millie's best friend and closest confidante. She's always there to offer a listening ear.
3. Mayhem is the name of the extremely powerful AI system that Millie accidentally created. It has a mind of its own and is always causing havoc for Millie and Lily.

好的,我知道它在那里做了什么。 名字是 M.L. Mayhem,所以它命名为主要主角米莉和莉莉。 嗯,M和L。很聪明! 造成严重破坏的 AI 系统的名称叫做 Mayhem。 干净整洁。

11、为三个面板创建场景

接下来,我要求 GPT-3 为三个面板生成场景和对话。

Create a scene and dialog for a three-panel techy comic strip called "M.L. Mayhem."
CHARACTERS: 
Millie is a brilliant young coder who spends her days creating new ways to make life easier for her friends and family.
Lily Nguyen is Millie's best friend and closest confidante. She's always there to offer a listening ear.
Mayhem is the name of the extremely powerful AI system that Millie accidentally created. It has a mind of its own and is always causing havoc for Millie and Lily.
PANEL 1 SCENE: Millie is sitting at her computer, her fingers flying across the keyboard as she codes. 
MILLIE: I'm almost finished with my latest project. I can't wait to show Lily!
PANEL 2 SCENE: Lily is sitting on the couch, reading a book.
LILY: I can't wait to see what Millie has been working on. She's so brilliant! 
PANEL 3 SCENE: Millie's computer screen is flashing red and an error message is displayed.
MILLIE: Oh no! What have I done?

12、为多面板漫画创建图稿

对于这个任务,我真的扩展了 DALL-E 的能力。 前两部漫画只有一个面板,但我需要为这一个创建三个面板,并使角色的外观保持一致。

这是我用来创建基本图像的三个提示。

Panel 1: "A techy comic strip where Millie, a brilliant young coder, is sitting at her computer typing."
Panel 2: "A techy comic where Lily Nguyen is sitting on the couch, reading a book."
Panel 3: "A techy comic, Millie, a college student with red hair and a green shirt, is working on her computer, the screen is showing an error message, and her friend Lily Nguyen, wearing a black shirt and blue sweatpants, is watching in horror."

请注意,我不得不对提示进行一些文字加工,以尝试为角色获得某种程度的视觉一致性。 DALL-E 为三个提示中的每一个生成了四个版本的图像,这里是最好的。
在这里插入图片描述

总的来说,这些都很好。 但是,除了乱码之外,第三个面板中的视觉一致性也存在重大问题; DALL-E 不知道角色应该是什么样子。 根据提示,它只是尽力而为。

13、创建角色研究

为了让角色更真实,我首先在 Photoshop 中润色了图像,然后创建了一个带有 3x2 网格的模板,并在左上角渲染了 Millie。 我让六个面板中的五个保持透明。 模板的大小为 1024x1024,这是 DALL-E 的工作分辨率。

然后我将模板上传到 DALL-E 并使用提示编辑图像,“Millie 的漫画人物研究,一位才华横溢的年轻大学生和编码员,以六个不同的姿势从侧面和正面展示她。” 这是结果。
在这里插入图片描述

显然,DALL-E 知道什么是角色研究,并且在以不同姿势呈现我们的主角方面做得相当不错。

为了创建最终的片段面板,我选择了其中一个姿势并将其与透明背景上的 Lily 图像的一部分一起粘贴到 Photoshop 中。 我擦掉了他们脸上的一部分,看看 DALL-E 是否可以根据提示填写他们的表情,“米莉的一个技术漫画,一个大学生在她的电脑上工作,屏幕显示可怕的错误信息,她的朋友 Lily Nguyen 看着 吓坏了。” 这是结果。

该系统在细节方面做得很好,比如米莉的手在她的键盘上打字,并为她提供了双显示器设置。

这是在 Photoshop 中进行更多清理后最终的三面板漫画的样子,以及来自 GPT-3 的对话中的气泡一词。

在这里插入图片描述

14、最后的想法

比较这两个系统,我发现 GPT-3 在生成文本方面比 DALL-E 在艺术作品方面做得更好。 尽管漫画的初始图像作为概念渲染看起来还不错,但它们需要进行一些清理才能用于生产。 但主要问题是 DALL-E 不能为漫画连贯地生成角色。 主要限制源于 DALL-E 中的 1024x1024 图像大小。 请注意,OpenAI 最近添加了一个新的“outpainting”功能,可以更轻松地添加到生成的图像中。 但是,新功能只能以零星的方式发挥作用。 它只考虑用于图像生成的 1024x1024 帧。 该系统需要一个“上传参考帧”功能来一致地生成视觉元素,比如漫画人物。


原文链接:GPT漫画生成 — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/459108.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据湖Iceberg-简介(1)

文章目录 Iceberg简介概述特性数据存储、计算引擎插件化实时流批一体数据表演化(Table Evolution)模式演化(Schema Evolution)分区演化(Partition Evolution)列顺序演化(Sort Order Evolution&a…

Inpaint9.1最新网页版下载及inpaint怎么去水印教程

市面上去水印的软件很多,但专业去除水印的,除了Photoshop,inpaint占有一席之地。在今天的数字时代,我们经常会遇到需要处理图片的情况。然而,当我们遇到水印在图片上,我们就需要寻找一个有效的方式来去除它…

总结831

学习目标: 4月(复习完高数18讲内容,背诵21篇短文,熟词僻义300词基础词) 学习内容: 暴力英语:背诵《start with you》,《大独裁者》第四段,默写《start with you》 高等数学&#x…

信号量【Linux】

文章目录 1. POSIX信号量1.1 引入1.2 概念1.3 PV原语(原理)1.4 相关接口 2. 二进制信号量3. 基于环形队列的生产消费模式3.1 介绍3.2 为什么要使用环形队列3.3 环形队列的作用3.4 实现互斥和同步两个信号量框架生产和消费的逻辑完善环形队列1信号量完善环…

MyBatis-学习修改尚硅谷最新教程笔记

一、MyBatis mybatis mybatis.xml配置文件 mapper接口类 mapper.xml映射处理配置文件 1、MyBatis简介 1.1、MyBatis历史 MyBatis最初是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation迁移到了Google Code。随着开发团队转投Google Code旗下…

【图像抠图】【深度学习】Ubuntu18.04下GFM官方代码Pytorch实现

【图像抠图】【深度学习】Ubuntu18.04下GFM官方代码Pytorch实现 提示:最近开始在【图像抠图】方面进行研究,记录相关知识点,分享学习中遇到的问题已经解决的方法。 文章目录 【图像抠图】【深度学习】Ubuntu18.04下GFM官方代码Pytorch实现前言数据集说明1.AM-2k【自然动物】2.B…

银行数字化转型导师坚鹏:学习贯彻二十大精神 解码乡村振兴之道

学习贯彻二十大精神 解码乡村振兴之道(保险客户) 课程背景: 很多保险公司从业人员存在以下问题: 不知道如何准确解读二十大精神? 不清楚乡村振兴相关政策要求? 不知道如何有效推动乡村振兴&#xf…

【JavaEE初阶】多线程(三)volatile wait notify关键字 单例模式

摄影分享~~ 文章目录 volatile关键字volatile能保证内存可见性 wait和notifywaitnotifynotifyAllwait和sleep的区别小练习 多线程案例单例模式饿汉模式懒汉模式 volatile关键字 volatile能保证内存可见性 import java.util.Scanner;class MyCounter {public int flag 0; }p…

2023新型智慧城市解决方案(ppt可编辑)

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除 智慧城市建设整体框架 智慧城市建设内容 智慧城市云基础架构的必要性 智慧城市建设效益 智慧城市建设效益17 智慧城市建设模式建议 智慧城市建设-整体解决法方案 智慧城市建设…

关于Nginx

一、常见的“服务器中间件”(即http server-web中间件)有哪些 Tomcat、Jboss、Apache、WeBlogic、Jetty、webSphere、Nginx、IIS 二、nginx的特点 1.性能高,能承受5万并发每秒; 2.内存、磁盘,读取消耗空间小。 三、…

「背包问题-步入」失衡天平

失衡天平 https://ac.nowcoder.com/acm/contest/24213/1021 题目描述 终于Alice走出了大魔王的陷阱,可是现在傻傻的她忘了带武器了,这可如何是好???这个时候,一个神秘老人走到她面前答应无偿给她武器,但老人有个条件&#xff…

2023-04-24 算法面试中常见的贪心算法问题

贪心算法 1 贪心选择例题 455.饼干分配 假设你想给小朋友们饼干。每个小朋友最多能够给一块儿饼干。每个小朋友都有一个“贪心指数”,称为g(i),g(i)表示的是这名小朋友需要的饼干大小的最小值。同时,每个饼干都有一个大小值s(i)。如果s(j)…

转换json格式的日期为Javascript对象的函数

项目中碰到了用jQuery从后台获取的json格式的日期的字符串,需要将此字符串转换成JavaScript的日期对象。 代码如下: //转换json格式的日期(如:{ServerDatetime:"\/Date(1278930470649)\/"})为Javascript的日期对象 fu…

【离散系统】传递函数和状态空间方程离散化

本文如有错误,恳请指正。 目录 离散系统 采样控制系统 数字控制系统 信号采样 采样定理(香农定理) 信号保持—零阶保持器 Z变换 Z 变换方法 级数求和法 部分分式法 基本定理 Z反变换 Z反变换方法 长除法 部分分式法&#xff0…

hook函数,toRef家族

自定义hook函数 什么是hook?——本质是一个函数,把setup函数中使用的组合式API 进行了封装。 类似于vue2.x中的mixin。 自定义hook的优势:复用代码,让setup中的逻辑更清楚易懂。 定义钩子: 使用钩子 toRef,toRefs 作用:创建一个ref对象…

WinScope实现录制视频与是Timeline时间轴同步设置方法-千里马framework车载手机系统开发实战

hi,粉丝朋友们! 背景: 今天来分享一个粉丝朋友提出的问题,那就是他在学习wms课程时候有用到winscope工具,提出一个疑问,就是google官网说的有录屏可以结合起来一起看。具体如下: 其实这个以…

Vue 手搓轮播效果

tiptop: 为啥需要写这个功能,因为我遇到了每个轮播层内要放3个左右的商品块,如果使用element自带的轮播就需要将一维数组切成二维数组,导致处理一些情况下就会变得很麻烦,当然那种我也写了如果你们有需要,在下方留言我…

柳永8首绝美词句

他是白衣卿相,是才子词人。 他有傲人的才华,却仕途失意。 他眠花宿柳,写下流传千古的词章。 他是才子柳永。 今天,给大家介绍他的8首词,体会柳永的人生起伏。 1、《雨霖铃 寒蝉凄切》 寒蝉凄切,对长亭晚…

Kafka 安装部署-单节点

Kafka强依赖ZK,如果想要使用Kafka,就必须安装ZK,Kafka中的消费偏置信息、kafka集群、topic信息会被存储在ZK中。有人可能会说我在使用Kafka的时候就没有安装ZK,那是因为Kafka内置了一个ZK,一般我们不使用它。 部署说明…

Yuzuki Lizard 全志V851S开发板 –移植 QT5.12.9教程

本文转载自:https://forums.100ask.net/t/topic/3027 移植 QT5 教程 (此教程基于docker版V851S开发环境) docker pull registry.cn-hangzhou.aliyuncs.com/gloomyghost/yuzukilizard 编译依赖 apt-get install repo git gcc-arm-linux-gn…