基于GPT-3和DALL-E的原创漫画生成

我花了上个月的时间探索如何使用 OpenAI 的 GPT-3 文本生成器和他们的 DALL-E 图像到文本系统来创建新的漫画，而无需编写任何源代码。请注意，这两个系统都处于测试阶段，在我用完所有免费代币后，它们开始收取象征性的使用费。不过效果还不错！并且 OpenAI 授予用户将其生成的材料用于商业目的的权利。

在这里插入图片描述

推荐：用 NSDT场景设计器快速搭建3D场景。

在本文中，我将提供有关 GPT-3 和 DALL-E 的一些背景知识，解释我如何使用这些系统创作漫画，并展示结果。在此过程中，我将重点介绍 GPT-3 中的新文本生成功能，并解释我如何强制 DALL-E 以不同的视角和姿势绘制相同的角色。

1、使用 GPT-3 创建标题、角色和场景

我之前写过如何使用 OpenAI 的 GPT-3 文本生成器为模因创建有趣的字幕。通过 AI-Memer 这个项目，我了解到 GPT-3 可能很有趣。

OpenAI 使用书籍和网页中的大量文本（包括喜剧材料）训练他们的 GPT-3 神经网络。以下是 OpenAI 论文中训练数据的清单：
在这里插入图片描述

根据 OpenAI 的说法，一个“令牌”大约是一个单词的 3/4。每页使用 500 个单词，即约 7.5 亿页文本。

为了使用 GPT-3，你必须在此处创建一个帐户。创建帐户后，OpenAI 会提供价值 18 美元的信用额度，你可以在他们开始收费之前使用这些信用额度。然后可以导航到 Playground，输入提示，它将生成新文本。

2、新漫画 #1 - 疯狂马克

我创作新漫画的第一步是根据主题概念生成标题。使用 GPT-3 用户界面很容易做到。我所做的只是问。我输入“为关于大学体育的幽默漫画创作古怪的标题”并点击提交按钮。请注意，我使用了模型、温度等的默认设置。这些设置效果很好。

在这里插入图片描述

系统显示了结果。

1. The Benchwarmers
2. Intramural Idiots
3. Out in Left Field
4. One Hitter Wonders
5. Bleacher Creatures
6. The Walk-ons
7. Touchdowns and Turnovers
8. The Mascots
9. Mark Madness
10. Shot Clock Shenanigans

我喜欢“Mark Madness”，所以我用了那个。如果它们都不好，我可以点击撤消最后一个按钮并再次提交以创建一些新的。 GPT-3 有很多想法。

请注意，生成的标题不能保证在现实世界中是唯一的。因此，我快速进行了一次谷歌搜索，但没有找到与名为“Mark Madness”的现有漫画相关的任何搜索结果。很好。

3、使用 GPT-3 创建角色

为了为新漫画创作角色，我设计了这个提示，“为一部名为 Mark Madness 的关于大学体育的新漫画创作主角。” 并点击提交。以下是结果，生成的文本以粗体显示。

Create lead characters for a new comic strip about college sports called "Mark Madness."
1. Mark: A talented but under-appreciated college basketball player who dreams of making it to the NBA.
2. Jimmy Chitwood: Mark's talented but egotistical teammate who always seems to steal the spotlight.
3. Suzie Hurley: Mark's girlfriend and fellow student, who is always trying to get him to focus on his studies.
4. Mr. McNulty: Mark's crusty old basketball coach who is always harping on him to "play with more passion."
5. Dean Snyder: The dean of Mark's college, a highly respected academic institution that is also known for its Division I athletics.

这些角色看起来还不错。例如，GPT3 认为主角应该是一位名叫马克的大学篮球运动员。

但请注意，角色集中似乎没有太多文化多样性。 GPT-3 的创建者在他们的论文中讨论了偏见和缺乏文化代表性的问题。

训练数据中存在的偏差可能会导致模型生成刻板印象或带有偏见的内容。这是令人担忧的，因为模型偏见可能会通过巩固现有的刻板印象和产生贬低形象以及其他潜在危害，以不同的方式伤害相关群体中的人。我们对模型中的偏差进行了分析，以便更好地理解 GPT-3 在公平性、偏差和代表性方面的局限性。 — Tom Brown 等人，OpenAI

他们继续讨论他们对模型中性别、种族和宗教偏见和文化代表性不足的分析。

4、使用命令编辑文本

OpenAI 在 GPT-3 中推出了一项新的文本编辑功能，目前处于测试阶段。现在，你不仅可以通过响应提示来创建文本，还可以使用该系统使用文本命令编辑任何现有的散文。为了测试这一点，我使用了上面的角色列表，并要求系统“让角色在文化和种族上更加多样化。”
在这里插入图片描述

这是结果。

1. Mark: A talented but under-appreciated college basketball player who dreams of making it to the NBA.
2. Enrique: Mark's talented but egotistical teammate who always seems to steal the spotlight.
3. Sandhya: Mark's girlfriend and fellow student, who is always trying to get him to focus on his studies.
4. Mr. McNulty: Mark's crusty old basketball coach who is always harping on him to "play with more passion."
5. Dean Wong: The dean of Mark's college, a highly respected academic institution that is also known for its Division I athletics.

好的，它改变了一些名字，比如 Jimmy 改为 Enrique，Suzie 改为 Sandhya，以使角色更加多样化。

5、创建场景

文本生成的最后一步是要求 GPT-3 在给定标题和字符的情况下创建一个场景。这是我使用新生成的粗体文本的提示。

Create a scene with dialog for a comic strip about a college sports called "Mark Madness."
CHARACTERS:
Mark: A talented but under-appreciated college basketball player who dreams of making it to the NBA.
Enrique: Mark's talented but egotistical teammate who always seems to steal the spotlight.
Sandhya: Mark's girlfriend and fellow student, who is always trying to get him to focus on his studies.
SETTING: The basketball court after a big game.
Mark: Wow, we really killed it out there today!
Enrique: Yeah, no thanks to you. You're lucky I was there to carry the team.

那是一段很好的对话。接下来，我将解释我是如何使用 DALL-E 来渲染这个场景的。

6、使用 DALL-E 从文本中绘制漫画

上个月，我写了一篇关于如何使用 OpenAI 的 DALL-E 图像创作系统来创作数字艺术的文章。这是一个付费系统，目前处于测试阶段，可在此处注册。输入文本提示并点击生成按钮，20 秒后，你会看到提示中描述的图像的四个版本。它非常容易使用。

7、疯狂马克

对于 Mark Madness 漫画，我使用了这个提示，“在篮球场上的漫画中有两个穿着红色制服的角色，马克，一个才华横溢的大学篮球运动员，和恩里克，一个自负的队友。” 这是 DALL-E 创建的四张图片。
在这里插入图片描述

我喜欢第二个，但我需要在 Photoshop 中稍微清理一下。并且我添加了 GPT-3 生成的标题和对话框，替换了文字气球中的乱码。这是之前和之后的图像。
在这里插入图片描述

这有点像那些你需要找到十个不同之处的视觉谜题之一。你能认出他们吗？ 🙂

我喜欢漫画的整体外观，有一些可爱的细节，比如与团队颜色相匹配的红色垂直条。然而，角色的眼睛根本不匹配。我在 Photoshop 中使用了一个小技巧来复制马克的右眼和恩里克的左眼。当然，我在对话框中使用了 Comic Sans 字体。

8、新漫画 #2 - 一场演出

我使用相同的过程为使用 GPT-3 的第二部漫画创建标题、角色描述和场景。这次我从提示开始，“为关于车库乐队的幽默漫画创建古怪的标题。” 该批次的最佳标题是一次一次演出。为角色生成文本后，我使用此提示生成图像：“三位音乐家的漫画，吉他手 Clive，贝斯手 Jemma 和弹电钢琴的 Raj。”

这是结果。

在这里插入图片描述

这次第一张图片似乎是最好的。这是我在 Photoshop 中清理并添加标题前后的样子。

在这里插入图片描述

我从最初的设计中挑选了大胆的黑色外观。我不得不将图像向下挤压一点，以便为顶部的标题腾出空间。不需要太多清理，但我确实在 Photoshop 中添加了音符流。

9、新漫画 #3 - ML Mayhem

对于这个，我想看看我是否可以制作一个三面板漫画。我从 GPT-3 的这个提示开始，“为新的技术漫画创建古怪的标题。”
在这里插入图片描述

它想出了一些不错的点子。

“ML Mayhem”
“G33k5 Uprising”
“Coding Crazy”
“Cyber security Shenanigans”
“The Great Cloud Catastrophe”

10、为 M.L. Mayhem创建角色

我喜欢 ML Mayhem，但我将其风格化为 M.L. Mayhem。然后我要求 GPT-3 创建主角。生成的文本以粗体显示。

Create lead characters for a new techy comic strip called "M.L. Mayhem"
1. Millie is a brilliant young coder who spends her days creating new ways to make life easier for her friends and family.
2. Lily Nguyen is Millie's best friend and closest confidante. She's always there to offer a listening ear.
3. Mayhem is the name of the extremely powerful AI system that Millie accidentally created. It has a mind of its own and is always causing havoc for Millie and Lily.

好的，我知道它在那里做了什么。名字是 M.L. Mayhem，所以它命名为主要主角米莉和莉莉。嗯，M和L。很聪明！造成严重破坏的 AI 系统的名称叫做 Mayhem。干净整洁。

11、为三个面板创建场景

接下来，我要求 GPT-3 为三个面板生成场景和对话。

Create a scene and dialog for a three-panel techy comic strip called "M.L. Mayhem."
CHARACTERS: 
Millie is a brilliant young coder who spends her days creating new ways to make life easier for her friends and family.
Lily Nguyen is Millie's best friend and closest confidante. She's always there to offer a listening ear.
Mayhem is the name of the extremely powerful AI system that Millie accidentally created. It has a mind of its own and is always causing havoc for Millie and Lily.
PANEL 1 SCENE: Millie is sitting at her computer, her fingers flying across the keyboard as she codes. 
MILLIE: I'm almost finished with my latest project. I can't wait to show Lily!
PANEL 2 SCENE: Lily is sitting on the couch, reading a book.
LILY: I can't wait to see what Millie has been working on. She's so brilliant! 
PANEL 3 SCENE: Millie's computer screen is flashing red and an error message is displayed.
MILLIE: Oh no! What have I done?

12、为多面板漫画创建图稿

对于这个任务，我真的扩展了 DALL-E 的能力。前两部漫画只有一个面板，但我需要为这一个创建三个面板，并使角色的外观保持一致。

这是我用来创建基本图像的三个提示。

Panel 1: "A techy comic strip where Millie, a brilliant young coder, is sitting at her computer typing."
Panel 2: "A techy comic where Lily Nguyen is sitting on the couch, reading a book."
Panel 3: "A techy comic, Millie, a college student with red hair and a green shirt, is working on her computer, the screen is showing an error message, and her friend Lily Nguyen, wearing a black shirt and blue sweatpants, is watching in horror."

请注意，我不得不对提示进行一些文字加工，以尝试为角色获得某种程度的视觉一致性。 DALL-E 为三个提示中的每一个生成了四个版本的图像，这里是最好的。
在这里插入图片描述

总的来说，这些都很好。但是，除了乱码之外，第三个面板中的视觉一致性也存在重大问题； DALL-E 不知道角色应该是什么样子。根据提示，它只是尽力而为。

13、创建角色研究

为了让角色更真实，我首先在 Photoshop 中润色了图像，然后创建了一个带有 3x2 网格的模板，并在左上角渲染了 Millie。我让六个面板中的五个保持透明。模板的大小为 1024x1024，这是 DALL-E 的工作分辨率。

然后我将模板上传到 DALL-E 并使用提示编辑图像，“Millie 的漫画人物研究，一位才华横溢的年轻大学生和编码员，以六个不同的姿势从侧面和正面展示她。” 这是结果。
在这里插入图片描述

显然，DALL-E 知道什么是角色研究，并且在以不同姿势呈现我们的主角方面做得相当不错。

为了创建最终的片段面板，我选择了其中一个姿势并将其与透明背景上的 Lily 图像的一部分一起粘贴到 Photoshop 中。我擦掉了他们脸上的一部分，看看 DALL-E 是否可以根据提示填写他们的表情，“米莉的一个技术漫画，一个大学生在她的电脑上工作，屏幕显示可怕的错误信息，她的朋友 Lily Nguyen 看着吓坏了。” 这是结果。

该系统在细节方面做得很好，比如米莉的手在她的键盘上打字，并为她提供了双显示器设置。

这是在 Photoshop 中进行更多清理后最终的三面板漫画的样子，以及来自 GPT-3 的对话中的气泡一词。

在这里插入图片描述

14、最后的想法

比较这两个系统，我发现 GPT-3 在生成文本方面比 DALL-E 在艺术作品方面做得更好。尽管漫画的初始图像作为概念渲染看起来还不错，但它们需要进行一些清理才能用于生产。但主要问题是 DALL-E 不能为漫画连贯地生成角色。主要限制源于 DALL-E 中的 1024x1024 图像大小。请注意，OpenAI 最近添加了一个新的“outpainting”功能，可以更轻松地添加到生成的图像中。但是，新功能只能以零星的方式发挥作用。它只考虑用于图像生成的 1024x1024 帧。该系统需要一个“上传参考帧”功能来一致地生成视觉元素，比如漫画人物。

原文链接：GPT漫画生成 — BimAnt