什么是Visual ChatGPT？

Visual ChatGPT 是一个包含 Visual Foundation 模型（VFM）的系统，可帮助 ChatGPT 更好地理解、生成和编辑视觉信息。VFM 能够指定输入输出格式，将视觉信息转换为语言格式，并处理 VFM 历史记录、优先级和冲突。

因此，Visual ChatGPT 是一种 AI 模型，它充当了 ChatGPT 限制与允许用户通过聊天进行交流并生成视觉效果之间的桥梁。

ChatGPT 的局限性

在过去的几周和几个月里，ChatGPT 一直是大多数人的对话。但是，由于其语言训练功能，它不允许处理和生成图像。

而你有视觉基础模型，如视觉变压器和稳定扩散，它们具有惊人的视觉功能。这就是语言和图像模型的组合创造了Visual ChatGPT的地方。

什么是可视化基础模型？

视觉基础模型用于对计算机视觉中使用的基本算法进行分组。他们采用标准的计算机视觉技能并将其转移到AI应用程序上，以处理更复杂的任务。

Visual ChatGPT 中的提示管理器由 22 个 VFM 组成，其中包括文本到图像、控制网、边缘到图像等。这有助于 ChatGPT 将图像的所有视觉信号转换为语言，以便 ChatGPT 更好地理解。那么Visual ChatGPT是如何工作的呢？

Visual ChatGPT 如何工作？

Visual ChatGPT 由不同的组件组成，以帮助大型语言模型 ChatGPT 理解视觉对象。

Visual ChatGPT 的架构组件

用户查询：这是用户提交查询的位置
提示管理器：这会将用户的视觉查询转换为语言格式，以便 ChatGPT 模型可以理解。
Visual Foundation Models：它结合了各种VFM，例如BLIP（Bootstrapping Language-Image Pre-training），Stable Diffusion，ControlNet，Pix2Pix等。
系统原理：这提供了可视化聊天GPT的基本规则和要求。
对话历史：这是系统与用户进行交互和对话的第一个点。
推理的历史：这使用不同VFM过去具有的先前推理来解决复杂的查询。
中间答案：通过使用 VFM，模型将尝试输出几个逻辑上低估的中间答案。

Microsoft GitHub

有关提示管理器的更多信息

你们中的一些人可能认为这是 ChatGPT 处理视觉效果的强制解决方法，因为它仍然将图像的所有视觉信号转换为语言。上传图像时，提示管理器会合成包含文件名等信息的内部聊天历史记录，以便 ChatGPT 可以更好地了解查询所指的内容。

例如，用户输入的图像的名称将充当操作历史记录，然后提示管理器将协助模型通过“推理格式”来确定需要对图像执行的操作。在 ChatGPT 选择正确的 VFM 操作之前，您可以将此视为模型的内部想法。

在下图中，您可以看到提示管理器如何启动可视 ChatGPT 的规则：

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

开始使用可视化聊天GPT

要开始您的 Visual ChatGPT 之旅，您需要先运行 Visual ChatGPT 演示：

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

您还可以在Microsoft的Visual ChatGPT GitHub上了解更多信息。确保查看每个视觉基础模型上的 GPU 内存使用情况。