仅用自然语言,让ChatGPT输出连贯的长篇小说!苏黎世联邦理工大学提出RecurrentGPT

news2024/11/25 3:06:49
夕小瑶科技说 原创
作者 | ZenMoore,Wangchunshu Zhou

前言

ChatGPT 是万能的吗?

显然不是,至少在今天我们所讨论的长文本生成上,ChatGPT 可以说是几乎完全不太可能生成长篇小说。

在某种程度上,这是 Transformer 模型的固有局限,因为 Transformer 核心组件 self-attention 的 O ( N 2 ) O(N^2) O(N2) 复杂度注定让它不能处理太长的输入,也因此不太适合产生太长的输出。

为了解决这个问题,很多研究试图将 RNN 的那种循环机制引入到 Transformer 里面,比如著名的Transformer-XL, Block-Recurrent Transformer.

然而,这些方法存在一个很关键的、又很现实的问题:需要修改模型架构,不兼容 ChatGPT 等闭源大模型,因为 ChatGPT 的模型参数、结构是不会公开给使用者的,我们能做的,仅仅是喂给它一些 Prompt.

正是因为这些大模型的闭源属性,导致我们在使用它们的时候,不得不以一整个模型作为最小单位,而无法进一步拆解模型内部的模块,将其修改以适配长文本生成的需要。

那么,在这种情况下,我们还怎么把循环机制引入到闭源大模型当中去呢?

今天讨论的这篇文章实现了一个绝妙的想法:仅用自然语言 Prompt,我们就可以模拟 LSTM 机制,而完全不需要修改 ChatGPT 的内部结构!

论文地址:
https://arxiv.org/abs/2305.13304

论文机构:
苏黎世联邦理工大学

项目地址:
https://github.com/aiwaves-cn/RecurrentGPT

在线Demo一:
https://www.aiwaves.org/recurrentgpt (长篇小说写作)

在线Demo二:
https://www.aiwaves.org/interactivefiction (交互式小说)

大模型研究测试传送门

ChatGPT能力研究传送门:
http://hujiaoai.cn

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

基本原理

RecurrentGPT 的整体架构基于模型与其自身进行的交互(可参考文献 Interactive Natural Language Processing )。

如上图所示,在每个时间步上,ChatGPT 会接受四个部分的输入:

  1. 上一个时刻的输出: o t o_t ot
  2. 梗概(Plan): x t x_t xt
  3. 短期记忆(Short-Term Memory): h t h_t ht
  4. 长期记忆(Long-Term Memory): c t c_t ct

ChatGPT 在生成内容的时候,会执行三种类型的操作:

  1. 更新梗概:生成下一步的内容梗概,这个生成的梗概可能有多种备选参考,可以使用一个额外的“用户模拟器”对这些参考进行筛选,选出最合适的那个梗概;
  2. 更新短期记忆:记录最近生成的内容的摘要;
  3. 更新长期记忆:保存历史生成内容中与当前时间步最相关的内容

具体的例子如下图所示:

在具体实现上,作者采用了如下图所示的 Prompt:

RecurrentGPT 使用的具体 Prompt

作者们利用这个 Prompt 指示语言模型在更新短期记忆的时候,不仅新增最新生成内容中的有用部分,还要删除掉与之后内容生成无关的过往记忆。除此之外,作者在 Prompting 的过程中,也着重强调了小说写作场景的重现,以使 ChatGPT 生成的内容更具备像小说那样的细节,防止其快速地完成情节的叙述。

实验结果

作者们使用了人工逐对评测的方式:

在多种多样的小说风格、类型等方面,人类读者普遍认为 RecurrentGPT 的表现更具趣味性和连贯性。

实际效果

用法一:内容创作者输入场景设定和需求,RecurrentGPT 就可以自动产生长文本,而不需要人类过多的干预。

用法二:在生成梗概的时候,用户也可以对梗概进行选择或者编辑等操作,以控制长文本的生成过程。

用法三:类似于互动视频那样,RecurrentGPT 不仅可以服务于内容创作者,还能直接给内容消费者提供新的体验,作者称之为 “AI as Content”(“AI即内容”)。内容消费者不仅可以读小说,还能与小说直接进行互动,跳过内容创作者使用AI进行内容创作的步骤。

总结

本文介绍了一种名为 RecurrentGPT 的方法,通过使用自然语言的 Prompt,模拟了 LSTM 的循环机制,从而在闭源大模型(如 ChatGPT)中实现了长文本生成的能力,而无需修改模型的内部结构。RecurrentGPT 的整体架构基于模型与其自身的交互,通过更新梗概、短期记忆和长期记忆来生成内容。作者通过人工评测和实验结果展示了 RecurrentGPT 在多样的小说风格和类型方面的表现优势。实际应用中,RecurrentGPT 可用于自动产生长文本、让内容创作者选择或编辑梗概以控制生成过程,并可以为内容消费者直接提供互动式体验,将 AI 作为内容呈现给消费者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/596487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2自由度并联关节的制作

1. 运动功能说明 2自由度并联关节模组的主要运动方式为用舵机带动连杆摆动。 2. 结构说明 构成本模组的零部件主要是舵机(行程0度~180度)、舵机支架、舵机输出头、连杆、螺丝、螺母等。此模组的机械系统介绍及运动学算法讲解可参考【R306】5自由度并联机…

回收站不见了怎么恢复?3个方法快速解决!

案例:我想把需要删除的软件拖到桌面回收站中进行删除,却发现我电脑桌面上的回收站不见了,有小伙伴知道怎么恢复吗? 在日常使用电脑的过程中,回收站是一个至关重要的功能。当我们删除文件时,它提供了一个安…

git 远端分支管理、仓库迁移:017

1. 在Github上创建分支: 2. 在Github上删除分支: 3. 使用命令来删除远端分支: 如果远端分支发生改变, 需要通过git pull来获取远端最新分支,如下图,就可以看到获取到了最新分支: 查看本地分支和…

springboot+vue新闻稿件java在线投稿管理系统

本文介绍了新闻稿件管理系统的开发全过程。通过分析新闻稿件管理系统管理的不足,创建了一个计算机管理新闻稿件管理系统的方案。文章介绍了新闻稿件管理系统的系统分析部分,包括可行性分析等,系统设计部分主要介绍了系统功能设计和数据库设计…

数据库整理

文章目录 1、将Excel转换为CSV1.1 代码 2、将CSV文件的数据追加到另一个CSV文件2.1 代码 3 、另外的发现 背景:在数据库里面导出来一批excel文件,现在需要将这些数据进行合并为csv文件 分两步: 1、将Excel转换为CSV 参考:用Pytho…

如何使用宝塔面板搭建网站(搭建宝塔页面)

书接上回,咱们已经搭建好咱们的Linux服务器,接下来改是搭建宝塔页面的教程了。 这里我们需要一个域名,自行去各家云服务器购买域名(例如:腾讯云,阿里云,华为云等等) 购买一个域名之…

FPGA纯vhdl实现XGMII接口10G万兆网UDP协议DMA传输 配合10G Ethernet PCS/PMA使用 提供工程源码和技术支持

目录 1、前言2、我这里已有的UDP方案3、详细设计方案传统UDP网络通信方案本方案详细设计说明DMA和BRAMAXIS-FIFO10G-UDP协议栈10G Ethernet PCS/PMA IP核输出 4、vivado工程详解Block Design设计SDK设计 5、上板调试验证并演示6、福利:工程代码的获取 1、前言 目前…

【ChatGPT】开发人员教程:38 种提高 10 倍工作效率的方法(附Youtube视频地址)...

1. 推荐3本顶级的学习xx的书籍 2. 询问细节:“Head first Java”的主要内容是什么?What are the key takeaways from "Head first Java"? 3. 我如何成为一名前端开发人员?How do I become a front-end developer? (英…

JVM-常用工具(jps、jstat、jinfo、jmap、jhat、jstack、jconsole、jvisualvm)使用

场景 记录JVM中常用工具。 jps:虚拟机进程状态工具 jps(JVM Process Status Tool):虚拟机进程状态工具,可以列出正在运行的虚拟机进程, 并显示虚拟机执行主类(Main Class,main()函数所在的类)的名称&am…

【Mininet】安装篇:安装Mininet

大家好,我是皮皮猫吖! 每文一言:改变你的生活,现在或者从不 本篇文章: 本文是安装 mininet 的简单过程。 正文如下: 一、Mininet的安装 第一步:安装git apt install git 第二步&#xff…

element-ui配置按需引入和全局引入

镇楼图 按需引入 安装element-plus cnpm install element-plus --save 安装按需导入 cnpm install -D unplugin-vue-components unplugin-auto-import修改vite.config.js配置按需加载 import AutoImport from unplugin-auto-import/viteimport Components from unplugin-vue-…

30天从入门到精通TensorFlow1.x第一天,如何创建张量

文章目录 一、TensorFlow基本概念1. 什么是TensorFlow2. TensorFlow的组成3. TensorFlow的三个重要模型 二、TensorFlow的重要底层库1. 先简单来个 helloWord2. 张量什么是张量如何创建张量创建张量(1). 通过定义常量来进行创建张量(2&#x…

Java学习笔记21——常用API

常用API 常用APIMath类Math的常用方法 System类System类常用方法 Object类Object类常用方法 Arrays类Arrays常用方法 基本类型包装类Integer类的概述和使用int和String的相互转换自动装箱和拆箱 日期类Date类Date类的常用方法 SimpleDateFormat类SimpleDateFormat的构造方法Sim…

【计算机网络实验】静态路由协议和RIP协议仿真实验

实验内容  静态路由协议和RIP协议仿真实验 实验目的 1 路由器及路由协议基础知识 2 静态路由配置实验 (1)掌握静态路由和RIP的配置方法; (2)掌握通过静态路由和RIP方式实现网络的连通性; (3…

什么是品牌推广?品牌推广的基本概念及注意要点

品牌推广是企业进行营销活动的关键之一,而现代市场竞争激烈,如何进行有效的品牌推广也成为企业最为关心的问题之一。本文将为大家介绍品牌推广的基本概念、策略以及注意事项。 一、品牌推广的基本概念 品牌推广是指企业通过多种手段,以宣传产…

电脑软件:键盘按键修改器——keytweak使用介绍

对你的电脑键盘的布局不满意、键盘上的某个按键坏掉了等等键盘问题如何解决?有了KeyTweak这一切就可以轻松解决了,KeyTweak是一个免费软件程序,使用它可让你重新映射键盘键。如果您改变主意并想将其改回原样,只需点击一下即可容易…

如何拍摄家具

产品可视化在几乎所有企业中都至关重要,尤其是电子商务,93%的消费者认为视觉外观是购买决策的关键因素。对于家具公司也是一样的。这是您在市场上建立知名度、吸引潜在客户并让他们购买的方式之一。更不用说如今,客户的要求比以往任何时候都高…

Spring Boot中使用WebSocket

文章目录 为什么要用WebSocket?WebSocket的握手阶段Spring Boot中使用WebSocket添加WebSocket依赖服务器代码编写WebSocketSession如何获取用户信息?创建管理类管理用户与会话客户端代码 为什么要用WebSocket? 我们往往需要一些这样的场景&a…

BGP状态机

BGP协议基本概念 BGP是一种外部网管协议(EGP),与OSPF、RIP等内部网管协议(IGP)不同,其着眼点不在于自动发现网络拓扑,而在于AS之间选择最佳路由和控制路由的传播。 自治系统AS( Autonomous System) 由同一个技术管理机构管理、使用统一选路策略的一些路由器的集合。 …

使用select实现TCP并发服务器模型

文章目录 前言一、select是什么?1.1 高级IO模型1.2 select实现1.3 select缺点: 二、使用select实现TCP并发服务器模型1.引入库2.TCP服务器端3. TCP服务器端3. 运行结果 总结 前言 本期主要分享的是对于select的使用,使用select实现TCP并发服务器模型&am…