【NLP】GPT 模型如何工作

news2025/1/12 13:28:51

介绍

2021 年,我使用 GPT 模型编写了最初的几行代码,那时我意识到文本生成已经达到了拐点。我要求 GPT-3 总结一份很长的文档,并尝试了几次提示。我可以看到结果比以前的模型先进得多,这让我对这项技术感到兴奋,并渴望了解它是如何实现的。现在,后续的 GPT-3.5、ChatGPT 和 GPT-4 模型正在迅速获得广泛采用,该领域的更多人也对它们的工作原理感到好奇。虽然其内部工作细节是专有且复杂的,但所有 GPT 模型都共享一些不难理解的基本思想。

生成语言模型如何工作

让我们首先探讨生成语言模型的工作原理。最基本的想法如下:它们将n 个标记作为输入,并产生一个标记作为输出。

这看起来是一个相当简单的概念,但为了真正理解它,我们需要知道令牌是什么。

令牌是一段文本。在 OpenAI GPT 模型的上下文中,常见单词和短单词通常对应于单个标记,例如下图中的单词“We”。长且不常用的单词通常被分成几个标记。例如,下图中的“拟人化”一词被分解为三个标记。像“ChatGPT”这样的缩写可以用单个标记表示,也可以分为多个标记,具体取决于字母一起出现的常见程度。您可以转到 OpenAI 的Tokenizer 页面,输入文本,然后查看它如何拆分为标记。您可以选择用于文本的“GPT-3”标记化和用于代码的“Codex”标记化。我们将保留默认的“GPT-3”设置。

您还可以使用 OpenAI 的开源tiktoken库使用 Python 代码进行代币化。OpenAI 提供了几种不同的标记器,每个标记器的行为都略有不同。在下面的代码中,我们使用“davinci”(GPT-3 模型)的分词器来匹配您使用 UI 看到的行为。

import tiktoken

# Get the encoding for the davinci GPT3 model, which is the "r50k_base" encoding.
encoding = tiktoken.encoding_for_model("davinci")

text = "We need to stop anthropomorphizing ChatGPT."
print(f"text: {text}")

token_integers = encoding.encode(text)
print(f"total number of tokens: {encoding.n_vocab}")

print(f"token integers: {token_integers}")
token_strings = [encoding.decode_single_token_bytes(token) for token in token_integers]
print(f"token strings: {token_strings}")
print(f"number of tokens in text: {len(token_integers)}")

encoded_decoded_text = encoding.decode(token_integers)
print(f"encoded-decoded text: {encoded_decoded_text}")
text: We need to stop anthropomorphizing ChatGPT.
total number of tokens: 50257
token integers: [1135, 761, 284, 2245, 17911, 25831, 2890, 24101, 38, 11571, 13]
token strings: [b'We', b' need', b' to', b' stop', b' anthrop', b'omorph', b'izing', b' Chat', b'G', b'PT', b'.']
number of tokens in text: 11
encoded-decoded text: We need to stop anthropomorphizing ChatGPT.

您可以在代码的输出中看到,此标记生成器包含 50,257 个不同的标记,并且每个标记在内部映射到一个整数索引。给定一个字符串,我们可以将其拆分为整数标记,然后将这些整数转换为它们对应的字符序列。对字符串进行编码和解码应该始终返回原始字符串。

这让您对 OpenAI 标记器的工作原理有一个很好的直觉,但您可能想知道为什么他们选择这些标记长度。让我们考虑一些其他标记化选项。假设我们尝试最简单的实现,其中每个字母都是一个标记。这使得将文本分解为标记变得很容易,并使不同标记的总数保持较小。然而,我们无法编码与 OpenAI 方法中一样多的信息。如果我们在上面的示例中使用基于字母的标记,则 11 个标记只能编码“We need to”,而 OpenAI 的 11 个标记可以编码整个句子。事实证明,当前的语言模型对它们可以接收的最大令牌数量有限制。因此,我们希望在每个 token 中包含尽可能多的信息。

现在让我们考虑每个单词都是一个标记的场景。与 OpenAI 的方法相比,我们只需要 7 个 token 就可以表示同一个句子,这似乎更高效。按字拆分也很容易实现。然而,语言模型需要有一个完整的可能遇到的标记列表,而这对于整个单词来说是不可行的——不仅因为字典中有太多单词,而且因为很难跟上领域的步伐——特定术语和发明的任何新词。

因此,OpenAI 选择介于这两个极端之间的解决方案也就不足为奇了。其他公司也发布了遵循类似方法的标记器,例如Google 的Sentence Piece 。

现在我们对令牌有了更好的理解,让我们回到原来的图表,看看我们是否可以更好地理解它。生成模型采用n 个标记,这些标记可以是几个单词、几个段落或几页。他们产生一个单一的标记,它可以是一个短单词或单词的一部分。

现在这更有意义了。

但如果您使用过OpenAI 的 ChatGPT,您就会知道它会生成许多令牌,而不仅仅是单个令牌。这是因为这个基本思想应用于扩展窗口模式。你给它n 个令牌,它会产生一个令牌输出,然后它将该输出令牌合并为下一次迭代的输入的一部分,产生一个新的令牌输出,依此类推。此模式不断重复,直到达到停止条件,表明它已完成生成您需要的所有文本。

例如,如果我输入“We need to”作为模型的输入,算法可能会产生如下所示的结果:

在使用 ChatGPT 时,您可能还注意到该模型不是确定性的:如果您两次问完全相同的问题,您可能会得到两个不同的答案。这是因为该模型实际上并没有生成单个预测标记;而是生成了单个预测标记。相反,它返回所有可能标记的概率分布。换句话说,它返回一个向量,其中每个条目表示选择特定标记的概率。然后,模型从该分布中采样以生成输出令牌。

该模型是如何得出该概率分布的?这就是训练阶段的目的。在训练期间,模型会接触大量文本,并且在给定输入标记序列的情况下,调整其权重以预测良好的概率分布。GPT 模型是通过大部分互联网进行训练的,因此它们的预测反映了它们所看到的信息的混合。

您现在对生成模型背后的想法有了很好的理解。请注意,我只是解释了这个想法,但还没有给你一个算法。事实证明,这个想法已经存在了几十年,并且多年来已经使用几种不同的算法来实现。接下来我们将看看其中一些算法。

生成语言模型简史

隐马尔可夫模型 (HMM) 在 20 世纪 70 年代开始流行。它们的内部表示对句子(名词、动词等)的语法结构进行编码,并在预测新单词时使用这些知识。然而,由于它们是马尔可夫过程,因此在生成新令牌时仅考虑最新的令牌。因此,他们实现了“ n 个令牌输入,一个令牌输出”思想的非常简单的版本,其中n = 1。因此,它们不会生成非常复杂的输出。让我们考虑以下示例:

如果我们将“The Quick Brown Fox Jumps Over the”输入到语言模型中,我们会期望它返回“Lazy”。然而,隐马尔可夫模型只会看到最后一个标记“the”,并且信息如此之少,它不太可能给出我们期望的预测。当人们尝试 HMM 时,很明显语言模型需要支持多个输入标记才能生成良好的输出。当人们尝试 HMM 时,很明显语言模型需要支持多个输入标记才能生成良好的输出。

N-gram 在 20 世纪 90 年代变得流行,因为它们通过采用多个标记作为输入来解决 HMM 的主要限制。对于前面的示例,n-gram 模型在预测“lazy”这个词方面可能会做得很好。

n-gram 最简单的实现是具有基于字符的标记的二元语法,它给定单个字符,能够预测序列中的下一个字符。您只需几行代码即可创建其中一个,我鼓励您尝试一下。首先,计算训练文本中不同字符的数量(我们称之为n),并创建一个用零初始化的nxn二维矩阵。通过选择与第一个字符对应的行和与第二个字符对应的列,每对输入字符可用于定位该矩阵中的特定条目。当您解析训练数据时,对于每一对字符,您只需将一个添加到相应的矩阵单元中即可。例如,如果您的训练数据包含单词“car”,您可以向“c”行和“a”列中的单元格添加 1,然后向“a”行和“r”中的单元格添加 1柱子。累积所有训练数据的计数后,通过将每个单元格除以该行的总数,将每一行转换为概率分布。

然后,为了进行预测,您需要给它一个单个字符来开始,例如“c”。您查找与“c”行相对应的概率分布,并对该分布进行采样以生成下一个字符。然后,您将生成的角色重复该过程,直到达到停止条件。高阶 n 元语法遵循相同的基本思想,但它们能够通过使用 n 维张量来查看更长的输入标记序列。

N 元语法很容易实现。然而,由于矩阵的大小随着输入标记数量的增加而呈指数增长,因此它们不能很好地扩展到更大数量的标记。并且仅使用几个输入标记,他们就无法产生良好的结果。需要一种新技术来继续在这一领域取得进展。

在 2000 年代,循环神经网络 (RNN) 变得非常流行,因为它们能够接受比以前的技术更多数量的输入标记。特别是,LSTM 和 GRU(RNN 的类型)得到了广泛应用,并被证明能够产生相当好的结果。

RNN 是一种神经网络,但与传统的前馈神经网络不同,它们的架构可以适应接受任意数量的输入并产生任意数量的输出。例如,如果我们向 RNN 提供输入标记“We”、“need”和“to”,并希望它生成更多标记直到达到完整点,则 RNN 可能具有以下结构:

上述结构中的每个节点都具有相同的权重。您可以将其视为连接到自身并重复执行的单个节点(因此称为“循环”),或者您可以将其视为上图所示的扩展形式。与基本 RNN 相比,LSTM 和 GRU 添加的一项关键功能是存在从一个节点传递到下一个节点的内部存储单元。这使得后面的节点能够记住前面节点的某些方面,这对于做出良好的文本预测至关重要。

然而,RNN 在处理很长的文本序列时存在不稳定问题。模型中的梯度往往呈指数增长(称为“梯度爆炸”)或减小到零(称为“梯度消失”),从而阻止模型继续从训练数据中学习。LSTM 和 GRU 可以缓解梯度消失问题,但不能完全阻止它。因此,尽管理论上它们的架构允许任意长度的输入,但实际上该长度存在限制。文本生成的质量再次受到算法支持的输入标记数量的限制,需要新的突破。

2017年,Google发布了介绍Transformers的论文,我们进入了文本生成的新时代。Transformers 中使用的架构允许输入令牌数量大幅增加,消除了 RNN 中出现的梯度不稳定问题,并且具有高度并行性,这意味着它能够利用 GPU 的强大功能。Transformer 如今已被广泛使用,OpenAI 选择将其用于最新的 GPT 文本生成模型。

Transformer 基于“注意力机制”,该机制允许模型比其他输入更多地关注某些输入,无论它们出现在输入序列中的位置。例如,让我们考虑以下句子:

在这种情况下,当模型预测动词“买”时,它需要匹配动词“去”的过去时。为了做到这一点,它必须非常关注“去”这个令牌。事实上,它可能更关注标记“went”而不是标记“and”,尽管“went”在输入序列中出现得更早。

GPT 模型中的这种选择性注意力行为是由 2017 年论文中的一个新颖想法实现的:使用“屏蔽多头注意力”层。让我们分解这个术语,并深入研究它的每个子术语:

Attention:“注意力”层包含一个权重矩阵,表示输入句子中所有标记位置对之间的关​​系强度。这些权重是在训练期间学习的。如果一对位置对应的权重很大,那么这些位置上的两个代币相互影响很大。这种机制使 Transfomer 能够比其他标记更加关注某些标记,无论它们出现在句子中的哪个位置。

Masked:如果矩阵仅限于每个标记位置与输入中较早位置之间的关系,则注意力层将被“屏蔽”。这就是 GPT 模型用于文本生成的方法,因为输出标记只能依赖于它之前的标记。

Multi-head:Transformer 使用屏蔽的“多头”注意层,因为它包含多个并行操作的屏蔽注意层。

LSTM 和 GRU 的记忆单元还使后面的 token 能够记住早期 token 的某些方面。然而,如果两个相关的令牌相距很远,梯度问题可能会产生阻碍。Transformer 不存在这个问题,因为每个令牌都与其之前的所有其他令牌有直接连接。

现在您已经了解了 GPT 模型中使用的 Transformer 架构的主要思想,接下来我们来看看目前可用的各种 GPT 模型之间的区别。

不同的GPT模型是如何实现的

截至撰写本文时,OpenAI 最新发布的三个文本生成模型是 GPT-3.5、ChatGPT 和 GPT-4,它们均基于 Transformer 架构。事实上,“GPT”代表“生成式预训练变压器”。

GPT-3.5 是一个被训练为补全式模型的转换器,这意味着如果我们给它一些单词作为输入,它能够生成更多可能在训练数据中跟随它们的单词。

另一方面,ChatGPT 被训练为对话式模型,这意味着当我们像进行对话一样与它进行交流时,它的性能最佳。它基于与 GPT-3.5 相同的变压器基础模型,但它根据对话数据进行了微调。然后使用人类反馈强化学习 (RLHF) 对其进行进一步微调,这是 OpenAI 在其2022 年 InstructGPT 论文中引入的一项技术。在这种技术中,我们给模型两次相同的输入,得到两个不同的输出,然后询问人类排名者它更喜欢哪个输出。然后使用该选择通过微调来改进模型。这项技术使模型的输出与人类期望保持一致,这对于 OpenAI 最新模型的成功至关重要。

另一方面,GPT-4 既可以用于补全,也可以用于对话,并且拥有自己的全新基础模型。该基本模型还使用 RLHF 进行了微调,以更好地符合人类期望。

编写使用 GPT 模型的代码

两者之间的主要区别在于 Azure 提供了以下附加功能:

  • 自动化、负责任的 AI 过滤器可减少 API 的不道德使用
  • Azure 的安全功能,例如专用网络
  • 区域可用性,在与 API 交互时获得最佳性能

如果您正在编写使用这些模型的代码,则需要选择要使用的特定版本。以下是 Azure OpenAI 服务中当前可用版本的快速备忘单:

  • GPT-3.5:文本-davinci-002,文本-davinci-003
  • ChatGPT:gpt-35-turbo
  • GPT-4:gpt-4、gpt-4–32k

两个 GPT-4 版本的主要区别在于它们支持的令牌数量:gpt-4 支持 8,000 个令牌,gpt-4–32k 支持 32,000 个令牌。相比之下,GPT-3.5 模型仅支持 4,000 个代币。

由于 GPT-4 是目前最昂贵的选项,因此最好从其他型号之一开始,仅在需要时进行升级。有关这些模型的更多详细信息,请查看文档。

结论

在本文中,我们介绍了所有生成语言模型的共同基本原理,特别是 OpenAI 最新 GPT 模型的独特之处。

一路上,我们强调了语言模型的核心思想:“ n 个令牌输入,一个令牌输出”。我们探讨了代币是如何分解的,以及为什么要这样分解。我们追溯了语言模型数十年的演变,从早期的隐马尔可夫模型到最近基于 Transformer 的模型。最后,我们描述了 OpenAI 的三个最新的基于 Transformer 的 GPT 模型、每个模型的实现方式以及如何编写使用它们的代码。

到目前为止,您应该已经做好了充分准备,可以就 GPT 模型进行知情对话,并开始在自己的编码项目中使用它们。我计划写更多关于语言模型的解释,所以请关注我,让我知道您希望看到哪些主题!感谢您的阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1240535.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[数据结构]-AVL树

前言 作者:小蜗牛向前冲 名言:我可以接受失败,但我不能接受放弃 如果觉的博主的文章还不错的话,还请点赞,收藏,关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、AVL树基…

陪玩圈子系统APP小程序H5,详细介绍,源码交付,支持二开!

陪玩圈子系统,页面展示,源码交付,支持二开! 陪玩后端下载地址:电竞开黑陪玩系统小程序,APP,H5: 本系统是集齐开黑,陪玩,陪聊于一体的专业APP,小程序&#xff…

Github Copilot AI编码完成工具

目录 一、GitHub Copilot 1、简介 2、工作原理 3、功能 二、GitHub Copilot X 1、什么是 GitHub Copilot X 2、GitHub Copilot X 的功能 三、支持、使用 1、支持 2、使用 四、实际研究、验证(代码方向) 1、代码生成 2、代码提示 3、生成测试用例 4、代码解释 5…

排序算法--归并排序

实现逻辑 ① 将序列每相邻两个数字进行归并操作,形成floor(n/2)个序列,排序后每个序列包含两个元素 ② 将上述序列再次归并,形成floor(n/4)个序列,每个序列包含四个元素 ③ 重复步骤②,直到所有元素排序完毕 void pri…

Rust并发编程:理解线程与并发

大家好!我是lincyang。 今天我们来深入探讨Rust中的并发编程,特别是线程的使用和并发的基本概念。 Rust中的线程 Rust使用线程来实现并发。线程是操作系统可以同时运行的最小指令集。在Rust中,创建线程非常简单,但与此同时&…

SHAP - 机器学习模型可解释性工具

github地址:shap/docs/index.rst at master shap/shap (github.com) SHAP使用文档:欢迎使用 SHAP 文档 — SHAP 最新文档 SHAP介绍 SHAP(SHapley Additive exPlanations)是一种用于解释预测结果的方法,它基于Shapley…

ADB命令介绍

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

系列七、ThreadLocal为什么会导致内存泄漏

一、ThreadLocal为什么会导致内存泄露 1.1、ThreadLocalMap的基本结构 ThreadLocalMap是ThreadLocal的内部类,没有实现Map接口,用独立的方式实现了Map的功能,其内部的Entry也是独立实现的。源码如下: 1.2、ThreadLocal引用示意图…

逸学java【初级菜鸟篇】9.3 Stream流

hi,我是逸尘,一起学java吧 得益于Lambda所带来的函数式编程,引入了一个全新的Stream流概念(就是都基本使用lambda的形式)。 流处理 我们首先理解什么是流处理,它类似于sql语句,可以执行非常复…

cocos2dx ​​Animate3D(二)

Twirl 扭曲旋转特效 // 持续时间(时间过后不会回到原来的样子) // 整个屏幕被分成几行几列 // 扭曲中心位置 // 扭曲的数量 // 振幅 static Twirl* create(float duration, const Size& gridSize, const Vec2& position, unsigned int twirls, float amplitude)…

Python基础【二】--基本语句【2023.11.22】

1.条件语句 在进行逻辑判断时,我们需要用到条件语句,Python 提供了 if、elif、else 来进行逻辑判断。格式如下所示: if 判断条件1:执行语句1... elif 判断条件2:执行语句2... elif 判断条件3:执行语句3... else:执行语句4...ainput("请输…

Django 模型和Admin站点管理(三)

一、定义模型 (1) 创建模型类,必须要继承自 models.Model from django.db import models# Create your models here. #设计数据库 #创建模型 class UserModel(models.Model):namemodels.CharField(max_length30) #对应于SQL name varchar(30…

EMG肌肉信号处理合集 (一)

本文归纳了常见的肌肉信号预处理流程,方便EMG信号的后续分析。使用pyemgpipeline库 来进行信号的处理。文中使用了 UC Irvine 数据库的下肢数据。 目录 1 使用wrappers 定义数据类,来进行后续的操作 2 肌电信号DC偏置去除 3 带通滤波器处理 4 对肌电…

opencv-直方图

直方图是一种对图像亮度分布的统计表示,它显示了图像中每个灰度级别的像素数量。在OpenCV中,你可以使用cv2.calcHist() 函数计算直方图。 以下是一个简单的示例,演示如何计算和绘制图像的直方图: import cv2 import numpy as np …

汽车级芯片NCV7518MWATXG 可编程六沟道低压侧 MOSFET预驱动器 特点、参数及应用

NCV7518MWATXG 可编程六沟道低压侧 MOSFET 预驱动器属于 FLEXMOS™ 汽车级产品,用于驱动逻辑电平 MOSFET。该产品可通过串行 SPI 和并行输入组合控制。该器件提供 3.3 V/5 V 兼容输入,并且串行输出驱动器可以采用 3.3 V 或 5 V 供电。内部通电重置提供受…

逸学java【初级菜鸟篇】9.4 泛型

hi,我是逸尘,一起学java吧 泛型概述 泛型是我们在定义某一个类型规格的时候使用的泛指,我们预先定义一个大方向,防止路线错误。 实质上是程序员定义的安全类型,Object是顶级父类,在没有泛型很多程序员为了…

【Django使用】md文档10大模块第5期:Django数据库增删改查和Django视图

Django的主要目的是简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以"插件"形式服务于整个框架,Django有许多功能强大的第三方插件,你甚至可以很方便的开发出自己的工具包。这使得Django具有很强的可扩展…

PTA-矩阵A乘以B

给定两个矩阵A和B,要求你计算它们的乘积矩阵AB。需要注意的是,只有规模匹配的矩阵才可以相乘。即若A有Ra​行、Ca​列,B有Rb​行、Cb​列,则只有Ca​与Rb​相等时,两个矩阵才能相乘。 输入格式: 输入先后…

【JavaSE】-4-单层循环结构

回顾 运算符: 算术 --、逻辑 && & || |、比较 、三元 、赋值 int i 1; i; j i; //j2 i3 syso(--j"-----"i) //1 3 选择结构 if(){} if(){}else{} if(){}else if(){}else if(){}else{}//支持byte、short、int //支持char //支持枚举…

回归算法优化过程推导

假设存在一个数据集,包含工资、年龄及贷款额度三个维度的数据。我们需要根据这个数据集进行建模,从而在给定工资和年龄的情况下,实现对贷款额度的预测。其中,工资和年龄是模型构建时的两个特征,额度是模型输出的目标值…