关于LLM：揭秘token与embedding的机制

「GPT4 Turbo 的上下文长度为 128K token」

「Claude 2.1 的上下文长度为 200K token」

听起来像是一些重要的细节，那么token到底是什么？

请看一句话——It’s over 9000！

我们可以将其表示为 [“It’s”, “over”, “9000!”] 每个数组元素都可以称为一个token。

在自然语言处理（NLP）领域，它是我们定义的最小分析单位。如何称呼token取决于你的token化方法；有很多这样的方法。创建token基本上是大多数 NLP 任务的第一步。

让我们直接跳转到代码示例，了解一些常用的字符串tokenization方法。

在这里插入图片描述

每种方法都有其将句子分解为token的独特方式。可以根据自己的需要创建自己的方法，但基本要点是相同的。

■1.1 为什么需要token化字符？

●将复杂的文本分解为易于处理的单元

●以更易于分析或操作的格式呈现文本

●适用于特定的语言任务，如语音部分token、句法分析和命名实体识别

●在 NLP 应用程序中统一预处理文本，并创建结构化的训练数据

大多数 NLP 系统都会对这些token执行一些操作，以完成特定任务。例如，我们可以设计一个系统来处理一串token并预测下一个token。我们还可以将token转换为语音表示，作为文本到语音系统的一部分。我们还可以完成许多其他 NLP 任务，如关键词提取、翻译等。

■1.2 如何使用这些token来构建这些系统？

●特征提取： token用于提取输入机器学习模型的特征。特征可能包括token词本身、token词频率、token词在句子中的位置等。例如，在情感分析中，某些token词的出现可能会强烈地表明正面或负面的情感。

●矢量化： 在许多 NLP 任务中，使用 Bag of Words（BoW）、TF-IDF（Term Frequency-Inverse Document Frequency）或word embedding（如 Word2Vec、GloVe）等技术将token转换为数字向量。这一过程将文本数据转化为机器学习模型可以理解和处理的数字。

●序列建模： 在语言建模、机器翻译和文本生成等任务中，token被用于序列模型，如RNN、LSTM 或Transformer。这些模型通过理解上下文和token出现的可能性来学习预测token序列。

●训练模型： 在训练阶段，模型会收到token化文本和相应的标签或目标（如分类任务的类别或语言模型的下一个token）。模型会学习token和所需输出之间的模式和关联。

●语境理解： BERT 和 GPT 等高级模型使用token来理解上下文，并生成能捕捉特定上下文中单词含义的embedding。这对于同一个词根据其用法可能具有不同含义的任务来说至关重要。

简单来说，我们将文本字符串转换成独立的单位，称为**“token”**。这样，稍后将它们转换成计算机能理解 “数字” 就更容易了。

在像 ChatGPT 这样的 LLM 中，token是什么样子的？用于 LLM 的token化方法与用于一般 NLP 的方法不同。

从广义上讲，我们可以称之为 “subword tokenization”，即我们创建的token不一定是完整的词。

当他们说 GPT-4 Turbo 的上下文长度为 128K token时，它并不完全是 128K 个word，而是一个接近 128K 字的数字。

为什么要使用如此不同和复杂的tokenization方法？

●与完整的单词相比，这些token是更复杂的语言表征

●它们有助于处理大量词汇，包括罕见词和未知词

●处理较小的子单元在计算上更有效率

●有助于更好地理解上下文

●适应性更强，可以跨越与英语截然不同的语言

■3.1 字节对编码（Byte-Pair-Encoding , BPE）

许多开源模型，如 Meta 的 LLAMA-2 和较早的 GPT 模型，都使用这种方法的一个版本。

在现实世界中，BPE 会对大量文本进行分析，以确定最常见的词对。

让我们用 GPT-2 Tokenizer 来举个简单的例子。

在这里插入图片描述

小菜一碟～

■3.2 什么是 token ID？为什么是一个数字？

让我们来分析一下这个过程是如何进行的：

1）建立「Vocabulary」

●从字符开始： 最初，词汇由单个字符（如字母和标点符号）组成。

●查找常见配对： 对训练数据（大量文本语料）进行扫描，找出出现频率最高的字符对。例如，如果「th」经常出现，它就会成为词汇的候选对象。

●合并和创建新token： 然后将这些常见的字符对合并，形成新的token。这个过程会反复进行，每次都会确定并合并下一个出现频率最高的词对。词汇量会从单个字符增长到常见配对，并最终增长到更大的结构，如常见词或词的一部分。

●限制词汇量： 词汇量是有限制的（例如，GPT-2 中的词汇量为 50,000 个）。一旦达到这个限制，处理过程就会停止，从而产生一个固定大小的词汇表，其中包括字符、常见配对和更复杂token的组合。

2）分配token ID

●为词库建立索引： 最终词汇表中的每个唯一token都会分配一个唯一的数字索引或 ID。这个过程非常简单，就像在列表或数组中建立索引一样。

●token ID 表示法： 在 GPT-2 中，每段文本（如单词或单词的一部分）都用该词汇表中相应token的 ID 表示。如果一个词不在词汇表中，它就会被分解成词汇表中的更小的token。

●特殊token： 特殊token（如代表文本开头和结尾或未知单词的token）也被分配了唯一的 ID。

关键的一点是，token ID 的分配不是任意的，而是基于语言数据的出现频率和组合模式。通过这种方式，GPT-2 和类似的模型就能使用可管理的、有代表性的token集合有效地处理和生成人类语言。

在这里，"词汇 "指的是模型可以识别和处理的所有独特token。从本质上讲，它是使用给定的token化方法在训练数据的帮助下创建的token。

要处理的东西太多了！

目前的大多数 LLM 都使用 BPE 的某些变体。例如，Mistral 模型使用 byte fallback BPE tokenizer。

BPE 之外的其他方法包括 unigram、sentence piece 和 word piece。

如果你不知道这些方法，也不必担心。

我们只需要知道，创建token是处理 NLP 或 LLM 的第一步。有不同的token化方法来创建token，这些token也被分配了一些 token ID。

虽然已经接触过这个词，但是在正式讨论embedding之前，需要先解释以下几点：

1）token ID 是token的直接数字表示。事实上，它是矢量化的一种基本形式。它们并不能捕捉到token之间任何更深层次的关系或模式。

2）标准的向量化技术（如 TF-IDF）包括根据某些逻辑创建更复杂的数字表示。

3）embedding是词块的高级向量表示。它们试图捕捉词块之间最细微的差别、联系和语义。每个embedding通常是神经网络计算的向量空间上的一系列实数。

简而言之，文本被转换为token。token被赋予token ID。这些token ID 可用于创建embedding，以便在复杂的模型中进行更细致的数字表示。

为什么要这样做？

因为计算机能理解数字，并通过数字进行运算。

embedding是 LLM 的“真实输入”。

让我们创建一个embedding模型，看看它到底是什么样的。

■4.1 token到embedding的转换

就像不同的token化方法一样，我们也有多种token embedding转换方法。下面是一些常用的方法：

●Word2Vec—— 一种神经网络模型

●GloVe（用于单词表示的全局向量）——一种无监督学习算法

●FastText——Word2Vec 的扩展

●BERT（来自transformer的双向编码器表示法）

●ELMo（语言模型embedding）——一种深度双向 LSTM 模型

我们暂且不用担心每种方法的内部工作原理。只需知道，可以使用它们来创建计算机可以理解的文本数字表示。

以 BERT 创建 embeddings 为例：

from transformers import BertTokenizer, BertModel
import torch

# Load pre-trained model tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Load pre-trained model
model = BertModel.from_pretrained('bert-base-uncased')

# Text to be tokenized
text = "It's over 9000!"

# Encode text
input_ids = tokenizer.encode(text, add_special_tokens=True)

# Output the token IDs
print("Token IDs:", input_ids)

# Convert token IDs back to raw tokens and output them
raw_tokens = [tokenizer.decode([token_id]) for token_id in input_ids]
print("Raw tokens:", raw_tokens)

# Convert list of IDs to a tensor
input_ids_tensor = torch.tensor([input_ids])

# Pass the input through the model
with torch.no_grad():
    outputs = model(input_ids_tensor)
# Extract the embeddings
embeddings = outputs.last_hidden_state

# Print the embeddings
print("Embeddings: ", embeddings)

Token IDs: [101, 2009, 1005, 1055, 2058, 7706, 2692, 999, 102]
Raw tokens: ['[CLS]', 'it', "'", 's', 'over', '900', '##0', '!', '[SEP]']
Embeddings:  tensor([[[ 0.1116,  0.0722,  0.3173,  ..., -0.0635,  0.2166,  0.3236],
         [-0.4159, -0.5147,  0.5690,  ..., -0.2577,  0.5710,  0.4439],         
         [-0.4893, -0.8719,  0.7343,  ..., -0.3001,  0.6078,  0.3938],         
         ...,         
         [-0.2746, -0.6479,  0.2702,  ..., -0.4827,  0.1755, -0.3939],         
         [ 0.0846, -0.3420,  0.0216,  ...,  0.6648,  0.3375, -0.2893],         
         [ 0.6566,  0.2011,  0.0142,  ...,  0.0786, -0.5767, -0.4356]]])

仔细观察代码可以看出：

●就像上一个使用 GPT-2 的例子一样，我们首先对文本进行token。BERT使用词块法进行token化。它基本上是根据某些标准将单词分解成更小的片段。

●我们得到token ID，然后打印原始token。请注意它与 GPT-2 token生成器输出的不

同之处。

●我们根据token ID 创建一个张量，并将其作为输入传递给预先训练好的 BERT 模型。

●我们从最后一个隐藏状态获取最终输出。

可以得出embedding基本上就是数字数组。

当你说出「It’s over 9000!」的指令时，计算机基本上会读取一个包含实数的 N 维张量数组。

为什么embeddings如此庞大和复杂？它们代表什么？

●每个token的embedding都是一个高维向量。 这样，模型就能捕捉到广泛的语言特征和细微差别，如单词的含义、语篇及其与句子中其他单词的关系。

●上下文embedding： 与简单的单词embedding（如 Word2Vec）不同，BERT 的embedding是上下文式的。这意味着同一个词可以根据其上下文（周围的词）有不同的embedding。要捕捉这种上下文上的细微差别，需要丰富而复杂的embedding。

●在我们的例子中，句子「It’s over 9000!」被转化为多个token（包括 BERT 为处理而添加的特殊token）。每个token都有自己的embedding向量。

●在 BERT 等更复杂的模型中，不仅可以获得最终的embedding向量，还可以访问神经网络每一层的embedding向量。每一层都能捕捉语言的不同方面，从而增加了张量的复杂性和大小。

●进一步任务的输入： 这些embedding信息可用作各种 NLP 任务的输入，如情感分析、问题解答和语言翻译。丰富的embedding使得模型能够以高度复杂的方式执行这些任务。

●模型的内部表示： 这些张量的复杂性反映了模型是如何 "理解 "语言的。embedding中的每个维度都可以代表模型在训练过程中学到的某些抽象语言特征。

简而言之，embedding式是使 LLMs 运行良好的秘诀。如果能找到更好的embedding方法，就有可能创建出更好的模型。

当这些数字被训练好的人工智能模型架构处理时，它就会以相同的格式计算出新的值，代表模型所训练任务的答案。在 LLM 中，这就是对下一个token的预测。

我们在用户界面上看到的结果基本上就是从输出数字中检索出的文本。

在训练 LLM 时，我们基本上是在尝试优化模型中所有与输入embedding相关的数学计算，以创建所需的输出。

所有这些计算都包括一些称为模型权重的参数。它们决定了模型如何处理输入数据以产生输出。

embedding实际上是模型权重的一个子集。它们是与输入层（在前馈网络中）或embedding层（通常是第一层）相关的权重。

模型权重和embedding可以作为随机变量初始化，也可以从预先训练好的模型中提取。然后在训练阶段更新这些值。

我们的目标是为模型权重找到合适的值，从而使模型在给定输入的情况下进行的计算能产生最准确的输出。

◆大型语言模型基本上是用embedding和模型权重进行复杂计算的大型黑盒子；

◆text → token → token ID → embedding。计算机通过数字进行运算。embedding是 LLM 理解上下文语言的秘诀；

◆有许多不同的技术可以创建token和embedding，这对模型的工作方式有很大影响。

#Call back

我们计算了简单文字 “It’s over 9000!” 的巨大张量数组embedding。这个embedding数组中究竟有多少个元素？

可以通过一个名为 numel() 的简单函数来计算。

在这里插入图片描述

嗯，看来 “It’s over 9000!” 的元素并没有超过 9000……（汗）

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。