大模型为何能与人类交流？

大模型在接受到对话后，有4个步骤（如下图）

① 文本token化
② 单词向量化、位置编码
③ 自注意力
④ 编码输出

我们接下来看看这几个步骤是怎么具体工作的。

1、文本token化、向量化embedding和位置编码

任何不同种族交流的前提就是：翻译和理解。就像我们和老外交流一样，我们得先将老外的语言翻译成我们自己能理解的。

大语言模型要想与人类交流，那么它肯定需要先理解提问内容。所以，首先，大语言模型要将内容翻译成它所能理解的语言。

举例：We go to work by train

首先这一段文字会被分拆成 tokens。token是可以被编码的基本单元，代表一段话的一部分。但是，我们通常将一个完整的单词放到一个token里，如下图。

为了掌握每一个单词的意义，大模型需要通过大量的训练数据去观察该单词的上下文，并记下附近的单词（如下图动画）。这些训练数据集，是基于互联网上发布的文本进行整理的，通过数十亿个句子进行训练。

最终, 我们得到了一大堆在训练数据中与work一起出现的单词（如下图的黄色单词），以及那些并没有在它附近出现的单词（如下图的蓝色单词）。

当模型处理这组单词时，它会生成一个向量（或数值列表），并根据每个单词与训练数据中的work的接近程度进行调整。该向量称为词嵌入(embedding)。

一个单词的embedding可以有数百个值，每个值代表单词含义的不同方面。正如您可以通过房屋的特征（类型、位置、卧室、浴室、楼层）来描述房屋一样，embedding中的值可以量化单词的语言特征。

我们并不确切地知道embedding的每个特征值代表什么，但我们预期的比较接近的单词，通常具有相似的embedding。

比如，单词sea 和 ocean的意思比较接近，那么它们的embeddings也是非常的接近（如下图，这两个单词的embedding的颜色看起来非常的相似！）

通常embedding值非常多，可能有数百个。我们如果把embedding值减少到两个，就可以更清楚地看到这些单词之间的距离（如下图）。

我们可能会发现，一系列的pronouns(代词)或transportation(交通)单词都聚集在同一个区域（如下图，相似词都聚集在同一区域）。能够通过这种方式定量地表示单词，是大模型生成文本的第一步。

2、Transformer自注意力、预测编码输出

有了向量化之后，另外一个关键点就是 Transformer。Transformer能立即处理整个序列（无论是句子、段落还是整篇文章）分析其所有部分，而不仅仅是单个单词。这使得大模型能够更好地捕捉上下文，并更准确地翻译或生成文本。

Transformer 架构的一个关键概念是自注意力。这就是大模型能够理解单词之间关系的原因。自注意力会查看文本中的每个token，并决定哪些其他token对于理解其含义最重要。在transformer之前, 最先进的AI翻译方法是循环神经网络(RNN), 它逐字扫描句子并顺序处理。

而，transformer通过自注意力可以同时计算句子中的所有单词。能直接捕捉上下文，为大模型提供了更复杂的语言处理能力。

在这个例子中, transformer可同时评估整个句子，能够理解 interest 在这里作为名词使用,以解释个人对政治的看法。

如果我们调整句子，模型就会理解 interest 现在是金融相关的意义（“利息”的意思）。

当我们组合这些句子时, 模型仍然能够识别每个单词的正确含义，这些都是因为伴随文本的自注意力。第一次使用interest时,它主要注意到no 和 in。

而第二次, 它主要注意到 rate 和 bank。

这种功能对于高级文本生成至关重要。否则, 可能会错误地使用其他上下文里的单词。

在下面的句子中,自注意力能够计算出it最有可能指代dog。

如果我们改变句子,将hungry替换为delicious, 模型能够重新计算,现在it最有可能指代bone。

数据规模越大，自注意力对于语言处理的好处就越明显。它允许大模型从句子边界之外获取上下文，使模型更好地理解单词的使用方式和时间。

在对输入文本进行token化和编码后，获得了代表机器理解的输入数据块，包括含义、位置和单词之间的关系。该模型现在的目标是根据这些数据块去预测序列中的下一个单词，并重复执行此操作，直到输出完成。为此,模型给每个token一个概率分数(probability score), 表示它是序列中下一个单词的可能性。

模型会持续这样做，直到对生成的文本感到满意为止。

但这种逐个预测下一个单词的方法（称为“贪婪搜索”）可能会带来问题。有时，虽然每个单独的token可能是下一个最合适的token，但完整的短语可能不太相关。不一定总是错误的，但也许也不是你所期望的。

Transformers 使用多种方法来解决此问题并提高输出质量。一个例子称为beam search。它不是只关注序列中的下一个单词，而是着眼于整个更大的token集的概率。通过beam search, 模型能够考虑多种路径并找到最佳选项。这会产生更好的结果，最终产生更连贯、更接近人类期望的文本。

**总结：**大模型不是搜索引擎。它们是模式识别引擎，可以猜测序列中的下一个最佳选项。由于这种固有的预测性质，大模型还可以产生“幻觉”，也就是捏造信息。他们可以生成虚构的数字、名称、日期、引言——甚至网络链接或整篇文章。谷歌、OpenAI 和其他公司正在努力通来限制幻觉。虽然目前还存在一些问题，但是已经在很多场景产生了惊人的效果。

“预测下一个单词，就是这么简单的模型…可以做任何事情”, 人工智能初创公司 Cohere 的首席执行官、Transformer 论文的合著者艾丹·戈麦斯 (Aidan Gomez) 说道。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓