GPT模型的底层,其实是谷歌团队推出的Transformer模型。但是在GPT-3出现之前,大家一直对它没有多少了解。直到它的参数数量突破1750亿个的时候,它才建立起一个庞大的神经网络,这个神经网络最突出的特点是大数据、大模型和大计算。其实说白了,就是“大力出奇迹,暴力计算”。
在经过基于大量数据的预训练和大量的计算之后,GPT模型表现出了令人惊艳的语言理解和生成能力,可以选择性地记住前文的重点,形成思维链推理能力。
那么GPT模型生成意义丰富的文本的奥妙是什么呢?其实它依赖于大量的语言数据和核心的大语言模型(LLM)。
简言之,我们可以将GPT模型理解为一个会做文字接龙的模型:当我们给出一个不完整的句子,GPT会接上一个可能的词或字,就像我们在使用输入法时,我们输入上文,输入法会联想出下文一样。
假设我们选择了《水浒传》中武松打虎的故事作为GPT模型的学习材料,将提示词设定为“以武松这个亲历者的心态描述打虎的过程和他的心理状态”。那么根据提示词,起始词可能是“我”,模型可能会连续生成“是”字,然后将其与前面的“我”组合成“我是”。接着,模型可能会根据单词出现的概率继续预测下一个字,生成“武”字。随后,继续组合“我是”和“武”,形成“我是武”。这一过程会不断循环,直到模型生成符合预设要求的文本,例如“我是武松”。
通过这种方式,GPT模型能够逐步构建一段符合预期的、连贯的文本,描述出武松打虎的经历与心情。下图是一个简单的示意图,展示了模型生成文本的迭代过程。
注意,智能输入法是根据用户的输入,在已输入词语的基础上,自动预测可能需要输入的词语,以帮助用户提升打字速度。然而,GPT模型和智能输入法在本质上有很大的差别。GPT模型的真正能力是基于训练和大量语言数据的文本生成,其目标是创造性地生成文本,能够理解上下文,并生成与输入相关、通顺连贯的内容,而不是简单的联想输入。GPT模型除了在词和语句生成上符合人类的预期,也产生了和人一样的语言理解力和表达力,并且具备了逻辑分析和推理能力。