一、语料库
语言模型、ChatGPT和人工智能似乎无处不在。了解大型语言模型(LLM)“背后”发生的事情将是驾驭数字世界的关键。
首先在提示中键入一个单词,然后点击提交。您可以尝试新的提示,并根据需要多次重新生成响应。
这个我们称之为“T&C”的语言模型是在一组被称为语料库的文本上训练的。该语料库是大型科技公司的条款和条件。
语料库决定了语言模型的词汇以及它可以生成哪些单词。
如果在测试过程中出现输入错误之类的提示,是因为你在提示中使用的单词在语料库中不存在。
如果你给这个模型一个它在训练过程中没有看到的单词,它将无法建议下一个单词是什么,因为它没有存储任何关于这个单词的信息。这个模型只知道语料库中的单词。
对于大型语言模型,语料库通常是来自聊天室、维基百科、小说等不同来源的文本的组合。
较小的语言模型可能只有一种类型的文本ÿ