NLP_GPT到ChatGPT

news2025/4/7 15:06:02

文章目录

介绍
小结

介绍

从初代 GPT 到GPT-3，主要经历了下面几个关键时刻。

GPT：2018 年，OpenAl发布了这款基于Transformer架构的预训练语言模型，其参数数量为1.17亿(117M)。GPT运用单向自回归方法生成文本，先预训练大量无标签文本，再在特定任务上进行微调。GPT在多种 NLP任务上取得了显著进步。
GPT-2：2019年，OpenAI推出了GPT的升级版，拥有更多参数[15亿(1.5B)个]，在训练数据量和模型复杂性上都有提升。GPT-2在文本生成方面表现优异，但其内容的真实性和连贯性也引发了滥用AI技术的担忧。
GPT-3：2020年，OpenAl再次升级发布的GPT-3，拥有1750亿(175B)个参数，成为当时世界上最大的预训练语言模型。GPT-3 在文本生成、摘要、问答、翻译等多个任务上表现出强大的性能优势。值得一提的是，GPT-3采用“零样本学习”或“少样本学习”，很多时候无须微调便可应对特定任务。

从GPT 到 GPT-3，GPT 系列模型确实越来越大，参数也越来越多(见下图)，这也意味着它们能够处理的输入序列越来越长，生成的文本质量也越来越高。GPT-3能够生成非常流畅、准确的自然语言文本，且其生成的文本质量几乎可以和人类的写作相媲美。
在这里插入图片描述
GPT-3 参数数量增加到1750亿个带来的好处是，它能够更好地学习自然语言规律，理解输入序列中更多的上下文信息，因此能够生成更加连贯、准确的文本。另外， GPT-3 还增加了对多种语言，以及更加复杂的任务，如生成程序代码、回答自然语言问题等的支持。

ChatGPT 是 GPT 模型在聊天机器人任务上的应用，是在GPT-3.5 模型上进行优化后得到的产物。作为GPT 系列的第三代，它是在万亿词汇量的通用文字数据集上训练完成的。另外一个类似的模型，InstructGPT，也是建立在GPT-3.5 之上的。为了使 ChatGPT 在聊天机器人任务上表现出色，OpenAI对预训练数据集进行了微调，从而使ChatGPT 能够更好地处理对话中的上下文、情感和逻辑，这个过程，也被称为对预训练大模型的指令调优(Instruction Tuning)的过程。

而且，ChatGPT也应用了基于人类反馈的强化学习，也就是RLHF 技术，我们接下来会讲到这个技术。而ChatGPT 在 InstructGPT基础上还加入了安全性和合规性的考量，以免产生危害公众安全的回答。这个过程被称为对齐(Alignment)，指让AI的目标与人类的目标一致，这包括让AI理解人类价值观和道德规则，避免产生不利于人类的行为。ChatGPT出现之后不久，OpenAI就进一步推出了推理能力更强的 GPT-4。如下图所示。

在这里插入图片描述

从GPT到 ChatGPT 和 GPT-4 的演进过程中，涌现出了很多关键技术，对它们的总结如表所示。
在这里插入图片描述
从Transformer到ChatGPT的发展，体现了自然语言处理技术在模型规模、性能、泛化能力、友好性、安全性和道德责任等方面的持续进步。这些进展使聊天机器人在各种应用场景中具有更高的准确性、可靠性和灵活性，在满足用户需求的同时，也更符合道德和规范。