【AI大模型】ChatGPT模型原理介绍(上)

news2025/1/11 5:37:39

 

目录

🍔 什么是ChatGPT?

🍔 GPT-1介绍

2.1 GPT-1模型架构

2.2 GPT-1训练过程

2.2.1 无监督的预训练语言模型

2.2.2 有监督的下游任务fine-tunning

2.2.3 整体训练过程架构图

2.3 GPT-1数据集

2.4 GPT-1模型的特点

2.5 GPT-1模型总结

🍔 GPT-2介绍

3.1 GPT-2模型架构

3.2 GPT-2训练核心思想

3.3 GPT-2的数据集

3.4 GPT-2模型的特点

3.5 GPT-2模型总结


学习目标

🍀 了解ChatGPT的本质

🍀 了解GPT系列模型的原理和区别

🍔 什么是ChatGPT?

ChatGPT 是由人工智能研究实验室 OpenAI 在2022年11月30日发布的全新聊天机器人模型, 一款人工智能技术驱动的自然语言处理工具. 它能够通过学习和理解人类的语言来进行对话, 还能根据聊天的上下文进行互动, 真正像人类一样来聊天交流, 甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务.

数据显示, ChatGPT在推出2个多月的时间内,月活跃用户已经超过1亿, 这, 成为史上增长最快的消费者应用. 全球每天约有1300万独立访问者使用ChatGPT, 而爆炸性的增量也给该公司发展带来了想象空 间.

自从 ChatGPT 出现后. 突然之间, 每个人都在谈论人工智能如何颠覆他们的工作、公司、学校和生活. 那么ChatGPT背后的实现原理是什么呢?接下来我们将给大家进行详细的解析.

在我们了解ChatGPT模型原理之前, 需要回顾下ChatGPT的成长史, 即我们需要对GPT-1、GPT-2、GPT-3等一系列模型进行了解和学习, 以便我们更好的理解ChatGPT的算法原理.


🍔 GPT-1介绍

2018年6月, OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”《用生成式预训练提高模型的语言理解力》, 推出了具有1.17亿个参数的GPT-1(Generative Pre-training , 生成式预训练)模型.

与BERT最大的区别在于GPT-1采用了传统的语言模型方法进行预训练, 即使用单词的上文来预测单词, 而BERT是采用了双向上下文的信息共同来预测单词.

正是因为训练方法上的区别, 使得GPT更擅长处理自然语言生成任务(NLG), 而BERT更擅长处理自然语言理解任务(NLU).


2.1 GPT-1模型架构

看三个语言模型的对比架构图, 中间的就是GPT-1:

  • 从上图可以很清楚的看到GPT采用的是单向Transformer模型, 例如给定一个句子[u1, u2, ..., un], GPT在预测单词ui的时候只会利用[u1, u2, ..., u(i-1)]的信息, 而BERT会同时利用上下文的信息[u1, u2, ..., u(i-1), u(i+1), ..., un].

  • 作为两大模型的直接对比, BERT采用了Transformer的Encoder模块, 而GPT采用了Transformer的Decoder模块. 并且GPT的Decoder Block和经典Transformer Decoder Block还有所不同, 如下图所示:

  • 如上图所示, 经典的Transformer Decoder Block包含3个子层, 分别是Masked Multi-Head Attention层, encoder-decoder attention层, 以及Feed Forward层. 但是在GPT中取消了第二个encoder-decoder attention子层, 只保留Masked Multi-Head Attention层, 和Feed Forward层.

  • 注意: 对比于经典的Transformer架构, 解码器模块采用了6个Decoder Block; GPT的架构中采用了12个Decoder Block.


2.2 GPT-1训练过程

GPT-1的训练包括两阶段过程: 预训练 + 微调

  • 第一阶段: 无监督的预训练语言模型.

  • 第二阶段: 有监督的下游任务fine-tunning.


2.2.1 无监督的预训练语言模型

  • 给定句子U = [u1, u2, ..., un], GPT训练语言模型时的目标是最大化下面的似然函数:

  • 上述公式具体来说是要预测每个词ui的概率,这个概率是基于它前面 ui-k 到 ui−1 个词,以及模型 Θ。这里的 k 表示上文的窗口大小,理论上来讲 k 取的越大,模型所能获取的上文信息越充足,模型的能力越强。

  • GPT是一个单向语言模型,模型对输入U 进行特征嵌入得到 transformer 第一层的输h0,再经过多层 transformer 特征编码,使用最后一层的输出即可得到当前预测的概率分布,计算过程如下:

其中Wp是单词的位置编码, We是单词本身的word embedding. Wp的形状是[max_seq_len, embedding_dim], We的形状是[vocab_size, embedding_dim].

  • 得到输入张量h0后, 要将h0传入GPT的Decoder Block中, 依次得到ht:

  • 最后通过得到的ht来预测下一个单词:


2.2.2 有监督的下游任务fine-tunning

  • GPT经过预训练后, 会针对具体的下游任务对模型进行微调. 微调采用的是有监督学习, 训练样本包括单词序列[x1, x2, ..., xn]和label y. GPT微调的目标任务是根据单词序列[x1, x2, ..., xn]预测标签y.

其中$W_y$表示预测输出的矩阵参数, 微调任务的目标是最大化下面的函数:

  • 综合两个阶段的目标任务函数, 可知GPT的最终优化函数为:


2.2.3 整体训练过程架构图

根据下游任务适配的过程分两步: 1、根据任务定义不同输入, 2、对不同任务增加不同的分类层.

具体定义可以参见下图:

  • 分类任务(Classification): 将起始和终止token加入到原始序列两端, 输入transformer中得到特征向量, 最后经过一个全连接得到预测的概率分布;

  • 文本蕴涵(Entailment): 将前提(premise)和假设(hypothesis)通过分隔符(Delimiter)隔开, 两端加上起始和终止token. 再依次通过transformer和全连接得到预测结果;

  • 文本相似度(Similarity): 输入的两个句子, 正向和反向各拼接一次, 然后分别输入给transformer, 得到的特征向量拼接后再送给全连接得到预测结果;

  • 问答和常识推理(Multiple-Choice): 将 N个选项的问题抽象化为N个二分类问题, 即每个选项分别和内容进行拼接, 然后各送入transformer和全连接中, 最后选择置信度最高的作为预测结果


总的来说,都是通过在序列前后添加 Start 和 Extract 特殊标识符来表示开始和结束,序列之间添加必要的 Delim 标识符来表示分隔,当然实际使用时不会直接用 “Start/Extract/Delim” 这几个词,而是使用某些特殊符号。基于不同下游任务构造的输入序列,使用预训练的 GPT 模型进行特征编码,然后使用序列最后一个 token 的特征向量进行预测。

可以看到,不论下游任务的输入序列怎么变,最后的预测层怎么变,中间的特征抽取模块都是不变的,具有很好的迁移能力。


2.3 GPT-1数据集

GPT-1使用了BooksCorpus数据集, 文本大小约 5 GB,包含 7400w+ 的句子。这个数据集由 7000 本独立的、不同风格类型的书籍组成, 选择该部分数据集的原因:

  • 书籍文本包含大量高质量长句,保证模型学习长距离信息依赖。

  • 这些书籍因为没有发布, 所以很难在下游数据集上见到, 更能验证模型的泛化能力.


2.4 GPT-1模型的特点

模型的一些关键参数为:

参数取值
transformer 层数12
特征维度768
transformer head 数12
总参数量1.17 亿

优点:

  • 在有监督学习的12个任务中, GPT-1在9个任务上的表现超过了state-of-the-art的模型

  • 利用Transformer做特征抽取, 能够捕捉到更长的记忆信息, 且较传统的 RNN 更易于并行化

缺点:

  • GPT 最大的问题就是传统的语言模型是单向的.

  • 针对不同的任务, 需要不同的数据集进行模型微调, 相对比较麻烦


2.5 GPT-1模型总结

  • GPT-1证明了transformer对学习词向量的强大能力, 在GPT-1得到的词向量基础上进行下游任务的学习, 能够让下游任务取得更好的泛化能力. 对于下游任务的训练, GPT-1往往只需要简单的微调便能取得非常好的效果.

  • GPT-1在未经微调的任务上虽然也有一定效果, 但是其泛化能力远远低于经过微调的有监督任务, 说明了GPT-1只是一个简单的领域专家, 而非通用的语言学家.


🍔 GPT-2介绍

2019年2月, OpenAI推出了GPT-2, 同时, 他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners” (语言模型是无监督的多任务学习者).

相比于GPT-1, GPT-2突出的核心思想为多任务学习, 其目标旨在仅采用无监督预训练得到一个泛化能力更强的语言模型, 直接应用到下游任务中. GPT-2并没有对GPT-1的网络结构进行过多的创新与设计, 而是使用了更多的网络参数与更大的数据集: 最大模型共计48层, 参数量达15亿.


3.1 GPT-2模型架构

在模型方面相对于 GPT-1 来说GPT-2做了微小的改动:

  • LN层被放置在Self-Attention层和Feed Forward层前, 而不是像原来那样后置(目的:随着模型层数不断增加,梯度消失和梯度爆炸的风险越来越大,这些调整能够减少预训练过程中各层之间的方差变化,使梯度更加稳定

  • 在最后一层Tansfomer Block后增加了LN层

  • 输入序列的最大长度从 512 扩充到 1024;


3.2 GPT-2训练核心思想

目前大部分 NLP 模型是结合无监督的 Pre-training 和监督学习的 Fune-tuning, 但这种方法的缺点是针对某特定任务需要不同类型标注好的训练数据. GPT-2的作者认为这是狭隘的专家而不是通才, 因此该作者希望能够通过无监督学习训练出一个可以应对多种任务的通用系统.

标题中的多任务学习与我们常规理解的有监督学习中的多任务不太一样,这里主要是指模型从大规模数据中学到的能力能够直接在多个任务之间进行迁移,而不需要额外提供特定任务的数据,因此引出了 GPT-2 的主要观点:zero-shot。通过 zero-shot,在迁移到其他任务上的时候不需要额外的标注数据,也不需要额外的模型训练。

因此, GPT-2的训练去掉了Fune-tuning只包括无监督的预训练过程, 和GPT-1第一阶段训练一样, 也属于一个单向语言模型

理解GPT-2模型的学习目标: 使用无监督的预训练模型做有监督的任务.

  • 语言模型其实也是在给序列的条件概率建模, 即p(sn|s1,s2,...,sn−1)

  • 在 GPT-1 中,下游任务需要对不同任务的输入序列进行改造,在序列中加入了开始符、分隔符和结束符之类的特殊标识符,但是在 zero-shot 前提下,我们无法根据不同的下游任务去添加这些标识符,因为不进行额外的微调训练,模型在预测的时候根本不认识这些特殊标记。所以在 zero-shot 的设定下,不同任务的输入序列应该与训练时见到的文本长得一样,也就是以自然语言的形式去作为输入,例如下面两个任务的输入序列是这样改造的:

    机器翻译任务:translate to french, { english text }, { french text } 阅读理解任务:answer the question, { document }, { question }, { answer }

  • 为什么上述输入序列的改造是有效的?或者说为什么 zero-shot 是有效的?这里引用原文的一句话:

    Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible.

  • 大概意思是,从一个尽可能大且多样化的数据集中一定能收集到不同领域不同任务相关的自然语言描述示例,例如下图中展示了英法互译任务在自然语言中出现的示例,表明了不同任务的任务描述在语料中真实存在:

  • 所以 GPT-2 的核心思想就是,当模型的容量非常大且数据量足够丰富时,仅仅靠语言模型的学习便可以完成其他有监督学习的任务,不需要在下游任务微调

综上, GPT-2的核心思想概括为: 任何有监督任务都是语言模型的一个子集, 当模型的容量非常大且数据量足够丰富时, 仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务.


3.3 GPT-2的数据集

为了保证 zero-shot 的效果,必须要足够大且覆盖面广。所以 GPT-2 专门爬取了大量的网络文本数据,GPT-2的文章取自于Reddit上高赞的文章, 命名为WebText. 数据集共有约800万篇文章, 累计体积约40G. 为了避免和测试集的冲突, WebText移除了涉及Wikipedia的文章.


3.4 GPT-2模型的特点

与GPT-1的区别:

  1. 主推 zero-shot,而 GPT-1 为 pre-train + fine-tuning;

  2. 训练数据规模更大,GPT-2 为 800w 文档 40G,GPT-1 为 5GB;

  3. 模型大小,GPT-2 最大 15 亿参数,GPT-1为 1 亿参数;

  4. 模型结构调整,层归一化;

  5. 训练参数,batch_size 从 64 增加到 512,上文窗口大小从 512 增加到 1024,等等;

优点:

  • 文本生成效果好, 在8个语言模型任务中, 仅仅通过zero-shot学习, GPT-2就有7个超过了state-of-the-art的方法.

  • 海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练.

缺点:

  • 无监督学习能力有待提升

  • 有些任务上的表现不如随机


3.5 GPT-2模型总结

GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练. 但是很多实验也表明, GPT-2的无监督学习的能力还有很大的提升空间, 甚至在有些任务上的表现不比随机的好. 尽管在有些zero-shot的任务上的表现不错, 但是我们仍不清楚GPT-2的这种策略究竟能做成什么样子. GPT-2表明随着模型容量和数据量的增大, 其潜能还有进一步开发的空间, 基于这个思想, 诞生了我们下面要介绍的GPT-3.


🍔 小结

  • 本章节主要讲述了GPT-1与GPT-2的发展历程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2131549.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年PMP我可以自学通过考试吗?

作为PMP考试的老考生,我想提醒一下,PMP考试费用很高,初次考试费用为3900元(重考费用为2500元)。如果你想自学PMP,一定要三思而后行。首先要问问自己是否符合以下几种情况: 1. 有相关的工作经验…

软考中级哪个科目比较简单,只为拿证?

软考不仅仅是为了拿证,选考科目也很重要。我建议你考虑软考中级的系统集成项目管理工程师。这个职称是由国家人力资源和社会保障部、工业和信息化部领导进行的国家级考试,通过考试后可以获得相应的证书。 1、通过率高 系统集成项目管理工程师属于中级职…

JDBC笔记

文章目录 准备MySQL数据的建立和建表 idea 建工程和模块设置属性配置文件编写JDBC代码URL的设置JDBC 代码配置文件 准备MySQL 数据的建立和建表 idea 建工程和模块 设置属性配置文件 编写JDBC代码 URL的设置 JDBC 代码 package com.yanyu;import java.sql.*; import java.util…

喜报 | 博睿数据荣获“绿色领导力董秘标杆之星”、“信息技术服务创新标杆之星”

9月12日,2024年中国国际服务贸易交易会在北京国家会议中心和首钢园区拉开序幕。作为服贸会的重要组成部分,9月12日下午,经济观察报经观传媒联合北京国际经济管理技术促进会、中国国际经济合作学会对外交流合作委员会在国家会议中心举办了“20…

YOLOv8改进 | 模块缝合 | C2f 融合RFAConv和CBAM注意力机制 【二次融合 小白必备】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

【数据结构-一维差分】力扣1854. 人口最多的年份

给你一个二维整数数组 logs ,其中每个 logs[i] [birthi, deathi] 表示第 i 个人的出生和死亡年份。 年份 x 的 人口 定义为这一年期间活着的人的数目。第 i 个人被计入年份 x 的人口需要满足:x 在闭区间 [birthi, deathi - 1] 内。注意,人不…

谷歌谈流量波动不必担心的情况

谷歌最近是否提高了“品牌”的可见度? 每一个咨询方案的演示文稿中都有一个“打造强势品牌”的章节。我们都知道,“品牌”对SEO来说很重要。 我们都听过埃里克施密特的一句话:“品牌是解决方案,而不是问题。品牌是帮助你整理这个…

ubuntu 22.04 编译安装新内核

1、普通用户登录系统 查看当前内核版本 $ uname -r 5.15.0-118-generic 2、下载内核源码 www.kernel.org 用户home目录新建子目录linux,下载并解压 linux-5.15.165.tar.xz 3、创建起始的配置文件.config Configuration targets (见linux kernel i…

多模态大模型LLM与AIGC前沿技术实战,基于训练数据和生成算法模型

多模态大模型LLM与AIGC前沿技术实战,基于训练数据和生成算法模型 AI领域,多模态大模型LLM(如M6、DALL-E)与AIGC(Artificial Intelligence for Generative Content)的融合,正在重新定义内容创造的…

机器学习:对数据进行降维(PCA和SVD)

目录 前言 一、PCA 1.PCA是什么? 2.PCA的实现使用步骤 3.PCA参数解释 4.代码实现 5.PCA的优缺点 二、SVD 1.SVD是什么? 2.SVD的实现步骤 3.代码实现 总结 前言 数据降维是将高维数据转换为较低维度的过程,同时尽量保留数据中的关…

【人工智能学习笔记】4_2 深度学习基础之多层感知机

感知机概述 感知机是人工智能最早的模型,是一种有监督的算法,本质上是一个二分类问题,是神经网络和支持向量机的基础缺点:感知机智能解决单纯的线性问题 感知机的过程 多层感知机的层级结构 多层感知机的层级结构主要包括输入层、隐藏层和输出层、可以用于拟合非线性函数。…

达梦CASE_SENSITIVE参数解析

1. 参数含义 标识符大小写敏感,默认值为 Y。 当大小写敏感时,小写的标识符应用双引号括起,否则被转换为大写;当大小写不敏感时,系统不自动转换标识符的大小写,在标识符比较时也不区分大小写。 CASE_SENS…

HarmonyOS开发实战( Beta5.0)蓝牙实现服务端和客户端通讯详解

鸿蒙HarmonyOS开发往期必看: HarmonyOS NEXT应用开发性能实践总结 最新版!“非常详细的” 鸿蒙HarmonyOS Next应用开发学习路线!(从零基础入门到精通) 介绍 本示例分为服务端和客户端两个功能模块。 服务端创建蓝牙…

Cisco SD-WAN (Viptela) 20.15.1 发布,新增功能概览

Cisco SD-WAN (Viptela) version 20.15.1 ED - 软件定义广域网 Cisco SD-WAN powered by Viptela 请访问原文链接:https://sysin.org/blog/cisco-sd-wan-20/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org 支持 S…

SAP会计凭证导入ABAP开发模板+注意点—附带源码

会计凭证导入 前言:开发并不仅仅只要考虑实现的功能,只实现功能的是程序,考虑到使用场景的是工程。 使用bapi BAPI_ACC_DOCUMENT_CHECK 校验创建会计凭证的数据,报错和参数和正式创建一致。用途,防止产生错误的凭证,即使财务凭证可以冲销。 BAPI_ACC_DOCUMENT_POST 正式…

优化Python脚本,提高处理Office文档和数据的效率

目录 引言 性能优化的基本原则 1. 确定性能瓶颈 2. 优先优化最耗时的部分 3. 避免过度优化 4. 保持代码可读性 优化Python脚本处理Office文档和数据的方法 1. 使用高效的库和模块 2. 利用内置函数和高效的数据结构 3. 并发与异步编程 4. 缓存与重用 5. 自动化办公场…

8月更新速递丨秋风送爽,EasyTwin产品能力升级不停~

秋高气爽,金桂飘香,微风中已有几分凉意🍂~在过去的8月中,EasyTwin从**「多元异构数据融合」、「场景编辑及开发能力提升」**两方面,对产品进行了一轮全新的产品更新优化⬇️ 多元异构数据融合 GIS数据融…

Rust 赋能前端: 视频抽帧

❝ 如果你能想得到,就能做得到 大家好,我是柒八九。一个专注于前端开发技术/Rust及AI应用知识分享的Coder ❝ 此篇文章所涉及到的技术有 WebAssembly Rust wasm-bindgen 线程池 ViteReact/Vue(下面的内容,在各种前端框架中都用) 因为&#xf…

ZYNQ 7020 学习记录-2呼吸灯(模块化)

系列文章目录 1.点灯 2.呼吸灯(模块化) 文章目录 系列文章目录前言一、模块实例化二、呼吸灯1.原理解释2.按键消抖模块3.呼吸灯模块4.顶层模块5.上板验证 总结 前言 由于研究生课题组所需学习ZYNQ,以下是本人自学ZYNQ的学习记录&#xff0c…

MySQL数据库教程合集

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :&#x1…