大语言模型-GPT3-Language Models are Few-Shot Learners

news2024/12/25 9:09:34

一、背景信息:

GPT3是于2020 年由OpenAI 发布的预训练语言模型。
GPT3在自然语言处理(NLP)任务中表现出色,可以生成连贯的文本、回答问题、进行对话等。
GPT3的网络架构继续沿用GPT1、GPT2的是多层Transformer Decoder改的结构。
GPT3出自Language Models are Few-Shot Learners,语言模型是Few-Shot学习者。

二、整体结构:

更新改动

GPT3继续沿用在GPT2中使用的单向 Transformer Decoder 的结构。其中96层Decoder的GPT3被称作“GPT”
相较于GPT2模型结构,GPT3做了下面几项改动:

  • 模型中的Transformer采用了类似Sparse Transformer 的结构,用以节省模型训练过程中的显存占用。
  • GPT3使用的最长词向量长度为12888。
  • GPT3上下文划窗的窗口大小提升至2048个token。
  • GPT3分别使用了24、32、40、96层的Transformer Decoder。

Sparse Transformer

GPT3在 transformer 层中交替地使用稠密的(alternating Dense Attention)和局部带状稀疏(locally Band sparse Attention)的注意力模式,类似于 Sparse Transformer。
使用 sparse attention 的好处主要有以下两点:

  1. 减少注意力层的计算复杂度: 节约显存和耗时,从而能够处理更长的输入序列;
  2. 具有“局部紧密相关和远程稀疏相关”的特性: 对于距离较近的上下文关注更多,对于距离较远的上下文关注较少;
(1)Sparse Transformer 的两个模式

Sparse Transformer 原文中提到了两种不同模式stride 模式、 fixed 模式。
【stride模式】本质上也是两种基础模式的组合,即带状模式和相对的间隔模式。在多头注意力机制中,不同的头采用不同的基础模式。
【fixed模式】本质上也是两种基础模式的组合,即分块模式和固定的间隔模式。在多头注意力机制中,不同的头采用不同的基础模式。

stride模式是这样的,在二维空间中定义分解注意模式的一种自然方法是,让一个头关注位置L之前的元素(行),另一个头关注每第L个位置(列),其中L是步幅,选择接近np。

(2)Band Attention

带状稀疏注意力,也被称为滑动窗口注意力。
带状注意力假设:一个元素(或令牌、像素等)与其邻近元素的关联性通常要比与远处元素的关联性更强。因此,限制每个查询仅关注其邻近节点是一种自然且有效的方式。
因此,带状注意力通过将注意力限制在一个局部区域内,显著减少了计算量。因为它只计算和存储那些可能高度相关的元素对之间的关系。此外,这种方法还能帮助模型更加聚焦于局部上下文,这在很多任务中是非常有益的,比如在处理语言时捕捉短语层面的依赖关系,或在处理图像时关注局部特征。

(3)稀疏注意力(Sparse Attention)的理解

自注意力(Self-Attention)机制是Transformer模型核心组成部分,它允许模型在处理序列数据时动态地关注序列中的不同部分。
然而,随着序列长度的增加,标准的自注意力机制的计算复杂度和内存需求也会指数增加,这限制了模型处理长序列数据的能力。
稀疏注意力(Sparse Attention)机制的提出就是为了解决这个问题。
稀疏注意力机制的核心思想是在自注意力计算中引入稀疏性,即不是让序列中的每个位置都与其他所有位置进行注意力计算,而是仅选择部分位置进行计算。这种选择可以基于不同的策略,例如固定的模式(如局部窗口)、基于内容的选择(如与当前位置最相关的其他位置),或者是通过学习得到的模式。通过这种方式,稀疏注意力机制减少了计算量和内存占用,使得模型能够更高效地处理长序列。

dense attention:每个 token 之间两两计算 attention,复杂度 O(n²)
sparse attention:每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)
一般sparse attention 除了相对距离不超过 k 以及相对距离为 k,2k,3k,… 的 token,其他所有 token 的注意力都设为 0

三、模型评估

(1)In-context learning

(又称为few shot learning)通过少数几个例子告诉模型你想要的结果,然后模型就按照给的示例来进行执行。
GPT-3使用了“In-Context Learning”的方式,在不进行梯度更新或fine-tune的情况下,直接在上下文中进行学习。

元学习(meta-learning):
元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围,使得模型能够在有限的数据集上快速拟合,并获得不错的效果。

MAML(Model-Agnostic Meta-Learning)是一种元学习算法,正常的监督学习是将一个批次的数据打包成一个batch进行学习。但是元学习是将一个个任务打包成batch,每个batch分为支持集(support set)和质询集(query set),类似于学习任务中的训练集和测试集。

MAML的迭代涉及两次参数更新,分别是内循环(inner loop)和外循环(outer loop)。内循环是根据任务标签快速的对具体的任务进行学习和适应,而外循环则是对参数进行更新。
直观的理解,我用一组MAML的参数权重去学习多个任务,如果每个任务都学得比较好,则说明这组参数是一个不错的初始化值,否则我们就去对这组参数进行更新。

GPT-3中据介绍的in-context learning(情境学习)是元学习的内循环,而基于语言模型的SGD则是外循环:

(2)性能评估

对于每个任务,在以下3种条件下评估GPT-3:
少样本学习(few-shot learning),除了任务描述外,模型还看到了一些任务示例。不执行梯度更新。
单样本学习(one-shot learning),除了任务描述外,模型会收到任务的单个示例。不执行梯度更新。
零样本学习(zero-shot learning),仅根据任务的自然语言描述来预测答案。不执行梯度更新。

发展历程

模型规模

在这里插入图片描述

Reference

1、Language Models are Few-Shot Learners
2、The ChatGPT Models Family
3、Generating Long Sequences with Sparse Transformers
4、Transformer综述(一):稀疏注意力
5、大模型结构基础(五):注意力机制的升级
6、大师兄-预训练语言模型之GPT-1,GPT-2和GPT-3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2080597.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

论文笔记:GEO-BLEU: Similarity Measure for Geospatial Sequences

22 sigspatial 1 intro 提出了一种空间轨迹相似性度量的方法比较了两种传统相似度度量的不足 DTW 基本特征是它完全对齐序列以进行测量,而不考虑它们之间共享的局部特征这适用于完全对齐的序列,但不适用于逐步对齐没有太多意义的序列BLEU 适用于不完全…

MVSEP-MDX23容器构建详细教程

一、介绍 模型GitHub网址:MVSEP-MDX23-music-separation-model/README.md 在 main ZFTurbo/MVSEP-MDX23-音乐分离模型 GitHub 上 在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件…

股指期货的交易规则有哪些?

股指期货作为一种金融衍生品,其合约条款和交易规则是投资者必须了解的重要内容。以下是关于股指期货合约条款及交易规则的详细解释: 一、合约乘数 沪深300指数期货合约的乘数为每点人民币300元。 中证500股指期货合约的乘数为每点200元。 上证50股指…

【iOS】Masonry学习

Masonry学习 前言NSLayoutConstraintMasonry学习mas_equalTo和equalToMasonry的优先级Masorny的其他写法 Masonry的使用练习 前言 Masonry是一个轻量级的布局框架。通过链式调用的方式来描述布局,是排版代码更加简洁易读。masonry支持iOS和Mac OS X。相比原生的NSL…

浅谈【数据结构】图-最短路径问题

目录 1、最短路径问题 2、迪杰斯特拉算法 3、算法的步骤 谢谢帅气美丽且优秀的你看完我的文章还要点赞、收藏加关注 没错,说的就是你,不用再怀疑!!! 希望我的文章内容能对你有帮助,一起努力吧&#xff0…

足球数据分析管理系统(JSP+java+springmvc+mysql+MyBatis)

项目文件图 项目介绍 随着足球运动的专业化和商业化程度不断提高,对运动员的表现进行分析和管理变得越来越重要。一个高效的足球运动员数据管理系统可以帮助教练团队、球探和俱乐部管理层全面了解每位运动员的训练情况、比赛表现、身体状态和其他关键指标。这样的系…

Leetcode JAVA刷刷站(99)恢复二叉搜索树

一、题目概述 二、思路方向 要解决这个问题,我们可以采用中序遍历二叉搜索树(BST)的方法,因为中序遍历BST会返回一个有序的数组。由于只有两个节点被错误地交换了,所以中序遍历的结果中将有两个位置上的元素是逆序的。…

AD7606芯片驱动-FPGA实现

简介 AD7606是一款16位ADC芯片,可实现8通道并行采集,每通道最大速度可达1M,可实现多种模式数据采集。 介绍 本次FPGA使用的是8通道串行采样模式,设计中所用到的AD7606引脚说明如下: 名称定义CONVST同步采集转换开始信…

并发服务器开发基础

一、服务器模型 1. 单循环服务器: 单循环服务器在同一时刻只能处理一个客户端的请求。由于其结构简单,适合低负载的场景,但在并发请求增加时可能导致性能问题。 2. 并发服务器模型: 并发服务器可以同时响应多个客户端…

openzgy编译和测试应用

zgy是仅次于segy重要的地震数据格式,最早在petrel软件中使用,目前已基本成为行业标准,具有更快的数据存储效率。openzgy是其开源版本。 ZGY文件格式由Schlumberger公司开发,用于存储地震解释的三维数据。OpenZGY库提供了读写该格式的能力。存在C++和Python两种版本。对于P…

web应用程序之服务器部署

当一个web应用层序开发好后,无论你是用什么语言,最后都要考虑部署到服务器上测试使用,这里就常见的服务器上部署进行如下的摸索总结。WSGI(Web Server Gateway Interface),翻译为Python web服务器网关接口&…

【与C++的邂逅】--- 模板初阶

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 与C的邂逅 本篇博客我们将了解C中泛型编程体现的一大利器 --- 模板,有了模板可以帮我们用户省力。 🏠 泛型编程 如何实现一个通…

二叉树的三个简单题

1、二叉树的第k个结点 思路解析 由题可知这是一棵二叉搜索树 它或者是一棵空树,或者是具有下列性质的二叉树: 1. 若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值; 2. 若它的右子树不空,则右子树…

LSTM唐诗生成

LSTM唐诗生成 1课程简介1-2递归神经网络RNN1-3RNN网络细节1-4LSTM网络架构2-1处理Minist数据集2-2RNN网络模型及训练3-1任务概述与环境配置3-2参数配置3-3数据预处理模块3-4batch数据制作3-5RNN模型定义3-8测试唐诗生成效果 1课程简介 使用深度网络模型 写首歌 写个剧本等 原…

openshift node NotReady kubelet http: TLS handshake error

文章目录 问题现象解决方法 问题现象 openshift 集群 node 节点 notready $ oc get node NAME STATUS ROLES AGE VERSION master1.ocp4.demo.com Ready control-plane,master 4d14h v1.29.76abe8a1 master2.ocp4…

折腾 Quickwit,Rust 编写的分布式搜索引擎-官方教程

快速上手 在本快速入门指南中,我们将安装 Quickwit,创建一个索引,添加文档,最后执行搜索查询。本指南中使用的所有 Quickwit 命令都在 CLI 参考文档 中进行了记录。 https://quickwit.io/docs/main-branch/reference/cli 使用 Qui…

光庭信息半年报:营收利润「双」下降,汽车软件业务竞争加剧

「软件定义汽车」概念,不可否认强化了软件在整车价值的权重、带动更多供应商争夺软件业务的同时,也同样埋下了不小的风险。 比如,在汽车行业,常见的软件业务有两种:1、软件许可/IP,这类产品服务主要集中于…

MacOS 本地打开android模拟器

MacOS 本地打开android模拟器 查看本地安卓模拟器:emulator -list-avds 注意📢:这里会提示你找不到 emulator 命令,此时我们需要进入 cd ~/Library/Android/sdk/tools/ 查看模拟器列表:./emulator -list-avds 启动…

PHP概述-特点-应用领域-如何学习

老师建议注册使用百度文心一言;讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞;Kimi.ai - 帮你看更大的世界 等人工智能工具软件的一个到两个,也可下载文心一言、讯飞星火、kimi等APP软件使用,对于我们在读的大二学生来说有什么…

需方软件供应链安全保障要求及开源场景对照自评表(上)

国标《信息安全技术 软件供应链安全要求》确立了软件供应链安全目标,规定了软件供应链安全风险管理要求和供需双方的组织管理和供应活动管理安全要求。 开源软件供应链作为软件供应链的一种特殊形式,该国标亦适用于指导开源软件供应链中的供需双方开展组…