人工智能论文GPT-3(3):2020.5 Language Models are Few-Shot Learners;架构;训练数据集;开源

news2024/9/20 2:46:04

2.1 模型与架构

我们使用了与GPT-2相同的模型和架构,包括其中描述的改进初始化、预归一化和可逆分词技术,但有所不同的是,我们在Transformer的各层中使用了交替的密集和局部带状稀疏注意力模式,类似于Sparse Transformer 。为了研究ML性能对模型大小的依赖性,我们训练了8种不同大小的模型,其参数数量从1.25亿到1750亿不等,跨越了三个数量级,其中最大的模型我们称之为GPT-3。之前的工作表明,在拥有足够训练数据的情况下,验证损失的缩放应作为大小的函数,大致遵循平滑的幂律;训练多种不同大小的模型使我们能够验证这一假设,既适用于验证损失,也适用于下游语言任务。

表2.1展示了我们的8个模型的大小和架构。在这里,

nparams表示可训练参数的总数,

nlayers表示层的总数,

dmodel表示每个瓶颈层中的单元数(我们总是让前馈层的大小是瓶颈层的四倍,即dff = 4 * dmodel)

dhead表示每个注意力头的维度。所有模型都使用了一个上下文窗口,其中包含nctx = 2048个标记。

我们沿着深度和宽度的维度将模型划分到多个GPU上,以最小化节点间的数据传输。每个模型的精确架构参数是基于计算效率和GPU上模型布局的负载均衡来选择的。之前的工作表明,在合理宽泛的范围内,验证损失对这些参数并不十分敏感。

2.2 训练数据集

语言模型的数据集迅速扩展,最终形成了包含近万亿个单词的Common Crawl数据集2。这个规模的数据集足以训练我们最大的模型,且无需重复更新同一序列。然而,我们发现,未经过滤或仅经过轻度过滤的Common Crawl版本的质量往往低于经过更精心策划的数据集。因此,我们采取了三个步骤来提高数据集的平均质量:

(1)我们下载并过滤了基于与一系列高质量参考语料库相似性的Common Crawl版本;
(2)我们在文档级别内和跨数据集执行了模糊去重操作,以防止冗余,并确保我们所保留的验证集的完整性,作为过拟合准确度的衡量标准;
(3)我们还向训练混合数据集中添加了已知的高质量参考语料库,以扩充Common Crawl并增加其多样性。

关于前两点(Common Crawl的处理)的详细信息见附录A。对于第三点,我们添加了几个经过精心策划的高质量数据集,包括WebText数据集的扩展版本[RWC+19](通过在更长的时间段内抓取链接收集,并在[KMH+20]中首次描述),两个基于互联网的书籍语料库(Books1和Books2)以及英文版的维基百科。

表2.2展示了我们在训练中使用的最终数据集混合情况。Common Crawl数据是从覆盖2016年至2019年的41个每月Common Crawl分片中下载的,在过滤前包含45TB的压缩纯文本,过滤后包含570GB,大致相当于4000亿个字节对编码标记。请注意,在训练过程中,数据集并不是按其大小比例进行采样的,而是我们视为质量更高的数据集采样更频繁,因此Common Crawl和Books2数据集在训练期间的采样次数少于一次,而其他数据集采样2-3次。这本质上是以接受少量过拟合为代价,换取更高质量的训练数据。

使用从互联网上广泛收集的数据对语言模型进行预训练的一个主要方法论问题是,特别是那些具有记忆大量内容能力的大型模型,可能存在下游任务被污染的风险,因为它们在预训练期间可能无意中看到了其测试或开发集。为了减少这种污染,我们搜索并尝试移除与本文研究的所有基准测试的开发集和测试集之间的任何重叠。不幸的是,由于过滤中的一个错误,我们忽略了一些重叠部分,而且由于训练成本高昂,重新训练模型并不可行。在第4节中,我们描述了剩余重叠部分的影响,在未来的工作中,我们将更积极地消除数据污染。

2.3 训练过程

正如在[KMH+20, MKAT18]中所发现的,较大的模型通常可以使用较大的批次大小,但需要较小的学习率。我们在训练过程中测量梯度噪声规模,并用它来指导批次大小的选择[MKAT18]。表2.1展示了我们使用的参数设置。为了在不耗尽内存的情况下训练更大的模型,我们在每个矩阵乘法内部和网络的层之间采用了混合模型并行性。所有模型都是在微软提供的高带宽集群的一部分上的V100 GPU上进行训练的。训练过程和超参数设置的详细信息见附录B。

2.4 评估

对于少样本学习,我们通过从该任务的训练集中随机抽取K个示例作为条件来评估评估集中的每个示例,条件之间由1或2个换行符分隔,具体取决于任务。对于LAMBADA和Storycloze,没有可用的监督训练集,因此我们从开发集中抽取条件示例,并在测试集上进行评估。对于Winograd(原始版本,非SuperGLUE版本),只有一个数据集,因此我们直接从其中抽取条件示例。

K可以是0到模型上下文窗口允许的最大值之间的任何值,对于所有模型来说,nctx = 2048,通常可以容纳10到100个示例。K的较大值通常但不是总是更好,因此当存在单独的开发集和测试集时,我们会在开发集上试验几个K值,然后在测试集上运行最佳值。对于某些任务(见附录G),除了(或对于K = 0,代替)演示示例外,我们还使用自然语言提示。

在涉及从多个选项中选择一个正确补全的任务(多项选择)中,我们提供K个上下文加正确补全的示例,后面跟着一个仅包含上下文的示例,并比较每个补全的LM似然性。对于大多数任务,我们比较每个标记的似然性(以长度进行归一化),然而,在少数数据集(ARC、OpenBookQA和RACE)上,我们通过计算P(补全|上下文)/P(补全|答案上下文)来以无条件概率对每个补全进行归一化,从而获得额外的收益,其中“答案上下文”是字符串“Answer: ”或“A: ”,用于提示补全应是一个答案,但其他方面是通用的。

对于涉及二元分类的任务,我们给选项更具语义意义的名称(例如“True”或“False”,而不是0或1),然后将任务视为多项选择;有时我们也像[RSR+19]所做的那样设定任务框架(详见附录G)。

对于具有自由形式补全的任务,我们使用与[RSR+19]相同的参数进行集束搜索:集束宽度为4,长度惩罚为α=0.6。我们根据数据集的标准使用F1相似度得分、BLEU或精确匹配来评估模型。

当测试集公开可用时,我们报告每个模型大小和学习设置(零样本、单样本和少样本)在测试集上的最终结果。当测试集是私有的时,我们的模型通常太大而无法在测试服务器上运行,因此我们报告在开发集上的结果。我们在少数数据集(SuperGLUE、TriviaQA、PiQa)上向测试服务器提交结果,这些是我们能够成功提交的结果,并且我们只提交200B少样本结果,对于其他所有内容,我们报告开发集的结果。


Ankie的评论:

自GPT-3问世以来,OpenAI对于其技术实现的细节采取了相当谨慎的态度,仅仅以大致的框架进行了介绍。随着时间的推移,OpenAI似乎变得更为封闭而非开放,这也正是马斯克对OpenAI提出批评的核心所在。

现在,我们普遍认识到,虽然许多模型都基于Transformer架构,但各家在应用上的方法却大相径庭。在这场竞赛中,OpenAI已经取得了显著的领先地位,其他公司只能奋力追赶。面对这种压力,一些公司甚至选择开源他们的技术,希望借助群众的力量共同对抗OpenAI。

或许在未来的某一天,OpenAI会公开这些技术实现的细节,但显然,现在还不是时候。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1612009.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RocketMQ异步消息发送失败重试DEMO

producer.setRetryTimesWhenSendAsyncFailed(3); 都知道通过设置,尝试是在MQClientAPIImpl 中完成 其重试是通过MQClientAPIImpl的onExceptionImpl方法来实现,它会先判断重试次数,然后重新调用sendMessageAsync方法进行重试,调用…

【氧化镓】Ga2O3 MOSFET器件的单SEB机制TCAD研究

本文是一篇关于氧化镓(Ga2O3)金属氧化物半导体场效应晶体管(MOSFET)在单粒子烧毁(single event burnout, SEB)事件中的机制研究的文章。文章通过使用技术计算机辅助设计(TCAD)模拟来探究侧向耗尽型氧化镓MOSFET设备在SEB中的敏感区域和安全操作电压,并提出了辐射损伤…

Linux环境变量深度解析

文章目录 一、引言二、环境变量的基本概念1、环境变量的定义2、环境变量的作用与意义 三、环境变量的导入1、导入所需文件2、登陆时的导入 四、环境变量的设置方法1、查看环境变量的方式2、使用export命令临时设置环境变量3、修改配置文件以永久设置环境变量 五、命令行参数与环…

用户的流失预测分析

项目背景 随着电信行业的持续发展,运营商们开始更加关注如何扩大他们的客户群体。研究表明,获取新客户所需的成本要远高于保留现有客户的成本。因此,在激烈的竞争中,保留现有客户成为了一个巨大的挑战。在电信行业中,…

ADSP-21479的开发详解五(AD1939 C Block-Based Talkthru 48 or 96 kHz)音频直通

硬件准备 ADSP-21479EVB开发板: 产品链接:https://item.taobao.com/item.htm?id555500952801&spma1z10.5-c.w4002-5192690539.11.151441a3Z16RLU AD-HP530ICE仿真器: 产品链接:https://item.taobao.com/item.htm?id38007…

AI大模型日报#0420:开源模型击败GPT-4、西湖大学蛋白质通用大模型、GPT的七条经验

导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R上线 摘要: GPT-4在LLM竞技场被开源模型Cohere的…

算法课程笔记——集合set

3复杂度不稳定 删一个和删除全部 注意iter是类 遍历是无序的

AI时代,操作系统交互的革命性变革

AI时代对操作系统交互的影响 对于2024年的智能手机厂商们来说,在冲击高端市场的路上有一场绝对输不起的硬仗,那就是AI大模型的落地之战。 OpenAI的ChatGPT引爆了全球AIGC(生成式人工智能)热潮,短短一年时间里&#xff…

使用Python爬取易车网汽车信息(含x-sign参数逆向分析)

文章目录 1. 写在前面2. 接口分析3. 断点分析3. 算法还原 【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致…

【论文精读】Attention is all you need

摘要 主要的序列转换模型是基于复杂的循环或卷积神经网络,其中包括一个编码器和一个解码器。性能最好的模型还通过一种注意力机制将编码器和解码器连接起来。我们提出了一种新的简单的网络架构,Transformer,完全基于注意机制,完全…

C++设计模式:适配器模式(十四)

1、定义与动机 定义:将一个类的接口转换成客户希望的另外一个接口。Adapter模式使得原本由于接口不兼容而不能一起工作的哪些类可以一起工作。 动机: 在软件系统中,由于应用环境的变化,常常需要将“一些现存的对象”放在新的环境…

SpringBoot3 + Vue3 + Element-Plus + TS 实现动态二级菜单级联选择器

SpringBoot3 Vue3 Element-Plus TS 实现动态二级菜单选择器 1、效果展示1.1 点击效果1.2 选择效果1.3 返回值1.4 模拟后端返回数据 2、前端代码2.1 UnusedList.vue2.2 goodsType.ts2.3 http.ts 3、后端代码3.1 GoodsCategoryController.java3.2 GoodsCategoryService.java3.…

内网抓取Windows密码明文与hashdump思考题笔记整理

目录 思考题 第一题 第二题 第三题 第四题 第五题 思考题 1.windows登录的明文密码,存储过程是怎么样的,密文存在哪个文件下,该文件是否可以打开,并且查看到密文 2.我们通过hashdump 抓取出 所有用户的密文,分为…

Mysql学习2

目录 一.数据库: 1.创建数据库: 2.查看数据库: 3.备份恢复数据库: 二.表 1.创建表指令: 2.MySQL常用数据类型: 3.删除与修改表(重点): 4.数据库CRUD语句&#xf…

简述PDF原理和实践

Hello,我是小恒不会java。 由于最近有输出PDF报表的项目需求,所以复习一下PDF到底是什么,该如何产生,如何应用至项目中。 更多参见Adobe官方文档(https://www.adobe.com/cn/) PDF原理 PDF(Port…

Linux内核之文件系统访问:目录项、inode、物理磁盘访问关系(五十五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

(数据结构代码,总结,自我思考)=> { return 个人学习笔记; } 【To be continued~】

俗话说 “学而不思则罔”&#xff0c;是时候复习和整理一下自己先前的学习历程了&#xff01; Chapter-One 《BinarySearch》 public static int binarySearch (int[] a, int target) {int i 0, j a.length - 1;while (i < j) {int m (i j) >>> 1; // 求中位…

小红书电商运营实战课,从0打造全程实操(65节视频课)

课程内容&#xff1a; 1.小红书的电商介绍 .mp4 2.小红书的开店流程,mp4 3.小红书店铺基础设置介绍 ,mp4 4.小红书店铺产品上架流程 .mp4 5.客服的聊天过程和子账号建立 .mp4 6.店铺营销工具使用和后台活动参加 .mp4 7.小红书产品上架以及拍单教程,mp4 8.小红书如何选品…

javaWeb项目-智慧餐厅点餐管理系统功能介绍

项目关键技术 开发工具&#xff1a;IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架&#xff1a;ssm、Springboot 前端&#xff1a;Vue、ElementUI 关键技术&#xff1a;springboot、SSM、vue、MYSQL、MAVEN 数据库工具&#xff1a;Navicat、SQLyog 1、JavaScript Java…

UltraScale+的40G/50G Ethernet Subsystem IP核使用

文章目录 前言一、设计框图二、模块说明三、上板3.1、发送端3.1、接收端 四、总结 前言 上文介绍了10G/25G Ethernet Subsystem IP核使用&#xff0c;本文将在此基础上介绍40G/50G Ethernet Subsystem IP核的使用&#xff0c;总体区别不大。 一、设计框图 由于40G以太网需要…