GPT3学习笔记

news2024/11/16 12:31:59

GPT-3概述

关于GPT-3的主要事实:

  • 模型分类:GPT-3有8个不同的模型,参数从1.25亿到1750亿不等。

  • 模型大小:最大的GPT-3模型有1750亿参数。这比最大的BERT模型大470倍(3.75亿个参数)

  • 体系结构:GPT-3是一种自回归模型,使用仅有解码器的体系结构。使用下一个单词预测目标进行训练

  • 学习方式:GPT-3通过很少的学习,学习时没有梯度更新

需要训练数据:GPT-3需要较少的训练数据。它可以从非常少的数据中学习,这使得它的应用程序可以用于数据较少的领域
在这里插入图片描述
关键假设:

  • 模型规模的增加和对更大数据的训练可以导致性能的提高
  • 单一模型可以在许多NLP任务上提供良好的性能。
  • 模型可以从新数据中推断,不需要进行微调
  • 该模型可以解决从未训练过的数据集上的问题。

早期的预训练模型-微调:
在这里插入图片描述

  • GPT-3采用了不同的学习方法。不需要大量标记数据来推断新问题。
  • 相反,它可以不从数据(零次学习 Zero-Shot Learning )中学习,只从一个例子(一次学习 one-Shot Learning)或几个例子(few-Shot Learning)中学习。

与Bert进行对比:
在这里插入图片描述
最显著的3个特征

  1. Size:GPT-3的大小是其突出的特点。它几乎是最大的BERT模型的470倍
  2. Structure:在架构方面,BERT仍然处于领先地位。它是一种经过训练能够更好地捕捉不同问题语境下文本之间的潜在关系。,它是基于概率的,一个一个的输出
  3. Method:GPT-3学习方法相对简单,可以应用于很多没有足够数据的问题。因此,与BERT相比,GPT-3应该有更广泛的应用。

突破的两大功能

  • 文本生成
  • 使用有限的数据构建NLP解决方案

各个任务的表现:

  • 语言建模:GPT-3在纯语言建模任务上击败了所有的基准。

  • 机器翻译:对于需要将文档转换成英语的翻译任务,该模型的性能优于基准测试。但是如果需要将语言从英语翻译为非英语,那么情况就不一样了,GPT-3的性能也会出现问题。

  • 阅读理解:GPT 3模型的性能远远低于这里的技术水平。

  • 自然语言推理:自然语言推理(NLI)关注理解两个句子之间的关系的能力。GPT 3模型在NLI任务中的表现很差

  • 常识推理:常识推理数据集测试物理或科学推理技能的表现。GPT 3模型在这些任务上的表现很差

GPT3的问题

  • GPT3是一个混合模型,可能在预训练的定制模型上性能会输掉
  • 对模型偏差和可解释性的担忧:考虑到GPT-3的庞大规模,公司将很难解释该算法做出的决策
  • 需要制定规章以防止滥用:如果没有得到适当的管制

图解详细理解

知乎图解文章

  • 直接预测下一个单词,而不是根据上下文和掩码来预测
  • 一次生成一个token,迭代生成
  • 175亿参数

GPT3为2048个token。这就是它的“上下文窗口”。这意味着它有2048条轨道,沿着这些轨道处理token。
在这里插入图片描述

具体如何处理:

  • 让我们跟随紫色的轨道。系统如何处理“robotics”一词并产生“ A”?

步骤:

  • 将单词转换为代表单词的向量(数字列表)
  • 计算预测
  • 将结果向量转换为单词
    在这里插入图片描述
  • GPT3的重要计算发生在其96个Transformer解码器层的堆栈内部。这些层中的每一层都有其自己的1.8B参数进行计算。那就是“魔术”发生的地方。这是该过程的高级视图:
    在这里插入图片描述
    在这里插入图片描述

论文精读

三大核心:Fine-Tuning、Few-Shot、One-Shot

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/706146.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mac ppt设置起始页码

今天发现我的ppt的左边ppt的缩略图的开始页码是从2开始的,觉得很奇怪,这个解决的办法就是 点击ppt->文件->页面设置->页眉和页脚->幻灯片编号

chatgpt赋能python:用Python自动化办公:优化SEO的关键

用Python自动化办公:优化SEO的关键 随着互联网的快速发展和人们对搜索引擎的依赖加深,SEO(搜索引擎优化)这个概念也逐渐受到人们的关注。SEO可以帮助网站排名更高,吸引更多的访客并提高转化率,成为了许多企…

直接在Notepad++中运行GO语言-(通过NppExec插件)

前提条件: 1.建议阅读文章【直接在Notepad中运行GO语言】: 直接在Notepad中运行GO语言_go语言 notepad_西晋的no1的博客-CSDN博客 2.建议阅读文章【notepad 中安装NppExec插件】: notepad 中安装NppExec插件_西晋的no1的博客-CSDN博客 以下…

九、DockerFile解析

学习参考:尚硅谷Docker实战教程、Docker官网、其他优秀博客(参考过的在文章最后列出) 目录 前言一、DockerFile介绍二、DockerFile构建过程解析2.1 Dockerfile内容基础知识2.2 Docker执行Dockerfile的大致流程2.3 Dockerfile、Docker镜像与Docker容器关系 三、Docke…

基于51单片机的数码管密码锁

基于51单片机的数码管密码锁是一种可以设置密码并通过输入密码来解锁的安全装置。该密码锁使用51单片机作为控制主板,配合数码管显示模块、按键模块和电磁锁等元件实现密码锁的功能。 实现步骤如下: 1. 硬件连接:将51单片机与数码管、按键模…

flutter mac环境配置

在 macOS 上安装和配置 Flutter 开发环境 - Flutter 中文文档 - Flutter 中文开发者网站 - Flutter一、配置flutter环境变量在 macOS 上安装和配置 Flutter 开发环境 - Flutter 中文文档 - Flutter 中文开发者网站 - Flutter 解压文件放在我的文档里面 然后设置环境变量 1. 执…

OR青年导师访谈特辑 | 北京邮电大学助理教授 姜蔚蔚:如果不亲自尝试,就永远不知道自己的边界在哪

OR青年计划 由【运筹OR帷幄】社区主办的【OR青年计划】,旨在帮助对运筹学应用有理想和追求的同学,近距离与学界、业界导师交流课题,深入了解运筹学的细分方向,为后续的深造、就业生涯打下坚实的基础!更多内容请查看链…

chatgpt赋能python:免费的Python教程:从入门到精通

免费的Python教程:从入门到精通 Python是如今最热门的编程语言之一,在众多编程语言中占据了重要的地位。Python有着简单易学的语法,充足的库支持,高效的执行速度和海量的社区支持,这些使得Python成为最适合初学者的编…

不知道识别表格的方式有哪些?分享识别表格怎么弄

小明:嘿,小红!你知道吗?最近我在整理一堆纸质表格,但是手动输入数据实在太耗时间了,我在想有没有什么方法可以快速识别表格的内容呢? 小红:哦,我听说过有一些方式可以自…

java面试Day13

1. 有哪些注解可以注入 Bean?Autowired 和 Resource 的区别? 在 Spring 框架中,常用的注入 Bean 的注解包括: Autowired:自动注入,按照类型自动装配,如果有多个同类型的 Bean,则需要…

前端开发中的样式

目录 基础知识回顾 样式表⭐⭐ 内联样式表 嵌入样式表 外部样式表 选择器 ID选择器(#id)、类选择器(.class)、标签选择器⭐⭐ 伪类/伪元素选择器 伪类选择器(a:hover ul li:nth-child(odd))逻辑选择元素 伪元素(div::after)抽象创造元素 特…

C语言实现二叉搜索树BST

文章目录 初始化搜索节点删除节点 二叉搜索树(Binary Search Tree, BST)要求父节点大于等于其左子节点,而小于等于其右子节点,这样递归类推,相当于父节点大于等于其左侧的所有节点而小于等于右侧的所有节点,如下图所示 根据BST的规…

闭包治愈“全局变量恐惧症”,利用闭包实现JavaScript私有变量

文章目录 I. 介绍对闭包的定义和概述为什么理解闭包很重要 II. 函数与作用域函数的作用域和生命周期闭包是如何利用函数的作用域的 III. 闭包的实现闭包的实现方式如何创建闭包闭包的应用场景 IV. 闭包的优缺点闭包的优点数据的封装可以实现高阶函数 闭包的缺点内存占用对程序员…

MedLSAM:定位和分割任何3D医学图像模型

文章目录 MedLSAM: Localize and Segment Anything Model for 3D Medical Images摘要本文方法模型学习过程模型推理过程 实验结果 MedLSAM: Localize and Segment Anything Model for 3D Medical Images 摘要 SAM (Segment Anything Model)是近年来出现的一种具有开创性的图像…

【Linux】gcc/g++ 调试学习记录

这是目录 gcc编译选项二、实战1、编译加上 CFLAGS -ggdb三级目录 gcc编译选项 1、-g 编译debug debugging 选项:-g gcc -g手册: 点击这里 -g一共分为4个等级:-g、-g0、-g1、-g3 其中g和g0是一个性质,不打开调试信息,g3保留所有信…

react-native-camera插件的使用,以及实现人脸识别

一、git地址和环境版本 (1)Git地址:https://github.com/react-native-camera/react-native-camera/tree/master (2)node版本:14 (3)react-native版本:0.72 二、环境配…

Linux操作系统——第五章 进程信号

目录 信号概念 用kill -l命令可以察看系统定义的信号列表 信号处理常见方式概览 产生信号 1. 通过终端按键产生信号 2. 调用系统函数向进程发信号 3. 由软件条件产生信号 4. 硬件异常产生信号 阻塞信号 1. 信号其他相关常见概念 2. 在内核中的表示 3. sigset_t 4.…

spring.aop 随笔4 如何借助jdk代理类实现aop

0. 下了有一个月的雨,这对鼻炎来说来吗?不好 其实这也算6月份的博客,之前一直疏于整理 本文仅关注jdk代理所实现的spring.aop下,两者的关系完整的aop源码走读请移步相关 spring.aop 的其他随笔 1. 反编译追踪源码 1.1 jdk代理类…

BPMN2.0规范简介

1 概述 BPMN(Business Process Model & Notation),中文名为业务流程模型与符号。BPMN2.0是OMG(Object Management Group,对象管理组织)制定的,其主要目的是既给用户提供一套简单的、容易理解的机制,以便用户创建流程模型&…

项目性能优化-内存泄漏检测与修改

最近终于有空优化一波项目的性能了,第一波借助Android Studio自带的Profiler工具检测内存泄漏。 第一步、创建Profiler的SESSIONS 第二步、进入MEMORY内存监控 右侧带有绿色原点的就是此时运行的Profiler的SESSION,点击右侧MEMORY进入内存监控的详情模块 第三步…