论文笔记--GPT-4 Technical Report

news2025/1/13 15:50:57

论文笔记--GPT-4 Technical Report

  • 1. 报告简介
  • 2. 报告概括
  • 3 报告重点内容
    • 3.1 Predictable Scaling
    • 3.2 Capabilities
    • 3.3 limitations
    • 3.3 Risks & mitigations
  • 4. 报告总结
  • 5. 报告传送门
  • 6. References

1. 报告简介

  • 标题:GPT-4 Technical Report
  • 作者:OpenAI
  • 日期:2023
  • 期刊:arxiv preprint

2. 报告概括

  本文是OpenAI发布的GPT-4的技术报告,主要针对GPT-4的能力、局限和风险性等方面进行测评。GPT-4是个多模态模型,支持文本和图像格式的输入。但OpenAI并没有公布GPT-4实现的技术细节,仅在一些场景给出了推理时的prompt,可供用户参考。

3 报告重点内容

3.1 Predictable Scaling

  首先,文章对GPT-4的整体损失进行了分析。根据最近的研究成果,模型的损失和模型的计算量(compute)满足幂律关系。为了判断GPT-4是否满足该关系,文章首先用和GPT-4相同的训练方法(未交代具体方法)训练参数/计算量更小的模型,得到一组compute VS loss的数据对(如下图中的实心黑点),再用这些数据拟合一个幂律模型: L = a C b + c L=aC^b + c L=aCb+c(下图中的虚线)。可以看到GPT-4(绿色原点)恰好在该幂律模型上,说明GPT-4的loss是可以被精准预测的。
  PS:查了很多资料,才明白x轴的单位分别是

  • 1 p = 1 p i c o = 1 0 − 12 1p=1pico = 10^{-12} 1p=1pico=1012
  • 1 n = 1 n a n o = 1 0 − 9 1n=1nano = 10^{-9} 1n=1nano=109
  • 1 μ = 1 m i c r o = 1 0 − 6 1\mu=1micro = 10^{-6} 1μ=1micro=106
    所以下图中的横轴分别对应 1 0 − 10 , 1 0 − 8 , 1 0 − 6 , 1 0 − 4 , 1 0 − 2 , 1 10^{-10}, 10^{-8}, 10^{-6}, 10^{-4}, 10^{-2}, 1 1010,108,106,104,102,1,分别表示参数量与GPT-4的参数量的比值(GPT-4所在点 x = 1 x=1 x=1)。
    predictable loss
      接下来,文章采用类似的方法评估GPT-4在代码生成任务上的loss拟合情况。文章选用Codex[1]论文中提出的编程问题数据集HumanEval,可以评估模型生成Python函数的能力。文章发现模型的平均通过率也可以通过下述方式你和幂律定理: − E P [ log ⁡ ( pass _ rate ( C ) ) ] = α ∗ C − k -E_P[\log (\text{pass}\_\text{rate}(C))] = \alpha * C^{-k} EP[log(pass_rate(C))]=αCk,其中 α > 0 , k > 0 \alpha>0, k>0 α>0,k>0是两个常数,即将上述的损失函数替换成了代码的平均对数通过率。下图展示了平均对数通过率 VS compute的拟合情况。predictable loss code
      此外,文章在ISP提出的一些其它任务上进行loss 拟合,和一些近期研究得到了一致的结论:GPT-4给出了相反的准确率走势。如下图所示,在GPT-4之前的几个模型随着参数增加,准确率反倒降低(Inverse Scaling),但最大的GPT-4模型的准确率是最高的。
    predictable loss ISP

3.2 Capabilities

  在评估GPT-4的能力之前,文章首先对各个待评估的数据集(eval set)分别进行了重复校验:对eval set中的每个样例,我们随机选择它3个字符大小为50的子字符串,如果训练集中某条数据包含3条中任意1条,则认为该数据和eval set是重复的。重复校验之后,文章会剔除训练集中和eval set重复的所有数据重新训练一个模型,记作GPT-4(no contam),用GPT-4和GPT-4(no contam)分别评估eval set。
  GPT-4是一个多模态模型,但我们的对比模型GPT-3.5仅接受文字输入。为此OpenAI训练了两个模型来进行对比:GPT-4和GPT-4(no vision)。
  文章在多个领域测试了GPT-4的能力:

  1. 考试:文章考虑的考试包括两种形式的问题,分别为多选题和自由回答题。针对多选题,模型采用few-shot learning,即提供几个和考试格式相似的样例和解释作为测试用例的上下文输入模型;针对自由作答提目,模型采用自由作答的prompt直接输入模型,针对其中涉及到写作质量的考核问题,我们会随机采样一个高质量的GRE文章放入prompt生成回答。首先,一系列数值实验表明,GPT-4和GPT-4(no contam)差异不大,即重复的数据集对结果表现影响不大;GPT-4和GPT-4(no vision)差异不大,即训练集中增加图像对文本类结果表现影响不大。然后,OpenAI测试了GPT-4、GPT-3.5在UBE上考试的结果。如下图,GPT-4的表现优于GPT3.5。注意到每个bar的100%是以人类未通过的百分比计算的。比如在AP biology科目中,GPT-4得到了最高分(5/5),但该项图中bar的顶点为85%,是因为人类评估结果中有15%的比例得到满分。总结下来,GPT-4的考试能力显著高于其它LLM,且在所有参加考试的人中得分Top10%。
    UBE-res
      为了证明GPT-4在其它语言上的能力,文章将MMLU benchmarks翻译为多种语言。注意到这里文章使用了其它翻译器(Azure Translation)进行翻译。文章对指令、问题和回答选项都进行了翻译,只保留英语的"Answers: "和"A), B), C), D)"选项的标志,如下表所示。实验表明,GPT-4在几乎所有测试语言上的考试能力都超过了GPT-3.5在英文上的表现。
    mmlu-trans
  2. 图像输入:GPT-4可同时输入文本和图像,最后返回文本格式。实验证明,GPT-4对包括截图、照片、图表等各种图像输入的理解能力都很不错。下图是 一个GPT-4处理多模态数据的示例
    visual input

3.3 limitations

  类似GPT-3.5,GPT-4也有一些局限。但相比于GPT-3.5,GPT-4显著减少了hallucinations且提升了factuality[2]:
factuality
  GPT-4仍存在很多其它问题:如在TruthfulQA上模型对“找出正确的事实”仍会判断错误,但RLHF之后在该数据集上表现相比于GPT-3.5有显著提升;GPT-4大部分数据都是来自2021年9月之前,对此后的知识储备薄弱;GPT-4可能会犯一些简单的推理错误;GPT-4易被用户的一些错误陈述影响;GPT-4在一些复杂问题上解决能力有限…

3.3 Risks & mitigations

  类似InstructGPT[2],文章测试了GPT-4的潜在风险。为了提升模型的安全性,文章通过RLHF将GPT-4对齐人类意图,并通过基于规则的奖励模型RBRMs(一系列zero-shot GPT-4分类器)对RLHF提供奖励机制。简单来说,当模型不拒绝安全的请求时,RBRMs会奖励模型;当模型拒绝危险的请求时,RBRMs会奖励模型。实验证明,相比于GPT-3.5,GPT-4的安全性又了显著提升。

4. 报告总结

  报告给出了GPT-4的一些能力、风险实验结果,展示了GPT-4在多个NLP任务中优于GPT3.5等现存的LLMs,且安全性有很大幅度的提升。但GPT-4仍存在很多缺点和安全隐患,如数据大部分为2021年之前的语料,OpenAI会致力于继续提升GPT系列模型的能力。

5. 报告传送门

GPT-4 Technical Report

6. References

[1] 论文笔记–Evaluating Large Language Models Trained on Code
[2] 论文笔记–Training language models to follow instructions with human feedback

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/634288.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习——单变量线性回归、梯度下降

文章目录 一、机器学习的分类二、线型回归Linear regression(单变量线性回归)三、代价函数3.1 建模误差3.2 平方误差代价函数 Squared error cost function3.3 梯度下降3.4 梯度下降与线性回归相结合 一、机器学习的分类 监督学习:学习数据带…

算法模板(3):搜索(6):做题积累

算法模板(3):搜索(6):做题积累 一、DFS 1. 1113. 红与黑 有一间长方形的房子,地上铺了红色、黑色两种颜色的正方形瓷砖。你站在其中一块黑色的瓷砖上,只能向相邻(上下…

【剑指offer专项突破版】链表篇——“C“

文章目录 前言一.删除链表的倒数第 n 个结点题目分析思路分析细节分析步骤代码 二.链表中环的入口节点题目分析思路分析写法①代码写法②代码: 三.两个链表的第一个重合节点题目分析思路分析代码 四.反转链表题目分析思路分析法①代码法②代码法③代码 五.链表中的两数相加题目…

西南交通大学智能监测 培训课程练习4

2023.056.07和09培训 项目实战 目录 一、infracore(基础核心层) 1.1database 1.2config 1.3util 二、业务领域模块 2.1structure模块 2.1.1domain层 2.1.2application层 2.1.3adapter层 2.2sensor模块 2.2.1domian层 2.2.2application层 2.2.…

一文搞懂什么是Docker

一、什么是Docker 微服务虽然具备各种各样的优势,但服务的拆分通用给部署带来了很大的麻烦。 分布式系统中,依赖的组件非常多,不同组件之间部署时往往会产生一些冲突。在数百上千台服务中重复部署,环境不一定一致,会遇…

Java ~ Reference ~ Finalizer【总结】

前言 文章 相关系列:《Java ~ Reference【目录】》(持续更新)相关系列:《Java ~ Reference ~ Finalizer【源码】》(学习过程/多有漏误/仅作参考/不再更新)相关系列:《Java ~ Reference ~ Final…

基于Python的接口自动化-Requests模块

目录 引言 一、模块说明 二、Requests模块快速入门 1 发送简单的请求 2 发送带参数的请求 3 定制header头和cookie 4 响应内容 5 发送post请求 6 超时和代理 三、Requests实际应用 引言 在使用Python进行接口自动化测试时,实现接口请求…

2023春期末考试选择题R2-9AVL树插入调整详解

题目: 将 8, 9, 7, 2, 3, 5, 6, 4 顺序插入一棵初始为空的AVL树。下列句子中哪句是错的? A. 4 和 6 是兄弟 B. 5 是 8 的父结点 C. 7 是根结点 D. 3 和 8 是兄弟 解题要点: 需要对AVL树的4种旋转方式熟悉。 AVL旋转过程: 根据…

体验ChatGPT使用

ChatGPT是一种基于GPT(Generative Pre-train Transformer)模型的大型语言模型,由OpenAI公司开发。 交互时,有一定的技巧,可以快速准确的反馈正确答案。 一、开发贪吃蛇游戏 浏览器访问:https://chat.opena…

taro使用小记 —— 持续更新

目录 1、在 taro 中使用 axios2、在 taro 中添加全局组件自动引入和方法自动引入3、在 taro 中使用 pinia 1、在 taro 中使用 axios taro 3.6 版本已经支持了网络请求库。 需安装插件 tarojs/plugin-http 使用和注意事项说明: https://www.npmjs.com/package/taroj…

【笔试强训选择题】Day22.习题(错题)解析

作者简介:大家好,我是未央; 博客首页:未央.303 系列专栏:笔试强训选择题 每日一句:人的一生,可以有所作为的时机只有一次,那就是现在!! 文章目录 前言 一、…

mac电脑m1搭建java开发环境参考手册

1 背景介绍 开发人员经常会换电脑,或者换新电脑,意味着重新搭建开发环境,很麻烦。但新电脑到手里面了,不换又不好,此篇专门用来记录mac电脑m1搭建java开发环境的步骤。希望对读者有所帮助,一条龙服务。 后…

初探 transformer

大部分QA的问题都可以使用seq2seq来实现。或者说大多数的NLP问题都可以使用seq2seq模型来解决。 但是呢最好的办法还是对具体的问题作出特定的模型训练。 概述 Transformer就是一种seq2seq模型。 我们先看一下seq2seq这个模型的大体框架(其实就是一个编码器和一个解码器)&a…

OpenGL 光照贴图

1.简介 现实世界中的物体通常并不只包含有一种材质,而是由多种材质所组成。想想一辆汽车:它的外壳非常有光泽,车窗会部分反射周围的环境,轮胎不会那么有光泽,所以它没有镜面高光,轮毂非常闪亮。 2.漫反射…

Baumer工业相机堡盟工业相机如何使用BGAPISDK对两个万兆网相机进行触发同步(C#)

Baumer工业相机堡盟工业相机如何使用BGAPISDK对两个万兆网相机进行触发同步(C#) Baumer工业相机Baumer工业相机BGAPISDK和触发同步的技术背景Baumer工业相机使用BGAPISDK进行双相机主从相机触发1.引用合适的类文件2.使用BGAPISDK设置主相机硬件触发从相机…

ReentrantLock 底层原理

目录 一、ReentrantLock入门 二、AQS原理 1、AQS介绍 2、自定义锁 三、ReentrantLock实现原理 1、非公平锁的实现 加锁流程 释放锁流程 2、可重入原理 3、可打断原理 4、公平锁原理 5、条件变量原理 await流程 signal流程 一、ReentrantLock入门 相对于synchron…

对测试外包的一些粗略看法

什么叫外包,外包最直接理解就是让别人做事;外包其中一项目的就是降低企业经营成本。 从外包的含义和目的来看,就是我们帮人做事、听人指挥,当企业经济不好的时候,我们就成为了降低成本的最佳方案。说这些是让大家比较…

高并发编程:线程池

一、概述 线程池首先有几个接口先了解第一个是Executor,第二个是ExecutorService,在后面才是线程池的一个使用ThreadPoolExecutor。 二、Executor Executor看它的名字也能理解,执行者,所以他有一个方法叫执行,那么执…

JVM原理:JVM垃圾回收算法(通俗易懂)

目录 前言正文垃圾标记算法引用类型强引用软引用弱引用虚引用 引用计数法循环引用问题 根可达性分析法虚拟机栈(栈帧的局部变量表)中的引用方法区中类静态属性引用方法区中常量引用本地方法栈(Native方法)引用 垃圾回收算法标记清…