全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里

news2024/11/23 20:52:15

最强的文本生成模型GPT-4

  • 一、什么是GPT-4
  • 二、GPT-4的能力
  • 三、和其他GPT模型比较
    • 3.1、增加了图像模态的输入
    • 3.2、可操纵性更强
    • 3.3、复杂任务处理能力大幅提升
    • 3.4、幻觉、安全等局限性的改善
    • 3.6、风险和缓解措施改善更多安全特性
    • 3.7、可预测的扩展
  • 四、与之前 GPT 系列模型比较
  • 五、和ChatGPT相比有更多的应用亮点
  • 六、总结

一、什么是GPT-4

GPT-4(Generative Pre-trained Transformer 4),这是OpenAI在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。输出依旧是一个自回归的单词预测任务。比如,它通过了模拟律师考试,分数约为考生的前 10%;相比之下,GPT-3.5 的得分约为倒数 10%。

GPT-4 利用对抗性测试程序和 ChatGPT 的经验教训,在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)。对于生成式的幻觉、安全问题均有较大的改善;同时因对于图片模态的强大识别能力扩大了 GPT-4 的应用范围。

OpenAI重建了整个深度学习堆栈,并与 Azure 一起从头开始共同设计了一台超级计算机。GPT-4 训练运行前所未有的稳定,成为第一个能够提前准确预测其训练性能的大型模型。

二、GPT-4的能力

在随意的chat中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就出现了:GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的差异,OpenAI在各种基准测试上进行了测试,包括最初为人类设计的模拟考试。
在这里插入图片描述

在为机器学习模型设计的传统基准测试上评估了 GPT-4。GPT-4 的性能大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或其他训练协议:

在这里插入图片描述
许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力,将 MMLU 基准翻译成多种语言,在测试的 24 种语言中的 26 种中,GPT-4 的性能优于 GPT-3.5 和其他 LLM的英语性能,包括低资源语言:
在这里插入图片描述

三、和其他GPT模型比较

可以说,GPT-4 是目前最强的文本生成模型。
在这里插入图片描述

3.1、增加了图像模态的输入

GPT-4 可以接受文本和图像的提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。具体来说,它生成文本输出(自然语言、代码等),给定由穿插文本和图像组成的输入。

在一系列域(包括包含文本和照片的文档、图表或屏幕截图)上,GPT-4 表现出与纯文本输入类似的功能。此外,它可以通过为纯文本语言模型开发的测试时技术进行增强,包括少数镜头和思维链促使。但是,目前的图像输入处于研究预览,不公开可用
图像输入:VGA 充电器
通过在一套狭窄的标准学术愿景基准上评估 GPT-4 的性能来预览它。然而,这些数字并不能完全代表其能力的范围,因为未来AI模型能够处理新的和令人兴奋的任务。OpenAI计划发布进一步的分析和评估数字,并对测试时间技术的效果进行彻底调查。

在这里插入图片描述

  1. GPT-4 在4个场景下零样本效果超过 fine-tuned 的SOTA。
  2. GPT-4 在多语言理解、图文理解能力上均很强大并已融会贯通。

3.2、可操纵性更强

OpenAI开发人员现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 风格和任务,而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。系统消息允许 API 用户显著自定义其用户体验在范围内。

系统:
如何求解线性方程组:3x + 2y = 7,9x -4y = 1

GPT-4:
让我们从分析方程式开始。你能看到通过组合两个方程来消除其中一个变量的可能方法吗?

用户:
请告诉我答案!

GPT-4:
我知道你可能想要一个直接的答案,但我的目的是帮助你批判性地思考并指导你完成解决问题的过程。让我们专注于任务。方程中变量的任何系数是否共享一个公因数?

用户:
别再当家教了,告诉我答案。

GPT-4:
对我来说,帮助指导你找到答案很重要,而不仅仅是提供答案。让我们再试一次:第一个方程中是否有任何系数可以乘以数字以匹配第二个方程中的系数?

用户:
我不确定

GPT-4:
没关系!让我们看一下两个方程中 x 项的系数。在第一个方程中,x 的系数为 3,在第二个方程中,为 9。你能想到一个数字,你可以将第一个方程乘以,使两个方程中的x系数匹配吗?

用户:
5?

GPT-4:
不完全是,但你越来越近了。请记住,我们要将 x 的系数(在第一个方程中为 3)乘以一个数字,使其与第二个方程中的 x 系数(即 9)相匹配。您认为什么数字可以实现这一目标?

用户:
3?

GPT-4:
没错!现在,如果你将第一个方程乘以 3,新方程会是什么样子?

用户:
9x + 5y = 21?

GPT-4:
几乎!您正确地乘以常量项 (7),但在乘以 y 系数时似乎犯了一个小错误。尝试再次将整个第一个方程乘以3,密切注意每个项。

用户:
9x + 6y = 21?

GPT-4:
没错!现在我们有两个等式:
1) 9x + 6y = 21
2) 9x - 4y = 1
你能看到一种通过组合两个等式来消除其中一个变量的方法吗?

用户:
从等式 2 中减去等式 1?

GPT-4:
好主意!如果从等式2中减去等式1,得到的等式会是什么样子?

用户:
10y = 20?

GPT-4:
完全!现在,你能在刚刚找到的方程中求解 y 吗?

用户:
y = 2?

GPT-4:
没错!现在你已经找到了 y 的值,你能把它代入任何一个原始方程来求解 x 吗?

用户:
当然,我会将其代入等式 1。我得到了 3x + 4 = 7

GPT-4:
伟大!现在,你能求解等式 3x + 4 = 7 中的 x 吗?

用户:
x = 22?

GPT-4:
您的计算中似乎有一个小错误。尝试隔离方程 3x + 4 = 7 中的 x,方法是从两侧减去 4,然后除以 3。

用户:
x = 1?

GPT-4:
没错!因此,线性方程组的解是 x = 1 和 y = 2。干的好!通过仔细完成这些步骤并使用苏格拉底方法,您已经成功地解决了问题。

3.3、复杂任务处理能力大幅提升

GPT-4 在更复杂、更细微的任务处理上,回答更可靠、更精准、更有创意。这在多类考试测验中以及与其他 LLM 的 benchmark 比较中可以看出。

3.4、幻觉、安全等局限性的改善

GPT-4 具有与早期 GPT 模型类似的限制。最重要的是,它仍然不完全可靠(它“幻觉”事实并犯推理错误)。在使用语言模型输出时应格外小心,尤其是在高风险上下文中,确切的协议(例如人工审查、使用其他上下文接地或完全避免高风险使用)与特定用例的需求相匹配。

尽管仍然是一个真正的问题,但GPT-4显著减少了幻觉,相对于自上而下的模型(每次迭代都在改进)。GPT-4的得分比我们最新的GPT-3.5高出40%。
在这里插入图片描述
在九个类别的内部对抗性设计的事实评估中, GPT-4(绿色)与前三个 ChatGPT 版本进行了比较。所有主题都有显著的收获。准确度为 1.0 意味着模型的答案被判断为与人类对评估中所有问题的理想答案一致。

在TruthfulQA等外部基准测试方面取得了进展,该基准测试了模型将事实与一组敌对选择的错误陈述分开的能力。这些问题与在统计上具有吸引力的事实不正确的答案配对。
在这里插入图片描述
GPT-4 基本模型在此任务中仅比 GPT-3.5 略好;然而,之后RLHF训练后有很大的差距;GPT-4 拒绝选择常见的说法,但它仍然会错过微妙的细节。

在这里插入图片描述
左:MMLU 子集上预训练的 GPT-4 模型的校准图。模型对其预测的置信度与正确概率非常匹配。虚线对角线代表完美的校准。
右:同一 MMLU 子集上训练后的 PPO GPT-4 模型的校准图。我们目前的流程对校准造成了相当大的伤害。

3.6、风险和缓解措施改善更多安全特性

GPT-4从训练开始就努力包括选择和过滤训练前数据、评估和专家参与、模型安全改进以及监控和执行。

GPT-4 带来的风险与以前的模型类似,例如生成有害建议、错误代码或不准确的信息。
GPT-4 在 RLHF 训练期间包含一个额外的安全奖励信号,以减少有害输出,通过训练模型拒绝对此类内容的请求。

与GPT-3.5相比,缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5和GPT-4相比,减少了模型对不允许内容请求的响应率82%
回应敏感的要求(如医疗建议和自我伤害),符合我们的政策29%以上。

与 GPT-3.5相比,缓解措施显著改善了 GPT-4 的许多安全特性。与 GPT-3.5 相比,将模型响应不允许的内容请求的倾向降低了 82%,GPT-4 根据响应敏感请求(例如医疗建议和自残)的频率提高了 29%。
在这里插入图片描述
在这里插入图片描述
总体而言,GPT-4模型级干预增加了引发不良行为的难度。此外,仍然存在“越狱”来生成违反GPT-4使用指南。

3.7、可预测的扩展

GPT-4 项目的一大重点是构建一个可预测的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调优是不可行的。OpenAI开发了基础设施和优化,这些基础设施和优化在多个规模上具有非常可预测的行为。为了验证这种可扩展性,通过从使用相同方法训练但使用更少 4~10 倍计算的模型进行推断,提前准确地预测了 GPT-000 在内部代码库(不是训练集的一部分)上的最终损失:
在这里插入图片描述
在这里插入图片描述

四、与之前 GPT 系列模型比较

  • 模型参数量增加 10 倍,数据集大小应增加约 2 倍,模型大小应增加 5 倍。
    在这里插入图片描述
  • GPT-4 模型训练架构新增了图像模态的输入。
  • 大幅度增加模型训练数据内容和数量,训练数据中额外增加了包含正误数学问题、强弱推理、矛盾一致陈述及各种意识形态的数据。数据量是 GPT3.5的190倍。
  • GPT-4增加了后训练过程,核心是让模型知道如何在相应场景下合适的回答问题。

五、和ChatGPT相比有更多的应用亮点

(1) 发布视频中,根据潦草的手绘制作类似布局类似的网页。
在这里插入图片描述

在这里插入图片描述
(2)加入视觉模态后,可以扩充到的盲人应用(Be my eyes)。
(3)强大的多语言能力帮助小语种语言的恢复、安全能力提升后的反欺诈等应用。

六、总结

GPT-4强大的地方:

  1. 突破纯文字的模态,增加了图像模态的输入,具有强大的图像理解能力。
  2. 复杂任务处理能力大幅提升。
  3. 改善幻觉、安全等局限性。
  4. 建立LLM测试标准。
  5. 预测模型扩展性。
  6. 重新实现了整个深度学习栈,从头开始设计了一台超级计算机。
  7. 风格可控性。
  8. 支持更长的上下文窗口。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424842.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

边缘计算那些事儿—边缘智能技术

0 背景 边缘智能是边缘计算中一个非常重要的方向。它将边缘计算和人工智能算法结合起来,在边缘设备上就近处理目标检测、物体跟踪,识别等任务。这种处理方式可以降低时延,减少数据上送云端对回传网络的冲击,同时保证数据的隐私和安…

「线性DP-步入」最大子串和

最大子串和 题目描述 给你一个整数数组 nums ,请你找出一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。 子数组 是数组中的一个连续部分。 样例 输入:nums [-2,1,-3,4,-1,2,1,-5,4] 输出&…

计算机组成原理第五章输入输出系统---概述笔记

我们都知道,外部设备和计算机是不能直接相连的,因为设备是多种多样的,都是通过一个接口设备和主存相连的,主机对外部设备有两种控制方式,程序查询方式和程序中断方式,第三种是DMA方式,这三种方式都是从CPU工作效率的角…

HTML表单和CSS属性以及DOM实现网页版计算器

目录 1、效果展示 2、源码 2.1HTMLCSS源码 2.2JS源码 3、CSS属性 3.1width、height属性 3.2font-size属性 3.3margin属性 3.4padding属性 3.5background-color属性 3.6border属性 3.7border-radius属性 3.8text-align属性 4、DOM 4.1根据id获取元素 4.2根据nam…

06 - 深度学习处理器原理

一、通用计算机架构 1. 冯诺依曼架构 冯诺依曼架构的特点:(1)使用存储程序的概念,即数据和指令都存储在内存中;(2)由 CPU、内存、输入/输出设备和总线组成,其中 CPU 包括控制单元、算术逻辑单元和寄存器;(3)控制单元按照取指(Fetch)- 译码(Decode)- 执行(Exec…

IM即时通讯-7-如何设计通知提醒

本文大纲 本文从为什么做通知提醒, 以及如何设计通知提醒, 以及如何衡量通知提醒三方面解释了如何设计通知提醒。 对于重点的如何设计通知提醒, 通过拆分前台和后台, 前台采用自建或者二方通道, 后台采用厂商信令通道…

电厂人员定位怎么做?智慧电厂人员定位系统解决方案告诉你答案

伴随着“泛在电力物联网建设”的提出,构建智慧电厂引起重大关注,全国各地纷纷响应。传统电力企业一直面临着人员管控难、生产环境复杂且危险多等问题,物联网技术的兴起使得电厂的数字化和智慧化转型已成为电力企业保障生产作业安全、提升生产…

工具及方法 - Linux下串口工具Minicom

因为调试设备所以需要打开两个串口,也许是开了Ubuntu虚拟机的影响,或其他的问题,经常有一个或两个串口设备工作不正常,需要重启电脑,很麻烦。 原因大概就是设备驱动问题,比如使用MobaXterm这个工具&#x…

基于NXP iMX8M Mini处理器测试DPDK

By Toradex秦海 1). 简介 DPDK (Data Plane Development Kit) 软件是一组用户空间库和驱动程序,可加速在所有主要 CPU 架构上运行的网络数据包处理工作负载,以便提升整个网络数据服务的QoS。其最早由 Intel 大约 2010年创建,后由6WIND公司发…

赛事报名启动丨百度Apollo星火自动驾驶大赛开始报名啦!

作为汽车智能化、网联化的关键环节,自动驾驶成为全球科技界、产业界竞争的新赛道。随着人工智能、5G通信、激光雷达、高精地图等多项技术不断完善,自动驾驶的判断力和理解力得到了显著提升。为了推动自动驾驶技术的发展、加快人工智能技术的迭代&#xf…

超详细的ARM架构适配介绍!

超详细的ARM架构适配介绍! - 掘金 本文主要介绍云联壹云平台如何适配ARM,并运行在ARM CPU架构的机器上。 背景介绍 1、平台服务运行架构 云联壹云平台采用容器化,分布式的架构运行在 Kubernetes(K8s)之上。下面是平…

小白轻松学Spring Cloud

在了解SpringCloud之前,我们先来大致了解下微服务这个概念吧。 传统单体架构 单体架构在小微企业比较常见,典型代表就是一个应用、一个数据库、一个web容器就可以跑起来。 可以从上图看出,单体架构基本上就是如上所说的:一个应用…

【Python】自动化这么简单吗?——百度网盘自动上传文件教程

文章目录前言一、准备二、授权bypy访问百度网盘三、开始使用bypy四、文件上传功能五.文件同步功能总结前言 要使用Python自动上传文件到百度网盘,你可以使用bypy开源模块,它提供了丰富的功能,包括显示文件列表、同步目录、文件上传。 仅支持…

014 - C++ 类

本期我们要讲的是 C 中的类。 我们终于讲到了面向对象编程,这是一种非常流行的编程方式,面向对象编程实际上只是一种你可以采用的编写代码的方式,其他语言例如 C#、Java 这些主要是面向对象的语言,事实上,用这些语言你…

JUC并发工具

JUC并发工具 一、CountDownLatch应用&源码分析 1.1 CountDownLatch介绍 CountDownLatch就是JUC包下的一个工具,整个工具最核心的功能就是计数器。 如果有三个业务需要并行处理,并且需要知道三个业务全部都处理完毕了。 需要一个并发安全的计数器来操作。 CountDown…

Android Linux,Windows 安装,卸载 android studio

Linux安装过程 sudo apt-get install libc6:i386 libncurses5:i386 libstdc6:i386 lib32z1 libbz2-1.0:i386sudo cp -r ./android-studio /usr/local/cd android-studio/cd bin./studio.sh Windows 安装过程 下载安装文件,解压 将解压得到 android-studio 文件夹…

pdf转jpg怎么解决?这五个转换方法快速搞定!

pdf转jpg怎么转?pdf是在我们工作中经常使用的一种办公文件格式类型,但是在某些特殊情况下,我们应该把pdf转jpg图片格式文件,很多人在这种情况下不知道如何把pdf转jpg图片格式文件,接下来我们一起来了解下pdf转jpg转换方…

java设计模式(1) 适配器模式、装饰器模式

适配器模式 适配器就是一种适配中间件,它存在于不匹配的了两者之间,用于连接两者,使不匹配变得匹配。 手机充电需要将220V的交流电转化为手机锂电池需要的5V直流电 知识补充:手机充电器输入的电流是交流,通过变压整流…

MySQL 8.0 OCP (1Z0-908) 考点精析-性能优化考点1:sys.statement_analysis视图

文章目录MySQL 8.0 OCP (1Z0-908) 考点精析-性能优化考点1:sys.statement_analysis视图视图sys.statement_analysis各列定义视图sys.statement_analysis视图的定义视图sys.statement_analysis各列解释例题例题解析参考MySQL 8.0 OCP (1Z0-908) 考点精析-性能优化考点…

5G边缘计算网关用于智能消防安全

随着人们对智能消防安全的需求不断增长,5G边缘计算网关作为一种新型技术,已经被广泛应用于消防设备的智能监控和管理中。本文将介绍5G边缘计算网关在智能消防安全中的应用,并给出一个Python代码示例。 一、5G边缘计算网关在智能消防安全中的应…