一文看懂多模态大型语言模型GPT-4

news2025/1/19 17:14:24

文章目录

    • 前言
    • 什么是GPT-4
    • GPT-4 VS GPT-3.5
    • GPT-4与其他模型对比
    • GPT-4视觉输入
    • GPT-4局限性
    • 写在最后

前言

近日,OpenAI发布了最新版的生成预训练模型GPT-4。据官方介绍,最新一代的模型是一个大模型,性能比CPT-3.5强悍很多,不仅仅是接受图像、文本、代码等的输入输出,更多的是在很多专业领域表现出人类的水准水;与上一代不同的是它的核心技术是基于Transformer的自回归语言模型,使用了大量的无标注数据进行预训练,学习了自然语言和其他模态之间的通用表示和关系。那么,今天我们就要一探究竟。

什么是GPT-4

GPT-4是OpenAI公司3月推出的新一代人工智能预训练AI模型,是一个多模态大型语言模型,使用了1.5万亿个参数,是GPT-3.5的10倍之多,当然它也是世界上最大的人工智能模型。
在这里插入图片描述

据官方所述GPT-4是OpenAI在扩大深度学习方面的最新里程碑,是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的性能。例如,它通过了模拟律师考试,分数在前10%左右;相比之下,GPT-3.5的得分在10%左右。我们花了6个月的时间,利用我们对抗性测试计划和ChatGPT的经验教训,反复调整GPT-4,在真实性、可操纵性和拒绝走出护栏方面取得了有史以来最好的结果。足以证明GPT-4简直就是人工智能预训练模型中的劳斯奈斯,简直牛得不要不要的。

GPT-4 VS GPT-3.5

官方文档说GPT-3.5和GPT-4之间的区别可能很小,但是当任务的复杂性达到足够的阈值时,差异就会显现出来——GPT-4比GPT-3.5更可靠、更具创造力,并且能够处理更细微的指令。

官方为了比较这两个模型之间的差异,在各种基准上进行了测试,包括最初为人类设计的模拟考试,以及最新的公开考试(在奥运会和AP免费回答问题的情况下),或者购买了2022年至2023年的练习考试。在测试过程中并没有对这些考试进行专门的培训,如下图所示,在这些偏向人类独立思考的考试中,GPT-4比GPT-3.5更加的可靠和更欧创造力。
在这里插入图片描述

GPT-4与其他模型对比

OpenAI为机器学习模型设计的传统基准上评估了GPT-4,GPT-4大大优于现有的大型语言模型,以及大多数最先进的(SOTA)模型,这些模型可能包括特定于基准的手工制作或额外的训练协议。
在这里插入图片描述

在测试的26种语言中的24种中,GPT-4的英语性能优于GPT-3.5和其他LLM(Chinchilla、PaLM),包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。
在这里插入图片描述

GPT-4视觉输入

GPT-4可以接受文本和图像的提示,这与纯文本设置平行,允许用户指定任何视觉或语言任务。具体来说,它生成由穿插的文本和图像组成的给定输入的文本输出(自然语言、代码等)。在一系列领域,包括带有文本和照片的文档、图表或屏幕截图,GPT-4表现出与纯文本输入类似的功能。此外,它可以通过为纯文本语言模型开发的测试时技术进行扩展,包括少量镜头和思维链提示。图像输入仍然是一个研究预览,暂时并未对公众公开。
在这里插入图片描述

GPT-4局限性

尽管GPT-4具有功能,但它与早期的GPT模型具有类似的局限性。最重要的是,它仍然不是完全可靠的(它会“幻觉”事实并犯推理错误)。在使用语言模型输出时,特别是在高风险的上下文中,应该非常小心,因为确切的协议(如人工审查、以额外的上下文为基础或完全避免高风险的使用)与特定用例的需求相匹配。

虽然GPT-4仍然存在问题,但与之前的模型相比,它显著减少了幻觉。在官方的内部对抗性事实评估中,GPT-4的得分比最新的GPT-3.5高40%:
在这里插入图片描述

写在最后

GPT-4应该算得上是至今为止最为强大的人工智能预训练模型,无论是性能上、可靠性以及创造力都较GPT-3.5有较大提升。特别是最新的视觉输入功能,模型可以根据图片视觉分析并给出自己独立的答案,这可以算得上人工智能方向的一个新里程碑。虽然很强悍,但GPT-4还是有早期模型类似的局限性。所以,GPT-4之后的路还很长呀!

路漫漫其修远兮,吾将上下而求索
有兴趣的小伙伴也可以加我:
订阅号 ‘架构集结号’
知识星球 ‘Coding社区’

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/427882.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

泛微数字化安全管理,实现标准化、智能化管理,数据可视化分析

企业安全管理需求提升: 随着国家政策与技术的双重驱动,企业当前的安全管理需求,从标准化管理,逐步发展到智能、可视、可分析的全程数字化安全管理,落地风险分级管控、隐患排查治理的双重预防机制。 国家发布的《企业…

腾讯云轻量级云服务器Centos7防火墙开放8080端口

腾讯云轻量级云服务器Centos7防火墙开放8080端口 一、centos7防火墙打开端口 因为Centos7以上用firewalld代替了iptables,也就是说firewalld开通了8080端口应该就行了 1.查看8080是否已经放开 sudo firewall-cmd --permanent --zonepublic --list-ports2.查看防火墙状态 s…

电子标准院、中信银行、优云牵头!《数据中心服务能力成熟度模型》国标修订研讨会成功举办

4月11日,GB/T 33136 -2016《数据中心服务能力成熟度模型》国标修订第五次研讨会议在广州顺利召开。本次会议由中国电子技术标准化研究院、中信银行、广通优云牵头发起,广州赛宝认证中心承办,云下科技协办。 来自政府、金融、电信、能源、交通…

SQL Server 连接查询和子查询

提示: 利用单表简单查询和多表高级查询技能,并且根据查询要求灵活使用内连接查询、外连接查询或子查询等。同时还利用内连接查询的两种格式、三种外连接查询语法格式和子查询的语法格式。 文章目录前言1.查询所有学生的学号、姓名、选修课程号和成绩方法…

Python零基础自学

很多零基础想做程序员的同学,最开始接触的基本上都是 Python 作为常年霸榜的 “最好上手的编程语言” ——Python,深受互联网大厂的喜爱。 而很多小伙伴反应,在刚开始学Python时遇到不少问题: 比如找不到学习资源,不…

多态--遗失的子类析构函数(重要)

通过阅读下面的代码以及将其置于编译器上编译运行: #include<iostream> using namespace std;class Father { public:Father(const char* addr"中国") {cout << "执行Father类构造函数" << endl;int len strlen(addr) 1;this->add…

.Net Forms Resize V12.0 Crack

.Net Forms Resize V12.0 添加对 .NET 7 的支持并改进调整大小引擎。2023 年 4 月 14 日 - 10:27新版本特征 添加了对 Microsoft Visual Studio 2022 (v17.5.3) 及更高版本的支持。添加了对 Microsoft Windows Server 2019 和 2022 的支持。改进和调整引擎大小&#xff08;快约…

认识JVM

✏️作者&#xff1a;银河罐头 &#x1f4cb;系列专栏&#xff1a;JavaEE &#x1f332;“种一棵树最好的时间是十年前&#xff0c;其次是现在” 目录JVM 内存区域划分栈程序计数器堆元数据区JVM 类加载机制加载验证准备解析初始化双亲委派模型JVM 垃圾回收机制GC 实际工作过程…

Java基础之哈希表与红黑树

文章目录一、哈希表1.1 JDK1.7版本之前哈希表&#xff08;数组链表&#xff0c;头插法&#xff09;1.2 JDK1.8版本之后哈希表&#xff08;数组链表红黑树&#xff0c;尾插法&#xff09;二、红黑树2.1 使红黑树再次满足红黑规则2.1.1 使红黑树满足红黑规则方法一2.1.2 使红黑树…

JavaSE学习进阶day03_01 多态

第一章 多态 1.1 多态的形式 直接说什么是多态性太抽象了&#xff0c;我们先引入一个例子&#xff1a; 现在我定义了一个feed方法&#xff0c;在不同的类的对象调用这个方法时&#xff0c;都要改变形参&#xff0c;即每当我的对象不同时&#xff0c;都要重载该方法&#xff0…

【Java基础】day13

day13 一、Spring Bean 生命周期是怎样的&#xff1f; 详细过程分为以下几个步骤&#xff1a; ① 初始化 Bean 容器通过获取 BeanDefinition 中的信息进行实例化&#xff0c;这一步仅仅是简单的实例化&#xff0c;并没有进行依赖注入。 实例化的对象被包装在 BeanWrapper 对…

Qt音视频开发38-ffmpeg视频暂停录制的设计

一、前言 基本上各种播放器提供的录制视频接口&#xff0c;都是只有开始录制和结束录制两个&#xff0c;当然一般用的最多的也是这两个接口&#xff0c;但是实际使用过程中&#xff0c;还有一种可能需要中途暂停录制&#xff0c;暂停以后再次继续录制&#xff0c;将中间部分视…

RabbitMq架构设计原理

文章目录1、消息中间件1.1、什么是消息中间件1.2、传统的HTTP请求有什么缺点1.3、MQ的应用场景2、同步、多线程、以及MQ处理业务逻辑的区别2.1、同步发送Http 请求2.2、多线程处理业务逻辑2.3、MQ实现业务逻辑Mq和多线程之间的区别3、Mq消息中间件名词4、简单实现Mq的思路4.1、…

MySQL索引15连问,你能坚持到第几问?

目录 1.索引是什么? 2.MySQL索引有哪些类型 3.索引什么时候会失效? 4.哪些场景不适合建立索引? 5.为什么要用 B树&#xff0c;为什么不用二叉树? 6.一次B树索引树查找过程 7.什么是回表? 如何减少回表? 8.什么是覆盖索引? 9.聊聊索引的最左前缀原则 10.索引下…

Phind——一款面向开发人员的AI搜索引擎

目录前言一、Phind优点二、使用方法总结前言 Phind是一款面向开发人员的AI搜索引擎&#xff0c;它由大语言模型&#xff08;Large Language Model&#xff0c;LLM&#xff09;驱动 。相比于传统的搜索引擎&#xff0c;Phind有以下优势&#xff1a;自然语言搜索、面向开发者、AI…

【数据结构】期中考试一把梭(通宵版上)

前言 红中(Hong_zhong) CSDN内容合伙人、2023年新星计划web安全方向导师、 吉林师范大学网安大一的一名普通学生、摸鱼拿过大挑校二、 华为MindSpore截至目前最年轻的优秀开发者、IK&N战队队长、 阿里云专家博主、华为网络安全云享专家、腾讯云自媒体分享计划博主、 划了…

URL 和 HandlerMapping建立映射(11)

上一篇https://blog.csdn.net/chen_yao_kerr/article/details/130194864 我们已经分析了Spring MVC的配置&#xff0c;并且说明了如何通过注解的方式去替换各种各样的xml配置文件。本篇将更深入分析&#xff1a; 取代 springmvc.xml 配置 之前我们说过&#xff0c;定义一个类…

简述API(电商数据API)网关的概念和功能

API 网关 ( API gateway ) 前言 在 IOT &#xff08; 物联网 &#xff09;中&#xff0c;当我们的一些设备。例如&#xff08; 监控、传感器等 &#xff09;需要将收集到的数据和信息进行汇总时&#xff0c;我们就需要一个 API。&#xff08;如果你需要Taobao/JD/pinduoduo平台…

OpenAI-ChatGPT最新官方接口《语音智能转文本》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(六)(附源码)

Speech to text 语音智能转文本Introduction 导言Quickstart 快速开始Transcriptions 转录python代码cURL代码Translations 翻译python代码cURL代码Supported languages 支持的语言Longer inputs 长文件输入Prompting 提示其它资料下载Speech to text 语音转文本 Learn how to …

一句话设计模式11:过滤器模式

过滤器模式: 直接看 java8的filter; 文章目录过滤器模式: 直接看 java8的filter;前言一、过滤器模式的作用二、如何实现过滤器模式直接上代码总结前言 过滤器模式一般使用场景是: 过滤集合中的不同元素的一种手段,其实平时开发中你经常用,但是你不知道而已;(心里话: 这也算一种…