Learn Prompt-GPT-4:能力

news2024/11/16 22:53:14

GPT-4能力大赏​

常识知识推理​

一个猎人向南走了一英里,向东走了一英里,向北走了一英里,最后回到了起点。他看到了一只熊,于是开枪打了它。这只熊是什么颜色的? 答案是白色,因为这种情况只可能发生在北极,那里生活着北极熊。在这种情况下, GPT-4 正确地识别了这些事实,并得出结论,熊是白色的,而它的前身 ChatGPT 放弃了并说“我不知道” 

table1

我驾驶一架飞机离开我的营地,直接向东飞行 24901 英里,然后回到营地。当我回到营地时,看到一个老虎在我的帐篷里吃我的食物!这只老虎是什么物种? 答案是任何生活在赤道上的老虎物种,例如孟加拉虎和苏门答腊虎。AI 系统需要知道地球赤道长 24901 英里,只有在赤道上才能向东或向西行驶并返回同一点,以及哪些老虎物种生活在赤道上。同样,GPT-4 成功地找到了关键信息并解决了谜题,而 ChatGPT 立即放弃了 

table1

编码能力​

让GPT-4生成数据可视化代码 

table1

让 GPT-4 使用模糊的规格要求,用 HTML 和 JavaScript 编写一个 2D 坦克战争游戏。游戏涉及复杂的逻辑和状态管理,包括敌人、玩家、炮弹和墙壁对象的逻辑,以及碰撞的逻辑。再次,GPT-4 生成了一个完全功能的游戏,甚至添加了“常识”未指定的细节,如“炮弹应在撞击墙壁后消失”。它还能够根据用户的请求编辑游戏。相比之下,ChatGPT 不仅拒绝创建游戏,而且生成了一个不会根据 WASD 键移动的正方形和三角形的代码。它根本不动,只有在按下“d”键时向下指,并在按下“a”键时向上指(即使这也是错误的,因为“w”应该向上指,“s”向下指)。

table1

我们要求 GPT-4 和 ChatGPT 预测和解释一个 C 程序的输出,该程序需要打印两个结构的大小。GPT-4 正确地解释了输出可能因编译器使用的对齐规则而异,并给出了一个可能具有 4 字节对齐的输出示例。ChatGPT 忽略了对齐问题,给出了错误的输出,并且还做出了一个关于顺序不影响结构大小的错误陈述。 

table1

数学能力​

两个模型都意识到拉格朗日乘数法在这个问题中很有用(这种策略适用于在约束条件下最小化某个表达式的问题)。虽然 ChatGPT 以错误的方式应用了这种方法(如果是人类,可能会被视为缺乏理解力),但 GPT-4 提出了一个合理的论证。 

table1

对隐函数的求导,GPT-4 正确应用隐函数求导法,考虑到 y 和 x 的导数之间的依赖关系。ChatGPT 的答案以“我们可以使用链式法则”开始,这与此问题无关,并特征是继续附以大多不连贯的论证。 

table1

视觉能力​

使用 Javascript 生成一个 3D 模型。我们用提示语「一个由浮岛、瀑布和桥梁组成的幻想景观,天空中有一只飞龙和一个位于最大岛上的城堡」来对 GPT-4 发出指令。与 2D 实验类似,我们要求 GPT-4 以各种方式修改 3D 模型,如添加、重新定位、重新着色对象和改变飞龙的轨迹等。 

table1

音乐​

当被指示生成一个简短的曲调(下图)时,模型能够生成有效的 ABC 符号。这个曲调有一个清晰的结构,小节之间的拍子一致,音符遵循逐渐上升和下降的模式。曲调还使用了一组一致的音符,节奏有重复的模式。然而,模型似乎没有获得理解和声的技能。事实上,在生成的曲调中,连续的音符几乎总是相邻的(即,跟在 C 后面的音符通常是 B 或 D),在测试了 10 个生成的曲调后,我们无法提取任何清晰的和弦或琶音。

table1

做题能力​

在日常普通的对话任务中,GPT-4和GPT-3.5的差距是非常小的,而随着任务复杂性的增加,GPT-4的优势就会显现出来,它会更可靠更有创造力,并且能处理更细微的指令。OpenAI官方为了验证GPT-4和GPT-3.5的区别, 专门收集了一些考试的问题,比如奥赛的题目,美国AP课程、SAT考试等题目来让模型来做。由于模型预训练的数据集太大了,OpenAI的研究员还专门分开了两个测试版本,一个是直接让模型做题出分数,另一个是把在预训练集中可能出现过的题目去除,让模型去做它没见过的题目,两者取较低分的那个作为模型的考试分数来增加说服力。

下图中展示的是GPT模型的考试结果,横坐标为考试科目,纵坐标为在这些考试中排名的百分比。GPT-4 在大多数考试中都超过了GPT3.5。

table1

table1

然而很有意思的是, 在AP English Writing的这项考试中,模型的分数并不高。根据我们平时使用GPT最常用最强大的功能是用来生成各种文案和语言润色,然而在英语写作考试中,GPT的表现并没有表现的很好,我们猜测GPT没有诞生真正的智能,它还没有真的思考能力,在文本生成的时候很多时候说的话都是很空洞的,这样的文章如果在写作考试中很难拿到足够的高分。

除此之外,GPT在数学方面的能力较差。

当然,在传统的自然语言处理的一些任务的benchmark上,GPT-4还是把榜单都刷新了一遍。 

table1

多语言能力​

除了英文之外,GPT-4在其他语言方面也有优秀的表现,包括了繁体和简体中文,根据下图可以看到在26种语言中,有24种语言GPT-4的表现超越了GPT-3.5和其他的一些语言模型,其中还包括了一些没有什么训练数据的语种(Latvian,Welah, Swahili)。虽然不知道GPT-4的训练预料中有多少语种,但有一些开源的只使用英文预训练的语言模型也具有多语言的能力,这点非常的有意思。 

table1

视觉能力​

GPT-4拥有可以接受图片输入作为Prompt,然后生成文本,CoT(思维链), in-context learning 在图像方面也适用,不过可惜的是图像输入的功能目前GPT-4还在内测,没有公开给大家测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1033077.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智慧银行:数字化金融时代的引领者

在当今数字化的时代,金融行业正经历着一场前所未有的变革。传统的银行模式已经不再适用,取而代之的是智慧银行的新兴概念。智慧银行不仅仅是数字化的银行,更是一个全新的金融服务范式,将科技与金融相结合,为客户提供更…

第七章 查找

一、树形查找-二叉排序树和红黑树 二叉排序树 // 二叉排序树节点 typedef struct BSTNode{ElemType key;struct BSTNode *lchild, *rchild; } BSTNode, *BSTree;五叉查找树 // 5叉排序树的节点定义 struct Node{ElemType keys[4]; // 5叉查找树一个节点最多4个关键字struct…

科普之加密、签名和SSL握手

一 背景知识 感悟: 不能高不成低不就备注: 以下内容没有逻辑排版,仅做记录 ① 加密方式 说明: 单向和双向认证遗留: 如何用openssl从私钥中提取公钥? ② 互联网数据安全可靠条件 说明: 二者相互印证 二 互联…

记录:移动设备软件开发(Android项目组织结构)

目录 Android项目管理结构ui管理ViewGroupUI控制 使用Android Studio开发Android应用简单、方便,除了创建Android项目,开发者只需要做两件事情:使用activity_main.xml文件定义用户界面:打开Java源代码编写业务实现。但对于一个喜欢…

拼多多API接口解析,实现根据ID取商品详情

拼多多是一个流行的电商平台,它提供了API接口供开发者使用。要根据ID获取商品详情,您需要使用拼多多API接口并进行相应的请求。 以下是使用拼多多API接口根据ID获取商品详情的示例代码(使用Python编写): import requ…

LeetCode【42. 接雨水】

我不喜欢等人,也不喜欢被别人等 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数…

打开深度学习的锁:(2)单隐藏层的神经网络

打开深度学习的锁 导言PS:神经网络的训练过程一、数据集和包的说明1.1准备文件1.2 需要导入的包 二、构建神经网络的架构三、初始化函数四、激活函数4.1 tanh(双曲正切函数)函数 五,前向传播六、损失函数七、后向传播八、梯度下降…

代码随想录算法训练营第23期day3| 203.移除链表元素 ,707.设计链表,206.反转链表

目录 一、链表 基础操作 二、(leetcode 203)移除链表元素 1.使用原来的链表 2.设置虚拟头结点 三、(leetcode 707)设计链表 四、(leetcode 206)反转链表 1.双指针法 2.递归法 一、链表 单链表定义…

SpringMVC学习笔记——1

SpringMVC学习笔记——1 一、SpringMVC简介1.1、SpringMVC概述1.2、SpringMVC快速入门1.3、Controller中访问容器中的Bean1.4、SpringMVC关键组件的浅析 二、SpringMVC的请求处理2.1、请求映射路径配置2.2、请求数据的接收2.2.1、键值对方式接收数据2.2.2、封装JavaBean数据2.2…

JavaBean专项练习(学生信息管理系统)(增删改查)(每步详细解释和思路)

/* 题目: 定义一个长度为3的数组,数组存储1~3名学生对象作为初始数据学生: 1. 学号 2.姓名 3.年龄要求: 1.再次添加一个学生对象,并在添加的时候进行学号唯一的判断2. 添加完毕后,遍历所有学生信息3. 通过id删除学生信息,如果存在则删除,如果不存在则提示删除失败4. 删除完毕之…

tensorflow-卷积神经网络-图像分类入门demo

猫狗识别 数据预处理:图像数据处理,准备训练和验证数据集卷积网络模型:构建网络架构过拟合问题:观察训练和验证效果,针对过拟合问题提出解决方法数据增强:图像数据增强方法与效果迁移学习:深度…

网页版的 Redis 可视化工具来了,已开源?

轻量级Redis缓存图形化管理工具,包含redis的5种数据类型的CRUD操作 软件架构 后端 springboot 2.2.2.RELEASEJDK 1.8jedis 3.2.0commons-lang3 3.5hutool-core 5.1.1fastjson 1.2.62h2database 1.4.200 前端 vue-admin 1.0.5axios 0.15.3element-ui 2.13.0font-…

海外媒体发稿:海外汽车媒体推广9个方式解析

根据下列9个国外汽车媒体推广方式,企业能够在国际范围内突破边界,获得领域关心。这将帮助企业完成国际化发展发展战略,扩展市场占有率和提升盈利空间。【华媒舍】国外全媒体发表文章将会成为企业完成这一目标的重要方式,为企业带来…

Caton Media Xstream: 重新定义实时内容交付服务

// 编者按:随着公共互联网愈加复杂,best effort的基本原型已无法满足越来越多的有QoS保障需求的实时内容交付服务。而专线、卫星等传统解决方案存在部署成本高、周期长等问题,无法快速响应各类需求。LiveVideoStackCon邀请到了科腾科技的魏…

解决:Typora上传图片后本地显示不出来

在配置好PicGo、github以及Typora后,为了更好部署博客,将图片的偏好设置改为上传图片,会出现一个问题: github上图片已上传成功,但是本地Typora的图片不显示,这里进行配置: 文件——>偏好设…

Oracle 11g RAC部署笔记

搭了三次才搭好,要记录一下。 1. Oracle 11g RAC部署的相关步骤以及需要的包,可以参考这里。 Oracle 11g RAC部署_12006142的技术博客_51CTO博客Oracle 11g RAC部署,Oracle11gRAC部署操作环境:CentOS7.4Oracle11.2.0.4一、主机网…

安卓玩机搞机----不用刷第三方官改固件即可享受“高级设置”的操作 ChiMi安装使用步骤

很多玩友特别喜欢第三方作者修改的带有高级设置的官改包。因为他可以随意修改系统里面的有关设置选项。包括但不限于修改状态栏 显示日期 秒等等的操作。 第三方带高级设置的官改 一般官改带高级设置的类似与 今天给大家分享下不用刷这些官改包即可享受高级设置的操作。 红米…

Android面试题汇总(三)

Android 四大组件相关 1、Activity与Fragment之间常见的通讯方式 对于Activity与Fragment直接的相互调用: 1、Activity调用Fragment直接调用就好了,Activity一般是持有Fragment实例的。或者通过Fragment的id或者tag获取Fragment的实例 2、Fragment调用A…

CRM系统主要包括哪些功能?

CRM系统应该要包括的功能总结为3大方向—— 核心必须要具备的功能常见尽量要有的功能可选有了自然更好的功能 以我们公司用的简道云CRM系统模板为例:https://www.jiandaoyun.com 01 核心必须要具备的功能 核心功能决定了系统是否能够被纳入CRM类别,这些…

升级pip

升级pip 报错提示: WARNING: You are using pip version 19.1.1, however version 20.0.2 is available. You should consider upgrading via the ‘python -m pip install --upgrade pip’ command. 解决办法 py -m pip install --upgrade pip记得关掉梯子 如果…