【中阳期货】GPT-4正在改进自己,超强进化

news2024/12/28 18:59:06

     GPT是一种预训练语言模型,由OpenAI研发。如果你希望快速了解GPT,可以按照以下步骤进行:

      了解预训练语言模型:预训练语言模型是一种人工智能技术,可以通过大量语言数据的训练,自动学习语言的规律和语义。GPT就是其中的一种。理解GPT的基本结构:GPT使用了一个基于自注意力机制的神经网络结构,具有多层编码器的架构,用于生成文本或答案。查阅文献:阅读与GPT相关的书籍、论文、新闻报道和技术博客等,可以更深入地了解GPT的原理和应用。

       尝试使用GPT API:OpenAI提供了GPT-3的API接口,用户可以通过该接口使用GPT-3生成自然语言文本,可以尝试使用该API来体验GPT的能力和应用场景。
 

       前一阵由马斯克、图灵奖得主Bengio等大佬联名发起的暂停高级AI研发的公开信,现在签名已经上升到9000多人。最近,似乎全世界都在围剿ChatGPT。

       即使全世界都对超级AI如临大敌,想赶紧悬崖勒马,恐怕也为时已晚。因为,如今的AI,已经学会自我进化了!前段时间,前谷歌大脑研究工程师Eric Jang发现:GPT-4能够以合理的方式批评自己的成果。

       甚至连特斯拉前AI总监,OpenAI研究科学家Andrej Karpathy大赞,这是一个很好的例子,说明我们还没有看到GPT-4的最大能力。

       与其为大型语言模型(LLM)寻找完美的提示(让我们一步一步思考),不如让LLM评估自己的输出并立即纠正自己的错误。在Eric Jang给出的例子中,曾看到微软研究员发推说GPT-4根本无法写出「不押韵」的诗歌。

然而,当再去询问GPT-4是否完成了任务。这时,它道歉后,生成了一个不押韵的诗!可以说是满分。

 

这恰恰印证了GPT-4是有「反思」能力的。

      这样看来,就像Eric Jang所说,我们现在可以考虑一种「后缀提示工程」,而不是巧妙的「前缀提示工程」。这将鼓励LLM在先前生成的解决方案中找到更正和不一致的地方。

 

      最近,来自美国东北大学、MIT等机构研究者提出了Reflexion(反思)。这一方法赋予智能体动态记忆,以及自我反思的能力。

       研究人员诺亚·希恩和阿什温·戈皮纳特写道:“人类利用曾经被认为是人类智力独有的决策过程,开发出新的技术来达到最先进的标准,这种情况并不是每天都会发生的。”“但是,这正是我们所做的。”

        Reflexion 利用GPT-4的各种能力来进行不同的测试,并引入了一个框架,允许AI模拟类似人类的自我反思行为并评估其表现。在这个过程中,它引入了额外的步骤,在这些步骤中,GPT-4设计测试来质疑自己的答案,寻找错误和失误,然后根据发现的结果重写答案。

      为了验证方法的有效性,研究人员评估了智能体在AlfWorld环境中完成决策任务的能力,以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力。

       在Alfworld测试中,Reflexion(反思机制)将GPT-4的成功率从73%左右提高到接近完美的97%,在134项任务中只有4项失败。

       在另一项名为HotPotQA的测试中,GPT-4的准确率仅为34%,但应用反思机制的GPT-4的准确率显著提高,达到54%。

       在HumanEval测试中,也就是测试模型编写代码的能力时,GPT-4准确率是67%,但通过反思机制,它的准确率跃升至令人印象深刻的88%。该测试包含了模型从未见过的164个Python编程问题。

        最近 OpenAI 犹如开挂一般,上周才刚刚推出GPT-3.5-Turbo API,今天凌晨再次祭出GPT-4这个目前最先进的多模态预训练大模型。与上一代GPT3.5相比,GPT-4最大的飞跃是增加了识图能力,并且回答准确性也得到显著提高。GPT-4在多个专业和学术基准测试中展现出令人印象深刻的表现,有时甚至达到了人类水平。GPT-4 的关键特性之一是它能够理解和分析视觉和文本信息。通过结合这些模式,该模型能够对各种任务生成更准确、更细致的回答,例如图像说明或问题回答。此外,GPT-4 能够从大量数据中学习,并适应不同的上下文,使其成为自然语言处理、计算机视觉和机器学习等许多领域中非常有价值的工具。
GPT-4的能力

 

       虽然GPT-4是在其前身GPT-3.5的基础上升级而来,但是一些微妙的差异使得GPT-4可能颠覆整个游戏规则。

       第一眼看上去,在一些随意交谈中很难看出GPT-3.5和GPT-4之间的区别。然而,当你让模型完成一些复杂的任务时,区别就显现出来了。GPT-4比GPT-3.5更可靠、更具创造力,并且能够处理更细微的指令。GPT-4最令人印象深刻的功能之一是它能够理解上下文并生成与当前情况更相关的响应。例如,如果你问它一个关于特定主题的问题,它能够考虑到对话的背景,并提供一个更准确和合情的答案。GPT-4的另一个显著改进是它的创造力。它可以对提示产生更具想象力和独创性的响应,使其成为作家、艺术家和任何想要挖掘其创造性一面工作者的绝佳工具。

       我们具体看看 GPT-3 和 GPT-4 之间令人兴奋的区别,下图是 GPT-3 和 GPT-4 在各种基准测试中的表现对比:

 

从测试数据上看,GPT-4 比 GPT-3 整体好40%,在超过一半的测试中 GPT-4 比 GPT-3 有飞跃性进步。

      再给大家看一个我个人认为很神奇的案例:给出食材,让GPT-4食谱。

上面案例展示了GPT-4良好的图像理解能力。

对GPT-3.5错误的修正

       之前ChatGPT在很多问题上表现并不理想,为此我专门针对ChatGPT过去表现不佳的问题以及我关注的使用场景对GPT-4做了专门测试。逻辑谬误
GPT-3.5经常会在一些简单问题上犯逻辑错误,出现这种问题一般是由于问题中夹杂着一些无用的干扰项,比如:”蓝盒子里有一个苹果,蓝盒子里还有一个红盒子,红盒子有个盖子,请问我要如何取出苹果?“。其中”红色盒子有个盖子“就是无用干扰信息,GPT-3.5会给出完全荒谬的回答:
而GPT-4可以给出相对合理的答案,且很清楚地说明并避开了问题中的陷阱。GPT-4的API与GPT-3.5的接口一致,不过目前需要申请开放。我已经第一时间加入了waitlist,等审批通过后再位大家带来GPT-4的接口使用体验报告。

总结

       总的来说,GPT-4在推理能力上比GPT-3.5进步巨大,很多之前的问题都得到了修正和改良。我还没有测试GPT-4的多模能力,后面我会继续进行更多的测试,并即时更新文章分享给大家。

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/546673.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web缓存Squid代理服务

缓存网页对象,减少重复请求 squid代理服务器,主要提供缓存加速,应用层过滤控制的功能 代理工作机制 1.代替客户机向网站请求数据,从而可以隐藏用户的真实ip地址 2.将获得的网页数据(静态web元素)保存到缓…

Rocky Linux 8.5 安装

Rocky Linux 是一个开源的企业级操作系统,旨在与 Red Hat Enterprise Linux 100% 1:1 兼容。 Rocky Linux 项目是什么? 下载地址 Rocky Linux 是一个社区化的企业级操作系统。其设计为的是与美国顶级企业 Linux 发行版实现 100% Bug 级兼容&#xff…

【学习日记2023.5.12】之 自定义封装springboot-starter案例_SpringBoot监控_Web后端开发总结

文章目录 1. 自定义封装springboot-starter案例1.1 自定义starter分析1.2 自定义starter实现1.3 自定义starter测试 2. SpringBoot优势2.1 SpringBoot监控2.1.1 Actuator2.1.2 Springboot-Admin 2.2 小结 3. Web后端开发总结 1. 自定义封装springboot-starter案例 1.1 自定义s…

chatgpt赋能Python-python3怎么下载安装

Python 3的下载安装方法 Python 3是一种高级编程语言,具有简单易学、基本语法易于理解、大量的第三方库支持等特点,适用于各种软件开发项目。本文将教您如何下载和安装Python 3。 下载Python3 首先您需要在官网https://www.python.org/downloads/上下…

【新星计划·2023】单臂理由的原理讲解

单臂路由是指在路由器的一个接口上通过配置子接口的方式,实现原来互相隔离的VLAN之间可以互相通信。 一、单臂路由概述 网络中通过VLAN技术来实现隔离广播、方便管理及提高安全性等功能,一旦划分VLAN后,同—VLAN之间可以相互通信&#xff0…

一、通过命令行体验长安链

一、通过命令行体验长安链 1 、概述2、环境依赖2.1、硬件依赖2.2、软件依赖2.3、git安装2.4、golang安装2.5、gcc 3、环境搭建3.1、源码下载3.2、 源码编译3.3、编译及安装包制作3.4、启动节点集群3.5、查看节点启动使用正常 4、使用CMC命令行工具部署、调用合约4.1、编译&…

jenkins pipeline如何在一个任务中触发另外一个任务以及从下游任务获取文件

1、 前言 我们在创建jenkins任务的时候,有时候一个任务需要调用多个子任务来完成。比如,我们在编译某个镜像的时候,镜像由多个组件构成。那么我们就可以创建一个主任务以及多个子任务,主任务负责调用每个子任务,并将每…

PySide6/PyQT多线程之 线程池的基础概念和最佳实践

前言 在PySide6/PyQT 多线程编程中,线程池也是重要的一项知识点,线程池是一种高效管理和调度多个线程执行任务的方式。 通过结合线程池(QThreadPool)和任务类(QRunnable),可以轻松地实现并发执行…

【分布族谱】正态分布和卡方分布的关系

文章目录 正态分布卡方分布卡方分布的极限 正态分布 正态分布,最早由棣莫弗在二项分布的渐近公式中得到,而真正奠定其地位的,应是高斯对测量误差的研究,故而又称Gauss分布。。测量是人类定量认识自然界的基础,测量误差…

FFmpeg命令实战(上)

标题 1.FFmpeg命令行环境搭建2.ffmpeg,ffplay和ffprobe的区别3.ffmpeg处理流程4.ffmpeg命令分类查询5.ffplay播放控制6.ffplay命令选项 1.FFmpeg命令行环境搭建 1.到达FFmpeg的github,选择下载需要的版本,这里以windows举例。 这里有两个压缩包,ffmpeg-master-lat…

Flutter 笔记 | Flutter Native 插件开发 (Android)

oh, 我亲爱的朋友,很高兴你来到了这里!既然来了,那么就让我们在这篇糟糕的烂文章中,一起来学习一下,如何在一个糟糕的 Flutter 混合应用中开发一个糟糕的 Android Native 烂插件吧!😑 首先&…

研报精选230519

目录 【行业230519头豹研究院】2023年中国产后康复设备行业词条报告 【行业230519山西证券】有色金属行业周报:锂价快速回升,释放锂电行业复苏信号 【行业230519头豹研究院】2023年中国氢能重卡行业词条报告 【个股230519西南证券_森麒麟】腾飞的高端轮胎…

网页外包开发的测试方法及工具

网页开发的软件项目完成代码开发后需要进行全面的测试,这是正规的软件公司开发软件项目必须要做的工作,这方面有不少好用的工具供大家使用。今天和大家分享这方面的知识,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件…

Elasticsearch实战之处理邮件附件进行进行内容全文检索

目录 一、系统环境和软件要求 二、软件说明 三、定义文本抽取管道(pipeline) 四、建立索引设置文档结构映射 五、插入文档 六、查询文档 需求是将本地邮件内容以及PDF,EXCEL,WORD等附件内容进行处理,保存到ES数据库,实现邮件…

【I2C 通信的工作原理是什么?Arduino 和 I2C 教程】

【I2C 通信的工作原理是什么?Arduino 和 I2C 教程】 1. 概述2. I2C 的工作原理3. I2C 协议4. 例程5. Arduino I2C 代码在本教程中,我们将了解 I2C 通信协议的工作原理,我们还将使用 Arduino 板和使用该协议的传感器制作一个实际示例。您可以观看以下视频或阅读下面的书面教程…

chatgpt赋能Python-python3虚拟环境搭建

Python3虚拟环境搭建:介绍和步骤 Python是一门非常强大的编程语言,因此在许多不同类型的项目中都广泛使用。但是,不同项目可能需要使用不同版本的Python库和依赖项。这就是使用Python的虚拟环境的重要性,可以避免不同项目之间的冲…

「实验记录」MIT 6.824 Raft Lab2B Log Replication

#Lab2B - Log Replication I. SourceII. My CodeIII. MotivationIV. SolutionS1 - leader上任即初始化S2 - leader发送AppendEntriesS3 - follower接收AppendEntriesS4 - leader收到AppendEntries 回信S5 - candidate选举限制S6 - defs.go约定俗成和实现Start() V. Result I. S…

yolov7结构改进策略解析

论文链接:https://arxiv.org/abs/2207.02696 代码链接:https://github.com/WongKinYiu/yolov7 具体分割如何训练,请参考我之前的博客论文: https://blog.csdn.net/qq_41920323/article/details/129464115?spm1001.2014.3001.5502…

联用多个插件可以让 GPT-4 的能力更加强大,实现更加复杂的操作

🚀 联用多个插件可以让 GPT-4 的能力更加强大,实现更加复杂的操作。 联用多个插件可以让 GPT-4 的能力更加强大,实现更加复杂的操作。 不过,使用插件和联网功能也有一些要注意的地方。 首先是安全性问题,特别是像购…

Burpsuite模块—-Intruder模块详解

一、简介 Burp Intruder是一个强大的工具,用于自动对Web应用程序自定义的攻击,Burp Intruder 是高度可配置的,并被用来在广范围内进行自动化攻击。你可以使用 Burp Intruder 方便地执行许多任务,包括枚举标识符,获取有…