【中阳期货】GPT-4正在改进自己,超强进化

news2026/2/15 22:43:42

GPT是一种预训练语言模型，由OpenAI研发。如果你希望快速了解GPT，可以按照以下步骤进行：

了解预训练语言模型：预训练语言模型是一种人工智能技术，可以通过大量语言数据的训练，自动学习语言的规律和语义。GPT就是其中的一种。理解GPT的基本结构：GPT使用了一个基于自注意力机制的神经网络结构，具有多层编码器的架构，用于生成文本或答案。查阅文献：阅读与GPT相关的书籍、论文、新闻报道和技术博客等，可以更深入地了解GPT的原理和应用。

尝试使用GPT API：OpenAI提供了GPT-3的API接口，用户可以通过该接口使用GPT-3生成自然语言文本，可以尝试使用该API来体验GPT的能力和应用场景。

前一阵由马斯克、图灵奖得主Bengio等大佬联名发起的暂停高级AI研发的公开信，现在签名已经上升到9000多人。最近，似乎全世界都在围剿ChatGPT。

即使全世界都对超级AI如临大敌，想赶紧悬崖勒马，恐怕也为时已晚。因为，如今的AI，已经学会自我进化了！前段时间，前谷歌大脑研究工程师Eric Jang发现：GPT-4能够以合理的方式批评自己的成果。

甚至连特斯拉前AI总监，OpenAI研究科学家Andrej Karpathy大赞，这是一个很好的例子，说明我们还没有看到GPT-4的最大能力。

与其为大型语言模型（LLM）寻找完美的提示（让我们一步一步思考），不如让LLM评估自己的输出并立即纠正自己的错误。在Eric Jang给出的例子中，曾看到微软研究员发推说GPT-4根本无法写出「不押韵」的诗歌。

然而，当再去询问GPT-4是否完成了任务。这时，它道歉后，生成了一个不押韵的诗！可以说是满分。

这恰恰印证了GPT-4是有「反思」能力的。

这样看来，就像Eric Jang所说，我们现在可以考虑一种「后缀提示工程」，而不是巧妙的「前缀提示工程」。这将鼓励LLM在先前生成的解决方案中找到更正和不一致的地方。

最近，来自美国东北大学、MIT等机构研究者提出了Reflexion（反思）。这一方法赋予智能体动态记忆，以及自我反思的能力。

研究人员诺亚·希恩和阿什温·戈皮纳特写道:“人类利用曾经被认为是人类智力独有的决策过程，开发出新的技术来达到最先进的标准，这种情况并不是每天都会发生的。”“但是，这正是我们所做的。”

Reflexion 利用GPT-4的各种能力来进行不同的测试，并引入了一个框架，允许AI模拟类似人类的自我反思行为并评估其表现。在这个过程中，它引入了额外的步骤，在这些步骤中，GPT-4设计测试来质疑自己的答案，寻找错误和失误，然后根据发现的结果重写答案。

为了验证方法的有效性，研究人员评估了智能体在AlfWorld环境中完成决策任务的能力，以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力。

在Alfworld测试中，Reflexion（反思机制）将GPT-4的成功率从73%左右提高到接近完美的97%，在134项任务中只有4项失败。

在另一项名为HotPotQA的测试中，GPT-4的准确率仅为34%，但应用反思机制的GPT-4的准确率显著提高，达到54%。

在HumanEval测试中，也就是测试模型编写代码的能力时，GPT-4准确率是67%，但通过反思机制，它的准确率跃升至令人印象深刻的88%。该测试包含了模型从未见过的164个Python编程问题。

最近 OpenAI 犹如开挂一般，上周才刚刚推出GPT-3.5-Turbo API，今天凌晨再次祭出GPT-4这个目前最先进的多模态预训练大模型。与上一代GPT3.5相比，GPT-4最大的飞跃是增加了识图能力，并且回答准确性也得到显著提高。GPT-4在多个专业和学术基准测试中展现出令人印象深刻的表现，有时甚至达到了人类水平。GPT-4 的关键特性之一是它能够理解和分析视觉和文本信息。通过结合这些模式，该模型能够对各种任务生成更准确、更细致的回答，例如图像说明或问题回答。此外，GPT-4 能够从大量数据中学习，并适应不同的上下文，使其成为自然语言处理、计算机视觉和机器学习等许多领域中非常有价值的工具。
GPT-4的能力

虽然GPT-4是在其前身GPT-3.5的基础上升级而来，但是一些微妙的差异使得GPT-4可能颠覆整个游戏规则。

第一眼看上去，在一些随意交谈中很难看出GPT-3.5和GPT-4之间的区别。然而，当你让模型完成一些复杂的任务时，区别就显现出来了。GPT-4比GPT-3.5更可靠、更具创造力，并且能够处理更细微的指令。GPT-4最令人印象深刻的功能之一是它能够理解上下文并生成与当前情况更相关的响应。例如，如果你问它一个关于特定主题的问题，它能够考虑到对话的背景，并提供一个更准确和合情的答案。GPT-4的另一个显著改进是它的创造力。它可以对提示产生更具想象力和独创性的响应，使其成为作家、艺术家和任何想要挖掘其创造性一面工作者的绝佳工具。

我们具体看看 GPT-3 和 GPT-4 之间令人兴奋的区别，下图是 GPT-3 和 GPT-4 在各种基准测试中的表现对比：

从测试数据上看，GPT-4 比 GPT-3 整体好40%，在超过一半的测试中 GPT-4 比 GPT-3 有飞跃性进步。

再给大家看一个我个人认为很神奇的案例：给出食材，让GPT-4食谱。

上面案例展示了GPT-4良好的图像理解能力。

对GPT-3.5错误的修正

之前ChatGPT在很多问题上表现并不理想，为此我专门针对ChatGPT过去表现不佳的问题以及我关注的使用场景对GPT-4做了专门测试。逻辑谬误
GPT-3.5经常会在一些简单问题上犯逻辑错误，出现这种问题一般是由于问题中夹杂着一些无用的干扰项，比如：”蓝盒子里有一个苹果，蓝盒子里还有一个红盒子，红盒子有个盖子，请问我要如何取出苹果？“。其中”红色盒子有个盖子“就是无用干扰信息，GPT-3.5会给出完全荒谬的回答：
而GPT-4可以给出相对合理的答案，且很清楚地说明并避开了问题中的陷阱。GPT-4的API与GPT-3.5的接口一致，不过目前需要申请开放。我已经第一时间加入了waitlist，等审批通过后再位大家带来GPT-4的接口使用体验报告。