实锤研究,ChatGPT能力掉线!

news2024/9/30 7:26:05

早在一个多月前,ChatGPT性能下降的传闻便开始在网上流行,不少订阅了Plus版的用户纷纷表示,感觉ChatGPT在经历了几轮更新后开始降智,甚至有时反应速度也会出现问题。而如今,这一传闻终于得到了证实。

就在本周,斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,验证了ChatGPT近几个月来的变化,即ChatGPT的多方面能力出现了波动,尤其是在处理编码和组合任务方面的效率发生了严重下滑。

图片

此篇论文的发布也在业界引起了热议,不少AI领域大牛都在各个平台发表了自己的看法,而有关ChatGPT性能变化原因的分析以及OpenAI究竟意欲何为的推测也开始如野火般在圈内蔓延。

1、崩坏的ChatGPT

根据论文介绍,研究人员评估了2023年3月和6月版本的GPT3.5和GPT4模型在四个不同任务上的表现,包括解决数学问题、回答敏感或危险问题、生成代码以及根据图像识别进行视觉推理。

令人感到惊讶的是,实验结果证明了这两款大模型的性能和行为会随时间推移发生很大变化。例如3月版的GPT4在解决数学问题方面非常出色,素数识别准确率能达到97%以上,而6月版的准确率居然暴降至了仅2.4%。

图片

代码生成方面,从3月到6月,GPT4生成代码的可执行率从50%暴跌至了10%,GPT3.5虽然下降不太明显,但也出现了同样趋势。并且在处理相同任务时,相比此前,6月版的两款模型生成代码的用时都有了一定增加。

而在回答敏感问题以及图像推理方面,两款模型的两个版本差异则不明显。由于增加了更多护栏限制,6月版GPT4对敏感问题的控制能力提升了16%,GPT3.5则下降了6%。而在图像推理方面,不同版本之间几乎没有区别。

2、关于衰退的推测

关于GPT模型性能衰退的原因,不少业内人士也纷纷给出了自己推测。归结起来大致可以分为三类,其一是OpenAI为了降低成本牺牲了模型性能,其二是过多AI对齐限制了模型能力,其三则是一个有些阴谋论的观点——OpenAI是故意为之。

根据SEEK 全球人工智能总监Conan的推测,OpenAI在构建GPT4时大概率采用了混合专家模型(MOE)架构,也就是说GPT4并非是一个大模型,而是由多个特定领域小型专家模型所组成。值得一提的是,OpenAI创始人Greg Brockman也曾在自己所参与的研究中提到过MOE这条技术路径。

这样的架构理论上能够让GPT4更便宜、更快速地生成响应,但Conan也表示,“使用混合专家模型虽然能够提供性价比方面的优势,但在模型成本和质量之间需要进行取舍。”在论文发布后,Conan也特地发表了一条推特表示自己的想法很可能得到了验证。

图片

英伟达AI科学家Jim Fan则在推特上分享了另一个角度的观点——安全性与性能的权衡。根据Jim Fan的猜测,OpenAI从3月至6月花费了大量精力为GPT4切除脑叶(进行AI对齐),但他们没时间完全恢复其他的重要功能。

图片

几个月前微软研究院发布的一篇论文也曾提到过这一观点:对AI模型所进行的任何AI对齐,都会损失模型的准确性和性能。根据顾得哈特定律,奖励模型并非完美代理,因此过度的AI对齐会阻碍模型对任务理解的真实程度及反应速度。

除此之外,目前一个有些阴谋论的观点也在网上得到了大量的传播——OpenAI故意降低GPT4的编码能力,以便更多人为Copilot买单。而支持这一观点的主要论据,则是微软几天前刚刚将Copilot的定价提高了惊人的83%。

3、前后不一的回应

作为身处漩涡中心之“人”,对于ChatGPT性能下降一事,其实OpenAI自5月底开始已经进行了多次回应。5月31日,OpenAI官方技术发言人Logan.GPT就曾在一条讨论ChatGPT性能问题的推特下留言表示,GPT4在API模式中的质量并没有下降。

图片

7月14日,OpenAI产品副总裁Peter Welinder也亲自发推表示,“不,我们没有让GPT4变笨,恰恰相反,我们让每个版本都比上一个版本更加聪明。”对于网友留言所提出的质疑,Peter还解释道,“当你更多使用它,你就会开始注意到以前没有注意过的问题。”

图片

然而伴随着论文的发布,OpenAI对于此事的底气与态度也发生了一些转变。就在周三,Logan.GPT回应了论文作者之一Matei Zaharia在推特上发表的论文链接。然而这次Logan.GPT一改此前话锋,不仅感谢了Matei的研究,还表示OpenAI正在调查此事,并提出愿意为此后的实验提供帮助。

图片

对于Logan.GPT前后不一的言论,不少网友也在这条推特下方开启了嘲讽。一位名为Pranay的网友提到,“想要让别人帮你进行评估和解决问题,你先开源自己的模型如何?”然而截止目前,无论是Logan.GPT还是其他OpenAI人员都没有再对推文进行评论。

4、瞬息万变的AI格局

伴随着论文再一次坐实ChatGPT性能下降的事实,越来越多来自业界的指责与质疑也在指向OpenAI。AI科学家Daniel Jeffries在接受采访时表示,OpenAI应当在推出新变化时继续对旧版本模型进行支持,以便软件开发人员能将工作建立在可靠工具上,而不是在没有提示的情况下进行更新。

解决不稳定性问题的最佳解决方案就是开源模型,例如Meta刚刚宣布开源的Llama2。通过广泛分布的权重,这些模型可以让研究人员从相同基线开始工作,并获取稳定可重复的结果。微软近期与Meta的密切合作也在证明这条路线的可行性。

图片

Hugging Face人工智能研究员Sasha Luccioni也认为OpenAI的不透明性存在很大问题,“任何闭源模型的结果都是不可复制和验证的,科学家们也没有责任持续监控已经部署的大模型。虽然GPT4非常优秀,但未来的更多应用与研究将会建立在更加透明和稳定的模型之上。”

值得一提的是,在Llama2发布后,包括英伟达、AMD、HuggingFace、GitHub、DataBricks等在内的一众科技巨头高管,以及伯克利、MIT等顶尖院校的教授也纷纷官宣将于Meta进行合作。而这对于如今受困于模型性能问题的OpenAI来说无疑是一个雪上加霜的消息。

5、写在最后

虽然目前业内也有部分专家也在质疑这份论文中所提出的检测方法的准确性。但无论是论文中所显示的巨大的数据差异,还是大量来自用户的反馈,亦或是OpenAI对待此事时的态度的转变,无疑都证明了GPT4模型在过去几个月确实出现了一些问题。

我们必须承认的是,如今的OpenAI依然伫立在AI技术之巅。关于技术层面的问题,如果连OpenAI也无法顺利解决,那么这对于其他企业而言也将会成为一个短期内难以逾越深谷。

然而即便OpenAI在技术上拥有着领先优势,但越来越多来自竞争对手的压力与大模型市场格局的加速变化,也使得OpenAI这家年轻的明星公司逐渐暴露出了一些在长远布局规划方面的短板,近期ChatGPT访问量增长率的大幅下降也足以说明一些问题。

一个明显的道理是,当周遭一切都在飞速发生变化时,只有拥有足够强大适应能力并能够根据环境作出相应改变的物种,才拥有长期生存及持续发展的权利。而就目前来看,留给OpenAI作出改变的时间已经越来越紧张了。

最后,关于ChatGPT降智的原因,你有什么不同的看法呢,欢迎在评论区分享你的观点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/803996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何学好Java并调整学习过程中的心态:学习之路的秘诀

文章目录 第一步:建立坚实的基础实例分析:选择合适的学习路径 第二步:选择合适的学习资源实例分析:参与编程社区 第三步:动手实践实例分析:开发个人项目 调整学习过程中的心态1. 不怕失败2. 持续学习3. 寻求…

ORA-38760: This database instance failed to turn on flashback database

早晨接一个任务,使用rman备份在虚拟化单机上恢复实例,恢复参数文件、控制文件和数据文件都正常,recover归档时报错如下: Starting recover at 2023-07-28 10:25:01 using channel ORA_DISK_1 starting media recovery media reco…

实时云渲染技术:VR虚拟现实应用的关键节点

近年来,虚拟现实(Virtual Reality, VR)技术在市场上的应用越来越广泛,虚拟现实已成为一个热门的科技话题。相关数据显示,2019年至2021年,我国虚拟现实市场规模不断扩大,从2019年的282.8亿元增长…

攻防世界-Reverse-simple-unpack

题目描述:菜鸡拿到了一个被加壳的二进制文件 1. 思路分析 提示很清楚了,加壳的二进制文件,正好对这一块知识点是残缺的,先了解下加壳到底是什么 通过这段描述,其实加壳的目的是使得逆向起来更难了,因此这里…

基于SSM实现个人随笔分享平台:创作心灵,分享自我

项目简介 本文将对项目的功能及部分细节的实现进行介绍。个人随笔分享平台基于 SpringBoot SpringMVC MyBatis 实现。实现了用户的注册与登录、随笔主页、文章查询、个人随笔展示、个人随笔查询、写随笔、草稿箱、随笔修改、随笔删除、访问量及阅读量统计等功能。该项目登录模…

十六章:可靠性确实重要:一种端到端的弱监督语义分割方法

0.摘要 弱监督语义分割是一项具有挑战性的任务,因为它只利用图像级别的信息作为训练的监督,但在测试时需要产生像素级别的预测。为了应对这样一个具有挑战性的任务,最近最先进的方法提出了采用两步解决方案,即:1&#…

自动上传git

自动上传git 执行脚本 保存为.bat文件 echo off title bat 交互执行git命令 D: cd D:/git/test git add . git commit -m %date:~0,4%年%date:~5,2%月%date:~8,2%日 git push教程如下 1、搜索任务计划程序(最好管理员身份运行,普通用户可能无权限&am…

下载JMeter的历史版本——个人推荐5.2.1版本

官网地址:https://archive.apache.org/dist/jmeter/binaries/

【Git|项目管理】Git的常用命令以及使用场景

文章目录 1.前言2.工作区,暂存区,版本库简介3.Git的常用命令4.版本回退5.撤销修改6.删除文件7.总结 1.前言 在学习Git命令之前,需要先了解工作区,暂存区和版本库这三个概念 2.工作区,暂存区,版本库简介 在使用Git进行版本控制时,有三个重要的概念:工作…

机器学习——异常检测

异常点检测(Outlier detection),⼜称为离群点检测,是找出与预期对象的⾏为差异较⼤的对象的⼀个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点(outlier)是⼀个数据对象,它明显不同于其他的数据对象。异…

invalid use of incomplete type class ui(new Ui::MainWindow)报错,解决方案

invalid use of incomplete type class ui(new Ui::MainWindow报错,解决方案 原因解决方案 原因 就是在我改控件button的名字的时候,没有选中控件,导致吧mainwindow的名字改了。。。 解决方案 吧mainwindow的名字改回来 MainWindow 完美解…

【LeetCode】101.对称二叉树

题目 给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true示例 2: 输入:root [1,2,2,null,3,null,3] 输出:false提示: 树中节点数…

java项目之社区疫情防控管理信息系统(ssm+mysql+jsp)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的社区疫情防控管理信息系统。技术交流和部署相关看文章末尾! 开发环境: 后端: 开发语言:Ja…

小米新专利曝光:解决升降摄像头痛点,隐藏式摄像头指日可待

根据国家知识产权局官方网站的最新消息,小米移动软件公司的“摄像头隐藏式电子设备及隐藏式摄像头”的专利申请在今天获得了授权。 这款电子设备的主要组成部分包括壳体、摄像模组和可伸缩的反射组件。壳体上设有一个开口,可以让反射组件向外伸出。反射组…

数据可视化大屏拼接屏开发实录:屏幕分辨率测试工具

一、可视化大屏开发 在数据可视化大屏开发时,确定数据可视化大屏拼接屏的板块尺寸需要考虑以下几个因素: 屏幕分辨率:首先需要知道每个板块屏幕的分辨率,包括宽度和高度,这决定了每个板块上可以显示的像素数量。 数据…

Qt : day4

1.思维导图 2.服务器 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);//给服务器指针实例化空间server new QTcpServer(this);}Widget::~Widget() {delete ui;…

Pytorch(一)

目录 一、基本操作 二、自动求导机制 三、线性回归DEMO 3.1模型的读取与保存 3.2利用GPU训练时 四、常见的Tensor形式 五、Hub模块 一、基本操作 操作代码如下: import torch import numpy as np#创建一个矩阵 x1 torch.empty(5,3)# 随机值 x2 torch.rand(5,3)# 初始化…

grid网格布局看这一篇就够了(接近3w字的总结)

在当今现代Web设计中,如何实现有效的布局一直是一个关键问题。这就是为什么CSS3推出了“grid网格布局”作为一种新的布局方式。使用grid,您可以轻松地设置复杂的网格布局,而无需使用冗长的CSS代码或框架。本文将探讨grid的概念、语法和实际应…

青大数据结构【2021】

一、单选(17!) 根据中序遍历得到降序序列可以知道,每个结点的左子树的结点的值比该结点的值小,因为没有重复的关键字,所以拥有最大值的结点没有左子树。 二、简答 三、分析计算 四、算法分析 3.迪杰斯特拉…

DAY53:动态规划(十八)最长公共子序列+不相交的线+最大子序列和

文章目录 1143.最长公共子序列(注意递推的逻辑)思路DP数组含义递推公式初始化完整版重要:该解法是否保持了元素顺序总结 1035.不相交的线(注意思路)思路完整版 53.最大子序列和思路1:贪心思路1完整版思路2:动态规划DP数…