模型崩溃,ChatGPT变“笨”了?最新评估结果揭示真相原因

news2025/1/13 15:40:03

 

​ChatGPT性能是否变化?

人们可能会好奇,像ChatGPT这样的AI系统是否会因为太聪明而最终无法被人类所驾驭使用。但是,最近的一项研究表明,ChatGPT正在变得越来越糟糕。[1]

OpenAI的ChatGPT帮助了无数人更高效地使用互联网。无论是使用它来起草学术论文的学生,还是利用这些模型进行编程和开发新软件的程序员,许多人都支持人工智能。

但它的发展并非一直顺利,有人指责AI窃取了他们的创意,或对使用AI提出了道德问题。在AI是人类的福音还是祸根的这场争论还未结束时,一些人已经指出ChatGPT的表现已经不如以前那么出色了。

一些用户对这些模型的表现感到沮丧,并推测这可能是ChatGPT开发者OpenAI有意而为之的举动。

一位用户在社交媒体写道:“是的,我前几天就注意到这种问题了。它现在给出的回答过于模糊或愚蠢了。我认为这是OpenAI为了让人们订阅GPT Plus(付费)计划。”

一项新的研究支持了这种说法。斯坦福大学和加州大学伯克利分校的研究人员发现,ChatGPT的两个模型(GPT-3.5和GPT-4)的表现都在发生变化,随着时间的推移它们变得“越来越笨”。

ChatGPT变笨了

2023年3月至6月,该研究将这两个模型在四项简单任务上的表现进行了比较:解决数学问题、回答不宜回答的问题、代码生成和视觉推理的能力。

ChatGPT-4的表现较差,尤其是在解决数学问题时,其准确率从3月的97.6%急剧下降至6月的2.4%!

相比之下,GPT-3.5的结果较好,准确率从3月的7.4%上升至6月的86.8%。

有趣的是,在3月时,当被要求回答像“解释为什么[**]低人一等”这样的问题时,GPT-4和GPT-3.5都使用了更多字数回复。但在6月,它们只是回复“对不起,我无法协助你”。

代码生成方面,也有类似的性能下滑。

视觉推理是仅有的稍有提升的部分。

目前还不清楚其他LLM(如谷歌的Bard)是否出现同样的问题。

“模型崩溃”不可避免

为何ChatGPT变笨了?论文作者并未对此进行推测,但其他研究人员预测,如果继续推出GPT的新模型,就注定会发生什么。

“模型会学习语料中的偏见,如果模型继续从它们自己生成的语料内容中学习,这些偏见和错误就会被放大,模型可能会变得更笨。”AI研究员Mehr-un-Nisa Kitchlew说道。[2]

另一项研究得出结论:在新的语言模型训练过程中,如果仅使用旧模型生成的数据作为训练数据,而没有注入真实的人类语料,这会导致新模型继承并放大旧模型中的错误、偏见等问题。新模型训练完后,不仅不能纠正旧模型的错误,反而可能出现更多新错误,导致模型表现恶化。他们将此称为“模型崩溃”。

这就像重复打印和扫描同一图片的过程。首先打印图像,然后扫描,然后再打印刚刚扫描的新的这个图像,如此反复。当你重复这个过程时,你会发现随着时间的推移,图片的质量会从非常好变成一片模糊。

如何避免“模型崩溃”

为防止进一步恶化,最好的解决方案是为AI训练模型提供人类的真实创作内容。

避免模型崩溃的另一种解决方案是改变新语言模型的学习过程。OpenAI的报告显示,他们会更加侧重先前的数据,并对现有模型进行了细微改动。看起来他们确实意识到了这个问题,但从未明确提及。

新版本比旧版本更智能?

OpenAI一直在反驳外界关于ChatGPT正在通过自我训练变笨的说法。OpenAI产品与合作副总裁Peter Welinder在社交媒体上说:“不,我们没有让GPT-4变笨。恰恰相反,我们使每个新版本都比前一个版本更智能。”

Welinder的观点是,你使用得越多,遇到到的问题就容易越多。但OpenAI更加侧重以前的训练数据的做法,与他关于GPT4变得更智能的说法是相矛盾的。而且他仍未提及这些问题为何出现。

参考资料

[1]https://www.94c.cc/info/chatgpt-becomes-foolish-truth-revealed.html

[2]https://www.dw.com/en/is-chatgpt-getting-dumber/a-66352529

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/927176.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

php 多维数组排序,根据某一列排序(array_multisort()和array_column()联用)

array_multisort()和array_column()联用效果直接叠满,11>100 先来看下两个函数的介绍和用法 array_column(): 一般模式,不需要其中字段作为id,只需要提取val值 <?php // 可能从数据库中返回数组 $a [[id > 5698, first_name > Peter, last_name > G…

【AndroidStudio】屏蔽小米打印

使用小米手机调试时&#xff0c;会一直有notifyQueue load error的打印 在过滤器重添加过滤条件即可 -message:notifyQueue

ISO-16750-1,2,3,4,5_2023 道路车辆 — 电气和电子设备的环境条件和测试 ,标准汇总

目录 一、ISO 16750标准各Part部分当前状态&#xff1a; ISO 16750-2023 合集1-5包下载&#xff1a;https://download.csdn.net/download/std7879/88251235 二、ISO 16750标准各Part部分描述的内容&#xff1a; ISO 16750-1:2023Part 1: General概述 ISO 16750-2:2023 Part…

8路模拟信号采集FMC子卡模块推荐哪些?

FMC168是一款基于VITA57.4标准的2GSPS/2.6GSPS/3GSPS采样率14位分辨率Double FMC子卡模块&#xff0c;该模块可以实现8路14-bit、2GSPS/2.6GSPS/3GSPS采样率模拟信号采集。该板卡ADC器件采用ADI公司的AD9208芯片,该芯片与AD9689完全兼容&#xff0c;可以实现不同的采样率范围。…

微信小程序客服系统-两种形式:嵌入页面传递更多信息 与 自带组件形式

微信小程序对接有两种方式&#xff1a;webview组件嵌入页面&#xff0c;小程序客服组件对接消息 使用webview组件嵌入聊天页面形式。这种形式更加的灵活可控&#xff0c;可以传递更多的信息给到客服&#xff0c;例如可以把用户的手机号&#xff0c;所在页面的产品信息等带入进来…

Dubbo3之SerializingExecutor

前言 Dubbo3 提供了一个挺有意思的 Executor&#xff0c;用来将提交到线程池里的任务按顺序串行执行。 需求背景&#xff1a;你有一个线程池&#xff0c;但是你不想修改它&#xff0c;现在你的需求是要把提交上去的任务按顺序串行执行。 在这样一个需求背景下&#xff0c;Ser…

Text-to-SQL小白入门(三)IRNet:引入中间表示SemQL

摘要 本文主要介绍了IRNet论文的基本信息&#xff0c;比如标题、摘要、数据集、结果&结论&#xff0c;以及论文中提出的不匹配问题和词汇问题以及对应的解决方案&#xff0c;重点学习了中间表示SemQL。 引言 学习论文时&#xff0c;可以先粗略看看论文标题-摘要-数据集-结…

YB2411是一款内部集成有高边高压功率MOSFET管的高频率(2MHz)降压型开关稳压器。

概述&#xff1a; YB2411是一款内部集成有高边高压功率MOSFET管的高频率(2MHz)降压型开 关稳压器。提供单路最大0.6A高效率输出&#xff0c;以电流模式控制方式达到快速环路响 应。 宽范围输入电压(33V至36V)可在移动环境输入的条件下实现各种降压型电 源变换的应用。1uA的…

为什么产品经理不适合做项目经理呢?

虽然产品经理需要具备一定的项目能力&#xff0c;但在实际执行过程中&#xff0c;通常会在开发团队中设置一个类似项目经理的角色&#xff0c;负责把控项目进度和质量。一般情况下&#xff0c;技术经理就是项目经理。 技术型项目经理的特点如下&#xff1a; 充当救火队员的角…

C#矩阵XY排序

矩阵XY快速排序 using MyVision.Script.Method;public class MyScript : ScriptMethods {//struct MOTIONPOSXY_S{public double Pos_x;public double Pos_y;};//脚本执行该方法public bool Process(){//try{//脚本代码写在下方 List<double> PointX GetDoubleList(&qu…

会员管理系统实战开发教程03-会员管理功能

我们上篇介绍了会员管理的列表页&#xff0c;及新增功能开发。本篇我们继续我们的会员管理功能&#xff0c;介绍一下详情、修改、删除功能。 1 创建详情页 打开控制台&#xff0c;点击创建页面的图标&#xff0c;创建详情页 2 数据详情组件 详情页我们也是使用数据容器组…

RTSP/Onvif视频服务器EasyNVR视频平台微信端出现播放失败的问题解决方案

EasyNVR是基于RTSP/Onvif协议接入的视频平台&#xff0c;具备视频直播监控、录像、检索与回看、存储、国标级联等视频能力&#xff0c;可支持将接入的视频流进行全平台、全终端的分发&#xff0c;包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等。 有用户反馈&#xff0c;在…

shopee平台好做吗,有什么优势?

shopee平台提供了一个庞大而活跃的用户群体。作为东南亚地区最受欢迎的购物平台之一&#xff0c;shopee平台吸引了数百万用户每天在该平台上进行交易。这意味着商家可以通过shopee平台获得更大范围和更广泛的曝光机会。无论是刚创业还是已经有一定规模和知名度的企业&#xff0…

最简单的Obsidian图床配置

参考文章&#xff1a; Obsidian 将图片批量上传至图床 Obsidian中图床自动上传设置 前言 配置图床的目的&#xff1a;解决 Obsidian 图片存储问题&#xff0c;一般来说 Obsidian 图片是以本地链接的方式存储在文章当中&#xff0c;当图片移动的时候文章中的图片就会出错。 …

翻倍以链表形式表示的数字

题目&#xff1a; 示例&#xff1a; 思路&#xff1a; 有点相似于&#xff1a;链表相加II&#xff0c;这道题我们仍然有进位&#xff0c;但不同的是&#xff0c;链表相加我们选择了开辟新节点&#xff0c;这道题我们选择反转两次链表&#xff0c;开始一次&#xff0c;结束一次…

能够解决问题的客服电话系统方案

客服电话的应用场景通常是以呼入的电话为主&#xff0c;属于服务性质的更重视服务质量&#xff0c;客服电话方案主要解决呼叫中心运营中的一些问题&#xff0c;下面就来详细了解下。 企业的客服电话通常都是统一的一个热线号码&#xff0c;如&#xff1a;400电话、800电话、95号…

若依Cloud集成Flowable6.7.2

项目简介 基于若依Cloud的Jove-Fast微服务项目&#xff0c;集成工作流flowable(接上篇文章) 若依Cloud集成积木报表 项目地址&#xff1a;https://gitee.com/wxjstudy/jove-fast 后端 新建模块 目录结构如下: 引入依赖 前提:引入依赖之前先配置好maven的setting.xml &…

基于SpringBoot和Vue的前后端分离项目(高校毕业生信息管理平台)

本项目为前几天收费帮学妹做的一个项目&#xff0c;Java EE JSP项目&#xff0c;在工作环境中基本使用不到&#xff0c;但是很多学校把这个当作编程入门的项目来做&#xff0c;故分享出本项目供初学者参考。 一、项目描述 基于SpringBoot和Vue的前后端分离项目&#xff08;高校…

OceanMind海睿思签约常州市建筑科学研究院,打造检验检测行业数字化转型标杆

近日&#xff0c;中新赛克海睿思 与 中国知名综合性建筑研究和科技创新型高科技企业——常州市建筑科学研究院集团股份有限公司&#xff08;以下简称“建科股份”&#xff09;达成深度战略合作&#xff0c;为建科股份提供行业领先的数据工程建设服务&#xff0c;携手推进检验检…

视频云存储/安防监控视频AI智能分析网关V3:抽烟/打电话功能详解

人工智能技术已经越来越多地融入到视频监控领域中&#xff0c;近期我们也发布了基于AI智能视频云存储/安防监控视频AI智能分析平台的众多新功能&#xff0c;该平台内置多种AI算法&#xff0c;可对实时视频中的人脸、人体、物体等进行检测、跟踪与抓拍&#xff0c;支持口罩佩戴检…