谈谈GPT-4文本代码降本减料引起的质量下降

news2025/2/11 8:54:09

先是少数用户提出质疑,随后大量网友表示自己也注意到了,还贴出不少证据。

有人反馈,把GPT-4的3小时25条对话额度一口气用完了,都没解决自己的代码问题。

无奈切换到GPT-3.5,反倒解决了

总结下大家的反馈,最主要的几种表现有:

  • 以前GPT-4能写对的代码,现在满是Bug
  • 回答问题的深度和分析变少了
  • 响应速度比以前快了

这就引起不少人怀疑,OpenAI是不是为了节省成本,开始偷工减料

两个月前GPT-4是世界上最伟大的写作助手,几周前它开始变得平庸。我怀疑他们削减了算力或者把它变得没那么智能。

这就不免让人想起微软新必应“出道即巅峰”,后来惨遭“前额叶切除手术”能力变差的事情……

网友们相互交流自己的遭遇后, “几周之前开始变差” ,成了大家的共识。

一场舆论风暴同时在Hacker News、Reddit和Twitter等技术社区形成。

这下官方也坐不住了。

OpenAI开发者推广大使Logan Kilpatrick,出面回复了一位网友的质疑:

API 不会在没有我们通知您的情况下更改。那里的模型处于静止状态

不放心的网友继续追问确认“就是说GPT-4自从3月14日发布以来都是静态的对吧?”,也得到了Logan的肯定回答。

“我注意到对于某些提示词表现不一致,只是由于大模型本身的不稳定性吗?”,也得到了 “Yes” 的回复。

但是截至目前,针对网页版GPT-4是否被降级过的两条追问都没有得到回答,并且Logan在这段时间有发布别的内容。

那么事情究竟如何,不如自己上手测试一波。

对于网友普遍提到GPT-4写代码水平变差,我们做了个简单实验。

实测GPT-4“炼丹”本领下降了吗?

3月底,我们曾实验过让GPT-4“炼丹”,用Python写一个多层感知机来实现异或门。

ShareGPT截图,界面稍有不同

让GPT-4改用numpy不用框架后,第一次给出的结果不对。

修改两次代码后,运行得到了正确结果。第一次修改隐藏神经元数量,第二次把激活函数从sigmoid修改成tanh。

6月2日,我们再次尝试让GPT-4完成这个任务,但换成了中文提示词。

这回GPT-4第一次就没有使用框架,但给的代码仍然不对。

后续只修改一次就得到正确结果,而且换成了力大砖飞的思路,直接增加训练epoch数和学习率。

回答的文字部分质量也未观察到明显下降,但响应速度感觉确实有变快。

由于时间有限,我们只进行了这一个实验,且由于AI本身的随机性,也并不能否定网友的观察。

最早4月19日就有人反馈

我们在OpenAI官方Discord频道中搜索,发现从4月下旬开始,就不时有零星用户反馈GPT-4变差了。

但这些反馈并未引发大范围讨论,也没有得到官方正式回应。

5月31日,Hacker News和Twitter同天开始大量有网友讨论这个问题,成为整个事件的关键节点。

HackerNews一位网友指出,在GPT-4的头像还是黑色的时候更强,现在紫色头像版在修改代码时会丢掉几行。

在Twitter上较早提出这个问题的,是HyperWrite(一款基于GPT API开发的写作工具)的CEO,Matt Shumer。

但这条推文却引发了许多网友的共鸣,OpenAI员工回复的推文也正是针对这条。

不过这些回应并没让大家满意,反而讨论的范围越来越大。

比如Reddit上一篇帖子提到,原来能回答代码问题的GPT-4,现在连哪些是代码哪些是问题都分不出来了。

在其他网友的追问下,帖子作者对问题出现的过程进行了概述,还附上了和GPT的聊天记录。

对于OpenAI声称模型从三月就没有改动过,公开层面确实没有相关记录。

ChatGPT的更新日志中,分别在1月9日1月30日2月13日提到了对模型本身的更新,涉及改进事实准确性和数学能力等。

但自从3月14日GPT-4发布之后就没提到模型更新了,只有网页APP功能调整和添加联网模式、插件模式、苹果APP等方面的变化。

假设真如OpenAI所说,GPT-4模型本身的能力没有变化,那么这么多人都感觉它表现变差是怎么回事呢?

很多人也给出了自己的猜想。

第一种可能的原因是心理作用

Keras创始人François Chollet就表示,不是GPT的表现变差,而是大家渡过了最初的惊喜期,对它的期待变高了。

Hacker News上也有网友持相同观点,并补充到人们的关注点发生了改变,对GPT失误的敏感度更高了。

抛开人们心理感受的差异,也有人怀疑API版本和网页版本不一定一致,但没什么实据。

还有一种猜测是在启用插件的情况下,插件的额外提示词对要解决的问题来说可能算一种污染

WebPilot插件中的额外提示词

这位网友就表示,在他看来GPT表现变差正是从插件功能开始公测之后开始的。

也有人向OpenAI员工询问是否模型本身没变,但推理参数是否有变化?

量子位也曾偶然“拷问”出ChatGPT在iOS上的系统提示词与网页版并不一致

  • 如果在手机端开启一个对话,它会知道自己在通过手机与你交互。
  • 会把回答控制在一到两句话,除非需要长的推理。
  • 不会使用表情包,除非你明确要求他使用。

不一定成功,大概率拒绝回答

那么如果在网页版继续一个在iOS版开启的对话而没意识到,就可能观察到GPT-4回答变简单了。

总之,GPT-4自发布以来到底有没有变笨,目前还是个未解之谜。

但有一点可以确定:

3月14日起大家上手玩到的GPT-4,从一开始就不如论文里的。

与人类对齐让AI能力下降

微软研究院发表的150多页刷屏论文《AGI的火花:GPT-4早期实验》中明确:

他们早在GPT-4开发未完成时就得到了测试资格,并进行了长期测试。

后来针对论文中很多惊艳例子,网友都不能成功用公开版GPT-4复现

目前学术界有个观点是,后来的RLHF训练虽然让GPT-4更与人类对齐——也就更听从人类指示和符合人类价值观——但让也让它自身的推理等能力变差

论文作者之一、微软科学家张弋在中文播客节目《What’s Next|科技早知道》S7E11期中也提到:

那个版本的模型,比现在外面大家都可以拿得到的GPT-4还要更强,强非常非常多。

举例来说,微软团队在论文中提到,他们每隔相同一段时间就让GPT-4使用LaTeX中的TikZ画一个独角兽来追踪GPT-4能力的变化。

论文中展示的最后一个结果,画得已经相当完善。

但论文一作Sebastien Bubeck后续在MIT发表演讲时透露了更多信息。

后来当OpenAI开始关注安全问题的时候,后续版本在这个任务中变得越来越糟糕了。

与人类对齐但并不降低AI自身能力上限的训练方法,也成了现在很多团队的研究方向,但还在起步阶段。

除了专业研究团队之外,关心AI的网友们也在用自己的办法追踪着AI能力的变化。

有人每天让GPT-4画一次独角兽,并在网站上公开记录。

从4月12日开始,直到现在也还没看出来个独角兽的大致形态。

当然网站作者表示,自己让GPT-4使用SVG格式画图,与论文中的TikZ格式不一样也有影响。

并且4月画的与现在画的似乎只是一样差,也没看出来明显退步。

最后来问问大家,你是GPT-4用户么?最近几周有感到GPT-4能力下降么?欢迎在评论区聊聊。

Bubeck演讲:
www.youtube.com/watch?v=qbI…
张弋访谈:
xyzfm.link/s/UfTan0
每天一个GPT-4独角兽
gpt-unicorn.adamkdean.co.uk

参考链接:
[1]news.ycombinator.com/item?id=361…
[2]twitter.com/nabeelqu/st…
[3]twitter.com/OfficialLog…
[4]discord.com/channels/97…
[5]twitter.com/mattshumer_…
[6]www.reddit.com/r/ChatGPT/c…
[7]help.openai.com/en/articles…
[8]twitter.com/fchollet/st…
[9]news.ycombinator.com/item?id=361…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/640298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gitlab+jenkins+harbor实现CI/CD(2)——初级

文章目录 一、docker git安装二、jenkins使用步骤创建项目在jenkins主机获取密钥 三、实时触发构建四、整合harbor仓库 一、docker git安装 git安装 yum install -y gitjenkins主机上安装docker-ce [rootvm6 yum.repos.d]# yum install -y docker-ce [rootvm6 ~]# systemctl…

01-抒写代码之诗:Golang 关键字的文学探索

📃个人主页:个人主页 🔥系列专栏:Golang基础 💬Go(又称Golang)是由Google开发的开源编程语言。它结合了静态类型的安全性和动态语言的灵活性,拥有高效的并发编程能力和简洁的语法。G…

chatgpt赋能python:Python如何开三次方根

Python如何开三次方根 Python是一种强大的编程语言,它被广泛用于数据科学、机器学习、Web开发和自动化等领域。在这篇文章中,我们将介绍如何用Python开三次方根。 什么是三次方根? 三次方根是一个数学术语,表示一个数的立方根。…

《统计学习方法》——条件随机场(上)

引言 这是统计学习方法第十一章条件随机场的阅读笔记,包含所有公式的详细推导。 条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。 建议先阅…

chatgpt赋能python:Python和SEO:如何通过Python编程获得更好的结果?

Python和SEO:如何通过Python编程获得更好的结果? Python已经成为SEO行业和数字营销领域中的热门工具。Python编程语言可以提高SEO结果,加快啮合速度并获得更好的结果。在本篇文章中,我们将介绍Python编程语言在SEO中的应用&#…

docker容器的介绍

目录 一、docker介绍和安装 官方网站:Docker: Accelerated, Containerized Application Development 下载docker引擎地址:Install Docker Engine | Docker Documentation 安装步骤 1、卸载原来安装过的docker软件,如果没有安装则可以不用…

Spring注解使用

文章目录 前言存储Bean对象① 配置扫描路径 -② 使用注解存储Bean对象Controller(控制器存储) 这里讲一下Spring的调用流程 及 注解的含义getBean里面的命名规则使用⽅法注解:Bean 获取Bean对象1. 属性注⼊属性注入的优缺点 2. 构造⽅法注⼊ (官方推荐)构造方法注入…

【c++】static和const修饰类的成员变量或成员函数

目录 1、静态成员变量 2、静态成员函数 3、常函数 4、常对象 当我们使用c的关键字static修饰类中的成员变量和成员函数的时候,此时的成员变量和成员函数被称为静态成员。 静态成员包含: 静态成员变量静态成员函数 1、静态成员变量 静态成员变量有…

window系统:python3 + auto-py-to-exe 打包playwright为exe,内含独立浏览器

auto-py-to-exe的使用参考一下链接: 链接: python—auto-py-to-exe—.py文件打包成.exe文件最全最详细(用不同的类别做教程) 1、使用auto-py-to-exe打包playwright成exe,运行之后运行一直报错:FileNotFoundError: [Wi…

Java-API简析_java.lang.Character类(基于 Latest JDK)(浅析源码)

【版权声明】未经博主同意,谢绝转载!(请尊重原创,博主保留追究权) https://blog.csdn.net/m0_69908381/article/details/131178778 出自【进步*于辰的博客】 其实我的【Java-API】专栏内的博文对大家来说意义是不大的。…

OJ: Digit Primes

目录 1.题目 2.中文翻译 3.代码 4.代码中部分程序段思路详解 4.1 素数判定高效率代码: ​编辑 4.2 最小的素数是 2 4.3 python中如何计算一个数各个位的和 1.题目 题目描述: A prime number is a positive number, which is divisible by exactly…

chatgpt赋能python:在Python中建立虚拟环境

在Python中建立虚拟环境 在Python编程中,建立虚拟环境是一项非常重要的工作。虚拟环境不仅可以避免不同版本的库之间的冲突,还可以使我们更好地控制项目的依赖关系。在本文中,我们将介绍如何使用Python建立虚拟环境。 第一步:安…

Jmeter参数化方式

前言:什么是参数化? 把测试数据组织起来,用不同的测试数据调用相同的测试方法(实现测试数据跟测试脚本分离)。 一、用户定义的变量: 1、作用:定义全局变量 2、局限性:每次取值都是…

chatgpt赋能python:Python建模型指南

Python建模型指南 Python是一种功能强大的编程语言,以其优雅的语法和丰富的库而闻名。而且,Python也是机器学习、人工智能和数据科学领域的首选语言之一。在本文中,我们将学习Python中如何建模型。 什么是建模? 建模是指使用统…

【MySQL数据库 | 第十七篇】索引以及索引结构介绍

目录 前言: 索引简介: 索引结构: 二叉树索引结构 Tree(普通二叉树) B-Tree(多路平衡查找树) BTree 哈希索引数据结构 总结: 前言: 在实际生活中,我们对SQL语句进行优化实际上有…

Linux,看这篇就够了

Linux 一、为什么要学linux二、目录介绍三、vi / vim编辑器四、网络配置4.1、修改 IP 地址4.2、配置主机名4.2.1、修改主机名称4.2.2、修改 hosts 映射文件 五、系统配置5.1、service 服务管理5.2、systemctl5.3、防火墙5.4、关机重启命令5.5、查看系统内核与版本 六、常用命令…

一分钟学一个 Linux 命令 - cat 和 tail

前言 大家好,我是 god23bin。今天我给大家带来的是 Linux 命令系列,每天只需一分钟,记住一个 Linux 命令不成问题。今天,需要你花费两分钟时间,因为我们要介绍的是两个常用的查看文件内容的命令:cat 和 ta…

动态规划-背包问题(三)

动态规划-背包问题(三) 1 描述2 样例2.1 样例 1:2.2 样例 2: 3 算法解题思路以及实现方法3.1 算法解题思路3.1.1 确定状态3.1.2 转移方程3.1.3 初始条件以及边界情况3.1.4 计算顺序 3.2 算法实现3.2.1 java实现的O(MN)算法复杂度3.2.2 C实现的O(MN)算法复…

Lua基本语法

目录 1 lua基础数据结构 2 Lua 变量 3 Lua 循环 3.1 Lua while 循环 3.2 Lua for 循环 数值for循环 泛型for循环 3.3 Lua repeat...until 循环 3.4 Lua 循环嵌套 3.5 循环控制语句 Lua break 语句 Lua goto 语句 4 Lua 流程控制 4.1 Lua if 语句 4.2 Lua if...else 语…

04-编织灵魂旋律:Golang 函数的魔力绽放

📃个人主页:个人主页 🔥系列专栏:Golang基础 💬Go(又称Golang)是由Google开发的开源编程语言。它结合了静态类型的安全性和动态语言的灵活性,拥有高效的并发编程能力和简洁的语法。G…