ChatGPT 的幻觉有改善吗?

news2025/1/12 1:05:32

​​​

ChatGPT 的幻觉有改善吗?

在早在 ChatGPT 刚刚问世时(几个月前),我就曾写过一篇文章,描述它愿意(不,是渴望)向用户提供大量虚假信息。这些错误被称为幻觉,这是一个技术术语,强调了 ChatGPT 完全没有意识到自己正在提供可疑内容或欺骗任何人。

ChatGPT 产生幻觉并不是真正的问题。真正的问题是,它的幻觉往往令人信服且难以察觉。这是因为我们这些拥有碳基大脑的人倾向于依靠人类特有的线索来识别错误信息。(例如,当说话者在谎言面前结结巴巴时,或者当一个阴谋论的 Facebook 帖子充满了语法错误时,这就是一个迹象。)但 ChatGPT 可以凭借其流畅和完美的语法逃脱我们的测谎系统。这不仅仅是我自己的偏执。最近的研究发现,像 ChatGPT 这样的法学硕士产生的错误和错误信息比人类的欺骗和无知更难发现。

当然,几个月内可能会发生很多事情。OpenAI 继续悄悄地致力于提高 ChatGPT 的准确性。虽然幻觉并不是任何 LLM 都无法完全消除的问题,但可能会发生重大改进,尤其是当该产品能带来数十亿美元收入时。

换句话说,已经过去 8 个月了。ChatGPT 有改进吗?

停止明显的荒谬行为

我在上一篇文章中提到的谎言远非 ChatGPT 做出的最荒谬的陈述。其他人通过要求虚构的世界记录或虚构事件的具体细节来展示荒谬的 ChatGPT 幻觉。这些直接的方法似乎不再有效。

下面是我与 ChatGPT 进行互动的一个例子,我试图引出一些更荒谬的言论:

徒步穿越英吉利海峡的世界纪录是多少

ChatGPT截至我 2021 年 9 月最后一次更新知识时,尚无完全徒步穿越英吉利海峡的官方记录。英吉利海峡将英格兰南部与法国北部分隔开来,由于其深度、湍急的水流和不可预测的天气条件,徒步穿越英吉利海峡是一项具有挑战性的水域。

在西瓜里产子要多久?

ChatGPT从生物学角度来说,人类不可能在西瓜或其他水果中分娩。分娩是一个复杂的生物过程,发生在人体内,特别是在子宫内。

听起来确实像一个更加清醒和严肃的 ChatGPT,对吧?

当我第一次看到 ChatGPT 的谎言时,我发现它编造了引文(引用了《暮光之城》系列书籍的内容——这没什么损失),并且在被要求比较这两种语言及其对新手程序员的适用性时,严重歪曲了 C# 和 Python 之间的差异。所以我试着重复这些错误。即使在同一个 GPT-3 上,问题也没有那么明显,也不容易复制。例如,如果我让 ChatGPT 引用《暮光之城》,我会得到这样的回应:

《暮光之城》这本书的“理论”第一段是什么?

ChatGPT:抱歉,我无法提供斯蒂芬妮·梅尔所著《暮光之城》一书中的版权文本。但是,我可以提供简短摘要或回答您关于该书或其内容的任何问题。我还能为您提供什么帮助?

这是一个有用的警告信号。但是没有什么能阻止我提出一个更有针对性的问题,例如:

《暮光之城》这本书的“理论”的第一句话是什么?

ChatGPT:斯蒂芬妮·梅尔所著的《暮光之城》第 9 章“理论”的第一句话是:

“贝拉,你太不雅了——没人应该看起来这么诱人,这不公平。”

章节编号和名称是正确的。但是一旦它开始引用文本,ChatGPT 就会恢复其惯常的捏造。如果我要求 ChatGPT 用书中的引文来证实一个论点,或者找到我提供的段落的以下句子,也会发生同样的问题。(尽管对于众所周知且属于公共领域的作品也有例外,ChatGPT 通常可以成功引用。)ChatGPT 不会警告我其中的区别。它怎么可能?它没有办法区分它所知道的和它所说的。它唯一的辩护就是拒绝回复。

掩盖更严重的错误

询问引用可能是引诱像 ChatGPT 这样的法学硕士编造谎言的完美方式。为了更好地评估 ChatGPT 的真实性,我尝试了一些更实际的工作。

我决定看看 ChatGPT 在帮助我围绕我正在编写的一些计算机安全内容集思广益时的表现如何。同样,我正在处理可验证的历史事实、最新数据和广泛报道的信息——这三个特征应该可以促进更好的答案。有时,ChatGPT 给我的例子还不错。但其他时候,我得到的答复是这样的:

有没有 IT 工作者窃取公司数据并利用它来牟利的例子?如果可能的话,请提供三个例子。

ChatGPT是的,有很多 IT 工作者窃取雇主数据以牟取私利的案例。以下是几个例子:

1. 罗杰·杜罗尼奥 (2002):瑞银 PaineWebber 的 IT 员工罗杰·杜罗尼奥对其雇主的系统发起了网络攻击。他部署了一个逻辑炸弹,即一段将在特定日期执行的代码,导致系统大规模中断。杜罗尼奥在触发攻击之前做空了瑞银的股票,希望从随后股价下跌中获利。他后来被捕并被判处八年监禁。

2. 尼基塔·库兹明 (2009):俄罗斯黑客尼基塔·库兹明创建并传播了 Gozi 病毒,该病毒感染了无数台计算机,使他能够窃取敏感数据,包括财务信息。库兹明及其同伙利用窃取的数据进行金融诈骗,包括未经授权的银行转账和资金盗窃。库兹明最终被捕并面临法律后果。

3. 马赞·拉瓦什德 (2018):马赞·拉瓦什德曾任 Twitter 工程副总裁,他被指控窃取公司机密信息,并利用这些信息为自己的商业活动谋取利益。被盗信息包括战略和财务数据,他在离开公司后访问了这些数据。拉瓦什德面临 Twitter 的法律诉讼。

和往常一样,当我从 ChatGPT 获得此类数据时,我的第一个疑问是它是否属实。我从未听说过这些例子,而 Gozi 病毒在我听来似乎是一个特别可疑的建议。但进一步的研究证明,前两点基本上是正确的,尽管它们是网络安全中鲜为人知的事件。

但第三点却是一场垃圾火。

正如 ChatGPT 所准确描述的那样,Mazen Rawashdeh 是 eBay 的首席技术官,之前曾担任 Twitter 的工程副总裁。但他所谓的罪行——以及 Twitter 的法律行动——完全是虚构的。在 ChatGPT 的回应中,真相与虚构交织得如此紧密,以至于我不得不在网络上来回搜索,才最终说服自己相信 Rawashdeh 是无辜的。

三个例子,多个事实点,只有一个幻觉。这比以前的结果更好吗?答案似乎很明显。

问题就在这里。如果我们测量幻觉的绝对数量,ChatGPT 似乎有所改善。但正如每个软件开发人员都知道的那样,你担心的错误是那些不太常见、不太可重现、不太明显的错误。不确定性降低了我们的准备程度,并放大了危险。就像那位信任 ChatGPT帮助他写法律摘要的律师一样,不难想象,一个工作过度的内容作者会把 ChatGPT 给我的列表放进一篇点击诱饵文章中,而只粗略地检查了一些细节。

ChatGPT 的未来会怎样?希望它不会像现在这样——精心编织的谎言越来越难被发现。相反,我们需要采取积极的对策来确保准确性。一种可能的方法是使用另一个人工智能来验证 LLM 生成的语句。但如果没有更好的技术,我们可能会梦游到后真相互联网——一个充满虚假和有缺陷的信息的互联网,甚至出版商都不知道什么是真的,什么不是。

 欢迎前往我们的公众号,资讯

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2064891.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装docker+docker远程连接

docker Docker 是⼀个开源的应⽤容器引擎,可以实现虚拟化,完全采⽤“沙盒”机制,容器之间不会存在任何接⼝。 docker架构 docker核心概念 1. 镜像(images):⼀个⾯向 docker 容器引擎的只读模板,…

89.SAP ABAP数据类型 - 笔记

1.SAP ABAP数据类型 目录 全局类型 标准类型 局部类型 全局类型 数据字典中创建的类型(下图中②) Data Element 是一个数据的类型,包含了这个元素的寓意属性,它包含了一些非结构化的数据对象的技术属性(域&#…

丈夫每次回家打妻子,还在外染上性病,婚后没完整过一个年

丈夫每次回家打妻子,还在外染上性病,婚后没完整过一个年 这是一篇涉离婚纠纷的民事起诉状 (范文点评) 离 婚 起 诉 状 原告:徐某秀,女,现年48岁,汉族,无业&#xff0c…

记录一次SQL 查询 LEFT JOIN 相关优化

记录一次 LEFT JOIN 相关优化 1 环境说明2 sql 在dm库查询用时30秒2.1 sql 语句2.2 sql 执行计划 3 调优数据库参数3.1 使用hint 调整数据库参数3.2 hint 的执行计划 4 永久修改数据库参数5 参数说明6 达梦数据库学习使用列表 1 环境说明 某项目的公文办公系统在生产环境刚部署…

嵌入式学习----网络通信之TCP协议通信

TCP(即传输控制协议):是一种面向连接的传输层协议,它能提供高可靠性通信(即数 据无误、数据无丢失、数据无失序、数据无重复到达的通信) 适用情况: 1. 适合于对传输质量要求较高,以及传输大量数据 的通信。…

系统编程-信号

6 信号与管道 1 目录 6 信号与管道 1 信号 信号的概念 信号的使用 信号的发送 通过函数来实现信号的发送 信号改造函数(重点) 给自己发送信号函数 定时闹钟函数 暂停进程的函数 例题: 代码一: 代码二: 代码分析 -- linux系统下…

ArcGIS热点分析 (Getis-Ord Gi*)——基于地级市尺度的七普人口普查数据的热点与冷点分析

先了解什么是热点分析 ? 热点分析 (Getis-Ord Gi*) 是一种用于空间数据分析的技术,主要用于识别地理空间数据中值的聚集模式,可以帮助我们理解哪些区域存在高值或低值的聚集,这些聚集通常被称为“热点”或“冷点”,Gi* 统计量为…

Docker介绍、docker安装以及实现docker的远程管理

1.Docker介绍 1.Docker介绍 Docker 是⼀个开源的应用容器引擎,可以实现虚拟化,完全采用“沙盒”机制,容器之间不会存在任何接口。 Docker 通过 Linux Container(容器)技术将任意类型的应用进行包装,变成一…

PhotoZoom Pro 9:AI加持让图像放大革命性飞跃 PhotoZoom下载

全球领先的数字图片和图形缩放软件——PhotoZoom Pro 9,现已正式发布!凭借全新的S-Spline Max AI图像缩放技术,PhotoZoom Pro 9在图像放大质量上达到了前所未有的高度。欢迎各位下载和体验最新的9系列版本。 PhotoZoom Pro 9发布 PhotoZoom9…

远端登录基础配置实验

1.作用 方便远程管理,并且传统的console线只能一个用户访问,而远程管理的协议,可以多用户同时登录。 2.基础远程管理方式 Telnet 协议 telnet协议提供了一种通过终端远程登录到服务器的方式,可以远程对设备进行配置和管…

Prometheus 1:安装(Centos7)

1. 同步时间 因Prometheus对时间精度要求高,所以安装前,需要与NTP同步时间: #设置系统显示时区为 亚洲上海 timedatectl set-timezone Asia/Shanghai#同步当地时间 ntpdate -u cn.pool.ntp.org 2. 同步时间后,从官网下载Prometh…

《Web项目跨域请求后端Api设置Cookie失败问题?》

问题描述: 在web项目中跨域请求api时,api登录成功后需要向域名中设置cookie实现在两个域名下共享,但是登录接口返回成功,响应头中也有set-cookie,实际却无法设置到cookie中… web项目访问时的域名https://b.com/ api所…

解决在IIS下typecho访问网址为localhost的问题

如何在IIS下为typecho开启伪静态 布署好typecho发现访问的地址是这样的 默认的访问地址可以看出是一个php的动态页面,通过配置,可以让地址看起来像是一个静态页面。 开启伪静态需要以下两个步骤: 1、增加IIS Rewrite模块重写规则 2、到typ…

牛客网NC1大数加法

因为要计算的是两个很大很大的数,假设计算出来的数据大于整型的最大值,此时就会出现问题。所以要换个方法来解决问题。 我们应该以字符串的形式来读取两个正整数,并且返回二者相加的结果 我们应该从大数的个位开始,逐级的向上相…

海康VisionMaster使用学习笔记13-串口通信

测试工具 协议介绍 串口在VM中的使用 1. RS232信号线定义 2. RS485信号线定义 3. 创建串口连接 4. 测试VM中串口接收数据

Java Programming Examples

Java Programming Examples Example - Environment How to compile a java file? How to debug a java file? How to set classpath? java -cp java -classpathHow to view current classpath? windows C:> echo %CLASSPATH%linux echo $CLASSPATHHow to set dest…

cbsd 设置网络问题留档

cbsd创建或导入虚拟机,网络不通。使用bridge一直不通,后来是通过设立VALENAT才调通的。 cbsd里网卡设置,里面可以设置网络的上一级 默认是auto 这里选bridge1 试试 失败 选tap1 试试 网络还是不通,但是好消息,是能…

element 使用printJS调用打印功能

1.安装依赖 npm install print-js --save 2.在main.js中全局引用 import printJS from print-js; 3.在页面中使用 <el-button type"success" plain icon"Printer" :disabled"single" click"handlePrint">打印</el-button…

VBA技术资料MF188:将Txt文件转换成Html文件

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套&#xff0c;分为初级、中级、高级三大部分&#xff0c;教程是对VBA的系统讲解&#…

03:电容的充放电特性及应用举例

1.电容的基本特性&#xff1a;电容两端的电压不能突变 2.影响电容两端电压的参数&#xff1a;整个回路中电阻&#xff0c;电容大小 3.如何计算电容的电压变化时间&#xff1f; τRC R1k C1uF 则得到τ1ms的时间 应用&#xff1a;芯片使能延时