探究ChatGPT与GPT-4的缺陷不足,揭示大预言LLM模型的局限性——没有完美的工具

news2024/10/6 20:29:30

目录

  • ChatGPT与GPT-4的缺陷不足——任何工具都不是万能的
    • 1. 引言
    • 2. 事实性错误
      • 2.1 问题示例
      • 2.2 原因分析
      • 2.3 解决方法
    • 3. 实时更新
      • 3.1 问题示例
      • 3.2 原因分析
      • 3.3 解决方法
    • 4. 总结
  • 参考资料
  • 其它资料下载

在这里插入图片描述

ChatGPT与GPT-4的缺陷不足——任何工具都不是万能的

1. 引言

  2022 年末 ChatGPT 的横空出世,在整个自然语言处理乃至人工智能领域都掀起了一阵海啸。自席卷全球以来便引起各行各业空前的热度,数亿用户震惊于 ChatGPT 的强大智能,感慨机器智能的飞速革新,研究背后的关键技术革新,然而这并不代表 ChatGPT 已然完美无瑕,从业者们则更多在思考当前 ChatGPT 亦或是预训练大模型存在哪些缺陷。 诚然 ChatGPT 的效果一度惊艳到众人,但仍未脱离深度预训练大模型的范式,更多是一个工程上的突破性进展,因此其缺点也并不难发现。本章主要指出其两大大明显缺点:生成文本包含事实错误,无法做到实时更新。至于其他一些能否做到类人思考等问题仍存在争议,本文就不作赘述。

  很多用户在使用中时常会碰到诸如事实错误这些问题,对于铺天盖地的炒作,很多不明就里的外行发出了“就这?”的疑问。实际上,ChatGPT 乃至正在推出的 GPT-4 以及未来的 GPT-5 等等,是近几十年人工智能研究范式的集大成者;当我们了解了神经网络的发展历程,了解了大模型的百花齐放,了解了从 GPT、GPT-2、BERT、GPT-3 的日新月异及其背后的大公司的争相角逐,再看看 ChatGPT 的飞跃式进步,就会觉得这项技术是人工智能发展史上无可非议的里程碑式成就,这种宏观意义已经远远无需拘泥于是否答对某个问题了。

  本文介绍 ChatGPT 的一些缺点,并非是为了“挑刺”或者对 ChatGPT 被捧得神乎其神的能力进行抬杠,而是为了让读者对这项技术有更立体的认识,不要被媒体一些流量标题所“迷惑”,客观认识当前最先进人工智能距离人类智能的差距;同时也是给想要从事自然语言处理研究的同学指出一些方向,让大家明白,革命尚未成功,同志仍需努力。

2. 事实性错误

2.1 问题示例

  作为当前人工智能产品的巅峰代表,ChatGPT 并不是永远都能那么“睿智”;尽管在 一些高难度问题上展现了超越人类的水准,然而对于一些老幼皆知的简单问题,ChatGPT 也往往会给出一些离谱至极的回答,一本正经的胡说八道,让人汗颜,也难怪大家会发出“就这”之类的感慨。如下图所示:
在这里插入图片描述
在这里插入图片描述

  这种事实性错误的存在无疑增加了应用落地的风险,尤其对医学,金融等非闲聊场景,轻则造成经济损失,重则威胁生命安全,因此消除对话模型中的事实错误成为了工业界和学术界的共同需求。

扩展:在 NLP 学术界,这种事实性错误一般统称为“幻觉”(Hallucination),顾名思义,该术语最早用于图像合成等领域,直到后来描述诸如图像检测时检测到虚假或错误目标等现象,才沿用至自然语言生成 (NLG) 任务,指模型生成自然流畅,语法正确但实际上毫无意义且包含虚假信息即事实错误的文本,以假乱真,就像人类产生的幻觉一样。

2.2 原因分析

  对 ChatGPT 之类的语言模型本身而言,在海量的文本数据上训练后,主要学到的知 识包含语言学知识和事实性知识(或称为世界知识)两类,语言学知识是为了能生成语法正确,自然流畅的文本,大部分经过处理的训练数据都是严格文法正确的,对于大模型来说,学习语言知识并非难事,而事实性知识则主要为实体之间的关联,相对而言复杂的多,即使对人类而言,也无法学习全部的事实知识。

  语言模型中的先验知识都来自于训练语料,用于训练语言模型的大数据语料库在收集时难免会包含一些错误的信息,这些错误知识都会被学习,存储在模型参数中,相关研究表明模型生成文本时会优先考虑自身参数化的知识,所以更倾向生成错误内容,而具体的生成过程仍是一个黑盒模型,很难逐个分析错误来源,也就造成生成任务中大量事实错误。

  相较其他自然语言生成任务,构建 ChatGPT 这种对话模型需要根据用户话语和对话 历史生成流畅连贯,且满足用户对话需求的合理回复。对话模型可以简单用以下因果图来表示:

在这里插入图片描述

  生成的回复 Y Y Y 由对话上下文 X X X 和语言模型里的先验知识 K K K 共同决定。在对话模型研究中,描述这些事实错误有个更通用的术语——称为“不一致”,一般可分为两种:第一种是事实不一致,就是生成回复 Y Y Y 与世界知识 K K K 相悖;另一种是对话历史不一致,一般来自于历史信息 X X X 的遗忘,与已生成回复相矛盾,以及在人设对话中人设信息会发生变化的现象,在多轮对话中,这种问题很常见。

2.3 解决方法

  根据前文分析,针对两种不一致问题需要找到相对应的方法。关于上下文不一致,由于当前所用的大模型能够接受很长的输入,这个问题造成的影响不大;而另一种事实不一致则相对很难解决,造成事实错误的首要因素是训练数据,那么构造干净的数据集进行去噪显然是一条可行的方法。由于预训练数据多为网上收集的句子,一般都需要提前过滤、修改语法、解决指代不明或事实错误,确保语言模型能学习到事实准确的知识,另外也可以用 Wikipedia 这样的知识库或其他三元组表示的知识来对语言模型的进行知识增强, 这些数据都是公认的包含世界知识的准确数据,对于降低干扰有很大帮助。

  数据方法涉及到人工构造,也就意味着成本较高,所以学术上更加关注使用其他方法,对模型架构、训练或解码推断进行优化,近年来相关研究也是层出不穷,在知识对话中,模型幻觉最大来源是外部知识选择不正确,因此用更强的检索模型搜索知识,返回更加有用的知识,也是消除对话回复幻觉的有效途径之一。此前发布的 ChatGPT 并不具备检索能力,其模型内部的隐式知识已然非常强大,一旦可以进行检索,结合网络中海量的数据,就可以做到实时学习,并更新模型内部过期的知识,这对模型效果的进一步提升也是相当可观的。

  当前对话模型更多关注在开放域场景,合理的回复往往不唯一,这意味着在训练阶段很难制作标签,同时在推理时模型也比较容易“放飞自我”,生成千奇百怪的回复结果,其中难免调用一些错误的知识。针对这种“一对多”的场景,很多研究致力于探索对话模型的可控生成,通过添加一些控制因素,使生成文本满足一定的约束。提示学习(Prompt Learning)本身就是一种在输入上加入可控因素从而引导正确的生成,这已经成了最新流行的范式;另外在解码阶段,也可以适当调整策略对生成的多条候选回复结果重新排序,尽可能选择出包含目标词汇的回复结果,控制生成内容。

3. 实时更新

3.1 问题示例

  关于 ChatGPT 时效性的问题,也在使用中司空见惯了,去年发布的 ChatGPT 只更新至2021年9月之前的信息,虽然 ChatGPT 加了检测机制对回答不了的问题直接“摊牌”(图3),但在人类“诱导”下,还是会忍不住一本正经的胡说八道(图4),这就涉及到时效性的问题了。

在这里插入图片描述
在这里插入图片描述

3.2 原因分析

  正如前文所分析,语言模型的信息都来自于训练数据,经过训练后这些知识会以参数化的形式存储在模型中,在往后的使用中都是基于已学习的知识来交互,因此模型本身并不会学习到新知识,在某一轮对话中通过给出适当的实时提示也许会展示出拥有学习新知识的能力,一旦重新开启对话将历史遗忘,ChatGPT 立即会返回最本真的状态。正如 ChatGPT 自身所言:

在这里插入图片描述

  那么对 ChatGPT 进行实时参数更新呢?这就涉及到另一个计算成本的问题了。深度学习目前朝着大模型大数据的方向发展已成必然趋势,甚至大模型涌现能力还会激发研究者们继续“疯狂氪金”堆参数;如今各大公司纷纷推出自己动辄便数千亿级参数量的模型,所用数据更是无法统计,尽管语言模型并非监督训练,但数据过滤,人工反馈等阶段还是需要高昂的人力成本;这样超大模型加海量数据的组合,每次训练都需要耗费数百万美元,用数千台 GPU 来完成,即使后续更新时并不需要从头训练,但花费依旧不菲,并不是一个可持续性的策略,没点财力的公司,是根本养不起的。

3.3 解决方法

  针对 ChatGPT 这种超大模型的实时更新问题。首先最直接的方法就是降低微调更新数据时的成本,由于预训练过程中已经学到大量语言学知识和其他先验世界知识,所以我们可以使用一些参数高效的方法只更新部分参数来学习新知识,此前研究表明,文本的语言学知识多存储在模型的低层网络,所以在微调更新时可以冻结中低层的模型参数,从而加速学习。

  ChatGPT 不能实时更新,是因为当前的深度学习范式在结束训练后就是一个静态的模型了,而人类则是终生都在动态学习,所以我们也希望能赋予它“活到老,学到老”的觉悟。那么我们是否可以让 ChatGPT 学习使用各种 API 的能力,自行处理数据然后自我迭代更新,实现闭环式学习达到时效性的目的呢?微软所推出的 new bing 搜索引擎,以对话形式精准查询用户的需求,实现了对话模型与海量网络信息的联动;ChatGPT 并不是搜索引擎,但可以和搜索引擎结合对查询做优化,或许会颠覆整个互联网的搜索模式, 而 ChatGPT 本身也就具备了访问这些最新数据的能力,这也许是未来大模型的新赛道。

4. 总结

  21 世纪一定是属于人工智能的时代,如果说深度学习引起学术界 AI 研究的热度, ChatGPT 的问世则无疑推向第一个小高潮,但简单了解过其原理后就会发现,这项技术并没有想象中的人类智慧那样复杂,更遑论毁灭人类的能力了,我们应当理性看待这一技术,不需要过度神化吹捧,也没必要过分苛责,在真正实现通用人工智能的路上仍然任重而道远。

参考资料

ChatGPT的不是万能的

其它资料下载

如果大家想继续了解人工智能相关学习路线和知识体系,欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线,所有资料免关注免套路直接网盘下载》
这篇博客参考了Github知名开源平台,AI技术平台以及相关领域专家:Datawhale,ApacheCN,AI有道和黄海广博士等约有近100G相关资料,希望能帮助到所有小伙伴们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/539658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

借助TeeChart 图表控件,这家公司轻松创建了可视化图表看板

TeeChart for .NET是优秀的工业4.0 WinForm图表控件,官方独家授权汉化,集功能全面、性能稳定、价格实惠等优势于一体。TeeChart for .NET 中文版还可让您在使用和学习上没有任何语言障碍,至少可以节省30%的开发时间。技术交流Qqun&#xff1a…

版本控制工具之Git使用文档

以下讨论基于gitlab系统作为代码仓库。 项目Git初始化 创建一个空的git库或者初始化一个旧有git仓库 git init 现有项目关联到远程仓库 git remote add origin git172.16.200.39:public-team/spring-learn.git 下载代码 git clone <仓库地址> 查看已关联远程仓库 …

脑的物理系统

⼤脑模块化 人脑是一个复杂的网络&#xff0c;一般将大脑划分为不同的区域&#xff08;即节点&#xff09;&#xff0c;并使用某种方法表征大脑区域之间的关系&#xff08;即连接的边&#xff09;来构建人脑网络。在功能磁共振成像&#xff08;fMRI&#xff09;数据的网络模型…

浪涌保护器:保护电子设备免受雷击侵害

引言&#xff1a; 随着电子设备在现代生活和工业领域的普及和广泛应用&#xff0c;雷击对电子设备的损害成为一个严重的问题。浪涌保护器作为一种重要的防雷设备&#xff0c;发挥着至关重要的作用。本文将介绍浪涌保护器的防雷作用、行业应用&#xff0c;并重点介绍浪涌保护器…

SPI接口协议详解

一、SPI总线简介 SPI总线是摩托罗拉公司开发的一种高速、全双工、同步的通信总线&#xff0c;它通常由四条线组成&#xff1a; CS 片选信号SCLK 时钟信号MOSI 主机输出从机输入接口MISO 主机输入从机输出接口 SPI分为主机和从机&#xff0c;主机提供通信所需的时钟信号。 二…

盘点那些让人笑疯了的520创意文案!

520&#xff0c;一场关于爱情和狗粮的龙卷风快来了&#xff1a; 玫瑰花&#xff0c;涨价了&#xff1b; 民政局&#xff0c;周末要加班&#xff1b; 肯德基&#xff0c;推出了萌宠玩具套餐&#xff1b; 很多人&#xff0c;站在风里等那没影儿的爱情。 今天原本计划是要写一…

【JAVA程序设计】(C00137)基于SSM(非maven)的校园BBS论坛系统

基于SSM&#xff08;非maven&#xff09;的校园BBS论坛系统 项目简介项目获取开发环境项目技术运行截图 项目简介 本项目为基于SSM的校园BBS论坛管理系统包含前后台&#xff0c;前台为普通用户登录&#xff0c;后台为管理员登录&#xff1b; 管理员角色包含以下功能&#xff1…

使用taro+canvas实现微信小程序的图片分享功能 | 京东云技术团队

业务场景 二轮充电业务中&#xff0c;用户充电完成后在订单详情页展示订单相关信息&#xff0c;用户点击分享按钮唤起微信小程序分享菜单&#xff0c;将生成的图片海报分享给微信好友或者下载到本地&#xff0c;好友可通过扫描海报中的二维码加群领取优惠。 使用场景及功能&a…

网站在腾讯云备案的要求条件说明

腾讯云网站备案要求首先你有一个需要备案的域名&#xff0c;域名实名认证信息和备案主体相同&#xff1b;在腾讯云有一台符合备案条件的云服务器、轻量应用服务器等云产品&#xff1b;然后根据备案主体所在省份地区&#xff0c;符合当地的通信管理局要求。下面腾讯云百科来详细…

相见恨晚的Matlab编程小技巧(4)-程序运行太慢了咋解决——合理使用循环语句(2)

上一篇博客介绍了通过向量化运算、预分配空间两种常用的方式提高代码的运行效率。实际上&#xff0c;matlab还有几种内置函数来避免循环语句的使用&#xff0c;分别为arrayfun、cellfun以及structfun函数。由于这几种函数需要用到匿名函数以及函数句柄的概念&#xff0c;很多人…

厚积薄发|迭代为什么叫冲刺?

上士闻道&#xff0c;勤而行之&#xff1b;中士闻道&#xff0c;若存若亡&#xff1b;下士闻道&#xff0c;大笑之。不笑不足以为道。–《道德经》 软件工程从原始的作坊式工作方式&#xff0c;经过了哪些思考、哪些方案的试探&#xff0c;才在不断地尝试与改善后&#xff0c;走…

E. Border(裴蜀定理)

Problem - E - Codeforces 太空人纳塔莎抵达了火星。她知道火星人非常贫穷。为了保障火星公民更好的生活&#xff0c;他们的皇帝决定向每个游客征收税费。纳塔莎是地球的居民&#xff0c;因此她必须支付进入火星领土所需的税费。 火星上有n种纸币面额&#xff1a;第i种纸币的面…

TTL、 RS-232,RS-485的区别

TTL、 RS-232&#xff0c;RS-485的区别 参考:【gt】TTL&#xff0c; RS-232&#xff0c;RS-485的区别 前言&#xff1a;串口、UART口、COM口、USB口是指的物理接口形式(硬件)。而TTL、RS-232、RS-485是指的电平标准(电信号)。 TTL &#xff1a;全双工 &#xff0c;逻辑0对应…

深度学习实战30-AIGC项目:自动生成思维导图文件,解放双手

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下深度学习实战30-AIGC项目&#xff1a;自动生成思维导图文件&#xff0c;解放双手&#xff0c;思维导图是一种常见的工具&#xff0c;用于将复杂的信息和概念以图形化方式展示出来。AIGC项目旨在将这种思维导图的创建…

GNU C 语言的常用扩展

本文摘自《奔跑吧 Linux 内核&#xff08;第二版&#xff09;》2.2 Linux 内核中常用的 C 语言技巧 读到这本书的这一小节时&#xff0c;感觉其中不少技巧在项目中有遇到过&#xff0c;有必要做个笔记&#xff0c;方便以后查阅。 文章目录 前言1.语句表达式2.变长数组3. case 的…

Linux内核(十五)sysrq 详解 II —— 代码框架详解

文章目录 sysrq模块初始化流程图sysrq模块代码详解sysrq产生kernel crash事件流程sysrq 整体框架图sysrq 框架中添加自定义实例 Linux 版本&#xff1a;Linux version 3.18.24 sysrq模块初始化流程图 sysrq模块源码路径&#xff1a;linux-3.18.24.x/drivers/tty/sysrq.c 编译…

Unity3D :Animator Controller

推荐&#xff1a;将 NSDT场景编辑器 加入你的3D工具链 3D工具集&#xff1a; NSDT简石数字孪生 Animator Controller Animator Controller 允许您为角色或对象安排和维护一组动画剪辑以及关联的动画过渡。在大多数情况下&#xff0c;拥有多个动画并在满足某些游戏条件时在这些…

就业内推 | 国企专场,HCIE、CCIE认证优先,最高20k*15薪

01 银河互联网电视有限公司 &#x1f537;招聘岗位&#xff1a;网络运维工程师 &#x1f537;职责描述&#xff1a; 1、负责IDC网络方向的运维服务&#xff1b; 2、负责日常紧急变更&#xff0c;撰写上线变更方案等文档工作&#xff1b; 3、负责应急问题处理、控制变更风险&am…

CAN周期波动优化方法

摘要&#xff1a; 如果遇到报文周期偏大的问题该从何下手&#xff0c;或者说有哪些解决办法呢&#xff1f; 对于车载控制器来说&#xff0c;CAN周期的波动通常是有严格的标准&#xff0c;国标要求如下&#xff0c;基于国标&#xff0c;各个主机厂在这一块稍微有些差异&#xf…

遇到系统无法访问此文件问题怎么办?

昨天我整理了一下自己喜欢的照片&#xff0c;然后将其分门别类地归纳起来&#xff0c;然后将其复制到了另一个硬盘做了一下简单的备份。后面又想到了之前在某篇文章中貌似提到过什么异地备份的说法&#xff0c;一想到自己的OneDrive中还有点空间&#xff0c;所以就想把它们存到…