14-46 剑和诗人20 – 减少幻觉的提示词工程

news2024/11/16 19:25:18

​​​​​

14-46 剑和诗人20 - 减少幻觉的提示词工程

概述

幻觉或“编造”是大型语言模型 (LLM) 的常见故障模式,它们会产生事实上不正确或无意义的内容。幻觉背后的一些主要原因是:

  • 当模型不确定真正的答案时,它会试图通过捏造信息来提供过度的帮助。
  • 该模型缺乏适当的基础、背景和常识来确定事实的错误。
  • 该模型尚未经过明确训练以避免虚假内容。

通过精心设计我们提供给这些模型的提示,可以降低人工智能产生幻觉的可能性。各种提示工程技术都侧重于引导模型产生更真实、更理性、更符合常识的反应。

让我们探索以下设计提示以减少幻觉的方法:

  1. 检索增强生成 (RAG)
  2. ReAct 提示
  3. 验证链 (CoVe) 提示
  4. 笔记链 (CoN) 提示
  5. 知识链(CoK)提示
  6. 其他高级提示技术

对于每种方法,我将概述该技术的工作原理、示例来说明提示结构以及优势和局限性的分析。到最后,您应该对减少 AI 幻觉的提示工程的当前最新技术有一个扎实的了解。

14-46 剑和诗人20 - 减少幻觉的提示词工程

检索增强生成 (RAG)

检索增强生成 (RAG) 系统将语言模型的功能与外部信息源相结合。其关键思想是在文本生成之前从知识库中检索相关上下文,以便将语言模型的输出建立在事实证据的基础上。

RAG 系统利用从知识源检索到的事实来增强语言模型。

RAG 通过确保所有生成的响应都有支持证据,而不是模型盲目推测,从而减少幻觉。如果没有找到上下文证据,系统可以诚实地承认无知。

让我们看一些例子来更好地理解 RAG 提示的实际作用。

第一台冰箱是什么时候发明的?

  • 1854年:苏格兰发明家詹姆斯·哈里森制造出第一台可工作的冰箱。他的乙醚蒸汽压缩制冷系统为现代机械制冷技术奠定了基础。

泰坦尼克号电影的女主角是谁?

  • 凯特·温斯莱特:她在詹姆斯·卡梅隆 1997 年执导的电影《泰坦尼克号》中扮演罗斯·德薇特·布卡特一角。莱昂纳多·迪卡普里奥也在这部电影中扮演杰克·道森一角。

在上面的 RAG 查询中,系统首先在知识源中查找相关事实,然后再生成响应。这样输出结果就以检索到的信息为基础,而不是让语言模型捏造不受支持的事实。

RAG 的优势

  • 融入外部知识以减少毫无根据的幻觉
  • 如果未找到上下文数据,则允许模型返回“未知”
  • 检索到的事实是锚定生成文本的强烈信号

RAG 的局限性

  • 需要大型数据集或知识库来查找上下文信息,创建和维护这些数据集或知识库的成本可能很高
  • 如果知识源本身包含错误或事实空白,则存在表面事实重复而无法进行更深入理解的风险
  • 与纯语言模型方法相比,扩展性较差

虽然 RAG 提示有助于通过检索事实减少幻觉,但当底层知识来源广泛、高质量且定期更新时,该技术最有效。使用多个互补的知识库也可以提供更高的稳健性。

反应提示

ReAct 或递归助手提示旨在以递归方式查询模型,了解其在每一步中的思维过程和置信度。主要目标是:

  1. 鼓励模型深入反思其推理,而不是冲动地做出反应
  2. 能够校准知识中的不确定性和表面差距
  3. 最终提高真实性并避免虚假内容

以下是 ReAct 提示的示例:

问:澳大利亚的首都是哪里?

答:澳大利亚的首都是堪培拉。

以 0 到 10 为标准,您对上述答案有多大信心?请清楚地解释您的理由。

该模型可能会回应:

9/10 置信度我非常确信澳大利亚的首都是堪培拉。作为一个主要发达国家,澳大利亚的首都是常识,我在训练数据中经常遇到。

我们可以进一步递归探究:

太好了,您能提供 1-2 个事实来源,证明堪培拉是澳大利亚首都吗?请引用具体参考资料。

模型可能会回答:

  • 我在地图、百科全书和培训中使用的世界各国首都数据集中看到堪培拉被列为澳大利亚首都。然而经过进一步思考,我没有具体的文本参考资料可以作为这个答案的事实证据。

缺乏具体的证据来源可能表明存在潜在的知识缺口。因此,我们可以重新表述最初的查询:

问:澳大利亚的首都是哪里?您可以引用哪些事实来源来肯定地证实这一点?

如果模型仍然无法提供外部验证的参考,它就会对其知识的局限性进行反省——减少虚假捏造的机会。

ReAct 提示的优势

  • 在模型的思维过程中建立递归透明度
  • 鼓励基于推理链的信心校准
  • 揭示知识差距以改进模型

ReAct 提示的局限性

  • 如果走极端,可能会导致对话乏味或低效
  • 不包含 RAG 系统等外部事实依据
  • 过度拟合模型的风险在于,它无法清晰地响应递归,也无法改善底层知识的完整性

虽然 ReAct 提示本身可能无法保证完全真实,但递归地质疑模型的信心和推理是一种减少盲目幻觉的有效方法。通过将 ReAct 询问与从外部知识源检索确凿证据相结合,可以使提示更加可靠。

验证链 (CoVe) 提示

验证链 (CoVe) 提示明确要求模型通过引用外部权威来源为其响应提供逐步验证。

该提示被表述为一系列可验证的逻辑推理,以得出最终答案:

{初始事实} -> 可验证地暗示 -> {逻辑推论 1} -> 可验证地暗示 -> {逻辑推论 2} -> … -> 可验证地暗示 -> {最终回应}

例如:

斯里尼瓦瑟·拉马努金 (Srinivasa Ramanujan) 出生于泰米尔纳德邦埃罗德 -> 可以证实意味着 -> 埃罗德是印度南部泰米尔纳德邦的一个城市 -> 可以证实意味着 -> 泰米尔纳德邦位于印度 -> 可以证实意味着 -> 斯里尼瓦瑟·拉马努金 (Srinivasa Ramanujan) 出生于印度

通过构建推理链,并在每一步都进行验证,CoVe 可以减少无根据的猜测。让我们分析一下这种方法的优点和缺点:

CoVe 提示的优势

  • 明确的验证要求最大限度地减少盲目猜测
  • 链式逻辑推理强化了系统性、结构化的思维
  • 逐渐揭示的背景使答案集中起来,没有离题的空间

CoVe 提示的局限性

  • 对于推理链模糊或复杂的问题,很难应用
  • 需要外部参考,但这些参考可能并不总是可用的
  • 可能导致过于严格的逐步语义

CoVe 技术牺牲了一些语言灵活性,以换取逻辑透明度。它对于具有相当线性推理流程的查询很有效,但对于需要更多非结构化推理的开放式分析来说,它可能变得乏味。

注释链 (CoN) 提示

注释链 (CoN) 提示旨在通过明确记录制定响应过程中遇到的背景、想法和差距来提高模型理解。

结构如下:

{初始问题}

注1:<模特最初的理解与想法>

注 2:<揭示任何知识差距>

注 3:<提供其他相关背景信息>

…不断演变的音符链……

最终答案:<回复包含注释中的完整推理>

例如:

法国大革命何时开始?

注1:法国大革命是指18世纪末期法国发生的一场影响深远的社会和政治动荡时期。我最初的理解是,这场革命最终导致了法国君主制的废除。

注 2:我手头没有确切的开始日期。我可能需要搜索外部资源来找到有关革命开始时间的准确信息。

注3:经过进一步分析,大多数历史记录都认为1789年是法国大革命开始的年份,以7月14日攻占巴士底狱为标志。

最终答案:法国大革命普遍接受的开始日期是 1789 年 7 月 14 日,当时抗议者攻占了巴黎巴士底狱,从而掀起了推翻路易十六国王并建立以自由、平等和博爱的启蒙原则为基础的共和国的革命势头。主要初始事件发生在 1789-1799 年期间。

笔记会追踪背景和空白,从而减少幻觉式的错误精确度。串联笔记还具有教育功能,可以提高模型对后续问题的评估能力。

CoN 提示的优点

  • 注释提供了模型演化推理的诊断线索
  • 揭示盲点,澄清开放与封闭的知识
  • 有机会融入更多背景信息以改善回应

CoN 提示的局限性

  • 可以显著增加每个查询的长度和时间
  • 暴露局限性可能会削弱对模型准确性的信心
  • 对清晰的不确定性描述过度拟合的可能性

CoN 方法本质上是用速度换取透明度。虽然冗长的内容可能会变得繁琐,但阐明背景和未知数可以为模型的即时理解提供有用的见解。需要进行额外的调整,以确保链式注释能够有效地改善底层知识的完整性。

知识链(CoK)提示

知识链 (CoK) 提示明确要求模型从专家知识链中获取其响应,以减少逻辑跳跃或错误推断。结构如下:

根据 <领域 1>、<领域 2>、<领域 3> 等专家的观点,{主题} 是:{根据引用的专家链得出的模型解释}

一些例子:

气候科学家、海洋生物学家和保护生物学家认为,全球变暖对北极生态系统的影响是:{引用专家领域观点的模型响应}

密码学专家、用户体验设计师和政策策略师认为,安全密码的最佳实践是:{从专业知识链构建模型响应}

链接领域专业知识来源就像一种同行评审,迫使模型将其响应置于既定知识中。在检查与跨多个领域的专业权威的一致性时,更容易出现不受支持的观点或错误的推论。

让我们分析一下这种 CoK 方法的优缺点:

CoK 提示的优势

  • 迫使人们从经过验证的专家那里获取信息,而不是不可靠的意见
  • 链接专家提供“群体智慧”事实核查
  • 理解与专业知识的结合可以减少推测性错误

CoK 提示的局限性

  • 识别相关领域和专家本身就需要熟悉领域
  • 专家观点可能因解读不同而出现分歧或存在盲点
  • 挑选专家遵循模型不真实信念的风险

通过合同要求汇集引用的资深观点的解释,CoK 促使人们坚持有根据的论述。然而,必须注意纳入学术观点的多样性,而不仅仅是方便的确认证据。

其他高级提示技巧

除了上述方法外,还有其他各种快速工程技术可以进一步减少幻觉。下面我将简要概述一些有前景的方法:

真实性分类提示

这些提示明确要求模型在定义的范围内对其响应的可能真实性或可信度进行分类,例如:

{查询} … 我的答案是 {回复}。从 1(不可靠)到 5(肯定正确),我将此回复的准确性评为 {真实性分数},原因是 {理由}

要求根据明确的标准对答案的完整性进行自我评估,可以阻止盲目的自信幻觉。同样重要的是,模型必须自省并揭示其知识中的差距,从而导致不确定性。

事实历史和未来提示

一个有趣的技巧是将过去的事实与逻辑上可推论的未来联系起来,以揭示矛盾之处:

根据事实历史{插入上下文},预测 10 年后最合理的未来。然后回溯 5 年,并评论你预测的未来是否合理。

心理跳房子鼓励质疑有根据的预测与没有根据的未来。识别合理的历史与基于常识原则的未来之间的矛盾会暴露幻觉风险。

提示替代观点

寻求替代的世界观会打开该模型主导地位的盲点:

从{人口统计学 X} 的角度提出疑问,并批评与其他基于证据的观点存在的事实不一致之处

反向观点会促使侦察假设的漏洞,从而增加捏造的可能性。当遇到事实不一致时,调和事实的不一致可以增强诚信。

还有许多其他有希望的提示方向,例如交织未知事实、品尝过度自信和与其他代理共同建模。统一的主题是不仅提示最终答案,还提示底层推理、不确定性校准、外部一致性检查和支撑真实响应的证据对齐。

结论

随着语言模型变得更加复杂,但缺乏更广泛的基础来确定常识的可信度,幻觉仍然是一个关键挑战。即时工程的进步通过明确编码可靠声明所需的证据、逻辑和上下文支持来提供缓解。检索增强、置信度递归、链式验证、专家采购和其他讨论过的技术通过合同化举证责任来降低捏造谎言的倾向。

然而,这些解决方案强调了我们距离建立真正值得信赖、内省和扎实的智能还有很长的路要走。巧妙地使用提示可以说更多的是一种诊断工具,可以揭示模型需要干预的能力差距,而不是单独解决人工智能安全问题的完整解决方案。在扩展模型功能的同时指导模型局限性的混合方法很有希望。但独立于特定的技术方法,灌输对其能力边界的内在诚实对于管理对未来系统的期望至关重要。通过认识到今天构建人工智能透明度所需的勤勉,我们播下了可解释性和责任感的种子,这对于明天构建人机之间的有益合作是必需的。

14-46 剑和诗人20 - 减少幻觉的提示词工程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1906113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爬虫怎么实现抓取的

1.4爬虫工程师常用的库通过图1-3我们了解到&#xff0c;爬虫程序的完整链条包括整理需求、分析目标、发出网络请求、文本解析、数据入库和数据出库。其中与代码紧密相关的有&#xff1a;发出网络请求、文本解析、数据入库和数据出库&#xff0c;接下来我们将学习不同阶段中爬虫…

烟雾智能监测识别摄像机

当今社会&#xff0c;环境污染成为了人们关注的焦点之一。在这些污染物中&#xff0c;烟雾无疑是一种极具危害性的&#xff0c;它不仅对人类健康造成威胁&#xff0c;还可能导致严重的财产损失和生命危险。因此&#xff0c;研发一种智能监测识别烟雾的摄像机显得尤为重要。烟雾…

基于Java+SpringMvc+Vue技术智慧校园系统设计与实现--60页及以上论文参考

博主介绍&#xff1a;硕士研究生&#xff0c;专注于信息化技术领域开发与管理&#xff0c;会使用java、标准c/c等开发语言&#xff0c;以及毕业项目实战✌ 从事基于java BS架构、CS架构、c/c 编程工作近16年&#xff0c;拥有近12年的管理工作经验&#xff0c;拥有较丰富的技术架…

如何看自己电脑的ip地址?这些方法教你搞定

在数字化时代&#xff0c;网络已经成为我们生活中不可或缺的一部分。对于每一个接入网络的设备来说&#xff0c;IP地址就像是一个独特的身份证&#xff0c;它标识着设备在网络中的位置。对于电脑用户而言&#xff0c;了解如何查看自己电脑的IP地址&#xff0c;不仅有助于我们更…

R包:ggsci期刊配色

介绍 不同期刊配色大多数时候不一样&#xff0c;为了更好符合期刊图片颜色的配色&#xff0c;有人开发了ggsci这个R包。它提供以下函数&#xff1a; scale_color_palname() scale_fill_palname() 对应不同期刊的color和fill函数。 导入数据R包 library("ggsci")…

进程切换与环境变量(一)

目录 一、进程切换 前提引入 二、环境变量 1.查看环境变量的方法 2.什么是环境变量 3.一些常见的环境变量 1.PATH 2.HOME 3.USER 4.SHELL 4.和环境变量有关的指令 1.echo: 2.export 3. unset: 4.env 5.set 5.知识补充命令行参数 为什么要有命令行参数 &…

Nacos 初步认识和 Nacos 部署细节

Nacos 基本介绍 Nacos 是由阿里开发&#xff0c;用于服务发现、配置管理、DNS服务的 Spring Cloud 组件&#xff0c;Nacos 一个组件可以完成 Config、Eureka、Bus 三个组件的功能&#xff0c;在当下非常受开发者欢迎。 Nacos 官网 Nacos 官网 Nacos 安装包下载 Nacos Serv…

【pulp库】混合问题

问题描述 Whiskas 猫粮由 Uncle Ben’s 生产。 本叔叔希望尽可能便宜地生产他们的猫粮产品&#xff0c;同时确保它们符合规定的营养分析要求显示在罐头上。因此&#xff0c;他们希望改变每个的数量 使用的成分&#xff08;主要成分是鸡肉、牛肉、羊肉、 大米、小麦和凝胶&#…

VPN 的入门介绍

VPN&#xff08;虚拟专用网络&#xff09; 简介 虚拟专用网络&#xff0c;简称虚拟专网&#xff08;VPN&#xff09;&#xff0c;其主要功能是在公用网络上建立专用网络&#xff0c;进行加密通讯。在企业网络中有广泛应用。VPN网关通过对数据包的加密和数据包目标地址的转换实…

AI机器人在企业拓客上常见的功能有哪些

AI机器人具备多种功能&#xff0c;这些功能主要基于其被设计和训练的目的。整理了一些常见的AI机器人功能&#xff1a; 1. 语音识别与自然语言处理&#xff1a; - 语音识别&#xff1a;将用户的语音输入转换为文本&#xff0c;以便机器人可以理解和处理。 - 自然语言处理…

Xilinx FPGA:vivado关于fifo的一些零碎知识

一、FIFO概念 先进先出&#xff0c;是一种组织和操作数据结构的方法。在硬件应用中&#xff0c;FIFO一般由一些读写指针&#xff0c;存储和控制的逻辑组成。 二、xilinx中生成的FIFO的存储类型 &#xff08;1&#xff09;shift register FIFO : 移位寄存器FIFO&#xff0c;这…

Java锁升级:无锁 → 偏向锁 → 轻量级锁 → 重量级锁

说明 JDK1.6为了减少获得锁和释放锁所带来的性能消耗&#xff0c;引入了“偏向锁”和“轻量级锁”&#xff0c;所以在JDK1.6里锁一共有四种状态&#xff0c;无锁状态&#xff0c;偏向锁状态&#xff0c;轻量级锁状态和重量级锁状态&#xff0c;它会随着竞争情况逐渐升级。锁可以…

2 ECMAScript

JavaScript 概述 JavaScript 编程语言允许你在 Web 页面上实现复杂的功能;如果你看到一个网页不仅仅显示静态的信息,而是显示依时间更新的内容,或者交互式地图,或者 2D/3D 动画图像,或者滚动的视频播放器,等等——你基本可以确定,这需要 JavaScript 的参与 JavaScript 编程语言…

如何为你的PCB选择最佳的阻焊覆盖工艺?

随着电子产品向“轻、薄、短、小”的方向发展&#xff0c;PCB也向高密度、高难度的发展&#xff0c;因此有很多SMT、PCB&#xff0c;客户在安装元件时需要插孔&#xff1b;其工艺流程长&#xff0c;过程控制困难。那么&#xff0c;PCB电路板插接工艺为何这么重要&#xff1f; 通…

B端设计:任何不顾及用户体验的设计,都是在装样子,花架子

B端设计是指面向企业客户的设计&#xff0c;通常涉及产品、服务或系统的界面和功能设计。与C端设计不同&#xff0c;B端设计更注重实用性和专业性&#xff0c;因为它直接影响企业的效率和利益。 在B端设计中&#xff0c;用户体验同样至关重要。不顾及用户体验的设计只是空洞的表…

【Proteus仿真】基于Stm32的八路抢答器~

【Proteus仿真】基于Stm32的八路抢答器~ 文档资料在购买后即可获得&#xff08;如有问题可通过微信公号或b站私信联系我&#xff09; 资料包括&#xff1a; 1. Proteus仿真源文件2. keil源代码功能描述: 1. 抢答时间设置显示2. 选手得分用时显示3. 选手数据查询/清楚4.抢答…

排产排程问题【数学规划的应用(含代码)】阿里达摩院MindOpt

本文主要讲述使用MindOpt工具优化排产排程的数学规划问题。 视频讲解&#x1f448;&#x1f448;&#x1f448;&#x1f448;&#x1f448;&#x1f448;&#x1f448;&#x1f448;&#x1f448; 一、排产排程问题 在实际生产过程中存在着各种各样的排产排程问题&#xff0c;…

【数据分析】Pandas_DataFrame读写详解:案例解析(第24天)

系列文章目录 一、 读写文件数据 二、df查询数据操作 三、df增加列操作 四、df删除行列操作 五、df数据去重操作 六、df数据修改操作 文章目录 系列文章目录前言一、 读写文件数据1.1 读写excel文件1.2 读写csv文件1.3 读写mysql数据库 二、df查询数据操作2.1 查询df子集基本方…

移动UI: 什么特征会被认为是简洁风格,用案例告诉你

什么是简洁风格&#xff0c;恐怕一百个人有一百个是理解&#xff0c;本文通过理论分析案例的方式进行探讨。 移动 UI 中的简洁风格通常具有以下几个特征&#xff1a; 1. 平面化设计&#xff1a; 简洁风格的移动 UI 善于运用平面化设计&#xff0c;即去除过多的阴影、渐变和立…

一家互联网 Web3 研发团队繁忙的一天

早晨&#xff1a;规划与准备 7:00 AM - 起床与新闻 Web3研发团队的成员们早起&#xff0c;通过区块链相关的新闻网站、论坛和社交媒体&#xff0c;了解最新的行业动态和技术发展。重点关注去中心化金融&#xff08;DeFi&#xff09;、NFT、DAO等领域的最新进展。 8:00 AM - …