【AI学习】Lilian Weng:Extrinsic Hallucinations in LLMs(LLM 的外在幻觉)

news2024/12/26 19:06:47

来自OpenAI 的 Lilian Weng的《Extrinsic Hallucinations in LLMs》
Date: July 7, 2024 | Estimated Reading Time: 30 min | Author: Lilian Weng

文章链接:https://lilianweng.github.io/posts/2024-07-07-hallucination/

大概看了一下,这篇文章的核心内容和观点是讨论大型语言模型(LLM)中的外在幻觉问题。外在幻觉是指模型生成不真实、捏造、不一致或无意义的内容。同样重要的是,当模型不知道某个事实时,它应该这么说。
文章主要探讨了外在幻觉的原因、检测方法和减少幻觉的策略。

原因:

  1. 训练前数据问题: 预训练数据语料库可能包含过时、缺失或不正确的信息。
  2. 微调新知识: 微调阶段可能引入新的错误信息。(1) LLM 学习具有新知识的微调示例的速度比其他具有与模型预先存在的知识一致的知识的示例慢;(2) 一旦最终学习了具有新知识的例子,它们就会增加模型的幻觉倾向。

幻觉检测:

  • FactualityPrompt: 通过事实和非事实提示组成,使用Wikipedia文档或句子作为事实基础的知识库。
  • 幻觉NE错误和蕴涵比率: 使用实体检测模型和文档级接地,测量未出现在真值文档中的命名实体的比例。
  • FActScore: 将长格式生成分解为多个原子事实,并根据Wikipedia等知识库分别验证每个事实。

减少幻觉的策略:

  1. 检索增强评估: 使用检索来使模型生成奠定基础,有助于减少幻觉。
  2. SAFE: 搜索增强事实评估器,使用语言模型作为代理,在多步骤过程中选代地发出Google搜索查询。
  3. FacTool: 检测各种任务中的事实错误,包括基于知识的QA、代码生成、数学问题解决和科学文献综述。
  4. SelfCheckGPT: 依赖于对来自黑盒LLM的多个样本的事实性错误的一致性检查。
  5. 未知知识的校准: 提示模型生成对无法回答或未知问题的回答可能会触发幻觉。

抗幻觉方法:

  • RAG: 检索增强生成,通过检索相关文档,然后使用相关文档作为额外的上下文生成。
  • RARR: 使用研究和修订进行改造归因,追溯性地使LLM能够通过EditingforAttribution支持对外部证据的归因。
  • FAVA: 使用增强知识进行事实验证,检索相关文档,然后编辑模型输出以避免幻觉错误。

事实性微调:

  • TopicPrefix: 在每个句子前面附加主题以提高对事实的认识。
  • 句子完成损失: 专注于句子的后半部分,因为句子的后半部分包含更多事实知识。

归因微调:

  • WebGPT: 结合文档检索与微调的GPT模型,旨在回答长篇问题以减少幻觉并实现更好的事实准确性。
  • GopherCite: 使用搜索引擎创建支持资料和教学模型来提供参考。

文章最后提供了一个评估基准的附录,列出了用于衡量LLMs中幻觉的各种数据集。

将文章通过在线翻译,转换了贴在下面,供大家参考

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2168558.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

重新拉取maven-jar包

问题:经常会出现这种情况:一个项目重新打包之后,在另外一个项目中无法引用。可以尝试一下解决方式 1:右上角重新拉取: 2:清理所有缓存:idea-file-invalidate Caches 3:设置拉取方式&#xff…

【论文速看】DL最新进展20240926-图像分割、图像修复、CNN

目录 【图像分割】【图像修复】【CNN】 【图像分割】 [2024] CAD: Memory Efficient Convolutional Adapter for Segment Anything 论文链接:https://arxiv.org/pdf/2409.15889 代码链接:https://github.com/Kyyle2114/Convolutional-Adapter-for-Segme…

Linux防火墙-什么是防火墙

作者介绍:简历上没有一个精通的运维工程师。希望大家多多关注作者,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。 什么是防火墙 我们想象一下把每台服务器当成一个小区,我们去访问另外一个小区的朋友,我们需要经过什…

什么是开放式耳机?具有什么特色?非常值得入手的蓝牙耳机推荐

开放式耳机是当下较为热门的一种耳机类型。它具有以下特点: 设计结构: 呈现开放式的构造,不会完全堵住耳道。如此一来,外界声音能够较容易地被使用者听到,在使用耳机时可以保持对周围环境的察觉。比如在户外&#xf…

每日一练:二叉搜索树中第K小的元素

230. 二叉搜索树中第 K 小的元素 - 力扣(LeetCode) 一、题目要求 给定一个二叉搜索树的根节点 root ,和一个整数 k ,请你设计一个算法查找其中第 k 小的元素(从 1 开始计数)。 示例 1: 输入&a…

配置anaconda环境变量的影响

配置anaconda环境变量的影响 配置虚拟机的过程:拉取一个配置为pytorch1.12.0-python3.7的docker镜像,创建虚拟机。创建好了之后验证了torch可以调用GPU。之后安装anaconda,并配置/root/anaconda的环境变量,之后创建虚拟环境wyq。…

性能优化与资源管理:优化Selenium脚本的执行效率,合理管理浏览器实例和系统资源

目录 引言 一、Selenium基础与常用方法 1.1 Selenium简介 1.2 Selenium基础用法 二、Selenium性能优化技巧 2.1 使用WebDriverWait实现显式等待 2.2 启用无头模式 2.3 设置合理的页面加载策略 2.4 禁用图片和JavaScript加载 2.5 优化元素定位 2.6 合理使用隐式等待和…

《经典图论算法》约翰逊算法(Johnson)

摘要: 1,约翰逊算法的介绍 2,约翰逊算法的实现步骤 3,约翰逊算法的准确性验证 4,约翰逊算法的代码实现 1,约翰逊算法的介绍 约翰逊算法(Johnson algorithm)是在稀疏图上求每对顶点之间最短路径的一种算法&a…

EchartJs报表展示

EchartJs报表展示 1、Echarts介绍 我们当前项目下的图形报表是使用echarts实现,所以接下来我们学习下echart的基本使用。 echarts Apache官网:https://echarts.apache.org/zh/index.html 点击所有示例,可快速学习echarts的基本使用&#x…

2024 大厂 Java 面试题汇总,作为 Java 程序员必须要掌握的技术栈

面试就是大家身边总是存在各种各样的可能,而自身又具备这样的能力,就忍不住想试一试,尤其是到了年关,是一个好的蓄势并且认真积累的阶段。当然面试套路众多,但对于技术面试来说,主要是考察一个人的技术能力和沟通能力。不同类型的…

一文了解智能无感知验证码

在数字化浪潮中,验证码作为守护信息安全的第一道关卡,其重要性日益凸显。它不仅用于识别真实用户与机器程序,更是防范网络攻击、保障数据安全的关键手段。本文将深入探讨验证码的定义、作用、分类,并重点介绍智能无感知验证码这一…

常用并发设计模式精讲

1. 优雅终止线程的设计模式 思考:在一个线程 T1 中如何优雅的终止线程 T2? 正确思路:两阶段终止模式 1.1 两阶段终止(Two-phase Termination)模式——优雅的终止线程 两阶段终止(Two-phase Termination…

数据结构升华部分:排序与字符串匹配算法应用

数据结构入门学习(全是干货)——综合应用 习题选讲 - 排序与字符串匹配算法 习题选讲 - Insert or Merge 习题-IOM.1 插入排序的判断 题意理解 如何区分简单插入和非递归的归并排序 插入排序:前面有序,后面没有变化。归并排…

JUC高并发编程3:线程间通信

1 线程间通信 线程间通信的模型有两种:共享内存和消息传递,以下方式都是基本这两种模型来实现的。我们来基本一道面试常见的题目来分析 场景:两个线程,一个线程对当前数值加 1,另一个线程对当前数值减 1,要求用线程间…

【智能控制】第15章 智能优化算法,遗传算法

目录 15.1 遗传算法及其应用 15.1.1 遗传算法的基本原理 15.1.2 遗传算法的特点 15.1.3 遗传算法的应用领域 遗传算法的应用 15.1.4 遗传算法的设计 遗传算法的应用步骤 15.1.5 遗传算法求函数极大值 随着优化理论的发展,一些新的智能算法得到了迅速发…

深度学习:ResNet残差神经网络

目录 一、什么是ResNet残差神经网络 二、残差结构 三、18层残差网络 1.最初残差网络变体 2.图片示例 3.表格示例 四、批次归一化(Batch Normalization) 1.工作过程 2.主要作用 五、ResNet残差神经网络解决了传统神经网络什么问题 1.梯度消失和…

node-red-L3-重启指定端口的 node-red

重启指定端口 目的步骤查找正在运行的Node.js服务的进程ID(PID):停止Node.js服务:启动Node.js服务: 目的 重启指定端口的 node-red 步骤 在Linux系统中,如果你想要重启一个正在运行的Node.js服务&#x…

【AI绘画】Midjourney进阶:光影控制详解

博客主页: [小ᶻZ࿆] 本文专栏: AI绘画 | Midjourney 文章目录 💯前言💯为什么要学习光影控制光影控制的作用 💯强化主题hard lighting(硬光 )soft lighting(软光/柔光)测试 &…

利用Puppeteer-Har记录与分析网页抓取中的性能数据

引言 在现代网页抓取中,性能数据的记录与分析是优化抓取效率和质量的重要环节。本文将介绍如何利用Puppeteer-Har工具记录与分析网页抓取中的性能数据,并通过实例展示如何实现这一过程。 Puppeteer-Har简介 Puppeteer是一个Node.js库,提供…

Leetcode面试经典150题-322.零钱兑换

给你一个整数数组 coins ,表示不同面额的硬币;以及一个整数 amount ,表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额,返回 -1 。 你可以认为每种硬币的数量是无限的。 示…