幻觉问题综述

news2024/11/15 8:33:09

https://arxiv.org/pdf/2202.03629

分类

内在幻觉:生成的输出与源内容相矛盾
外部幻觉:生成的输出无法从源内容中验证

数据引发的幻觉(来源不同引发分歧)
训练和推理中的幻觉(编码器不能很好的表征,解码错误,曝光偏差:训练时解码器被鼓励预测以真实前缀序列为条件的下一个标记,推理时根据自身先前生成的歷史序列来生成下一个标记;参数化知识偏差)

衡量幻觉的指标

统计指标

  1. 词汇特征(n-gram)来计算生成文本和参考文本之间的信息重叠和矛盾(不匹配计数)
  2. PARENT(表格中蕴含 n 元组的精确率和召回率)

基于模型的指标

  • 神经模型
  • 基于信息抽取(表示为关系元组格式+验证是否匹配)
  • 基于问答
  • 自然语言推理指标(忠实度得分定义为源文本与其生成文本之间的蕴涵概率
  • 基于语言模型的指标(无条件 LM 仅在数据集中的目标(真实参考)上进行训练,而一个条件语言模型 𝐿𝑀𝑥则在源数据和目标数据上进行训练)

人工评估:评分/比较

幻觉缓解方法

数据相关:短句修剪,去语境化,语法修改,自动数据清洗/过滤,信息增强

模型角度:编码器改进(双编码),注意力机制改进(稀疏注意力/归纳注意力),解码器改进(多分支解码器/不确定感知解码器)

训练角度

规划(限制内容顺序/提供框架)

强化学习(用不同的奖励优化模型:ROUGE/多项选择完形填空分数)

多任务学习(单个数据集容易导致幻觉→在训练过程中添加适当的额外任务以及目标任务)

可控生成(受控重采样、可手动提供的控制代码或自动预测的控制代码)

其他方法:正则化/损失重构/后处理(生成+细化)

指标设计

  1. 能够差异化衡量两种幻觉的细粒度指标
  2. 事实核查:知识证据选择+声明验证两个子任务
  3. 泛化:研究源文本/输出文本之间的关系和共同点
  4. 融入人类认知视角:人类对不同类型的信息敏感程度不同

幻觉减缓方法的未来方向

  1. 通用且鲁棒的数据预处理方法
  2. 数字幻觉(生成文本中数字的正确性非常重要)
  3. 外部幻觉缓解

幻觉(未来可能出现的+解决方案)

  1. 长文本中的幻觉:基于 Longformer的模型可以帮助编码长输入
  2. 抽象摘要中的幻觉
  3. 对话生成中的幻觉(自我一致性/外部一致性)
  4. 生成问答中的幻觉(生成的答案和基本事实答案之间的语义重叠、生成的答案的忠实度以及答案和源文档之间的事实一致性,只考虑了幻觉的一个方面。可以设计能够考虑与幻觉相关的所有因素(如语义重叠、忠实度或事实一致性)的度量标准)
  5. 数据转文本中的幻觉
  6. 机器翻译中的幻觉
  7. 视觉语言生成中的幻觉
  8. 图像字幕中的客体幻觉
  9. 其他VL任务中的幻觉
  10. LLM中的幻觉(这个方法就多了:预训练数据质量 / 指令调优 / RL / RAG / CoT / 后处理 / 集成

在这里插入图片描述
https://zhuanlan.zhihu.com/p/671435046

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104990.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【云原生-Docker】docker、docker-compose离线安装【包括dokcer、docker-compose资源下载】

资源资源下载在线下载百度网盘下载csdn下载 解压上传文件 配置系统配置配置 docker-compose安装验证 资源 资源下载 在线下载 下载地址:https://download.docker.com/linux/static/stable/x86_64/根据不同系统版本下载不同的docker版本在线下载:wget …

网络编程 0904作业

作业 1、多进程多线程并发服务器&#xff0c;再实现一遍&#xff08;重点模型&#xff09; 多进程并发服务器 多进程服务器 PIDserver.c 代码 #include <myhead.h> #define SERPORT 7777 #define SERIP "192.168.19.128" #define BACKLOG 10void hande(int…

【数据结构与算法 | 搜索二叉树篇 力扣篇】力扣530, 501

1. 力扣530&#xff1a;二叉搜索树的最小绝对差 1.1 题目&#xff1a; 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&#xff0c;其数值等于两值之差的绝对值。 示例 1&#xff1a; 输入&#xff1a;root [4,…

【人工智能】Transformers之Pipeline(十五):总结(summarization)

​​​​​​​ 目录 一、引言 二、总结&#xff08;summarization&#xff09; 2.1 概述 2.2 BERT与GPT的结合—BART 2.3 应用场景​​​​​​​ 2.4 pipeline参数 2.4.1 pipeline对象实例化参数 2.4.2 pipeline对象使用参数 ​​​​​​​ 2.4.3 pipeline返回参…

【MATLAB源码-第260期】基于simulink的OFDM+QPSK系统仿真,采用RS编码经过瑞利信道包含信道估计输出各节点波形图以及星座图。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 OFDM-QPSK系统是一种广泛应用于现代无线通信中的数字信号处理系统&#xff0c;结合了正交频分复用&#xff08;Orthogonal Frequency Division Multiplexing, OFDM&#xff09;和四相移相键控&#xff08;Quadrature Phase S…

Java字节码文件、组成、详解、分析;jclasslib插件、阿里arthas工具;Java注解

文章目录 一、字节码文件1.1 以正确的方式打开文件1.2 字节码文件的组成1.2.1 基础信息1.2.2 常量池1.2.3 方法 1.3 字节码常用工具1.4 总结 二、Java注解2.1 什么是Java注解2.2 注释和注解Annotation的区别&#xff08;掌握&#xff09;2.3 如何使用注解&#xff08;掌握&…

C语言典型例题61

《C程序设计教程&#xff08;第四版&#xff09;——谭浩强》 题目&#xff1a; 习题4.2 一个单位下设三个班组&#xff0c;每个班组人员不固定&#xff0c;需要统计每个班组的平均工资。分别输入3个班组所有职工的工资&#xff0c;当输入-1时&#xff0c;表示输入结束。输出…

常见排序方法详解(图示+方法)

一、插入排序 1.1基本思想 把待排序的记录 按其关键码值的大小逐个插入到一个已经排好序的有序序列中 &#xff0c;直到所有的记录插入完为止&#xff0c;得到 一个新的有序序列。 1.2直接插入排序 当插入第 i(i>1) 个元素时&#xff0c;前面的 array[0],array[1],…,array…

大文件上传vue插件vue-simple-uploader

https://www.cnblogs.com/xiahj/p/vue-simple-uploader.html

springboot-es(elasticsearch)搜索项目

目标界面 html页面 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>途牛旅游</title><link rel"stylesheet" href"https://a.amap.com/jsapi_demos/static/demo-center/css/d…

windows安装php7.4

windows安装php7.4 1.通过官网下载所需的php版本 首先从PHP官网&#xff08;https://www.php.net/downloads.php&#xff09;或者Windows下的PHP官网&#xff08;http://windows.php.net/download/&#xff09;下载Windows版本的PHP安装包。下载后解压到一个路径下。 2.配…

2024/9/4 Canlink配置介绍与常见故障排查

双击一个站进去配置&#xff0c;如果双击PLC则是PLC往外面发数据&#xff0c;双击伺服&#xff0c;则是伺服往外发数据。 例如我想读伺服的功能吗&#xff1f; 点击伺服的配置 将0b00的地址数据发给PLC&#xff08;D100&#xff09; ,寄存器长度是一个 然后下载程序即可

使用docker安装jenkins,然后使用jenkins本地发版和远程发版

使用docker安装jenkins&#xff0c;然后使用jenkins本地发版和远程发版 1、安装docker 1.安装必要的一些系统工具 sudo yum install docker-ce 2.添加软件源信息 sudo yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo 3.更新…

电子行业最全【芯片标签二维码】知识剖析

电子行业最全【芯片标签二维码】知识剖析 本文为辰逸绅士小编原创&#xff0c;未经许可请勿私下复制转载 长 文 预 警 目录 ★01--------前言 ★02--------关于电子元器件协会ECIA ★03--------关于矩阵二维码 3.1--------矩阵二维码 构成 3.2--------矩阵二维码 种类 3.…

【数学分析笔记】第3章第1节 函数极限(3)

3. 函数极限与连续函数 3.1 函数极限 3.1.1 函数极限的性质 【局部有界性】若 lim ⁡ x → x 0 f ( x ) A \lim\limits_{x\to x_{0}}f(x)A x→x0​lim​f(x)A&#xff0c;则 ∃ δ > 0 , ∀ x ( 0 < ∣ x − x 0 ∣ < δ ) : m ≤ f ( x ) ≤ M \exists \delta>…

BUUCTF Crypto wp--RSA1

第一步 查看下载文件 我们发现出现了dp dq&#xff0c;属于dp、dq泄露攻击 上述方程本来是用于在加密中进行快速解密的&#xff0c;但是如果二者发生泄露&#xff0c;就有可能进行对密文的解密。 当我们知道了 dp、 dq、p、q、c,在不知道e的情况下&#xff0c;也可以求解明文。…

社交达人秘籍:巧妙维护你的人脉关系!

在这个人脉为王的时代&#xff0c;微信不仅连接了亲朋好友&#xff0c;更成为了拓展职业网络、深化人际关系的重要平台。如何巧妙地在微信上维护并优化你的人脉关系&#xff0c;成为了每位社交达人必修的功课。今天&#xff0c;就让我们一起探索那些让社交关系更加稳固与活跃的…

【DSP】无法在线仿真无法进入main()函数

DSP无法在线仿真无法进入main()函数 1.问题描述 ​ 接手前人的DSP代码&#xff0c;硬件平台是DSP C6701&#xff0c;软件IDE是CCS 12.3.0。仿真器版本是XDS 560V2。 ​ 在进行在线仿真时&#xff0c;经常出现“伪在线”的情况。简单来说&#xff0c;正常的在线过程&#xff…

使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码

以下是一个使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 一、安装依赖 pip install elasticsearch二、运行效果 三、程序代码 from elasticsearch import Elasticsearch, NotFoundError# 连接到Elasticsearch es…

基本滤波器响应(低通+高通+带通+带阻)+滤波器的响应特性(阻尼系数+截止频率下降率)

2024-9-4&#xff0c;星期三&#xff0c;20:40&#xff0c;天气&#xff1a;晴&#xff0c;心情&#xff1a;多云。又是上班的一天&#xff0c;至于心情为什么多云&#xff0c;是因为女朋友换季感冒了&#xff0c;我有上班回不去&#xff0c;难受&#xff0c;赶紧到周五吧&…