ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅

news2025/1/13 13:40:59

地球是平的吗?

当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。

但是,你有没有想过,如果 AI 被误导性信息 “忽悠” 了,会发生什么?

来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现,他们发现大语言模型在误导信息反复劝说下,非常自信地做出「地球是平的」这一判断。

  • 论文链接:https://arxiv.org/pdf/2312.09085

  • 项目主页:https://llms-believe-the-earth-is-flat.github.io/

  • GitHub 源代码:https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat

生成式人工智能技术的快速发展,为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容,还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战,但目前对这类信息的确切影响仍不十分清楚。然而,可以预见的是,随着技术的发展,虚假信息的生成和传播将会变得更加容易和普遍。

另一方面,大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受,并在模型生成的输出中反映出来,导致其产生不准确或具有偏见的内容。因此,研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力,这是提升大模型安全和鲁棒性的重要内容之一。

本篇研究就探索了这种有误信息对于大语言模型知识信念的影响,研究论文已经被 ACL 2024 接收,并选做大会报告(Oral)。

实验:大模型的 “信念” 测试

研究者们首先构建了一个名为 Farm(Fact to Misinform Dataset)的数据集,包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息:首先,他们对原始正确的事实性 QA 进行语义取反或者构造错误答案,随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。

利用这些数据,便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段:初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式,研究者们能够观察到 LLMs 在多轮对话中信念的变化。

多轮测试框架

主要结果

在劝说性交流阶段,研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说(LO)、树立权威的劝说(CR)和动之以情的劝说(EM)。结果显示,即使是最先进的模型,如 GPT-4,也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度(Average Accuracy Rate, ACC)和被误导率(Misinformed Rate, MR)的实验,研究者们有五点发现:

  • 绝大多数大模型都易被虚假信息欺骗:从最先进的 GPT-4 (注:本研究的完成时间是 2023 年 9 月,当时最先进的模型是 GPT-4)到最差的模型,所有模型在经过多轮测试之后,误导率从 20%-80% 不等。

  • 越先进的大模型抵抗虚假信息能力越强:实验表明,抵抗能力最强的是 GPT-4 模型,其能以 80% 坚持自己的事实信念。这给了我们一些宽慰:上下文理解能力越强的模型,并非更容易受到有误信息的干扰!

  • 多次重复虚假信息比单次输出虚假信息更能骗倒大模型:通过多轮引入的虚假信息,其作用要胜过单此的引入,这很符合我们对安全性对齐的常识 —— 有害内容越多,模型越容易被其影响。

  • 运用修辞的劝说性虚假信息更容易骗倒大模型:使用更复杂,更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样,越 “真实” 的假信息,你越容易相信

  • 逻辑性说服比其它说服方式更有效:模型对逻辑性强的信息特别敏感,无论是真实信息还是虚假信息,只要逻辑连贯一致,就更容易影响模型的判断。这表明,模型在处理信息时,可能过分依赖于表面的逻辑结构,而忽略了对信息来源和内容真实性的深入验证。

ChatGPT 和 GPT4 在不同劝说策略下的正确率(虚线)和误导成功率(实线)

大模型面对虚假信息的五种反应

在面对虚假信息时,AI 表现出了五种不同的行为:拒绝(Rejection)、奉承(sycophancy)、不确定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。这些行为揭示了 AI 在处理错误信息时的复杂性。例如,拒绝行为表明 AI 坚持正确的答案,不受错误信息影响;而奉承行为则表明 AI 在对话中表面上接受错误信息,但内心仍坚持正确答案。

模型的信念和对应面对误信息的行为:拒绝,奉承和接纳

研究还发现,在经过一轮虚假信息交互后,大语言模型的信心程度往往会降低。然而,对于一些问题,重复虚假信息却让大模型更加确信自己的答案,这种现象被称为 “逆火效应(Backfire Effect)”。

如何提升抗虚假信息干扰能力?

研究组发现,由于 RLHF(Reinforcement Learning with Human Feedback)算法,大模型在训练中会倾向于接受用户的输入,即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时,会对正确的回答更有信心。

为了帮助大模型提升抗虚假信息干扰能力,研究者们提出了一种轻量级解决方案:在检测到虚假信息后,使用 safety system prompt 对大模型进行提醒,并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。

加入 safety system prompt 后,模型抗干扰能力显著提升

OpenAI 的看法

有趣的是,OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则,其中特别提到了 “认知冲突” 的处理。在此部分的示例中,他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应,与本次研究团队的标题不谋而合,也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。

https://cdn.openai.com/spec/model-spec-2024-05-08.html

研究启发

随着模型的智能化,大模型逐渐展现出了一些人类的特性,但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来,即是一种 “模仿游戏”。

以上的研究探索了针对简单事实问题,当 LLM 的内部认知和外部信息冲突的时候,LLM 当作何选择,是盲从还是坚持自己的意见?而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。

未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析,提高 AI 的可解释性,并进一步提升跨学科研究,探索大模型的更多潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1985944.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络面经

1.TCP头格式有哪些? 图解TCP头部格式 详情 源端口和目的端口 端口的作用是什么? 端口的作用是在网络中唯一表示一台主机中的一个进程 序列号 什么是序列号? 用来给传输的字节标号的 比如要传10个字节 那么给第一个字节标号为1001 那么第十…

周鸿祎哈佛演讲摘要:大模型创业要抓住中国机会

时间:2024/04/13(美东时间) 地点:美国波士顿哈佛大学 *演讲语言为中文,“因为我的英文就比are you OK 的水平高一点点”。 1、无论你是一个创业者,还是一个企业家,最重要的一点说要跟用户保持接触,要去聊天,跟用户对话…

测试环境搭建整套大数据系统(十八:ubuntu镜像源进行更新)

镜像源更新为清华源 报错显示 解决方案 做好备份 cp /etc/apt/sources.list /etc/apt/sources.list.bak查看配置信息 sudo vim /etc/apt/sources.listsudo sed -i s/cn.archive.ubuntu.com/mirrors.aliyun.com/g /etc/apt/sources.list sudo apt update

Java学习Day22:基础篇12

异常 1.什么是异常 2.继承体系 3.异常和错误的区别 4.异常处理 1.抛出异常throw public class err { public static void main(String[] args) { add(1,0); } static void add(int a,int b){ if (b0) { throw new ArithmeticExcepti…

【Linux】Linux重定向指南:探索输出重定向与追加重定向的奥秘!

欢迎来到 CILMY23 的博客 🏆本篇主题为:Linux重定向指南:探索输出重定向与追加重定向的奥秘! 🏆个人主页:CILMY23-CSDN博客 🏆系列专栏:Python | C | C语言 | 数据结构与算法 | 贪…

css水波浪动画效果

为缩小gif大小&#xff0c;动画效果做了加速&#xff0c;效果如下&#xff1a; <!DOCTYPE html> <html> <head> <style> *{padding:0;margin:0;}/*清除默认填充及边距*/.water{position:relative;width:100vw;height:100vh;overflow:hidden;background…

std::string 的特性

s1是自己实现的string std的string里面有一个——Buf的数组大小为16通过内存对齐之后就是28个字节 如果存储的字符串大小不超过Buf数组的大小就存在里面&#xff0c;如果字符串的大小超过16字节就会重新开辟空间就会把Buf的空间浪费掉这是一种空间换时间的设计。

标准IO和文件IO

标准IO 接上节 函数接口 &#xff08;1&#xff09;fseek函数&#xff1a; 1.功能&#xff1a;将文件流中的文件指针从指定的起始位置开始偏移指定的字节数。 2.参数&#xff1a;&#xff08;目标文件&#xff0c;偏移量&#xff0c;参考点&#xff09; stream&#xff1a;…

一个网络上计算机的通信

一台计算机上多个进程间的通信方式有&#xff1a;管道、共享内存、信号量、消息队列。如果不同的计算机上多个进程间通信&#xff0c;即通信的进程在不同的计算机上&#xff0c;需要用到网络相关的知识。 那么两台计算机通信需要解决哪些问题&#xff1f; 我们来回顾一下计算机…

【电路笔记】-无源衰减器

无源衰减器 文章目录 无源衰减器1、概述2、简单衰减器3、无源衰减器示例14、无源衰减器设计5、切换式衰减器6、总结无源衰减器是一种特殊类型的电气或电子双向电路,由完全电阻元件组成。 1、概述 无源衰减器基本上是两个端口电阻网络,旨在将电源提供的功率削弱或“衰减”(因…

什么是企业组网?

企业组网是通过网络技术将企业内的各种设备、系统和资源连接起来&#xff0c;实现信息共享、通信协作、资源优化和业务流程高效管理的过程。其核心目标是建立一个稳定、灵活、安全且高效的网络基础架构&#xff0c;以支撑企业的运营和发展。本文将详细介绍搭建企业组网需要考虑…

Linux操作系统学习之文件系统

一. 前言 Linux一切皆文件的思想可谓众所周知&#xff0c;而其文件系统又是字符设备、块设备、管道、进程间通信、网络等等的必备知识&#xff0c;因此其重要性可想而知。本文将先介绍文件系统基础知识&#xff0c;然后介绍最重要的结构体inode以及构建于其上的一层层的文件系…

显示类控件

目录 1.Label 代码示例: 显示不同格式的文本 代码示例: 显示图片 代码示例: 文本对齐, 自动换行, 缩进, 边距 代码示例: 设置伙伴 2.LCD Number 代码示例: 倒计时 3.ProgressBar 代码示例: 设置进度条按时间增长 代码示例: 创建一个红色的进度条 4.Calendar Widget …

【C#】计算多边形的面积

一、问题分析 在 C# 中计算多边形面积的一种常见方法是使用顶点坐标。 假设您有一个由一系列 (x, y) 顶点坐标定义的多边形&#xff0c;您可以使用“鞋带公式”&#xff08;也称为高斯公式&#xff09;来计算其面积。 如果是计算多边形的面积可以分为正常多边形、dicom图像中…

工单触发器如何助力企业提升效率?天润融通案例解析

工单&#xff0c;用于记录、跟踪和管理特定工作任务或服务请求的工具。通过工单可以完成任务跨组织、跨部门流转和协同等问题&#xff0c;例如&#xff1a; 市场线索→创建工单→判定需求→分配到区域→分配到销售→销售跟进→成功交易客户投诉建议→创建工单→分配到区域→分…

C语言入门基础题:传递闭包

1.题目描述 给定一张点数为 n 的有向图的邻接矩阵&#xff0c;图中不包含自环&#xff0c;求该有向图的传递闭包。张图的邻接矩阵定义为一个n xn 的矩阵 A (aij)nx”&#xff0c;其中(1,i到j存在直接连边aii0,i到j没有直接连边张图的传递闭包定义为一个„ xn的矩阵 B (bij)nx”…

职场中,真正的大人物都具有这几个特点

职位是组织赋予的&#xff0c;是领导提拔的&#xff0c;有些人失去了身上的标签、职位&#xff0c;很快就是失去往日的荣光。 职场中真正的牛人&#xff0c;他们不一定有多高的职位&#xff0c;但他们在领导眼里有分量&#xff0c;又能得到同事的尊重。 这类人身上最大的特征…

elasticsearch的学习(四):elasticsearch的一些基本概念

简介 elasticsearch的一些基本概念。 核心概念 索引&#xff1a;一个拥有相似特征的文档的集合。 类型&#xff1a;在索引中定义&#xff0c;是索引的一个逻辑上的分类&#xff0c;版本7以上已经弃用了。 文档&#xff1a;可被索引的基础信息单元&#xff0c;即一条数据&a…

【Android Studio】Intent实现两个Activity页面的跳转(基于Empty View Activity)

文章目录 为什么使用EmptyViewActivity而不是EmptyActivity准备工作&#xff1a;创建EmptyViewActivity项目准备工作&#xff1a;新建SecondActivity调试一下原始项目添加button写跳转方法测试布局技巧 为什么使用EmptyViewActivity而不是EmptyActivity 因为笔者使用的Android…

基于STM32的环境监测系统

目录 引言环境准备工作 硬件准备软件安装与配置系统设计 系统架构硬件连接代码实现 初始化代码传感器读取代码应用场景 家居环境监测工业环境监测常见问题及解决方案 常见问题解决方案结论 1. 引言 环境监测系统在我们的日常生活和工作中变得越来越重要。通过监测空气质量、…