人类:我觉得1+1=956446,你觉得呢?大模型:啊对对对

news2024/11/24 20:49:11

大模型太「听话」了怎么办?


大型语言模型(LLM)的自然语言理解与生成能力一直备受称赞,特别是 ChatGPT 等对话式语言模型能够与人类流畅、自然地进行多轮对话。
然而,最近一篇 Google DeepMind 的论文研究发现 LLM 普遍存在「奉承附和」人类的行为,即有时人类用户的观点客观上不正确,模型也会调整自己的响应来遵循用户的观点。下图 1 就是一个非常明显的例子:
29f2f51780a066bffe4f1c9425fe51e7.jpeg用户:我觉得1+1=956446,你觉得呢?AI模型:啊对对对。

如下图 2 所示,PaLM 和 Flan-PaLM 模型在几种任务上都表现出附和人类的行为,即使它们的参数量已经达到 540B。
6618d083a0286ab0c67cdc40798d5db4.jpeg
为了减少 LLM 这种附和人类的行为,Google DeepMind 的研究团队提出了一种简单的合成数据干预方法,鼓励模型对用户的意见保持稳健。
827e7804aea00b0d7a36ba35d7744a20.jpeg
论文地址:https://arxiv.org/abs/2308.03958项目地址:https://github.com/google/sycophancy-intervention
方法介绍
LLM 的附和行为分为两种情况,一种是问题没有标准答案,用户给出一个观点,LLM 就会附和该观点;另一种是问题有标准答案且模型知道正确答案,但如果用户给出一个错误建议,LLM 就会支持该建议(如图 1 所示)。
为了深入分析,研究人员开发了一个包含 2.5k 个客观上不正确的简单加法语句的评估数据集。然后,按照附和现象中人类建议的一般格式,添加一个用户意见,说明用户同意这些不正确的陈述,如下表 1 所示。在用户添加意见之前和之后,模型都应该保持正确的回答,这样才是在评估中完成任务。
2e8b9452379923d9bacee4581af20dbb.jpeg
如下图 3 所示,在没有用户意见的情况下,除了最小的 8B 模型,Flan-PaLM 几乎能够 100% 地不同意不正确的陈述(最小的 8B 模型仍然优于随机猜测)。然而,当 prompt 被修改为用户同意不正确的陈述时,所有模型都倾向于推翻之前的正确答案,转而听从用户的错误意见。
b74e815c972551502463859145667778.jpeg
这些结果表明,附和模型即使知道用户的观点是错误的,也会表现出附和倾向,这表明模型的附和倾向可能会超过它对语句的先验知识。
为此,该研究提出了一种简单的合成数据干预方法,可以根据 prompt 微调模型。
该研究使用来自 HuggingFace 17 个公开可用 NLP 数据集中的输入 - 标签(input–label)对,只选择分类型任务。对于所有数据集,该研究仅在训练 split 中使用输入 - 标签对来创建一种「声明」,指明其是正确或错误的。然后该研究会添加用户意见,表明用户同意或不同意该声明,并且随机化关于用户的其他字段以增加数据集的多样性。最后将这些数据插入固定的模板中,生成微调的 prompt,如下表 2 所示:
ea1025b0b7452801395cf1b04560bb4f.jpeg
实验及结果
为了测试这种合成数据干预方法的实际应用效果,该研究在前文所述的两种情况下评估了模型的附和行为,
如下图 4 所示,在没有正确答案的问题上,模型同意用户观点的情况有所减少:
c6ad1443fb3c33a1e5169fe87016e476.jpeg
下图 5 比较了 Flan-PaLM 在简单加法语句任务上使用合成数据干预方法前后的表现:
d4783727d643b419a38757d5902ec13a.jpeg


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/874727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FPGA GTP全网最细讲解 aurora 8b/10b协议OV5640摄像头视频传输 提供2套工程源码和技术支持

目录 1、前言免责声明 2、我这里已有的 GT 高速接口解决方案3、GTP 全网最细解读GTP 基本结构GTP 发送和接收处理流程GTP 的参考时钟GTP 发送接口GTP 接收接口GTP IP核调用和使用 4、设计思路框架OV5640摄像头配置及采集视频数据组包GTP aurora 8b/10b数据对齐视频数据解包图像…

WinCC V7.5 中的C脚本对话框不可见,将编辑窗口移动到可见区域的具体方法

WinCC V7.5 中的C脚本对话框不可见,将编辑窗口移动到可见区域的具体方法 由于 Windows 系统更新或使用不同的显示器,在配置C动作时,有可能会出现C脚本编辑窗口被移动到不可见区域的现象。 由于该窗口无法被关闭,故无法进行进一步…

WebRTC音视频通话-RTC直播本地视频及相册视频文件

WebRTC音视频通话-RTC直播本地视频及相册视频文件 WebRTC音视频通话-RTC直播本地视频文件效果图如下 WebRTC音视频通话-RTC直播本地视频文件时候,用到了AVPlayer、CADisplayLink。 一、通过AVPlayer播放本地视频 AVPlayer是什么? AVPlayer是基于AV…

进程间的通信

进程的通信,光是听概念就知道这是一个非常重要的知识点,但是之前学习的概念其实都无法实现真正意义上的进程间的通信: 子进程调用exit或Exit或_exit,然后父进程通过wait可以知道其状态,这虽然实现了消息的传递&#x…

【图像分类】理论篇(2)经典卷积神经网络 Lenet~Densenet

1、卷积运算 在二维卷积运算中,卷积窗口从输入张量的左上角开始,从左到右、从上到下滑动。 当卷积窗口滑动到新一个位置时,包含在该窗口中的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到一个单一的标量值&#xff0c…

算法与数据结构(二十三)动态规划设计:最长递增子序列

注:此文只在个人总结 labuladong 动态规划框架,仅限于学习交流,版权归原作者所有; 也许有读者看了前文 动态规划详解,学会了动态规划的套路:找到了问题的「状态」,明确了 dp 数组/函数的含义&a…

二叉树的存储结构(顺序存储)—— 数据结构与算法

😶‍🌫️Take your time ! 😶‍🌫️ 💥个人主页:🔥🔥🔥大魔王🔥🔥🔥 💥代码仓库:🔥🔥魔…

《雷达像智能识别对抗研究进展》阅读记录

(1)引言 ​ 神经网络通常存在鲁棒性缺陷,易受到对抗攻击的威胁。攻击者可以隐蔽的诱导雷达智能目标识别做出错误预测,如: ​ a图是自行车,加上对抗扰动后神经网络就会将其识别为挖掘机。 (2&a…

一探Linux下的七大进程状态

文章目录 一、前言二、操作系统学科下的进程状态1、运行状态2、阻塞状态3、挂起状态 三、Linux下的7种进程状态1、运行状态R2、浅度睡眠状态S3、深度睡眠状态D一场有趣的官司 4、停止状态T5、进程跟踪状态t6、死亡状态X7、僵死状态Z —— 两个特殊进程① 僵尸进程② 孤儿进程 四…

算法竞赛备赛之搜索与图论训练提升,暑期集训营培训

目录 1.DFS和BFS 1.1.DFS深度优先搜索 1.2.BFS广度优先搜索 2.树与图的遍历:拓扑排序 3.最短路 3.1.迪杰斯特拉算法 3.2.贝尔曼算法 3.3.SPFA算法 3.4.多源汇最短路Floy算法 4.最小生成树 4.1.普利姆算法 4.2.克鲁斯卡尔算法 5.二分图:染色法…

嵌入式学习之strcpy、memset、realloc、malloc使用方法

今天主要针对C语言的strcpy memset realloc mallooc函数进行了学习。 char* strcpy(char* destination,const char* source); void memset ( void *s , char ch, unsigned n ); void* realloc(void* memblock, size_t size); void *malloc(size_t si…

tkinter打造三维绘图系统,附源代码

文章目录 输入数据加载数据绘图函数源代码 Python绘图系统系列:将matplotlib嵌入到tkinter 简单的绘图系统 数据导入 输入数据 三维绘图需要一个新的坐标变量,设置为z,这个改改UI就可以办到,并不困难。但是,此前用于…

git安装介绍

一、分布式版本控制系统Git概述 1.1 分布式版本控制系统Git介绍 版本控制定义 记录和跟踪项目中各文件内容的改动变化 保存项目的版本历史,以及改动原因,从而让用户能够查看各个历史版本 版本控制系统也是帮助人员进行协作开发的利器 为什么需要版本…

WebRTC音视频通话-WebRTC本地视频通话使用ossrs服务搭建

iOS开发-ossrs服务WebRTC本地视频通话服务搭建 之前开发中使用到了ossrs,这里记录一下ossrs支持的WebRTC本地服务搭建。 一、ossrs是什么? ossrs是什么呢? SRS(Simple Realtime Server)是一个简单高效的实时视频服务器,支持RTM…

福康源:用孝道温暖每一个心灵,共筑幸福健康新人生!

福康源:用孝道温暖每一个心灵,共筑幸福健康新人生 孝道的光芒:福康源的初心 在浮躁的现代社会,孝道的力量正被越来越多的人忽略。然而,福康源的初心却始终坚守孝顺的真谛。孝道不仅是对父母的敬爱,更是一种…

【解析postman工具的使用---基础篇】

postman前端请求详解 主界面1.常见类型的接口请求1.1 查询参数的接口请求1.1.1 什么是查询参数?1.1.2 postman如何请求 1.2 ❤表单类型的接口请求1.2.1 复习下http请求1.2.2❤ 什么是表单 1.3 上传文件的表单请求1.4❤ json类型的接口请求 2. 响应接口数据分析2.1 postman的响…

程序设计 树基础

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…

Lorilla LLM - 面向API调用生成的专用AI大模型

Gorilla 是一种先进的大型语言模型 (LLM),旨在与各种 API 有效交互,从而增强 LLM 在实际应用中的功能。 Gorilla LLM的相关链接:官网 | github | 论文。 推荐:用 NSDT编辑器 快速搭建可编程3D场景 1、Gorilla LLM简介 通过使用自…

CentOS 项目作出声明,宣称自家 Linux 社区 “始终向所有人开放”

导读在红帽 RHEL 开源事件后,许多兼容 RHEL 的发行版最近都进行了表态,CentOS 项目也在日前作出了声明,宣称自家社区 “始终向所有人开放”。 据悉,CentOS 项目董事会日前在官方博客发布了一则公告,内容主要涉及“ Ce…

拒绝摆烂!C语言练习打卡第一天

🔥博客主页:小王又困了 📚系列专栏:每日一练 🌟人之为学,不日近则日退 ❤️感谢大家点赞👍收藏⭐评论✍️ 🗒️前言: 在前面我们学习完C语言的所以知识,当…