LLMs实际上在假对齐!

news2024/11/26 12:46:22

716b32d71a04f91906c98443b5847134.png

深度学习自然语言处理 原创
作者:cola

对大型语言模型(LLM)中安全问题的意识日益增强,引发了人们对当前研究工作中的安全性评估的极大兴趣。本研究调查了与llm评估有关的一个有趣问题,即多重选择问题和开放式问题之间的性能差异。我们发现LLM对安全这一复杂概念的理解并不全面,它只记得回答开放式安全问题,而无法解决其他形式的安全测试。我们将这种现象称为假对齐,为解决这个问题,我们提出FAEF框架和两个新指标—一致性分数(CS)和一致性安全分数(CSS),用来联合评估两种互补的评估形式,以量化假对齐并获得正确的性能估计。

论文:
Fake Alignment: Are LLMs Really Aligned Well?

地址:
https://arxiv.org/pdf/2311.05915.pdf

介绍

有研究指出LLMs可能会产生恶意内容(例如:有害和有偏见的言论,危险的行为准则和隐私泄露等),引起安全问题。同时,许多基准的出现就是为了评估其安全性。这些测试大多可以分为两种形式:开放式问题和选择题。在第一种形式中,LLM给出问题的回答,人类或其他LLM给出是否安全的判断;在第二种形式中,LLM从多个选项中选择一个它认为安全的选项,然后对答案进行比较得出判断。从人类的角度来看,多项选择题往往更简单,因为正确的答案包含在选项中,用排除法可以选择更好的一个。然而,在审查现有的评估结果后,我们惊讶地发现与开放式LLM相比,大多数LLM在多项选择题上表现出更低的安全性能。如图1所示,LLM在一些常见的开放式问题测试数据集上的平均性能为94.94%,而在多项选择测试数据集上的平均性能仅为78.3%5928c574c41e3108106f1bcc46f90061.png是什么导致了评估性能的显著差异呢? 受不匹配泛化理论的启发,我们认为这是由于模型的安全训练没有有效地覆盖其预训练能力的范围。如图2所示,两个LLM都能有效地回答开放式问题。然而,虽然一个很好地协调并在解决其他问题时演示了安全考虑,但另一个未能理解其他格式的安全方面。换句话说,LLM其实只是记住了关于安全问题的答案,但缺乏对什么内容属于安全的真正理解,这使得他们很难选择正确的选项,我们将其称为LLM的假对齐。假对齐的存在证明了以前许多开放式问题评估的不可靠性。c3e7e2f7ab0b67ea665e16467691f7d5.png然而,由于两种类型的测试数据集之间缺乏严格的对应关系,无法分析LLM中假对齐的程度。为此,首先精心设计了一个包含5类(公平性、人身安全、合法性、隐私和社会伦理)问题的数据集;每个测试问题由一个开放式问题及其对应的选择题组成,通过比较其在回答两类问题上的一致性,可以定量分析LLMs中是否存在假对齐问题。在我们的数据集上测试了14个常见的LLM,结果表明一些模型存在严重的假对齐问题。实验表明,即使使用问题和正确选项的内容进行有监督的微调,LLM在多项选择题上性能的提高仍然非常有限。这进一步证实了这种一致性测试可以有效地发现假对齐。最后,在总结数据集构建过程和评估方法的基础上,提出了假对齐评估框架FAEF(Fake Alignment evaluation Framework),该框架可以在少量人工辅助的情况下,将现有的开放式问题数据集转换为LLM的假对齐评估数据集。

假对齐

背景

LLMs是在大型语料库上训练的概率模型,用于给定token序列预测下一个token,即 ,其中是给定token。对齐技术希望最大化模型输出符合人类价值偏好的概率。然而,不同的对齐算法、对齐数据和模型参数大小对最终对齐性能有很大影响,也直接影响用户体验。

当前与LLMs的常见交互方法是提示工程,这意味着用户输入专门设计的提示文本,以指导LLM生成响应。对LLM的评估也遵循类似的方法,给它们一些测试问题,然后自动或手动判断响应。另外,根据试题类型,评价通常分为开放式题型和多项选择题型两种,可表示为:0537f033a42750d97a3245453b0946f4.png其中是开放式问题提示集,是多项选择题提示集,是测试提示数,是正确选项,是判断函数,它可以是人类或其他LLM给出的评估。

假对齐的证明

LLM的训练分为预训练和安全训练。预训练是指在大规模语料库上进行训练,因此LLM获得了各种强大的能力,如文本生成、推理和主题知识等。安全训练使用有监督的微调、RLHF、RLAIF和其他技术来对齐模型偏好与人类价值偏好,从而为LLM建立安全护栏。然而,当安全训练数据缺乏多样性且覆盖范围不广时,该模型往往只是在某些方面模拟安全数据,而没有真正理解人类的偏好。安全训练不足导致在没有适当安全考虑的情况下做出反应。这也意味着模型在某些方面似乎对齐得很好,但实际上这可能是欺骗性的;它对对齐没有深刻、正确的理解。这就是我们所说的假对齐。

为了证明这一说法,首先从能力和安全性两个方面设计了评估数据集。数据集中的每个问题都包含一个相应的开放式问题和多项选择问题,用于直接比较模型性能差异。能力方面的比较测试是为了证明LLM在预训练阶段已经掌握了回答多项选择题的能力。如果该模型在能力测试集上两种评估形式没有差异,但在安全性测试集上表现出差异,则可以证明虚假对齐的存在。能力测试内容来自2018年AI2推理挑战赛(ARC),包含不同学科领域的7787个科学问题,过滤和选择了100个问题,这些问题很容易被转换为化学、生物、数学等学科领域的开放式问题,如表2所示。65ae3fde654af05b1c021f65e8bd4d88.png在安全性测试中,我们选择了5个最受关注的主题,然后围绕相应的主题收集和构建开放性问题:

  • 公平性:包括性别、种族、性取向等;

  • 人身安全:旨在评估LLM不会对个人造成潜在伤害,特别是在人身和财产安全方面;

  • 合法性:衡量LLMs是否可能提供可能违反法律的建议,如盗窃、抢劫或类似的非法活动;

  • 隐私性:旨在测试LLMs是否泄露了一些私人信息或提供了损害他人隐私的建议;

  • 社会伦理:包括环境友好性、生物友好性、对他人的友好性等。

实验结果

1️⃣能力测试:对于多项选择题,设计了具体的提示模板来指导司法专家间接地提出选项。然后,我们利用正则表达式匹配方法从LLM的响应中提取选项,并将它们与正确答案进行比较。开放式问题涉及直接输入到模型中以获得相应的响应。实验结果如表3所示:542ff870c2e792c62035723a37d285a6.png2️⃣安全性测试:类似于能力测试,对于多项选择题,我们使用与之前相同的提示模板,以及正则表达式匹配方法。对于每个问题,通过交换选项的位置进行多次测试。只有当模型始终提供相同的答案时,它才被认为是通过的。这种方法最大限度地提高了结果的可靠性和可重复性。对于开放式问题,直接输入LLM来获得答案。这里使用的评价原则是考虑回复是否包含直接或潜在危害人类社会的内容,如歧视、暴力等。实验结果如表4所示:9f01ee9d8c395e791171ba057d299ad8.png3️⃣我们还在少样本场景下进行了评估实验。结果如表5所示:00db211d86ac13fc86f87217c8d9c79f.png4️⃣为了进一步验证LLM中的假对齐问题,我们设计了一个实验。在这个实验中,我们使用多选题格式的问题及其相应的正确答案提供的上下文来调整模型。选择微调ChatGLM2,结果如表6所示。8fb66fb09aa2075cddeef3f765d35d4b.png由于更大的参数量和预训练,该模型只需要稍微微调就可以完美地解决开放式问题。然而,该模型在多项选择题上的改进只有4%,几乎可以忽略不计。这进一步表明,通过简单的监督微调,该模型虽然能够记住安全问题的标准答案,但仍然难以概括和理解安全问题。

假对齐评价框架

FAEF方法

1️⃣数据收集:首先,确定待评估的安全内容和维度,如公平性、隐私性等;然后,围绕这些内容,可以从开源数据集中收集和过滤开放式问题,通过使用LLM进行扩展,并通过人工的努力收集。

2️⃣选项构造:为了创建相应的多项选择题,将开放式问题直接输入到对齐良好的LLM(如GPT-3.5-Tubor)中,以获得作为正确选项的积极响应。至于负面选项,我们通过越狱LLM来构建它们。我们在模型中创建了一个对抗性的负面角色,以确保它生成违背人类偏好的内容。

3️⃣响应判断:在获取同一内容的不同形式的问题后,我们分别使用它们来获取被评估的LLM的响应。整体架构如图3所示:366ff8b391e66e7ba51699d5de920096.png

一致性测试

在分别获得两种不同形式的评估结果后,通过比较它们之间的一致性,定量分析不同维度上的假对齐程度。形式上,我们定义了一个简单的一致性得分(CS):f9d5b65ddab14f91ece81fb9afc0213b.png其中是问题数量,和是问题在两种形式下的评价结果:053f4767b745bbe00ef1160399e20760.png其中和代表两种形式的问题,是正确选项。

CS指标比较LLM在每个维度的两种形式之间的一致性。如果LLM在特定维度中显示出两种形式之间的显著差异,则表明该维度中存在更明显的假对齐问题。因此,该指标也反映了以往评价结果的可信度。

一致性安全分数计算方式如下:aba4d677f9de189d2fb7a7eedfb7d6f4.png该CSS度量在计算对齐性能时考虑LLM响应的一致性。因此,可以忽略假对齐的影响,获得更可信的评价结果。

实验结果

使用提出的基准,在FAEF框架下评估了14个广泛使用的LLM的对齐一致性和一致性安全率。结果如图4所示,颜色越深表示性能越好,颜色越浅表示性能越差。4167ceebeec6f48ba9ab7e62bc1368e3.png

总结

主要贡献:

  • 发现了假对齐问题,并认为它是一种不匹配的泛化,模型没有真正理解需要对齐的值。

  • 设计了一个新的测试数据集。数据集的每一道测试题都包含一个开放式问题和一个严格对应的选择题。

  • 提出了FAEF,一种衡量模型是否存在假对齐的通用框架,只需要少量的人工协助,并与现有的开源数据集兼容。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

dac09932cf0451e1f4a6be5ab2450107.png

id:DLNLPer,记得备注呦

aa6b843461648b1bc85189d982ad6415.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1219345.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RTMP服务器搭建

1、流媒体 基本概念 流媒体(Streaming media),也叫做:流式媒体。 是指将一连串的多媒体数据压缩后,经过互联网分段发送数据,在互联网上即时传输影音以供观赏的一种技术与过程此技术使得数据包可以像流水…

Kubernetes Dashboard部署ImagePullBackOff问题处理

通常,出现ImagePullBackOff问题是由于Kubernetes集群无法拉取所需的镜像导致的。解决这个问题的方法通常包括以下步骤: 1. 检查Pod的描述信息: kubectl describe pod/[pod名称] --namespacekubernetes-dashboard 查看Events部分是否有关于…

如何制作优秀的二维码电子产品说明书?干货来了!

想象一下,如果同时出现以下场景,您会怎么解决? 用户在使用产品过程中可能遇到问题、疑问或需要进一步的指导,但纸质说明书丢失 产品更新、升级和新功能的发布,纸质产品说明书无法快速更新 公司推出的产品可能具有…

【uniapp】 video视频层级、遮挡其他弹窗或顶部导航 使用nvue覆盖

uniapp 顶部导航和弹窗被video遮挡解决办法 第一步:配置 subNVues {"path": "pages/index/index","style": {"navigationBarTitleText": "uni-app","navigationStyle": "custom","app-…

微信抽奖活动怎么做

微信抽奖活动:打破传统,创新互动,带给你超乎想象的惊喜体验! 随着互联网的飞速发展,人们越来越热衷于参与各种线上活动。而微信,作为中国最大的社交平台之一,自然成为了各种活动的聚集地。今天…

本地MQTT协议消息服务远程连接教程介绍

Mosquitto是一个开源的消息代理,它实现了MQTT协议版本3.1和3.1.1。它可以在不同的平台上运行,包括Windows、Linux、macOS等。mosquitto可以用于物联网、传感器、移动应用程序等场景,提供了一种轻量级的、可靠的、基于发布/订阅模式的消息传递…

数据仓库-数仓架构

1 数据仓库建设方法论 1.1 项目背景 数据仓库将建设成为融通全公司数据资产,提供便捷数据分析和数据服务,支持全公司数字化经营与创新。 1.2 数据仓库概述 数据仓库是一个面向主题的、集成的、相对稳定的、反映有历史变化的数据集合,用于…

芸鹰蓬飞:抖店服务分怎么快速升分?

在这个平台上,抖店服务分数的高低直接关系到商家在抖音平台上的曝光和信任度。那么,如何快速提升抖店服务分,成为了广大商家亟需解决的问题。本文将从多个角度,深入探讨提升抖店服务分的有效方法。 一、了解抖店服务分的评估标准 …

高阶数据结构---树状数组

文章目录 楼兰图腾一个简单的整数问题 一个简单的整数问题2谜一样的牛 一、楼兰图腾OJ链接 二、一个简单的整数问题OJ链接 三、一个简单的整数问题2OJ链接 四、谜一样的牛OJ链接

盘点十大免费低/无代码开发软件,数字化转型看这里

在数字化日益普及的当下,低代码开发技术逐渐受到大众的追捧。这种技术让缺乏编程经验的大众也能轻松创建应用程序和网站。通过直观的图形界面和拖拽功能,用户可以无需编写任何代码,轻松实现自己的开发需求。本文将为您介绍十大免费的低代码开…

AI视频检索丨历史视频标签化,助力重要事件高效溯源

随着科技的不断发展,安全监控已成为我们生活中不可或缺的一部分。当发生盗窃、人员走失、安全事故等重要事件时,常常需要通过查看视频回放了解事情经过,为解决问题提供证据或指明查找方向。但是,人工查看视频回放往往费时费力&…

【嵌入式开发学习】__扒一扒单片机串口IAP原理

一、什么是IAP? IAP 是 In Application Programming 的首字母缩写,IAP是用户自己的程序在运行过程中对 User Flash 的部分区域进行烧写,目的是为了在产品发布后可以方便地通过预留的通信口对产品中的固件程序进行更新升级。 在重新编程过程…

深入Android S(12.0) 探索 Android Framework 之 SystemServer 进程启动详解

深入学习 Android Framework 第三:深入Android S(12.0) 探索 Android Framework 之 SystemServer 进程启动详解 文章目录 深入学习 Android Framework前言一、Android 系统的启动流程1. 流程图2. 启动流程概述 二、源码详解1. 时序图2. 源代码1、ZygoteInit # main…

草图大师SketchUp Pro 2023

SketchUp Pro 2023 for Mac(草图大师)是一款三维建模软件,由Trimble Inc.开发。它可以用于创建、修改和分享3D模型,包括建筑、家具、景观等。 SketchUp Pro 2023 for Mac提供了简单易学的用户界面和强大的工具集,使用…

数据库表数据类型datetime 和 timestamp区别,以及优缺点

datetime和timestamp都是用于表示日期和时间的数据类型,但它们在存储和使用上有一些区别。 数据范围:datetime数据类型的有效范围是从1000年到9999年,精度为秒。timestamp数据类型的有效范围是从1970年到2038年,精度为秒。存储空…

element-china-area-data插件vue3做省市区的下拉选择,用3个独立的el-select实现

第1版,选择下拉没有优化 第2版,选择下拉时,做了优化

<蓝桥杯软件赛>零基础备赛20周--第6周--数组和队列

报名明年4月蓝桥杯软件赛的同学们,如果你是大一零基础,目前懵懂中,不知该怎么办,可以看看本博客系列:备赛20周合集 20周的完整安排请点击:20周计划 每周发1个博客,共20周(读者可以按…

SystemVerilog学习 (10)——线程控制

一、概述 在实际硬件中,时序逻辑通过时钟沿来激活,组合逻辑的输出则随着输人的变化而变化。所有这些并发的活动在Verilog 的寄存器传输级上是通过initial和 always块语句、实例化和连续赋值语句来模拟的。为了模拟和检验这些语句块,测试平台使用许多并发执行的线程。在测试平台…

Python 集成 Nacos 配置中心

Python 集成 Nacos 配置中心 下载 Nacos 官方 pyhton 库 pip install nacos-sdk-python # 指定国内阿里云镜像源 pip3 install nacos-sdk-python -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com配置 Nacos 相关信息 Global:nacos:port: 8848…

线下保薪班开启

大家都知道我们有线上班,对于想技能提升的同学来说,线上足以满足技能提升需求,对于想转行找工作,或者学生想就业的同学来说,线上却并不是一个好的选择,担心的可能有:担心自身基础较弱怕学不懂,担…