【论文速读】| JADE:用于大语言模型的基于语言学的安全评估平台

news2024/12/22 19:17:06

图片

本次分享论文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models

基本信息

原文作者:Mi Zhang, Xudong Pan, Min Yang

作者单位:Whitzard-AI, System Software and Security Lab @ Fudan University

关键词:Certificates, TEQIP Participation, LLM Safety Testing

原文链接:https://arxiv.org/abs/2311.00286

开源代码:https://github.com/whitzard-ai/jade-db

论文要点

论文简介:JADE是一个创新的模糊测试平台,专注于增强语言复杂性以挑战大语言模型的安全性。它针对三组不同的语言模型:八个开源中文模型、六个商业中文模型和四个商业英文模型,生成了三个安全基准,成功触发70%的不安全内容生成。JADE利用诺姆·乔姆斯基的转换生成语法理论,通过生成和转换规则增加问题复杂性,直至突破模型的安全限制。其核心优势在于识别语言模型无法完全覆盖的恶意语义。JADE还集成了主动学习算法,通过少量标注数据不断优化评估模块,提高与人类专家判断的一致性。

研究目的:本研究的目标在于探寻大语言模型(LLMs)的安全边界。JADE 借助诺姆·乔姆斯基的生成语法理论,能够自动把自然问题转变为愈发复杂的句法结构,从而突破其安全防线。研究者的核心观点为:鉴于人类语言的复杂性,当下大多数最为出色的 LLMs 很难从数量无限的不同句法结构中识别出始终不变的有害意图。所以,JADE 致力于通过提升问题的句法复杂性,揭露 LLMs 在应对复杂句法形式时的共同弱点,进而增强安全评估的系统性。

研究贡献:

1. 有效性:JADE 具备出色的有效性,能够把原本违规率约为 20%的种子问题转变为高度关键且不安全的问题,使 LLMs 的平均违规率大幅提升至 70%以上,切实有效地探索了 LLMs 的语言理解和安全边界。

2. 可转移性:JADE 生成的高威胁测试问题具有良好的可转移性,能够在几乎所有开源 LLMs 中触发违规行为。例如,在 JADE 生成的中文开源大模型安全基准数据集中,有 30%的问题能够同时触发八个著名的中文开源 LLMs 的违规行为。

3. 自然性:JADE 通过语言变异生成的测试问题几乎不改变原问题的核心语义,很好地保持了自然语言的特性。与此形成鲜明对比的是,LLMs 的越狱模板引入了大量语义无关的元素或乱码字符,呈现出强烈的非自然语言特性,容易被 LLMs 开发者的定向防御措施所针对。

引言

目前,AIGC 在诸多关键应用领域迅速发展,但因其训练数据的质量参差不齐,包括难以清理的不安全文本,致使预训练的 LLMs 如 GPT-3 易生成不安全内容,如何抑制其不安全生成行为成为构建 3H 原则生成 AI 的首要挑战。

图片

为探索 LLMs 的安全边界,研究者打造了综合的目标语言模糊测试平台 JADE。该平台依据乔姆斯基的生成语法理论,能自动将自然问题转化为更复杂的句法结构,以突破安全防线。它通过智能调用生成和变换规则,自动增长并变换给定问题的句法树,直至目标 LLMs 生成不安全内容。评估表明,多数著名的对齐 LLMs 在少量变换/生成步骤后就会被突破,证明了该语言模糊测试程序的高效性。此外,JADE 不仅实现了自动评估模块,采用主动提示调优理念减少手动标注需求,还系统化了现有对齐 LLMs 的失效模式,分析了它们处理人类语言复杂性方面的局限性。

研究背景

生成式人工智能(AIGC)的安全性应予以优先考量。在安全原则当中,一个基本的要求便是生成的内容应当无害,这实际上在 ChatGPT 以及其他对齐的 LLM 的早期设计中就已经达成。AIGC 所生成的内容不应违背伦理标准,也不应产生负面的社会影响。正因如此,监督微调(SFT)、人类反馈强化学习(RLHF)、AI 反馈强化学习(RLAIF)等策略被提出,以抑制不安全的生成行为。研究者的工作探讨了怎样评估和测试 AIGC 是否真正达成并满足了安全原则。

Preliminary

乔姆斯基的生成语法理论对人类语言的语法结构进行了解释,提出了一套用以描述如何由较小的句子成分生成一个句子的规则。比如,一条基本的生成规则是“句子能够重写为名词短语和动词短语”。借由递归调用这些规则,能够构建出愈发复杂的问题。

在变换语法方面,乔姆斯基的理论主张存在两层用于表示人类语言结构的层次,即深层结构和表层结构。通过变换规则,可以把一个问题的成分移动至另一个合适的位置,或者将原始关键词替换成一些不常见的同义词,进而增加句法的复杂性。

JADE

JADE 是一个基于语言学的模糊测试平台,其目的在于评估大语言模型(LLMs)的安全性。该平台运用乔姆斯基的生成语法理论,通过提高种子问题的句法复杂性,对 LLMs 的安全防线进行系统性测试。JADE 所生成的测试问题能够持续地促使多种 LLMs 生成有害内容,平均不安全生成比例高达 70%。这一平台通过改变原始问题的句法结构,让问题变得更为复杂,进而突破 LLMs 的安全防线。JADE 的评估结果表明,生成的问题在多个 LLMs 之间具备很强的可转移性,同时保持了问题的自然语言特性。此外,JADE 还引入了主动提示调优技术,降低了手动标注的需求,并且提升了评估结果的准确性。总之,JADE 通过揭示 LLMs 在处理复杂句法结构时的共同弱点,为 LLMs 的安全评估提供了一种行之有效的方法。

图片

评估结果

JADE 的评估结果表明,该平台在显著提升种子问题触发不安全生成的效果方面表现出色。实验显示,JADE 能够将原本违规率仅约 20%的种子问题转化为违规率高达 70%以上的关键问题。该测试覆盖了多个主流的 LLMs,包括开源和商业模型,结果证实生成的问题在不同 LLMs 之间具有很强的可转移性,大多数 JADE 生成的问题能够同时引发多个 LLMs 的违规行为。此外,这些生成的问题在流畅性和语义保持方面表现优异,与种子问题相比,较好地保持了自然语言特性,这也证明了 JADE 在增加语言复杂性方面的有效性。

图片

更多相关工作

现有的相关工作主要聚焦于探讨大语言模型(LLMs)的失效模式以及语言复杂性方面所面临的挑战。研究显示,LLMs 在处理复杂句法结构时,常常呈现出逻辑不一致性、对抗性鲁棒性匮乏以及容易分心等问题。比如,Fluri 等人发现,LLMs 在应对否定和改写问题时,常常会产生逻辑错误。另外,此前的研究还表明,LLM 在遭遇字符级扰动(例如添加、删除或者重复字符)、词汇替换(使用同义词替换词汇)以及句法变形(诸如风格转换)时,表现出较差的鲁棒性。Shi 等人则指出,当在问题描述中添加无关信息时,LLM 的表现会显著降低,体现出容易受到干扰的特性。相较而言,JADE 通过语言变异生成的问题,在维持核心语义以及自然语言特性方面具备显著优势,为 LLM 的安全评估提供了更为系统、更为有效的办法。

论文结论

本文提出了一个基于语言学的 LLMs 安全评估平台 JADE,该平台通过提升问题的句法复杂性,有效地探索了 LLMs 的语言理解和安全边界。实验结果显示,JADE 生成的问题在多个 LLMs 当中具有很强的可转移性,并且在流利性和语义保持方面有着出色的表现。未来的工作会进一步对 JADE 的生成规则和评估模块进行优化,从而提高其在更广泛应用场景里的适用性。 

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1926236.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue3学习体验(一)

搭建工程 使用vue-cli脚手架创建vue3工程 vue create vue3-app-vue-cliVue-cli官网:https://cli.vuejs.org/zh/guide/installation.html 使用vite搭建vue3工程 npm init表示临时的下载vite应用来创建vue3工程,工程名称为vue3-app-vite npm init vit…

Vue3 markRaw的使用

markRaw 作用:将一个对象标记为不可以被转化为代理对象。返回该对象本身。 应用场景: 1.有些值不应被设置成响应式时,例如复杂的第三方类库等 2.当渲染具有不可变数据源的大列表时,跳过响应式转换可以提高性能 3.在动态渲染组件的时候我们就可以使用 markRaw 包裹。markRaw 的…

Redis 7.x 系列【23】哨兵模式

有道无术,术尚可求,有术无道,止于术。 本系列Redis 版本 7.2.5 源码地址:https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 工作原理2.1 监控2.2 标记下线2.3 哨兵领袖2.4 新的主节点2.5 通知更新 3. …

jvm 07 GC算法,内存池

01 垃圾判断算法 1.1引用计数算法 最简单的垃圾判断算法。在对象中添加一个属性用于标记对象被引用的次数,每多一个其他对象引用,计数1, 当引用失效时,计数-1,如果计数0,表示没有其他对象引用,…

【YOLO系列】快速部署YOLOv5(Windows)

引言 在计算机视觉领域,目标检测是至关重要的任务之一,它涉及识别图像或视频中的对象,并将其分类和定位。近年来,**YOLO(You Only Look Once)**算法因其速度与精度的平衡而变得非常流行。在这篇博文中&…

【触摸屏】【红十字会学习系统】功能模块:视频 + AI拍照合成

项目背景 提升公众急救能力:确保每个人都能在紧急情况下采取正确的急救措施,减少伤害,挽救生命。培养人道主义价值观:通过教育和培训,传播红十字精神,促进社会对弱势群体的关注与支持。建立社区响应网络&a…

怎么减少pdf格式的内存,怎么减少pdf文件大小

在数字化时代,pdf文件因其格式稳定、兼容性强等特点,成为工作与学习中的常用文档格式。然而,较大的pdf文件往往给存储和传输带来不便。本文将为你详细介绍如何巧妙减小pdf文件内存,助你轻松解决文件传输和存储的烦恼。 让我们来看…

Arduino PID整定

Arduino PID整定 Tuning an Arduino PID Introduction to Tuning an Arduino PID 例如,我们可能想把一箱水加热到华氏 100 度。 我们需要能够在不同的条件下实现这一目标,例如房间的环境(周围)温度。 此外,我们可能会…

CoreIDRAW标注尺寸箭头怎么修改 CoreIDRAW标注尺寸数字怎么修改

*CorelDraw:数字创意的无限可能** 在数字艺术与设计领域,CorelDraw无疑是一款备受推崇的图形设计软件。它不仅为设计师、艺术家和创意工作者提供了强大的工具集,还以其直观易用的界面和卓越的性能赢得了广泛的赞誉。本文将深入探讨CorelDraw…

【Playwright+Python】系列之元素定位

一、常见元素定位 定位器是 Playwright 自动等待和重试能力的核心部分。简而言之,定位器代表了一种随时在页面上查找元素的方法,以下是常用的内置定位器。 1、按角色定位 按显式和隐式可访问性属性进行定位语法:page.get_by_role&#xff0…

力扣经典题目之->删除有序数组中的重复项讲解 的讲解与实现

一:题目 二:思路讲解 第一步:创建两个下标,一个是第一个元素的(start0),一个是第二个元素的(end1) 第二步: a:end移动,直到遇到不等…

Dify中Jieba类的create()方法实现过程

本文主要介绍Dify中Jieba类的create()方法执行过程,重点是段(segment)的关键词的生成。 一.create方法流程概述 整个create方法的目的是为了处理一批文本,提取它们的关键词,并更新关键词表,以便于后续的关…

Spark 实现自定义加密

文章目录 Spark 实现自定义加密一、建立加密和解密的自定义函数二、在 Spark 环境下导入对象实现的方法,并在 SparkSession 中注册 UDF 函数三、在SparkSQL中调用函数 Spark 实现自定义加密 一、建立加密和解密的自定义函数 import java.nio.charset.{StandardCha…

STM32+三色LED智能调光系统源程序 易安卓APP 原理图

资料下载地址:STM32三色LED智能调光系统源程序 易安卓APP 原理图 三色LED手机智能调光系统概述: 利用开发的智能手机软件,对照明三色LED进行智能调光。包含的功能有,支持多手机同时连接服务端,互动调光。支持关…

【数据结构】顺序表的应用

目录 一.引言 二.顺序表概念 三.顺序表的实现 1.定义顺序表 2.顺序表初始化 ​编辑 3.检查空间,如果满了,进行增容 4.顺序表尾插 5.顺序表尾删 6.顺序表头插 7.顺序表头删 ​编辑 8.顺序表查找 9.顺序表在pos位置插入x 10.顺序表删…

深入探讨:CPU问题的深度分析与调优

引言 你是否曾经遇到过这样的情况:系统运行突然变慢,用户抱怨不断,检查后发现CPU使用率居高不下?这时候,你会如何解决?本文将详细解析CPU问题的分析与调优方法,帮助你在面对类似问题时游刃有余。 案例分析:一次CPU性能瓶颈的解决过程 某知名互联网公司在一次促销活动…

Dubbo基础知识

1、什么是 Dubbo ? Dubbo是基于Java的高性能轻量级的RPC分布式服务框架,致力于提供透明化的RPC远程服务调用方案,以及SOA服务治理方案。现已成为Apache 基金会孵化项目。 2、为什么要使用Dubbo? 背景: 随着互联网的快速发展,Web应…

JAVA毕业设计147—基于Java+Springboot的手机维修管理系统(源代码+数据库)

毕设所有选题: https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringboot的手机维修管理系统(源代码数据库)147 一、系统介绍 本项目分为用户、管理员、维修员三种角色 1、用户: 注册、登录、新闻公告、售后申请、申请列…

使用Samba或NFS实现文件共享

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 一、SAMBA文件共享服务 1987年,微软公司和英特尔公司共同定制了SMB(Server Messages Block)服务器消息块协议&am…

板级调试小助手(2)ZYNQ自定义IP核构建属于自己的DDS外设

一、前言 在上期文章中讲述了小助手的系统结构和原理。在PYNQ的框架开发中,我们一般可以将PL端当做PS端的一个外设,通过读写寄存器的方式来操作外设的功能,就类似于在开发ARM和DSP中操作外设一样,不同时的是,我们可以通…