论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

news2024/11/28 16:48:20

这篇论文研究了使用提示 (Prompting) 方法微调预训练语言模型,以提高其在对抗样本攻击下的鲁棒性。论文的主要贡献如下:

        1.MVP 比 MLP-FT 更鲁棒:

         论文比较了 MVP (Model-tuning Via Prompts) 和传统的 MLP-FT (Fine-tuning with an MLP head) 方法,发现 MVP 在对抗样本攻击下表现更鲁棒,平均提升 8% 的准确率,甚至在某些情况下超过了基于对抗训练的 SOTA 防御方法。
         论文还发现,将 MVP 与单步对抗训练结合,可以进一步提升鲁棒性,而不会影响无对抗样本时的准确率。

        2.MVP 更样本高效,有效鲁棒性更高:

        论文通过实验证明了 MVP 在低数据环境下比 MLP-FT 更样本高效,即使用更少的训练样本就能达到相同的准确率。
        论文还定义了有效鲁棒性指标,用于衡量具有相同无对抗样本准确率的模型的鲁棒性。结果表明,MVP 的有效鲁棒性也比 MLP-FT 更高。
        3. MVP 鲁棒性提升的原因:
         论文提出了三个假设来解释 MVP 鲁棒性提升的原因:
           随机参数脆弱性: MLP-FT 使用随机初始化的线性层,容易导致特征扭曲,从而降低鲁棒性。实验结果表明,减少随机参数数量可以提升模型鲁棒性。
            预训练任务对齐: MVP 使用掩码填空任务,与预训练目标更一致,有助于提升鲁棒性。实验结果表明,没有预训练的模型,MVP 和 MLP-FT 的鲁棒性表现相似,说明预训练任务对齐是关键因素。
           候选答案语义: 论文发现,即使使用随机候选答案,MVP 的鲁棒性依然很高,说明候选答案的语义与类别标签是否相关并不影响鲁棒性。
        4. 人机实验验证对抗样本的有效性:
        论文通过人机实验发现,人类标注者更容易识别对抗样本,并且对抗样本的准确率和置信度都低于无对抗样本,说明 MVP 的鲁棒性提升是有效的。
        5. MVP 在 OOD 任务上的鲁棒性提升:
        论文还发现,MVP 在 OOD (Out-of-Distribution) 任务上的鲁棒性也比 MLP-FT 更高,平均提升 2% 的准确率。
总结:
        这篇论文为 NLP 模型的鲁棒性提升提供了一种新的思路,即使用提示方法进行微调。MVP 方法简单易行,无需对抗训练或提示工程,就能有效提升模型在对抗样本攻击下的鲁棒性。未来研究可以探索将 MVP 应用于更大规模的模型,以及更多类型的 NLP 任务。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2192253.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

热门:AI变现,看看谁在默默赚大钱?

在这个愈发依赖AI的时代,找到属于自己的盈利方式愈发重要。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 总的来说,利用AI进行盈利的方式主要有三种:技术型、流量型和内容型。 每种方式都根植于AI的特性,但同时也需要特定…

【英语】2. 英语的表达习惯

文章目录 前言less v. more n.解释e.g. less v. more prep.被动与中文的歧义总结参考文献 前言 进行英语前后缀的复习 less v. more n. 解释 外国的表达方式:更多地偏向静态,因此更多地使用名词 e.g. (rather Chinglish expression) She could not c…

Linux Cent7 已安装MySQL5.7.X,再安装MYSQL8.4.2

一、 下载安装 检查Linux系统的glibc版本rpm -qa | grep glibc结果:glibc-common-2.17-260.el7_6.6.x86_64 glibc-2.17-260.el7_6.6.x86_64 glibc-headers-2.17-260.el7_6.6.x86_64 glibc-devel-2.17-260.el7_6.6.x86_64访问MySQL官网,下载对应版本数据…

【智能算法应用】侏儒猫鼬优化算法求解二维路径规划问题

摘要 在复杂环境下的移动机器人路径规划问题中,最优路径的求解具有重要的应用价值。本文基于一种新型智能优化算法——侏儒猫鼬优化算法(DMOA),提出了一种二维路径规划的有效求解方法。该算法通过模拟侏儒猫鼬的觅食、社会合作与…

一行 Python 代码能实现什么丧心病狂的功能?圣诞树源代码

手头有 109 张头部 CT 的断层扫描图片,我打算用这些图片尝试头部的三维重建。基础工作之一,就是要把这些图片数据读出来,组织成一个三维的数据结构(实际上是四维的,因为每个像素有 RGBA 四个通道)。 这个…

Github优质项目推荐-第四期

文章目录 Github优质项目推荐 - 第四期一、【Umi-OCR】,26.1k stars - 文字识别工具二、【AFFiNE】,41k stars - 知识库平台三、【NocoBase】,12k stars - 无代码/低代码平台四、【neovim】,82.3k stars - 改良版VIM五、【generat…

LLM大模型:开源RAG框架汇总

前言 本文搜集了一些开源的基于LLM的RAG(Retrieval-Augmented Generation)框架,旨在吸纳业界最新的RAG应用方法与思路。如有错误或者意见可以提出,同时也欢迎大家把自己常用而这里未列出的框架贡献出来,感谢~ RAG应用…

【AI副业项目】AI猫咪带娃新风尚:探索副业新机遇

随着互联网技术的飞速发展,内容创作已成为许多人追求自我表达、实现职业转型或发展副业的重要途径。然而,在信息爆炸的时代,如何创作出既新颖又吸引眼球的内容,成为了摆在每位创作者面前的难题。 在当今这个数字化与智能化并行的…

TM1618控制共阳极数码管的数据传送问题

数据传送中的问题 首先每个字节是按照一个地址写入的,而共阳极数码管的公共端是SEG引脚连接的。这使得数码管显示的编码是按照竖向的字节。如下图所示中,横向是公共端,竖向是实际编码字符字节。 数据转换方式 这样可以一次写入所有需要显示…

GoogleNet网络介绍及代码撰写详解(总结2)

可以从本人以前的文章中可以看出作者以前从事的是嵌入式控制方面相关的工作,是一个机器视觉小白,之所以开始入门机器视觉的学习只要是一个idea,想把机器视觉与控制相融合未来做一点小东西。废话不多说开始正题。(如有侵权立即删稿…

思维导图工具,轻松搞定复杂问题!

一提到思维导图,想必大家都不会陌生;它能帮助我们更好地梳理思路,让复杂的想法变得清晰可见;而随着互联网的普及,在线思维导图工具更是成为了我们日常工作和学习的得力助手;今天,我就来给大家推…

深入解析DPU:AI时代的芯片分工与超级网卡

引言 在当今AI时代,计算需求的爆炸性增长使得传统数据中心的架构面临着巨大的挑战。数据处理任务越来越复杂,尤其是在大型AI模型如GPT和BERT的应用中,如何提高数据中心的计算和传输效率成为关键问题。传统的CPU(中央处理器&#…

从零开始讲PCIe(10)——事务层介绍

一、事务层概述 事务层在响应软件层的请求时,会生成出站数据包。同时,它也会检查入站数据包,并将其中包含的信息传递到软件层。事务层支持非发布事务的分割事务协议,能够将入站的完成数据包与之前传输的非发布请求相关联。该层处理…

开发人员智能助手

据说AI可以代替开发人员,目前看暂时不用担心,不仅不担心,还要主动使用它。 过去有了问题需要自己各网站搜索,真真假假的东西太多,很难找到正确答案,现在可以问智能体了: 1、JAVA开发大师 htt…

【C++】输入输出缺省参数

大家好,我是苏貝,本篇博客带大家了解C的缺省参数,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 一. 输入&输出二. 缺省参数1 缺省参数概念2 缺省参数分类a. 全缺省参数b. 半缺省参数…

Top4免费音频剪辑软件大比拼,2024年你选哪一款?

现在我们生活在一个数字化的时代,音频内容对我们来说很重要。不管是给自己拍的视频配背景音乐、整理开会时的录音,还是自己写歌,有个好用的音频剪辑软件都特别重要。今天,我要给大家介绍几款特别好用的音频剪辑软件免费的&#xf…

Vue82 路由器的两种工作模式 以及 node express 部署前端

笔记 对于一个url来说,什么是hash值?—— #及其后面的内容就是hash值。hash值不会包含在 HTTP 请求中,即:hash值不会带给服务器。hash模式: 地址中永远带着#号,不美观 。若以后将地址通过第三方手机app分享…

教育技术革新:SpringBoot在线教育系统开发

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理微服务在线教育系统的相关信息成为必然。开…

【性能测试】使用JMeter性能工具做测试的基本过程及案例分析

前言 通过精心设计的性能测试,我们不仅能够了解服务端的综合效能与承载极限,更能前瞻性地评估现有业务架构在面对当前运营需求及未来业务扩张时的适应性与弹性,从而精准规划服务配置的优化路径。 使用jmeter一般用于以下两种类型的性能测试…

Dart基础入门

Dart 是一种由 Google 开发的开源编程语言,它可以用来构建服务器、Web 应用和移动应用。Dart 语言设计得既现代化又易于学习,它支持面向对象编程(OOP)、函数式编程风格,并且具有类似于 Java 或 C# 的语法。Dart 语言和…