以AI对抗AI,大模型安全的“进化论”

news2024/11/20 20:24:25

点击关注

文丨刘雨琦,编|王一粟

“互联网时代,我们是更危险,还是更安全?”

2016年,互联网正值高速发展之际,电梯广告经常出现这几个大字,两行标语,从病毒木马到网络诈骗,对于安全的思考、安全防范技术的建立一直在与科技发展赛跑。同样,大模型时代发展的早期,也引发了许多安全考量。

英特网被发明的十年后,互联网防护技术和产业链才开始补齐,而参考了过去几十年的经验,在大模型诞生后不到半年的时间里,围绕着模型安全、数据安全、内容安全的讨论,就已经不绝于耳。

最近一周,在上海外滩大会、浦江创新论坛、国家网安周等场合,产学研界针对于大模型应用落地所带来的数据安全问题(包括数据投毒、信息泄露、版权风险等)、模型安全问题(模型本身的安全漏洞、恶意利用等)、内容安全问题(生成内容包含违规、违法、色情等敏感信息等)、AI 伦理问题等进行了一系列的讨论。

如何为大模型保驾护航?

国内一些安全厂商,如360、蚂蚁、深信服、奇安信、山石科技等都在积极研发大模型安全技术。

01 大模型需要“医生”和“保镖”

大模型作为新物种的诞生,在训练过程中要有安全监控,在大模型最后推向市场的时候,也需要一次“质检”,质检后流入市场,需要可控的使用方式,这都是解决安全问题的宏观思路。

无论是通用大模型还是面向垂直领域的行业大模型,目前来看,模型安全的保护主要分为三个部分:

一是训练阶段的数据问题:如果数据采集不当、存在偏见或标签错误、数据被投毒,都有可能导致大模型产生错误输出、存在歧视或其他负面影响,同时数据在应用的过程中,也要面临数据泄露、隐私曝光等风险;

二是模型本身的可控问题:模型的可靠性、稳定性、鲁棒性等都需要进行检验,例如此前有用户构造针对性语句对模型进行诱导,大模型可能生产带有欺诈、歧视、政治倾向等风险内容;

三是大模型在实际场景中应用的安全问题:在实际的使用过程中,不同用户群体的交互和应用都需要谨慎评估,尤其是金融、医疗等领域对模型输出的正确性要求极高,如果应用不当,一石就容易激起千层浪。

多位业内人士向光锥智能表示:“模型安全需要一体化的技术防护体系,单独某一环节的把控解决不了根本问题。”

参考互联网安全的发展路径,诞生了诸多“病毒查杀”软件公司,一般检测、定位问题往往是第一步。

光锥智能了解到,蚂蚁的“蚁天鉴”,包含了大模型安全检测平台“蚁鉴2.0”、大模型风险防御平台“天鉴”,覆盖了从检测到治理到防御的全链条。蚁鉴2.0可对大模型进行多维度的安全扫描,检查存在的数据安全隐患、内容风险点等问题。相当于站在“黑产”角度,通过智能攻击对抗技术,自动生成数百万的诱导性问题,对生成式大模型进行诱导式问答,找出大模型的弱点和漏洞。

从技术的角度来看,蚁鉴采用了最新的“对抗智能”技术路线,使用智能对抗技术不断向大模型“投射问题”,观察模型生成的回答,判断是否存在风险。通过持续“拷问”,就像医生多次询问病人症状,平台可以盘查解析大模型的健康状况。

通过生成对抗样本,开发检测对抗样本的算法系统,来提升大模型安全性,已经成为一种主流技术趋势。在行业中,已有OpenAI、谷歌、微软、英伟达等一众巨头公司将对抗智能技术运用到其产品和服务中。

比如,在这种技术思路下,多伦多大学研发的 CleverHans 系统,就像一个专门设计来考验防盗系统的“小偷”,它会故意添加一些小干扰,来试图欺骗 AI 安防系统。在正常情况下,AI 系统可以准确识别“小猫”的图片,但 CleverHan 系统偏要在“小猫”图片上轻微修改几个像素点,给 AI 营造一种这是一张小狗图片的假象。假如,AI 系统被愚弄过去,那就代表其存在安全漏洞。

相比检测“诊断”,“防治”也非常重要。蚂蚁天鉴就像一个智能盾牌,可以防患于未然。通过智能分析用户提问意图来进行防御,天鉴可以拦截某些试图诱导模型生成敏感内容的恶意问题,确保外部恶意诱导无法传入大模型。同时,对模型输出内容实施二次过滤,自动识别风险信息并进行干预,确保大模型输出的内容符合规范。

更重要的是,数据问题是模型安全的源头,中国信通院云计算与大数据研究所主任石霖曾在一场学术交流会上分享道:“现在有非常多安全厂商采取了安全举措,包括对训练数据做一些清洗,对输入输出内容做过滤,另外还有监测和鉴别等安全防控措施。”

这需要防御平台作用在数据源头,针对数据源头有毒、模型深度黑盒不可控等问题。蚂蚁集团大安全机器智能部内容算法总监祝慧佳介绍,目前,天鉴正在尝试通过数据去毒、对齐训练、可解释性研究等手段保障模型安全。

02 用魔法打败魔法,以AI对抗AI

数字世界里和人眼世界里的内容特征是不一样的。

随着大模型时代的到来,其强大能力也为安全防护技术的变革提供了新的思路。“用 AI 的力量来对抗 AI ”已经成为一个热点方向。

事实上,对抗攻防思路并不是模型安全的专属。早在上个十年,面对种种安全威胁,人工智能领域就逐步形成了“以攻测防——以攻促防——攻防一体化”的安全理念,通过模拟各类攻击场景,不断探索模型和系统的弱点,以此推动算法和工程端的防御能力加强。

只不过,以往安全防护主要依赖机器学习算法模型,这需要大量专业数据知识积累,且面临知识盲区和小样本冷启动不及时的问题。利用大模型技术,可以实现更智能化的安全防控。

这体现在几个方面。一是大模型能够提供智能安全“参谋”。基于海量文本进行预训练的大模型,可以成为优秀的“参谋”,对症提出适当的分析和防御策略。比如,通过简单的自然语言描述,可以快速分析安全局势,提出应对措施建议,辅助安全团队规划解决方案。这类似于一个智能安全“小助手”。

从产业界的现状来看,AI 安全与否如何评测,目前尚缺乏一套易用和标准化的评测工具和规则。

这也是大模型防御中能够补充的另一方面,通过大模型技术学习风险知识和标准规则来提升 AI 对于风险的认知理解能力,以实现用大模型对抗大模型来进行极速防御和快速冷启动的目的。

大模型安全既要“快“也要“慢”,这两个逻辑并不矛盾。在大模型安全防御方面要“快”,要能快速检测、查杀病毒,确保服务无毒害,这其中就包括了“数据去毒”、“安全护栏”、“AIGC风险检测”几个关键防御部分;而在大模型安全可信方面要“慢”,要能长远的、体系的保证整个系统环境的可控、可信,这其中就包括了“安全测评”、“解构可控”、“人类社会共治”等方面。

以文本安全为例,大模型可以基于安全标准规则、风险领域知识和历史风险样本,进行训练,提升模型对于风险标准和内容的理解力,从而实现对风险检测能力的提升。也采用大模型生成能力结合安全知识图谱,来构造攻击样本持续迭代优化检测模型。

一位安全专家表示:“相比人工收集的有限样本,大模型生成的海量多样化样本,将使安全检测模型'见多识广',更快适应新的威胁方式。”

这项技术,也被蚂蚁应用在了AIGC内容检测中。祝慧佳提及道:“AIGC深度伪造检测,也是采用以攻测防,以攻促防的思路,通过不同方式、不同风格、不同生成模型来进行生成,建立近千万的深度伪造数据,训练模型快速分辨内容是机器生成还是人工生成,从而实现泛化性和鲁棒性更好的检测模型。”

针对AIGC在运用过程中引发的问题,国际上也已经有头部公司开始着手布局。

OpenAI此前表示,考虑在ChatGPT中添加数字水印技术,以降低模型被滥用带来的负面影响;谷歌在今年的开发者大会中表示,将确保公司的每一张 AI 生成图片都内嵌水印;今年1月初,英伟达也发布了一款名为FakeCatcher的软件,以查出视频中的人脸是否为深度伪造。

回顾互联网发展史,混乱和高速发展往往是一对“孪生兄弟”,而正是在网络安全产业化趋于成熟后,互联网才真正迎来了百花齐放的应用落地。

同样,模型安全并不只是某一家安全厂商的任务,而是当安全科技形成了可信围栏后,大模型技术才真的能“飞入寻常百姓家”。

“大模型是非常复杂的问题,伦理、数据、训练等领域的复杂度都是前所未有的,是一个新领域,也是摆在所有人面前的一个命题。蚂蚁'蚁天鉴'在大模型安全视角上做了一些探索,但目前还有很多问题待研究解决,比如回答的内容真实性和准确性等难题,它还需要不断迭代,不断完善,需要全社会共同协作努力。”祝慧佳最后说道。

欢迎关注光锥智能,获取更多科技前沿知识!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1010899.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

焕发生机|嵌入式存储eMMC原理解析

1.EMMC背景回顾 EMMC存储的发展历史可以追溯到1997年,当时该技术是为了解决移动设备中存储器的问题而提出的。当时移动设备的存储器主要是NOR flash,这种存储器虽然读写速度快,但是造价高、容量小,不适合大规模应用。而EMMC的出现…

JWT安全及案例实战

文章目录 JWT 安全1. Cookie2. Session3. Token4. JWT4.1 JWT概述4.1.1 JWT头4.1.2 有效载荷4.1.3 签名哈希4.1.4 通信流程 4.2 JWT 漏洞描述4.3 JWT 漏洞原理4.4 JWT 安全防御 5. WebGoat 靶场实验5.1 第四关5.2 第五关5.3 第七关 越权与逻辑漏洞 Web漏洞点只有一个入口&#…

Vue开发小注意点

改bug 更改了配置项啥的,保存刷新发现没变,那就重启项目!!!! binding.value 和 e.target.value binding.value Day5 指令的值 e.target.value Day4 表单组件封装 binding.value 和 e.target.valu…

hiredis在vs2010上编译不通过

下载源代码 https://github.com/redis/hiredis 然后单独创建pro文件,将相应的.c和.h文件加进去。 然后使用vs2010(带有qt插件)打开.pro文件,编译报错 上面的为C99语法,而vs2010不支持。只能选择 https://github.com/…

API原理概念篇(六)玩转正则表达式等常用API

一 玩转正则表达式等常用API ① 正则 1、openresty存在两套正则表达式规范1) lua自身独有的正则规范 备注:大约有5%~15%性能损耗损耗原因:表达式compile成pattern,并不会被缓存,每次都会被重新compile编译2) nginx的符合POSIX规范的PCR…

[Hadoop] start-dfs.sh ssh报错

Permission denied (publickey 决解方案 相关命令 cd ~/.sshssh-keygen -t rsa -p""cat id_rsa.pub >> authorized_keyschmod 0600 authorized_keys 相关链接Hadoop: start-dfs.sh permission denied - Stack Overflow Java HotSpot(TM) Server VM warning…

分享!JetBrains IDE中的GitLab支持

GitLab是流行的基于git的软件开发和部署平台之一,虽然很长一段时间以来,所有基本git操作都已经可以通过GitLab实现,但GitLab集成仍是JetBrains社区的一大最热门请求。为此,JetBrains团队今年与GitLab联手提供了这种类型的集成。 …

【问题记录】解决Git上传文件到GitHub时收到 “GH001: Large files detected” 错误信息!

环境 Windows 11 家庭中文版git version 2.41.0.windows.1GitHub 问题情况 在命令行中使用git上传pdf文件到GitHub服务器时,提示了如下警告信息: 原因是 GitHub 有一个文件大小限制,通常为 100 MB。 如果尝试上传大于此限制的文件&#xff0c…

EMANE中olsrd的调试

1 调试目的 本着学习的态度,对emane tutorial中的示例程序进行重现,以加深对EMANE的理解和掌握。在示例程序0(见https://github.com/adjacentlink/emane-tutorial/wiki/Demonstration-0)中介绍了使用olsrlinkview.py脚本来通过可视化界面观察olsr节点的链…

Marin说PCB之封装设计系列---(01)--非金属化孔的设计总结

提到封装设计小编我刚刚开始学习的时候也是一头雾水,在网上各种找视频学习怎么建封装。在这里小编我也推荐一波凡亿PCB商城上是有封装课程的,我当时就是买的凡亿的封装设计课程自己跟着老师学习的,效果还是挺好的。小编我免费给他们做一波推广…

集合减法【新思路】

#include<stdio.h> int main() {int n,m,flag0;int x;int a[100001]{0},b[100001]{0};scanf("%d %d",&n,&m);以集合A所有元素作为数组下标映射值成1 for (int i 0; i < n; i) {scanf("%d", &x);a[x] 1; }以集合B所有元素作为数组下…

Fuxploider:一款针对文件上传漏洞的安全检测与研究工具

Fuxploider:一款针对文件上传漏洞的安全检测与研究工具 1.概述2. 工具使用1.概述 Fuxploider是一款功能强大的开源渗透测试工具,该工具专门针对文件上传漏洞而设计,可以帮助广大研究人员以自动化的方式检测和利用目标站点文件上传表单中的安全问题 由于该工具基于Python 3…

用ChatGPT自动生成流程图

我们看别人代码时&#xff0c;总希望有流程图&#xff0c;这样可以一目了然&#xff0c;不过自己写的代码&#xff0c;又不想花几个小时去画流程图。有没有更好的方法呢&#xff1f; 方法就是用ChatGPT等大模型自动生成流程图&#xff0c;并用python等语言实现自动输出流程图。…

第13篇:ESP32 idf wifi联网使用SNTP同步网络时间LCD ST7920液晶屏显示

第1篇:Arduino与ESP32开发板的安装方法 第2篇:ESP32 helloword第一个程序示范点亮板载LED 第3篇:vscode搭建esp32 arduino开发环境 第4篇:vscodeplatformio搭建esp32 arduino开发环境 ​​​​​​第5篇:doit_esp32_devkit_v1使用pmw呼吸灯实验 第6篇:ESP32连接无源喇叭播…

什么是Jmeter?Jmeter使用的原理步骤是什么?

1.1 什么是 JMeter Apache JMeter 是 Apache 组织开发的基于 Java 的压力测试工具。用于对软件做压力测试&#xff0c;它最初被设计用于 Web 应用测试&#xff0c;但后来扩展到其他测试领域。 它可以用于测试静态和动态资源&#xff0c;例如静态文件、Java 小服务程序、CGI 脚…

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据...

原文链接&#xff1a;http://tecdat.cn/?p22702 贝叶斯回归分位数在最近的文献中受到广泛关注&#xff0c;本文实现了贝叶斯系数估计和回归分位数&#xff08;RQ&#xff09;中的变量选择&#xff0c;带有lasso和自适应lasso惩罚的贝叶斯&#xff08;点击文末“阅读原文”获取…

K8S集群中部署服务之应用环境配置

微服务项目sangomall应用环境配置说明 一、应用环境配置文件创建 可以创建多个application.properties或application.yml文件,通过关键配置进行激活使用&#xff0c;例如测试环境和生产环境等。 1.1 创建开发环境&#xff08;dev&#xff09; 名称&#xff1a;application-…

举例说明用 easylanguage 语言,编写抄底公式

EasyLanguage 语言在金融领域被广泛使用&#xff0c;尤其是用于编写交易策略和算法。以下是一个简单的抄底公式示例&#xff1a; swift 复制 // 定义变量和参数 Dim StopLossPrice As Double Dim TakeProfitPrice As Double Dim InitialPosition As Double Dim SafetyZon…

Docker 一键安装Confluence(已支持最新版本)

Docker 一键安装Confluence&#xff08;已支持最新版本&#xff09; 本文用于Confluence在Docker的安装&#xff0c;仅用于记录安装方式Jira 也可以参考这种方式安装&#xff0c;只有细微差别转载请注明来源Linux安装可参考链接Windows安装可查考链接条件允许时&#xff0c;请…

HTTP反爬困境

尊敬的程序员朋友们&#xff0c;大家好&#xff01;今天我要和您分享一篇关于解决反爬困境的文章。在网络爬虫的时代&#xff0c;许多网站采取了反爬措施来保护自己的数据资源。然而&#xff0c;作为程序员&#xff0c;我们有着聪明才智和技术能力&#xff0c;可以应对这些困境…