“AI+Security”系列第2期(一):对抗!大模型自身安全的攻防博弈

news2024/12/26 20:44:12

图片

近日,由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的“AI+Security”系列第 2 期——对抗!大模型自身安全的攻防博弈线上活动如期举行。本次活动邀请了君同未来创始人兼 CEO 韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI 组负责人宁宇飞、始智 AI wisemodel 创始人兼 CEO 刘道全、云起无垠创始人兼 CEO 沈凯文和金睛云华技术合伙人孙志敏,他们针对大模型安全进行了精彩分享,并且围绕“大模型自身安全”展开了圆桌讨论,深入探讨了大模型安全现状、未来发展趋势以及前景市场等相关问题。

活动开始时,安全极客主理人王书辉对各位嘉宾和观众的到来表示欢迎,同时简要概述了本次活动的话题和探讨方向,并欢迎大家积极参与,共同分享“AI+Security”的相关内容,以促进相关技术进步,为产业贡献力量。

01 人工智能风险治理机遇与挑战

人工智能(AI)技术的迅速发展带来了许多机遇,同时也引发了一系列的风险和挑战。特别是大模型技术的广泛应用,如GPT-4、BERT等,虽然推动了AI能力的提升,但也暴露了数据隐私泄露、生成内容违规、模型偏见等诸多问题。因此,如何有效治理人工智能风险,确保其安全、可靠、公平地发展,成为当前社会亟待解决的重要课题。

图片

君同未来创始人兼 CEO 韩蒙博士指出,当前大语言模型所面临的风险类型涵盖内生安全、伴生安全、应用安全问题。其中内生安全问题包含非对抗性风险和对抗性风险。非对抗性风险有模型幻觉、数据偏见、机密数据泄露等;对抗性风险包括模型对抗攻击、模型越狱攻击、模型目标劫持攻击、模型提示词攻击等。

图片

基于此,韩蒙博士表示,君同未来深入探索了安全风险识别能力、攻击意图识别能力、正向回答生成能力、输出内容改写能力,并研发了大模型安全评测平台、大模型风险监控平台和大模型安全对齐平台,以提升大模型的安全性和可靠性。

02 面向LLM的漏洞挖掘与对齐防御研究

随着人工智能技术的迅猛发展,大语言模型(LLM)凭借其卓越的多任务学习能力和泛化能力,在各行各业中发挥着越来越重要的作用。这些模型能够处理庞大的参数量,深度整合企业内部数据,为实际业务场景提供精准服务。然而,随着云端和端侧LLM的互补发展以及开源LLM的广泛普及,虽然为小型开发者带来了前所未有的便利和效率提升,但同时也带来了新的安全风险和挑战。

图片

LLM越狱攻击作为一种典型的安全威胁,对LLM的安全稳定性构成了重大影响。郑瀚先生指出,与传统网络安全攻击技术相比,LLM安全攻击已经进入了一个不确定的概率范式。这一范式转移带来的最大挑战是漏洞搜索空间的无限扩大。由于大型模型本质上是由数千亿参数构成的复杂概率模型,它们的行为和输出具有高度的不确定性和复杂性,这使得传统的基于形式逻辑的漏洞挖掘和防御方法变得不再适用。

越狱攻击与LLM的对齐方法紧密相关,其核心目标在于破坏模型开发人员所施加的基于人类价值观的约束和其他限制,迫使模型在面对恶意问题时提供正确的答案,而不是选择拒绝回答。这种攻击方式不仅对模型的安全性构成威胁,更对模型的可靠性和可控性提出了严峻挑战。

03 AI/机器学习供应链攻击

在网络安全领域,公共仓库中的组件和库极易遭受恶意用户的攻击。这些恶意用户通过进行“名字抢注”或“拼写抢注”,即注册与知名实体相似的名称,来利用其信誉传送恶意负载。这种攻击策略在Python软件包索引(PyPI)和Node软件包管理器(npm)等仓库中已屡有发生,而且人工智能和机器学习(AI/ML)供应链也正在成为此类攻击的目标。据Sophos的报告显示,微软的域名抢注率达61%,Twitter为74%,Facebook为81%,谷歌为83%,苹果则为86%。

图片

宁宇飞先生指出,在公共ML仓库(如Hugging Face)中,恶意用户能够上传被破坏的模型,并将其伪装成来自可信来源的发布工件。尽管Hugging Face设有验证流程,但存在容易被忽略验证标志等问题。此外,还发现了多个冒用知名公司名称的仓库,比如存在导致API密钥泄露的.pth文件以及假冒llama的仓库等情况。

04 大模型自身安全

在圆桌讨论中,君同未来创始人兼CEO韩蒙、前阿里云高级安全专家郑瀚、ChaMd5 AI组负责人宁宇飞、始智AI wisemodel创始人兼CEO刘道全、云起无垠创始人兼CEO沈凯文、金睛云华技术合伙人孙志敏等共同参与,深入探讨了大模型自身安全相关问题,具体包括以下几个方面:

1. 随着大模型在各领域的广泛应用,探讨未来几年大模型安全性所面临的最大挑战,以及科研与产业界应采取的关键措施来应对这些挑战?

2. 在信息安全/网络安全领域中,网络攻击以往通常由专业人才实施。当下大模型不断发展,如今所探讨的大模型安全,是否会降低网络攻击的门槛,进而使普通人也能够进行网络攻击?其产生的影响是否会更大?

3. 鉴于各行各业在利用大模型技术突破传统瓶颈时,有的使用开源模型,有的使用闭源商业模型,而社会各界对开源模型和闭源模型的安全性存在不同观点,有人认为开源模型更安全,也有专家认为闭源模型更安全。针对这一问题,询问各位专家的看法,并探讨企业在使用开源模型和闭源模型时是否有不同的安全关注点?

4. 鉴于目前大模型应用蓬勃发展,围绕大模型安全的市场规模、爆发节点预测及重点商业化方向,讨论未来大模型安全的商业化市场前景?

5. 当下大模型安全是备受关注的重点,那么,大模型安全是给大模型公司创造了机会和需求,还是为广大创新创业公司创造了机会?

6. 鉴于之前Open AI组建了Super alignment超级对齐团队,以及Open AI的首席科学家离职并开启了自己的新项目——安全超级智能,这些都充分体现了安全性在大模型领域的重要性。站在人类命运共同体的角度,探讨如何保证大模型自身的安全可控,防止被未来的超级智能力量所颠覆?

写在最后

本次分享活动可谓是干货十足,对大模型自身安全相关问题进行了深入的探讨。关于本次活动嘉宾的精彩分享的系列内容,我们会逐一进行整理,并陆续发布,敬请大家期待!

此外,“AI + Security”系列的第三期专题分享活动将于9月初左右与大家在线下见面。届时,我们将邀请来自人工智能(AI)和网络安全领域的行业专家以及领军人物共同参与分享,深入探讨并分享关于“AI + Security”技术理念的独到见解和丰富经验。

欢迎大家关注“安全极客”,我们热切期待您的加入,一同推动AI与安全技术的融合与创新,共创美好未来!

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1992204.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浏览器突然无法正常访问网页的解决方案

文章目录 1.问题描述:2.解决方案3.总结 1.问题描述: 浏览器之前是可以正常搜索的,但是这次打开显示无法正常访问,但是部分网页又是可以正常访问的 2.解决方案 1.搜索控制面板 2.点击网络和Internet 3.点击网络共享中心 4.点击…

大数据面试SQL(五):查询最近一笔有效订单

文章目录 查询最近一笔有效订单 一、题目 二、分析 三、SQL实战 四、样例数据参考 查询最近一笔有效订单 一、题目 现有订单表t5_order,包含订单ID,订单时间,下单用户,当前订单是否有效。 请查询出每笔订单的上一笔有效订…

Fanuc机床的数据采集解决方案

对于制造业而言随着工业数字化的发展,完善工厂信息化管理,消除信息孤岛是越来越多工控人关注的事情。其中不得不提到的就是CNC系统,科学的程序管理和规范可以减少机床辅助时间,提高机床利用效率;及时准确的获取机床实时…

线程池c代码实现

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、线程池是什么?二、代码示例总结 前言 线程池c代码简单实现: 大致思路如下: 一个管理线程轮询工作线程是否空闲&#xf…

程序员如何在人工智能时代保持核心竞争力

目录 1.概述 1.1. 技术深度与广度的平衡 1.2. 软技能的培养 1.3. 持续学习和适应性 1.4. 理解和应用AI 1.5. 伦理和责任意识 2.AI辅助编程对程序员工作的影响 2.1.AI工具对编码实践的积极影响 2.2.AI工具的潜在风险 2.3.如何平衡利与弊 3.程序员应重点发展的核心能力…

RabbitMQ docker安装

后台配置文件 rabbitmq:image: rabbitmq:latestcontainer_name: rabbitmqports:- "5672:5672" # RabbitMQ server port- "15672:15672" # RabbitMQ management console portenvironment:RABBITMQ_DEFAULT_USER: adminRABBITMQ_DEFAULT_PASS: admin 若要打…

使用 Mojo 中的 Mandelbrot 和 Python 绘图

Mojo不仅非常适合编写高性能代码,而且还允许我们利用庞大的Python生态系统中的库和工具。通过无缝的Python互操作性,Mojo可以使用Python来做它擅长的事情,特别是gui,而不会牺牲关键代码的性能。让我们使用经典的Mandelbrot集合算法并在Mojo中实现它。 本教程展示了Mojo的两…

UE 选中框

【UE】框选功能_ue框选-CSDN博客 虚幻4 小功能教程系列-P33 覆盖物框选(框选场景里的物体)_哔哩哔哩_bilibili 步骤 先重载 UI中函数 OnPaint Position:起始位置 Size:大小 Brush: 选中框样式设置 在内容浏览器中新建一个“Slate笔刷” Tint&#x…

2023 江苏省第一届数据安全技术应用职业技能竞赛 决赛 部分wp

文章目录 一、前言比赛平台全貌题目附件及工具下载(123网盘) 二、参考文章三、题目(解析)一、内存取证-MemoryLife1、请给出内存镜像中黑客使用工具对外连接的IP地址及端口号是___________。(格式为IP_PORT&#xff09…

Windows Server Backup(2016) 备份

Windows Server Backup(2016) 备份 1.使用 Windows Server Backup 备份 点击添加角色和功能,根据向导,添加 Windows Server Backup 功能。 添加完成后可通过 控制面板\系统和安全\管理工具 找到 Windows Server Backup,如下图 打开后如图&…

Openlayers6之地图覆盖物Overlay详解及使用,地图标注及弹窗查看详情(结合React)

demo案例:用户实现地图加载人员位置定位,并设置人员图片文字等标注,点击定位点查看人员详情。 主要通过ol/geom Point设置Style和ol/Overlay实现。主要实现步骤: 实现图文标注的实质是添加点时设置Ponit的样式,图片标…

浅谈安科瑞智慧用电系统在电气火灾中的应用

摘要:为了对电气火灾事故进行预测和预警,同时为了对电气火灾事故的应急救援提供 支持,将智慧用电监控系统应用于电气火灾中。该系统利用物联网、移动互联网、云平台、大数据技术,实现对电气线路电流、漏电、温度、谐波等参数进行…

leetcode日记(66)子集

实际上和上一题差不多&#xff0c;可以直接套用上一题回溯递归的函数写出来&#xff0c;复杂度比较高&#xff0c;因为是按照数字个数依次代入函数&#xff0c;然后通通放入一个vector中。 class Solution { public:vector<vector<int>> subsets(vector<int>…

Linux 实验基础环境准备(外网篇)

1.关闭禁用防火墙和selinux systemctl disable firewalld --now sed -i s/SELINUXenforcing/SELINUXdisabled/ /etc/selinux/config2.保证可以连接外网 ping -c3 www.baidu.com 3.配置yum为阿里仓库并下载epel源 mkdir /etc/yum.repos.d/bak/; mv /etc/yum.repos.d/*.repo /e…

【AI-16】浅显易懂说一下RNN和Transformer

循环神经网络&#xff08;RNN&#xff09;曾经是自然语言处理领域的主流&#xff0c;但它们面临着长距离依赖和梯度消失等问题&#xff0c;限制了其在处理长文本序列时的表现。随后&#xff0c;Transformer模型的出现改变了这一局面。 循环神经网络&#xff08;RNN&#xff09…

实施MES管理系统的过程中可能会遇到的风险

在制造业的数字化转型浪潮中&#xff0c;MES管理系统的部署成为了企业提升生产效率、优化资源配置的关键一环。然而&#xff0c;这一过程的复杂性和潜在风险不容忽视。本文将从多个维度探讨实施MES管理系统的过程中可能面临的挑战&#xff0c;并提出一系列策略以应对这些挑战&a…

工作随记:我在OL8.8部署oracle rac遇到的问题

文章目录 一、安装篇问题1&#xff1a;[INS-08101] Unexpected error while executing the action at state:supportedosCheck问题1解决办法&#xff1a;问题2&#xff1a;[INS-06003] Failed to setup passwordless SSH connectivity with thefollowing nodeis): [xxxx1, xxxx…

天玑9400新猛料:CPU性能提升30%,同场景仅需8G3 30%功耗

年底的手机市场的新消息简直让人应接不暇&#xff0c;而其中最令人期待的&#xff0c;无疑是天玑9400旗舰芯。这款芯片据说性能提升了30%&#xff0c;在相同场景下功耗却降低到了8G3的30%。网友们纷纷表示&#xff1a;“发哥这次真的稳住了&#xff0c;天玑系列越来越给力&…

Python中的类多态之方法重写和动态绑定使用详解

概要 多态(Polymorphism)是面向对象编程的核心特性之一,它允许同一接口在不同的类中具有不同的实现。多态通过方法重写和动态绑定来实现,使得代码更加灵活和可扩展。本文将详细介绍Python中的类多态,包括方法重写和动态绑定,涵盖基本概念、具体用法和实际应用示例。 多态…

Linux磁盘管理与文件结构(一):磁盘、MBR与分区和文件系统

文章目录 1、磁盘结构物理结构数据结构硬盘存储容量数据区域定位磁盘接口类型 2、MBR与磁盘分区表示主引导记录&#xff08;MBR&#xff09;磁盘分区结构示例 磁盘分区表示 3、文件系统类型XFS 文件系统Swap 交换文件系统Linux 支持的其他文件系统类型 1、磁盘结构 物理结构 …