2024年人工智能威胁态势报告：有关AI系统及AI应用的安全风险与安全防护全景

HiddenLayer公司最新发布的《2024年AI威胁场景报告》中，研究人员阐明了AI相关漏洞及其对组织的影响，并为应对这些挑战的IT安全和数据科学领导者提供了指导建议。最后，报告还揭示了各种形式的AI安全控制的前沿进展。

关键数据

平均而言，企业在生产系统中部署了高达1689个AI模型；
98%的IT领导者认为至少有一些AI模型对他们的业务成功至关重要。
83%的受访者表示，AI广泛应用于他们组织内的所有团队。
61%的IT领导者承认“影子AI”（未获得IT批准或在IT部门控制下的解决方案）是其组织内的一个重要问题。
89%的受访者对与第三方AI集成相关的安全漏洞表示担忧；高达75%的受访者甚至认为第三方集成带来的风险比现有的威胁更大。
77%的公司报告称，在过去一年中，他们的AI遭遇了违规行为。
92%的受访者仍在针对这一新兴威胁制定全面的计划。
2024年，94%的受访者将预算分配给AI安全，但只有61%的受访者对预算分配高度自信。
30%的IT领导者已经部署了针对对抗性AI的手动防御，但只有14%的人正在计划和测试此类攻击。
只有30%的公司针对模型盗窃劫持（model theftjacking）部署了相关技术，20%的公司对此威胁进行了计划和测试。
83%的IT领导者与外部网络安全公司合作以增强AI安全。
58%的受访者对其实施的安全协议能否应对不断变化的威胁表示怀疑。
96%的IT领导者表示，他们的AI项目对未来18个月的创收至关重要。
98%的IT领导者正在积极寻求技术解决方案，以增强AI和机器学习模型的安全性。
92%的公司正在建立自己的模式来改善业务运营。

对抗性AI大事纪

2002年——采用Naive Bayes算法的基于ML的垃圾邮件检测过滤器出现；
2004年——通过插入“good”字段，首次在线性垃圾邮件过滤器中使用规避技术；
2006年——第一篇概述针对ML攻击分类的论文发布；
2012年——首个针对非线性算法的梯度中毒（gradient-based poisoning）攻击；
2014年——首次展示针对深度神经网络的攻击；
2015年——OpenAI成立；
2016年——微软聊天机器人Tay中毒事件；
2017年——首次演示针对机器学习的黑盒攻击；
2018年——引入“边界攻击”（Boundary Attack，一种基于决策的对抗攻击算法）概念；
2018年——全模型提取攻击：KnockOffNets、CopycatCNN；
2019年——介绍“单像素攻击”（One Pixel attack，只需获取输入图像即可对模型进行攻击）和“攻击”（HopSkipJump，一种黑盒对抗方式，可以认为是Boundary Attack++）；
2019年——新加坡制定AI治理框架模型；
2021年——首个黑盒神经有效载荷注入技术出现；
2021年——MITRE ATLAS发布；
2022年——欧盟AI法案开始制定；
2022年——首次披露针对LLM的提示注入攻击；
2022年——加拿大制定AI和数据法案（AIDA）；
2022年——美国制定AI权利法案蓝图；
2022年——OpenAI推出ChatGPT；
2022年——在PyPI上发现恶意PyTorch依赖项；
2023年——NIST推出AI风险管理框架（AI RMF）；
2023年——闭源模型的首个开源副本（Alpaca、OpenLLaMA）发布；
2023年——谷歌推出安全AI框架（SAIF）；
2023年——PoisonGPT - LLM中毒演示；
2023年——美国白宫发布关于安全、可靠、可信地开发和使用AI的行政命令。

AI应用相关风险

与任何其他改变生活的技术一样，AI是一把双刃剑。虽然它已经开始对我们的生活和工作流程产生巨大的积极影响，但它也有巨大的潜在危害。

创建有害内容

从易于访问的暗网市场到随时可用的破解工具包，再到利用几乎无法追踪的加密货币的勒索软件即服务（RaaS），一切都在帮助网络犯罪分子茁壮成长。更糟糕的的是，生成式AI可以快速、轻松地进入一个充满复杂攻击场景的世界，同时为任何有需求的人提供精心设计的网络钓鱼和恶意软件。AI聊天机器人还可以访问可能导致人身威胁的非法信息。

虽然流行的生成式AI解决方案正在努力实现强大的过滤器和内容限制，但大多数已被证实相对容易绕过。此外，开源AI模型可以在没有任何限制的情况下进行微调。这些模型可以为攻击者专有，也可以在暗网上向更广泛的公众提供。

深度伪造（Deepfakes）

另一个明显的问题是创建非常真实的deepfake图像、音频和视频，用于窃取金钱、提取敏感信息、破坏个人声誉以及传播错误信息。

多年来，诈骗者一直在利用各种手段欺骗人们。Deepfake的出现将这个问题带到了一个全新的高度，即使是经验丰富的网络安全专家也很难区分真假。糟糕的是，Deepfake带来的影响不仅关乎金钱和声誉，还可能扰乱政治竞选、操纵民主选举、操纵社会、煽动动乱。如果不及时采取充分的措施，民主和社会秩序将受到严重损害。

数据隐私和外泄

保护隐私的指导方针总是落后于新技术的采用。通常情况下，只有在最初的激情消退后，隐私泄露的影响才会逐渐清晰。我们已经在生成式AI中看到了这一点。

例如，任何基于AI的服务条款和条件协议应该说明服务提供者如何使用我们的请求提示。然而，这些条款通常是故意用复杂语言编写的冗长文本。如果用户不想花费数小时来解读细节，那么最好假设对模型发出的每个请求都以某种方式进行了记录、存储和处理。至少，用户应该意识到自己的输入会被馈送到训练数据集，因此，可能会在其他请求的输出中意外泄露。

侵犯版权

生成式AI解决方案背后的模型通常是在大量公开可用数据上进行训练的，其中一些数据受版权法保护。问题在于，生成式AI无法区分灵感和抄袭，它给出的结果往往过于接近于训练集中的原创内容，但却没有注明原创作者，从而可能会导致严重的版权侵犯。

准确性和偏差问题

AI模型的质量取决于其训练数据集。大型生成AI模型是在TB级数据上进行训练的，在大多数情况下，这些数据是不加选择地从互联网上抓取的，这使得对训练集的仔细审查变得不可能。这就会导致模型的准确性、公平性和总体完整性方面的问题，如果模型意外地在敏感数据上进行训练，还会导致数据隐私泄露的可能性。此外，在线学习的兴起，用户的输入不断被馈送回训练过程中，使得AI解决方案容易产生偏见、错误信息和故意中毒。

即使数据集包含无偏差和准确的信息，AI算法也并非总是正确的，有时可能会得出奇怪的错误结论。这些被称为“幻觉”，是当前AI技术的内在属性。根据设计，AI无法区分现实和虚构，所以如果训练数据集包含两者的混合，AI有时会用虚构来回应。

AI系统面临的风险

关于AI工具的安全和道德使用有很多讨论；然而，AI系统本身的安全性仍然经常被忽视。重要的是要记住，与任何其他无处不在的技术一样，基于AI的解决方案可能被攻击者滥用，导致破坏、经济损失、声誉损害，甚至对人类健康和生命构成风险。

1. 对抗性机器学习攻击

数据中毒

数据中毒攻击的目的是修改模型的行为，以使预测有偏见，不准确，或者以其他方式被操纵以服务于攻击者的目的。攻击者可以通过两种方式执行数据中毒：修改现有数据集中的条目（例如，改变特征或标签）或向数据集中注入新的、经过特殊处理的数据部分。

即使对于没有经验的对手来说，数据中毒攻击也相对容易执行，因为创建“受污染”的输入通常可以在没有专业知识的情况下直观地完成。这种攻击每天都在发生，从操纵文本补全机制到影响产品评审，再到政治虚假信息运动。

最早被广泛宣传的数据中毒案例之一涉及微软早期的聊天机器人Tay。Tay于2016年3月在Twitter上发布，并不断接受用户输入的训练，但仅在上线16个小时后便匆匆关闭。在这么短的时间内，用户设法使机器人变得粗鲁和种族主义，并产生了有偏见和有害的输出。此事导致微软遭受了一些声誉上的损害，甚至受到了法律诉讼的威胁。

更复杂的数据中毒尝试可能会产生毁灭性的影响。更糟糕的是，预先训练的模型也不能免于中毒，因为它们可以在微调期间被操纵。在一次名为“PoisonGPT”的攻击中，攻击者通过使用一种名为“Rank-One 模型编辑”的技术，对现有的基于GPT的模型进行了修改，致使其传播攻击者控制的虚假信息。

模型逃逸

逃逸攻击，也称为模型绕过，旨在故意操纵模型输入以产生错误分类。对模型进行恶意制作的输入称为对抗性示例。它们的目的通常是逃避正确的分类或触发特定的攻击者定义的结果。它们还可以帮助攻击者了解模型的决策边界。

原始输入和经过操纵的输入之间的差异通常对人类来说是难以察觉的。例如，在视觉识别系统中，攻击者可以通过添加一层人眼看不见的噪声来修改图像，甚至可以旋转图像，或者改变单个像素。这将导致AI模型给出错误的预测。攻击者通常会向模型发送大量略有不同的输入，并记录预测，直到找到触发所需错误分类的样本。

2019年，Skylight Cyber研究人员创建了一个能够绕过基于AI的端点恶意软件分类模型，并成功绕过了多个反病毒绕过工具包（如MalwareGym和MalwareRL），其中逃逸攻击与强化学习相结合，自动生成恶意软件变异，使其对恶意软件分类模型显得无害。

这些攻击也可用于劫持自动驾驶汽车。研究人员证明，在“停止”标志上贴上特制的贴纸，可以欺骗车载车型，使其对该标志进行错误分类，从而继续行驶。同样地，想要绕过面部识别系统的攻击者可能会设计一副特殊的太阳镜，使佩戴者对系统隐形。这种攻击的可能性是无穷无尽的，其中一些可能会造成致命的后果。

模型盗窃

关于模型及其所依赖的数据集信息并非公开可见的，但用户通常可以查询模型（例如，通过GUI或API）。这足以让攻击者执行攻击并尝试复制模型或提取敏感数据。

竞争对手可能会试图窃取模型，在无需寻找正确数据集、标记特征向量和承担训练模型成本的情况下获取竞争优势。被盗的模型甚至可以在地下论坛上交易，就像机密源代码和其他知识产权一样。

2023年初，斯坦福大学研究人员对Meta的AI LLaMA模型进行了微调，并以Alpaca的名义发布，而OpenLM则发布了一个允许许可的开源LLaMA复制版本，名为OpenLLaMA。这再次证明，有了足够的API访问，克隆一个庞大且复杂的模型来创建一个非常高效的副本是可能的，省去了训练模型的麻烦。

2. 生成式AI攻击

生成式AI的兴起引发了新的伦理和安全挑战，攻击者可以采取多种手段利用生成式AI系统。

提示注入

提示注入是一种可以用来欺骗AI机器人执行意外或受限操作的技术。该技术是通过制作一个特殊的提示以绕过模型的内容过滤器来完成的。在此特殊提示之后，聊天机器人将执行原本限制的操作。

间接提示注入

在最近展示的另一种名为“间接提示注入”（IndirectPrompt Injection）的攻击中，研究人员将必应聊天机器人变成了一个骗子，以窃取敏感数据。按照设计，必应聊天可以请求访问所有打开的标签页和这些标签页上的网站内容。攻击者制作了一个包含特殊设计的提示符的恶意网站，只要该网站在受害者的浏览器中打开，并且必应可以访问标签页，该提示符就会修改必应聊天的行为。攻击者可以利用这种攻击来窃取特定的敏感信息，操纵用户下载恶意软件，或者只是误导和传播错误信息。

代码注入

在大多数情况下，GenAI模型只能生成它们设计提供的输出类型（即，文本、图像或声音）。这意味着，如果有人提示基于LLM的聊天机器人运行shell命令或扫描网络范围，聊天机器人将不会执行任何这些操作。然而，它可能会生成一个貌似合理的假性输出，表明这些操作实际上已经执行。

HiddenLayer发现某些AI模型实际上可以执行用户提供的代码。例如，Streamlit MathGPT应用程序，它可以回答用户生成的数学问题，将接收到的提示转换为Python代码，然后由模型执行以返回“计算”的结果。

3. 供应链攻击

当受信任的第三方供应商成为攻击的受害者时，供应链攻击就会发生。如今的机器学习供应链是一个巨大的生态系统，由不同的工具、库和服务组成。从机器学习框架到MLOps工具和模型存储库，每一个都在推动AI民主化和加速该领域的进步方面发挥着重要作用。然而，由于有如此多的活动部件和新技术需要解决，它们无意中引入了新的供应链风险，使我们容易重蹈覆辙。

研究人员认为机器学习供应链中包含以下关键风险：

恶意模型；
模型后门；
公共模型存储库的安全性；
恶意的第三方承包商；
ML工具中的漏洞；
数据中毒。

人工智能系统的攻击已经在野外发生，但它们发生的真实规模很难评估。这种攻击媒介仍然非常新，这意味着人们对它的认识还不够。因此，能够检测到此类攻击的安全解决方案很少，而且相距甚远。

模型劫持是最容易发现的，其中 AI 模型用于提供传统的恶意负载。这是因为现有的软件安全概念可以扩展以检测和防止此类攻击。

从攻击者的角度来看，它们也是最容易执行的。人工智能工件普遍缺乏数字签名、完整性检查和防病毒扫描，这使它们成为传统网络犯罪的诱人目标。许多安全研究人员一直在颠覆 ML 模型，以实现出于概念验证目的的代码执行。但是，不仅仅是安全研究人员在研究这种攻击向量。几个被劫持的模型实例可能会被恶意行为者所利用。这包括包含反向外壳的模型，以及 CobaltStrike 和 Metasploit 暂存器，所有这些都连接到已知的恶意指挥和控制中心。

由于被劫持的模型通常上传到公共存储库，因此可以对它们进行一些可见性。然而，随着数据中毒、模型规避和建模的出现，情况变得更加复杂。大多数企业不会监控其 AI 的对抗性输入。

那些这样做的人没有义务披露他们已经注意到了恶意活动。因此，对抗性攻击的细节很少公开。无论披露什么，很可能只是冰山一角——随着越来越多的对手瞄准人工智能系统，冰山将在未来几年呈指数级增长。

信息的匮乏意味着现在对人工智能系统的威胁情报有扎实的了解还为时过早。但是，现在绝对是围绕它发起讨论并开始收集和组织数据的好时机。

AI安全的进步

攻击性AI安全工具

攻击性安全工具已经存在很长时间了，它使红队和渗透测试人员能够评估IT系统可能存在的弱点。如今，攻击性安全的概念也进入了AI领域，AI安全研究人员开发了各种工具来测试他们的攻击技术。

对抗性ML框架

2016年，最早用于测试系统对对抗性示例的鲁棒性库CleverHans诞生。
2018年，IBM发布Adversarial Robustness Toolbox（ART）框架，用于实现针对AI的多种攻击，并包括易于理解的Jupyter Notebook示例。
2019年，用户友好且基于云的框架MLSploit发布，它允许对各种恶意软件分类器、入侵检测器和对象检测器创建攻击。
同年，QData发布了一款强大的NLP攻击框架TextAttack，可以帮助执行对抗式文本攻击、文本增强和模型训练。
2020年发布了Armory，这是一个用于评估对抗性防御的容器测试工具。
2021年，Facebook发布了AugLy，这是一个数据增强库，可以用来生成对抗性示例。
同年，微软发布了Counterfit，这是一个易于使用的命令行自动化层，用于ML模型的安全评估。

反恶意软件逃逸工具

除了强大的评估框架之外，还有针对特定结果的更专业的工具。例如，MalwareGym可以帮助绕过基于AI的反恶意软件解决方案。它于2017年由杀毒公司Endgame发布，在windows应用程序的修改中实现了强化学习。通过从良性可执行文件中获取功能并将其添加到恶意文件中，MalwareGym可以创建绕过恶意软件扫描程序的恶意软件。

模型盗窃工具

KnockOffNets是一个用于创建AI模型副本（换句话说，用于窃取模型）的工具，由Max Planck信息研究所的研究人员于2021年发布。虽然其创建是为了展示模型盗窃/模型提取的便利性，但它也可以帮助攻击者构建他们自己的模型盗窃工具。

防御性AI框架

在过去两年中，多家大型网络安全参与者创建了包括各种安全实践、策略和AI建议的综合框架。这些框架是在漫漫长路上非常有价值的第一步。

MITRE ATLAS

MITRE ATLAS于2020年首次在GitHub上发布，它是对抗性机器学习策略、技术和案例研究的知识库，旨在帮助网络安全专业人员、数据科学家及其公司了解针对对抗性机器学习的最新攻击和防御。

ATLAS矩阵分为两个主要部分：战术和技术。其中，战术描述了对手想要达到的目标；技术描述了攻击者将如何完成他们的战术。

NIST AI风险管理框架

2023年1月，美国国家标准与技术研究院（NIST）发布了AI风险管理框架（AI RMF）。这是一个概念性框架，它从传统的软件和基于信息的系统中吸取教训，并将其应用于AI系统提出的独特挑战。

该框架分为两部分：与AI系统相关的风险框架和核心框架本身。核心描述了四个功能：治理、映射、测量和管理。每个都分解为进一步的控制，以使组织更深入地了解如何保护其AI基础设施。

谷歌安全AI框架

谷歌于2023年6月推出的安全AI框架（SAIF）是一个概念框架，与NIST AI RMF一样，为保护AI系统提供指导。它建立在传统软件开发的最佳实践和经验的基础上，使其适应AI系统的需求。

OWASP top10

开放全球应用程序安全项目（OWASP）是一个非营利组织和在线社区，提供免费的指导和资源，如应用程序安全领域的文章、文档和工具。OWASP top10安全风险列表包含了各种web技术面临的最关键的安全风险，例如访问控制和加密失败。

Databricks AI安全框架（DAISF）

DAISF框架采用了一种全面的战略来减轻AI系统中的网络风险。它提供了关于机器学习如何影响系统安全性以及如何将安全工程原理应用于AI系统的见解。它还为理解特定ML系统的安全性和合规性提供了详细的指南。

IBM生成式AI安全框架

2024年1月，IBM发布了Securing Generative AI框架，重点关注LLM和其他GenAI解决方案在企业和组织中的使用。它通过帮助估计在管道的每个阶段可能发生的最可能的漏洞，并建议相关的保护和防御措施，提供了防御方法。

红队和风险评估

AI红队的第一个想法出现在2010年代末。当时，AI系统已经因其易受偏见、敌对例子和普遍滥用等因素的影响而闻名。如今，一些主要参与者（如谷歌、英伟达）已经投资建立自己的内部团队，致力于深入测试他们开发和实施的AI解决方案。

2021年12月，微软发布了他们的AI安全风险管理最佳实践；
2023年6月，英伟达向世界推出了他们的红队，以及他们用作评估基础的框架；
2023年7月，谷歌在发布SAIF框架后，官宣了他们自己的AI红队。

政策法规

我们已经讨论过AI是一把双刃剑：它可以很容易地用来对付人类、企业和社会，产生深远的后果，可能是毁灭性的。出于这个原因，世界各国政府纷纷对如何安全、合法、道德地使用AI制定了严格的监管。

2019年，经济合作与发展组织（OECD）通过了《关于AI的建议。它描述了经合组织国家和坚持伙伴经济体的五项原则和五项建议，以促进负责任和值得信赖的AI政策。
2022年，欧盟提出了一项更全面的AI法案，将AI解决方案分为三类：低风险应用，必须遵守透明度法律，但在其他方面不受监管；受严格限制的高风险应用；以及被认为危险并被彻底禁止的应用程序。
2019年，新加坡制定了AI治理模式框架第一版，由11项AI伦理原则组成，包括透明度、可解释性、安全性、安全性、数据治理和问责制。
2022年10月，美国出台《AI权利法案蓝图》，这是一套关于AI系统开发和使用的建议和指导方针。
2023年10月，美国白宫发布了一项关于安全、可靠、可信赖地开发和使用AI的行政命令。它概述了AI系统构成的风险，例如对人类安全的威胁、对AI生成内容的检测，以及确保AI生态系统的安全。

AI发展预测

1. 数据科学家将与安全从业人员合作保护AI模型

几十年来，网络安全行业一直在与攻击者进行技术军备竞赛，因为每一次新的进步都会带来独特的安全问题，需要定制的安全解决方案。然而，AI/ML的安全性在数据科学领域一直被忽视；AI和机器学习的快速发展往往缺乏基本的安全控制。这导致了库和工具中的许多漏洞，而这些漏洞已经成为AI软件开发的支柱。我们预计这一趋势将在未来一年略有逆转，因为研究人员正在迅速发现漏洞，并帮助支持开源ML项目的防御。数据科学家和网络安全专家之间的合作将提高整个AI生态系统的安全性。

2. 使用ML工件的供应链将变得更加普遍

由于机器学习工具链中固有的不安全性，网络犯罪分子可以利用许多唾手可得的成果。威胁参与者越来越多地将目光转向MLOps平台和工具。随着时间的推移，供应链漏洞将变得越来越普遍，而不仅仅是为了传统的初始妥协和横向移动目的。机器学习模型及其所接触数据的敏感性使其非常易受网络罪犯的攻击。攻击者将越来越多地利用MLOps平台中的漏洞来毒害训练集，并在训练或推理时渗漏敏感数据，以获得竞争优势或滥用AI系统。

3. 对抗性AI攻击将明显增加

用于推断训练数据或模型细节的逆向攻击，用于生成绕过/错误分类的推理攻击，以及最终的模型盗窃攻击也将变得更加常见。推动这些攻击的重要因素是学术界和工业界不断扩大的对抗性机器学习研究。曾经异常复杂的任务，现在（将继续）变得越来越简单，甚至脚本小子也能轻松实现。

4. 威胁行为者将使用LLM自动进行黑客攻击

网络犯罪分子已经在使用LLM来增强现有的攻击，从编写更真实的网络钓鱼电子邮件到动态生成独特的恶意软件有效载荷，以及改进社会工程的努力。不难想象，在未来的一年里，威胁行为者将利用LLM来自动化黑客攻击、执行侦察和补充网络犯罪即服务。

LLM领域另一个有趣的发展是RAG（检索增强生成），它通过外部信息来源或基础事实来增强模型。RAG赋能的LLM很容易被破坏者滥用，他们将利用精心设计的提示来寻求渗漏敏感信息。

5. 随着越来越多的组织使用先进工具来对抗威胁，AI的攻击面将扩大

在组织内开发、使用和实现AI从未像现在这般容易。这种与已建立的流程的快速集成正在引入一个不断扩展的新型攻击面，而传统的安全控制措施无法保护这种攻击面。

未来一年，企业将经历许多成长的烦恼，例如AI暴露或配置不安全，导致数据泄露、妥协甚至其他更糟的后果。

另一方面，我们也希望看到AI安全原则在组织中得到更广泛的应用，以及监测模型行为和模型安全评估的先进方法进一步普及。如此一来，更多的组织将能够识别并采取措施来应对对抗性。