上篇小李哥带大家一起了解了什么是AI应用云原生开发安全评估矩阵,并且介绍了利用该矩阵如何确定我们云上AI应用的安全评估范围,接下来我们将继续本系列的下篇,基于该安全评估矩阵设计和实施我们系统应具备的安全控制。
优先考虑的安全控制
确定了生成式 AI 负载的安全范围后,接下来就需要在确保安全的前提下,加速业务推进。让我们看看有哪些关键安全事项值得优先关注。
治理与合规 + 法律与隐私
在消费级应用(Scope 1)和企业级应用(Scope 2)中,大家需要特别关注服务条款、许可证、数据主权及其他法律相关问题。明确企业的数据管理要求,并确保与法律和采购部门密切合作,以评估这些要求如何适用于 Scope 1 或 Scope 2 的应用程序。数据治理至关重要,企业可以基于现有的数据治理策略,将其扩展到生成式 AI 负载。例如,可以制定一项政策,禁止在 Scope 1 应用中输入个人身份信息(PII)、机密数据或专有数据。
如果第三方模型已经具备所需的数据和功能,那么 Scope 1 或 Scope 2 可能满足业务需求。但如果企业希望对自身业务数据进行总结、关联分析、生成新的洞察,或是自动化重复性任务,则可能需要选择 Scope 3、4 或 5。
- Scope 3:使用预训练模型(如 Amazon Bedrock 提供的模型)构建自定义 AI 应用
- Scope 4:使用企业数据对模型进行微调,生成特定于企业需求的增强模型
- Scope 5:从零开始训练全新的自研模型
在 Scope 3、4 和 5 中,业务数据可能用于模型的训练、微调或作为输出的一部分。因此,企业必须明确数据分类和数据类型。例如,Scope 3 可能利用 RAG(检索增强生成) 机制,仅在推理时查询企业数据,而不是将数据直接嵌入模型中。相比之下,Scope 4 和 Scope 5 可能会直接在训练或微调过程中使用企业数据,从而影响模型的安全性和数据治理要求。
此外,法律团队需要关注EULA(最终用户许可协议)、TOS(服务条款),以及其他合同要求。尤其是在 Scope 5(自研模型)场景下,企业需要制定自己的服务条款,明确对外提供模型时的法律约束。同时,如果企业业务涉及GDPR(欧盟通用数据保护条例),则需要谨慎考虑“被遗忘权”或数据删除的相关影响。目前,唯一彻底删除训练数据的方法是重新训练模型,这一过程不仅昂贵,还可能在部分训练数据较小时显得不够现实。
风险管理
虽然生成式 AI 应用看起来和传统软件相似,但其自由输入的交互方式使其面临额外的安全挑战。企业需要识别适用于自身 AI 负载的风险,并制定合理的缓解策略。
常见的风险管理方式包括风险评估和威胁建模。对于 Scope 1 和 Scope 2,重点是评估第三方供应商的安全风险,并明确企业作为用户需要承担的安全责任。而对于 Scope 3、4 和 5,企业需要自行实施威胁建模,以识别特定的生成式 AI 安全风险。
例如,LLM 面临的一项独特安全威胁是提示词注入(Prompt Injection),即通过精心构造的输入,使模型生成意外或有害的响应。这种攻击可能导致数据泄露、系统访问控制失效,甚至被用于恶意操纵信息。近年来,NIST、MITRE 和 OWASP 都发布了生成式 AI 安全指南,其中提示词注入被列为首要安全风险。这一威胁类似于 SQL 注入、JSON/XML 注入等传统攻击方式,因此网络安全专家可以借鉴已有经验来防范。
生成式 AI 引入了全新的安全挑战,企业必须调整现有的网络安全实践,以适应这些新威胁。这需要安全团队与 AI 开发团队密切合作,共同分析生成式 AI 应用的威胁模型,并定义最佳安全实践。
安全控制
安全控制是实现合规、策略落地和风险缓解的关键。让我们以身份和访问管理(IAM)为例,说明如何在 Scope 3-5 级别的 AI 负载中实施安全控制。
在推理(Inference)过程中,Scope 3-5 使用的基础模型是不可变的。API 仅接受输入,并返回模型推理结果。模型在发布后是静态的,不会存储新的数据,也无法直接调整推理结果。因此,访问控制成为关键的安全防护手段。
现代数据库通常支持表级、行级、列级甚至字段级的访问控制,但生成式 AI 目前无法实现同样精细的访问管理。例如,在 LLM 中,词向量(Embedding) 是模型训练过程中形成的数学表示,用于描述数据之间的关系。但目前无法在向量数据库级别对特定的 embedding 设置访问权限,这意味着一旦用户获得了模型的访问权限,他们就可以访问所有训练数据的推理结果。
因此,在 Scope 4(微调)或 Scope 5(自研模型)中,企业应通过应用层安全策略来增强访问控制。例如,使用 RAG 数据流,让模型从外部数据库检索数据,而不是直接嵌入数据到模型中,从而在不暴露敏感数据的情况下提供个性化推理结果。
如果企业使用 Amazon Bedrock 在 Scope 4 进行模型微调,或者在 Scope 5 训练自研模型,那么可以通过IAM 策略控制对推理端点的访问。例如:
{
"Version": "2012-10-17",
"Statement": {
"Sid": "AllowInference",
"Effect": "Allow",
"Action": [
"bedrock:InvokeModel"
],
"Resource": "arn:aws:bedrock:*::<foundation-model>/<model-id-of-model-to-allow>
}
}
这条 IAM 规则确保只有特定用户或应用可以调用 AI 模型的推理 API,从而防止未经授权的访问。
在大多数场景下,应用层 会调用 Amazon Bedrock 端点 来与模型进行交互。这个前端应用可以使用身份解决方案(如 Amazon Cognito 或 AWS IAM Identity Center)来进行用户身份验证和授权,并根据角色、属性和用户群体 限制特定操作和对某些数据的访问权限。例如,应用程序可以基于用户的授权选择不同的模型。或者如果应用程序使用 RAG(检索增强生成) 机制来查询外部数据源,为生成式 AI 响应提供即时数据(例如 Amazon Kendra 或 Amazon OpenSearch Serverless),那么可以使用授权层 来过滤访问权限,以确保用户只能访问符合其角色和权限的数据。由此可见,身份和访问管理(IAM) 原则与企业开发的其他应用程序基本相同,只是需要考虑生成式 AI 负载的独特能力和架构特性,以确保安全性。
弹性架构(Resilience)
最后,可用性是信息安全 C.I.A. 三要素(机密性、完整性、可用性) 之一。构建高可用的应用 对于满足企业的业务连续性要求至关重要。对于 Scope 1 和 Scope 2,企业应了解供应商的可用性策略 是否符合业务需求,并慎重考虑底层模型、API 或应用层不可用时对业务的影响。此外,还要评估复杂的提示词和模型响应是否会影响使用配额,以及应用的计费成本。
对于 Scope 3、4 和 5,企业需要设置合理的超时时间 以适应复杂的提示词和推理过程。此外,还需要注意模型定义的字符输入限制,并采用指数回退(Backoff and Retry) 以及熔断模式(Circuit Breaker Patterns) 等容错设计,以保证良好的用户体验。在使用 向量数据库 时,建议采用高可用配置 和 灾难恢复计划,以增强系统对不同故障模式的容错能力。
在推理和训练管道中,实例灵活性(Instance Flexibility) 是另一个关键架构考虑因素,特别是对于高优先级任务,企业可能需要预留计算资源 或 预置实例。如果使用 Amazon Bedrock 或 SageMaker 等托管服务,建议在多区域部署策略 中验证不同 AWS 区域的可用性和功能一致性。同样,在 Scope 4 和 Scope 5 任务的跨区域支持 方面,企业需要考虑微调或训练数据的跨区域可用性。例如,在 Scope 5(自研模型) 场景下,若使用 SageMaker 进行模型训练,可以使用检查点(Checkpoint) 保存训练进度,以便在必要时从最后的检查点恢复训练,而不必从零开始。
大家可以参考 AWS Resilience Hub 以及 Well-Architected Framework 中的 可靠性支柱(Reliability Pillar) 和 运营卓越支柱(Operational Excellence Pillar),以优化应用的弹性架构设计。