【LLM大模型】生成式人工智能大型语言模型的安全性:概述

news2025/1/10 17:02:01

在这里插入图片描述

生成性AI大型语言模型(LLMs)的安全性:概述

具有生成性AI能力的大型语言模型(如ChatGPT)正面临加速采用和创新。生成性AI(GAI)的日益普及不可避免地引发了对这些模型相关风险和安全性的担忧。本文从计算机科学家的角度,对GAI-LLMs的最新AI安全研究趋势进行了详尽的综述,内容具体且技术性强。在本综述中,我们探讨了在LLMs作为生成性语言模型的背景和动机下所识别的危害和风险;我们的综述强调了在LLMs研究开发和应用中统一理论以应对不同安全挑战的必要性。

https://arxiv.org/abs/2407.18369

我们首先通过相关文献支持,对LLMs的工作原理进行了简明介绍。然后,我们讨论了早期研究指出的生成性模型的基本限制或缺乏理解(例如,随着LLMs参数数量的增加,性能和安全之间的权衡)。我们充分讨论了LLMs的对齐问题——深入探讨了各种方法、争议方法以及将LLMs与人类偏好对齐所面临的现有挑战。通过强调文献中的空白和可能的实施疏漏,我们旨在创建一个全面的分析,为解决LLMs中的AI安全问题提供见解,并鼓励开发对齐且安全的模型。

我们在综述的结尾讨论了LLMs在AI安全领域的未来方向,提供了对该关键领域正在进行的研究的见解。

  1. 引言大型语言模型(LLMs)常被誉为具有惊人生成能力的革命性生成性AI(GAI)模型,但它们也带来了许多AI安全挑战。本文对现有研究文献中固有的LLMs安全风险进行了全面回顾。一个重要的挑战在于缺乏专门针对GAI-LLMs安全问题的综述论文,这些问题源于LLMs的技术构成,即数据预训练、模型架构和提示使用。目前的研究往往过于广泛,涉及X风险、AI伦理边界和政府政策变化等主题,这些虽重要,但并未直接聚焦于GAI-LLMs的功能性方面。在这项工作中,我们审视了先前文献中记录的生成模型的已知限制,并进一步识别和讨论由于未解决的技术问题而导致的新安全挑战。在确定了生成性AI和大型语言模型的安全挑战后,我们识别了一系列关键研究和主题:偏见和公平性、有害内容生成、虚假信息、隐私和安全问题、对抗攻击、知识产权侵权、伦理和人类偏好对齐以及大规模安全性。本文还回顾了后续GAI-LLMs安全研究的有前景途径,强调了在GAI-LLMs成为更强大代理时,LLM从业者和应用开发人员必须考虑的众多关键因素。

1.1. 文献检索策略本研究从计算机科学领域的AI和NLP方向的出版物中调查生成性AI和LLMs的安全性,包括ACL、NAACL、EACL、EMNLP、CoNLL、COLING**、SIGIR、IJCAI、AAAI、ICML、ICDM、KDD和NeurIPS。我们使用AI安全、生成性AI和大型语言模型等相关关键词来搜索相关论文。找到的论文中出现的相关工作也包含在本综述的范围内,这可能包括技术公司关于AI安全的技术文章,例如Anthropic、Google DeepMind、Meta、Microsoft Research**和OpenAI。AI安全和生成性AI研究领域广泛且复杂,来自学术界、工业界和政府的输入推动了这一领域的发展。在之前提到的核心文献基础上,审视额外的来源,以提供多样化的观点和见解。额外的来源增强了我们对这一领域的理解,强调了解决高级AI系统相关问题所需的协作努力。即将介绍的类别突出了计算机科学研究和政策制定正在进行的关键领域:

  • 大型语言模型的风险和危害分类:Weidinger等(2024a)强调了旨在识别和分类LLMs安全风险的研究的重要性,特别是那些具有潜在社会技术影响的研究。Bommasani等(2022)、Shelby等(2023)和Weidinger等(2022)展示了这一类型的工作,提供了理解GAI-LLMs潜在危险的关键分类和框架。Liu等(2024d)对LLMs对齐风险进行了深入分析,按主题系统地组织它们并讨论了评估研究的最新进展。这些综述论文共同构成了关注识别和理解LLMs潜在不良影响的文献。Bird等(2023)检查了文本到图像生成模型的危害,例如生成内容中的偏见、生成不当内容和侵犯版权的问题。虽然本综述论文集中于大型语言模型的技术方面,但Shevlane等(2023)和Solaiman等(2023)深入探讨了其社会影响,包括潜在危害,基于Solaiman等(2019)的早期工作。Amodei等(2016)的基础性工作“AI安全中的具体问题”极大地影响了高级AI的讨论,而Google DeepMind不断发展的分类法Morris等(2023);Dragan等帮助识别了建立这一领域的研究。Weidinger等(2024a)强调,持续发展这些分类法对于促进研究人员、政策制定者和其他利益相关者之间的共同理解至关重要。
  • 政府/政策制定会议:除了研究界的贡献,政府政策制定者在协作倡议中的参与也是重要的。这些协作生成了高质量的AI安全报告,例如WhiteHouse的报告。例如,Google DeepMind的评估方法Liang等(2022)和Anthropic的负责任的扩展政策Anthropic(2023)都引用了WhiteHouse。这些报告有助于全面理解围绕AI系统的复杂环境。正如预期的那样,这些会议的论文集中讨论了治理AI安全风险,如AI可信度、监控、公平性和隐私。
  • 企业AI安全委员会和AI安全声明:OpenAI通过他们的博客发布了他们的AI安全方法,并不断更新和变化,例如OpenAI安全委员会OpenAI(2023c)、AI安全更新OpenAI(2023e)和OpenAI安全标准OpenAI(2023d)。Weidinger等(2024a)提到Google DeepMind的AI安全委员会,并引用了一些资源链接到他们的AI安全原则GoogleDeepMind(2023)。Anthropic对评估AI系统的贡献提供了一种更务实和专注的方法。Ganguli等(2023)强调了GAI-LLMs特定评估的固有复杂性,例如Hendrycks等(2021)的大型多任务评估(MMLU)基准和Parrish等(2022)的问答偏见基准(BBQ),以及Liang等(2023)的整体语言模型评估(HELM)和Srivastava等(2023)的BigBench**。创建如此全面的评估框架的挑战表明了所需的大量努力。
  • AI安全评估:如HELM Liang等(2023)和BigBench Srivastava等(2023)等全面评估框架为基准测试LLMs提供了简化的API。这些框架结合了真理QA Lin等(2021)等开创性研究的基准,提供了不断演变的快照,以应对AI安全和代理的已建立风险和危害。通过在GitHub和HuggingFace**等平台上托管开源代码库,研究人员促进了社区的持续贡献和更新。

1.2. 与其他综述的比较本综述论文通过系统地调查LLMs的安全问题,提供了一个高层次的分类框架,包括训练数据、模型训练、提示、对齐和扩展。通过将高级应用(如ChatGPT、Gemini等)的讨论分解为不同方面,我们可以在其技术范围内缩小安全问题并理解下游问题。我们的还原主义方法符合近期的努力,例如Dalrymple等(2024)的“保证安全的AI”,以综合和分类GAI-LLMs和未来代理相关的风险。例如,Gabriel等(2024)深入探讨了高级AI助手的伦理挑战,重点关注价值对齐、安全性和潜在的滥用。同样,Bommasani等(2022)对基础模型(包括LLMs)的机会和风险进行了广泛的讨论。Liu等(2024d)通过识别生成性AI系统中的已知风险并提出增强其可信度的框架,补充了这一讨论。虽然其他综述工作提供了重要见解,我们的综述通过系统地将这些识别的风险与LLM架构的特定方法(特别是上下文学习、提示和强化学习)相关联,从而使其与众不同。通过这种方法,我们可以识别安全问题的技术来源,并追踪其在系统中的传播,提供对如何以及在哪里最有效地进行干预的更详细理解。我们还结合了LLMs评估的最新发展,如Weidinger等(2024a)所展示的。他们的工作分享了开发Google Gemini**模型的经验教训,并深入了解了DeepMind内部的治理结构,提供了关于在实际AI系统中实施安全措施的实际挑战的关键视角。为了进一步区分我们的综述,我们包括了Zhao等(2023)的最新工作分析,他们对LLMs的评估方法提供了全面概述。他们的评估指标和数据集分类为我们的基于组件的分析提供了有价值的背景,有助于弥合理论安全问题和实际评估方法之间的差距。通过综合这些不同的观点并围绕基于组件的框架进行组织,我们的综述为该领域做出了独特贡献。它不仅巩固了关于LLM安全性的现有知识,还提供了一个结构化的方法来识别和解决其源头的安全问题。这种方法对于旨在提高基于LLM的系统在各种应用和领域中的鲁棒性和可靠性的研究人员和从业者来说,特别有价值。

1.3. 综述的主要贡献在这项综述中,我们的主要贡献总结如下

  • 我们通过一个新的基于组件的框架,系统地调查了LLMs的安全问题,将关注点分类为训练数据、模型训练、提示、对齐和扩展。
  • 我们将识别的风险与特定的LLM方法(特别是上下文学习、提示和强化学习)相关联,从而更精确地理解安全问题的技术来源。
  • 我们结合了对LLM提示和对齐技术与人类偏好的综合分析,弥合了理论安全问题和实际评估方法之间的差距。
  • 我们将模型对齐的讨论置于广泛的AI安全文献中,探索了关于语言模型的不同哲学观点,以及它们与AI代理安全的独特对待方式。根据我们的研究,我们区分了强化学习策略,无论代理是否设计为语言助手,都可以在任何相互设置中嵌入与人类相关的安全措施。
  • 通过这种还原主义方法,我们汇集了当前文献中的各种观点,提出了一个独特且有组织的框架,以定位和解决LLM安全问题。这种方法为识别最有效的干预点提供了关键见解,为专注于提高LLM基于系统安全性的研究人员和从业者提供了重要视角。

1.4. 综述的提纲在这项工作中,第2节提供了LLMs的简要背景。本文随后提出了一个全面的安全问题和挑战分类法,分为五个主要类别,如表1所示。第3节的数据安全解决了有害性、偏见、数据隐私和版权侵犯等问题。第4节的模型安全探讨了虚假信息、评估问题、可解释性挑战和推理隐私问题。第5节的提示安全或使用安全重点关注潜在攻击,如提示注入和越狱,以及防御策略。第6节的对齐或伦理安全深入探讨了对齐的哲学方面、中立对齐方法、大型语言模型的价值对齐以及对齐LLMs与人类价值和伦理原则的方法。最后,第7节的规模安全性研究了可扩展的监督机制、涌现能力、知识蒸馏技术以及大规模模型的灾难性遗忘风险。这种结构化的方法提供了GAI-LLMs研究中安全领域的全面概述。我们在第8节中提出了一些未来值得研究的趋势,并在第9节对本次综述进行了总结。

在这里插入图片描述

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2076194.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 下 gdb 的使用

目录 一、概述1、安装和启动 GDB 二、 GDB 常用命令1、查看源码2、断点2.1 设置断点2.2 查看断点信息2.3 删除断点2.4 激活/禁用断点2.5 观察断点2.6 捕获信号2.7 线程中断 3、查看信息3.1 查看数据3.2 查看内存3.3 查看栈信息3.4 查看栈帧信息 4、运行、调试5、编辑和搜索 一、…

MacOS安装 Python 和 PyCharm

MacOS安装 Python3.12.5 和 PyCharm 小阿呜有话说一、MacOS安装PythonPython官网下载 二、MacOS安装PyCharmPyCharm官网下载 叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧! 小阿呜有话说 …

发完朋友圈就“退款”?黑神话的玩家是否都是“忠实粉丝”?

​声明:此篇为 ai123.cn 原创文章,转载请标明出处链接:https://ai123.cn/2228.html 《黑神话:悟空》自上线以来,便引发了玩家社区的广泛讨论。游戏的退款现象主要受到了一些技术问题和个人体验差异的影响。部分玩家因遇…

容器的ip地址不稳定问题、联合文件系统、核对时间、制作基础镜像

在docker中部署线上考试系统 1、部署前端服务器 # 上传本地下载的dist文件,因为上传的是目录,加-r选项 scp -r D:\云计算\压缩包\项目\dist root192.168.2.50:/root/ # 创建基础容器 [rootdocker ~]# docker run -it --name c0 centos:latest /bi…

SolidityFoundry BitMap

写合约的时候,记录某个账户的bool状态很常见,例如是否领取空投等,传统的写法mapping(uint256>bool)中一个slot只能存储一个账户的信息,在其他语言中,我们经常会用到bitmap来表示标志位,如果我们可以将bi…

银行卡三要素验证如何用Java进行调用

一、什么是银行卡三要素验证? 银行卡三要素验证又叫银行卡三要素核验、银行卡三要素校验、银行卡实名认证、银行卡三元素验证,即输入银行卡卡号、姓名、身份证号码,验证此三要素是否一致,该接口支持所有带银联标识的银行卡。 二…

langchain入门系列之五 初探代理

代理的核心思想是使用LLM来选择要采取的一系列动作。 在链式结构中,一系列动作是硬编码的(在代码中)。 在代理中,使用语言模型作为推理引擎来确定要采取的动作及其顺序。 代理 这是负责决定下一步采取什么动作的类。 这是由语言…

lidar3607.2 lidar360mls7.2 强大的雷达点云数据处理应用软件

1、LiDAR360是一款强大的激光雷达点云数据处理和分析平台,拥有超过10种先进的点云数据处理算法,可同时处理超过300G点云数据。平台包含丰富的编辑工具和自动航带拼接功能,可为地形、林业、矿山和电力行业(参考LiPowerline软件&…

【HarmonyOS 4.0】@BuilderParam 装饰器

1. BuilderParam 装饰器 BuilderParam 装饰器用于装饰自定义组件(struct)中的属性,其装饰的属性可作为一个UI结构的占位符,待创建该组件时,可通过参数为其传入具体的内容。参数必须满足俩个条件: 2.1 参数类型必须是个函数&#x…

前端使用canvas绘制简单工作流-react

效果图如下: 目前只做了绘制部分,绘制方式也比较简单,点击工具栏中需要绘制的图形,在画布上左键点击将会绘制一个图形出来,工具栏选中第一个,再点击其他图像,长按鼠标左键可以移动,删…

丢掉Beyond Compare吧!新款文件差异对比工具WinMerge更具性价比!

今天想和大家分享一款非常实用的免费开源文件比较工具:WinMerge。 作为一名长期从事互联网行业的人,我经常需要处理大量的文档和代码文件,文件对比工具在我的日常工作中可谓是必不可少的“左膀右臂”。 也相信很多朋友在处理多个文档内容或者…

96页PPT集团战略解码会工具与操作流程

德勤集团在战略解码过程中通常会用到以下一些具体工具: 一、平衡计分卡(Balanced Scorecard) 财务维度: 明确关键财务指标,如营业收入、利润、投资回报率等。你可以通过分析历史财务数据和行业趋势,确定…

HUSB381A:带线PD适配器的绝佳选择

HUSB381A是慧能泰半导体全新推出的一款采用SOP8封装,集成MOS的USB PD Source芯片,带CC1和CC2引脚,支持不可分离线缆(Captive Cable)PD适配器和纯PD快充充电器应用。HUSB381A支持最大功率20V5A 100W应用,支持…

单片机驱动彩屏最简方案:单片机_RA8889最小开发板驱动控制TFT彩屏介绍(一)方案架构

本文介绍使用单片机RA8889来驱动和控制彩屏的最小方案。文章从RA8889的架构功能、硬件电路设计及软件设计三个方面来说明。 小编已发布多篇文章介绍了单片机RA8889来驱动控制彩屏,但是仍有不少单片机玩家可能对驱动彩屏还不算熟悉,在此加推一个短篇介绍…

审计发现 FBI 的数据存储管理存在重大漏洞

据The Hacker News消息,美国司法部监察长办公室 (OIG) 的一项审计发现, FBI 在库存管理和处置涉及机密数据的电子存储媒体方面存在“重大漏洞”。 OIG 的审计显示,FBI 对包含敏感但未分类 (SBU&#xff09…

橙子投屏,轻松连接大屏幕

对于某腾、某爱、某酷投屏大家在熟悉不过了吧,一款非常好用的投屏软件,但是使用起来还是限制颇多,比如有犷郜,还必须同步使用手机App才能实现投屏功能,关键还得开会员,劝退不少小伙伴。但是现在手机往往占据…

API代理指南:跨境业务的数据桥梁

在当今全球化的经济环境中,跨境业务已成为企业拓展国际市场、实现业务增长的重要途径。但面临着法律法规差异、网络复杂性和数据安全等诸多挑战。为了有效应对这些挑战,API(应用程序编程接口)代理成为了跨境业务中不可或缺的一部分…

接口自动化框架设计必备利器之参数传递

在我们设计自动化测试框架的时候,我们会经常将测试数据保存在外部的文件(如Excel、YAML)中,实现测试脚本与测试数据解耦,方便后期维护。 当涉及到业务场景接口用例时,由于接口与接口存在关联关系&#xff…

5步掌握Python Django开发办公管理系统核心技巧

🎓 作者:计算机毕设小月哥 | 软件开发专家 🖥️ 简介:8年计算机软件程序开发经验。精通Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等技术栈。 🛠️ 专业服务 🛠️ 需求定制化开发源码提…

Unity实现棋盘方格

本文参考:p1_哔哩哔哩_bilibili 一、精要提炼 1、Button自带的白色底图是圆角的,Image组件自带的白色底图是方角的。 2、2D中Instantiate指定的位置为屏幕坐标系的位置,左下角为(0,0) 3、求某个组件的位置:xx.transform.posi…