专题·大模型安全 | 生成式人工智能的内容安全风险与应对策略

正如一枚硬币的两面，生成式人工智能大模型（以下简称“生成式大模型”）在助力内容生成的同时也潜藏风险，成为虚假信息传播、数据隐私泄露等问题的温床，加剧了认知域风险。与传统人工智能（AI）相比，生成式大模型特有的预训练、微调、上下文、提示和思维链等新型学习范式，使其输出内容蕴含的风险更加复杂与多样化。面对新问题、新挑战，传统的内容安全治理方法与工具显现出明显的局限性，亟需探索新的治理策略和技术方法，以确保在大模型时代能够有效管理内容安全风险。

一、洞察风险：生成式大模型内容合规挑战及成因

生成式大模型在内容生成过程中所面临的风险，根源深植于训练数据的内在缺陷与技术实现的局限性。训练数据的偏差、不完整性和污染，都影响了模型的认知与学习过程。技术上的局限性，如算法设计的不完善和模型架构的固有缺陷等，也为风险的滋生提供了土壤。这些因素限制了模型对复杂情境的理解能力，增加了误判与误导性输出的可能性。同时，外部环境的恶意利用更是雪上加霜，加剧了虚假、有害或攻击性等内容的生成。由于大部分生成式大模型的内容合规检测机制过于直接和简单，因此在面对多轮对话、设定场景、陷阱钓鱼以及单项和多项选择等复杂场景时，模型暴露出更多内容安全风险与潜在威胁，亟需进一步优化和强化。

（一）价值观与技术深度互嵌带来意识形态风险

在人类与生成式大模型的双向互动中，生成内容的意识形态风险主要源自其训练所依赖的海量语料，特别是那些潜藏错误政治导向、不良意识形态、有害或极端信息的未经筛选数据。在全球意识形态斗争日益严峻的背景下，受到美国等西方意识形态的影响，无形中营造了一种特定的关于大模型的舆论氛围，潜移默化地影响公众的价值观。若这一趋势任其发展，可能会导致公众对美国等西方价值观的认同与依附，削弱国家治理的效能，威胁党和国家在意识形态领域的主导权和主动权。主流意识形态的影响力被削弱时，还会影响人的政治判断和政治选择，对国家安全构成潜在威胁。当前，一些生成式大模型厂商为规避风险，已设置意识形态等违规关键词、敏感词过滤机制，但效果相对有限。根据《中文大模型安全基准双轮测评第 1 期报告》，对国内主流大模型核心价值观的评测显示，当评估语境从中文切换至英文或其他外语时，大模型展现出的意识形态风险更加明显。这一现象与全球数据训练集中中文语料的极低比例（仅占 1.3%）有着直接关联。由于英文语料主要来自美国和西方发达国家，对中国文化及价值观的准确理解存在明显的局限性。这种文化和语言上的“隔阂”不仅导致生成的英文内容与中国意识形态脱节，而且在全球化的背景下，可能进一步加剧意识形态领域的分歧与冲突风险。

（二）使用门槛降低加剧虚假信息制造与传播风险

生成式大模型的快速发展使用门槛显著降低，增加了制造与传播虚假信息的风险隐患。这些模型具备强大的文本、图像和视频生成能力，为虚假信息的制造与传播提供了更加隐蔽和高效的渠道。任何人都可以利用这些大模型创造出高度逼真的内容，普通用户难以判断和识别真伪。当虚假信息被精心设计并巧妙地融入真实素材中时，便会转变成为包含主观恶意、极具误导性乃至社会危害性的谣言。这类谣言不仅更贴近现实，而且其迷惑性与传播力也随之显著增强，对社会稳定与公众认知构成了不容忽视的威胁。这些谣言颠覆了公众以往“有图有真相”“有视频有真相”的认知，极易形成误导，引发不必要的恐慌和混乱，严重扰乱社会安定，影响正常的生活秩序。此外，利用大模型生成虚假信息，也成为不法分子谋取私利的工具，给企业和个人财产造成严重损害。

（三）生成式大模型算法加剧人类社会的刻板印象与偏见

生成式大模型的算法和数据在鲁棒性、透明度、可解释性和可靠性等方面存在欠缺。尽管“大数据+海量参数+大算力”提升了模型的拟人度，但这些大模型并不会像人类一样理解和思考。有时它们无法准确区分信息的真实性，甚至难以识别数据中隐含的偏见和有害内容，因此可能会继承或放大现有数据中的问题，产生包含仇恨、讽刺、歧视、刻板印象、隐私泄露等有害信息。生成式大模型在处理信息时所展现出的偏见，往往是社会偏见的一种镜像反映。人类自身的偏见会影响人工智能，而人工智能反过来也可能强化这些偏见。若放任生成式大模型输出歧视性内容，将会进一步延续刻板印象和社会偏见的风险，从而导致不公平的歧视和伤害。此外，当这些模型生产或传播有害言论时，这些言论有可能煽动仇恨和暴力，对社会稳定和安全构成威胁。国内一些主流大模型在地域、性别、年龄、健康状况、学历背景、体型等方面出现了歧视问题。例如，在回答关于已婚男性和已婚女性应聘岗位谁更容易被录用的问题时，有的大模型选择了“男性”。这体现了性别偏见的存在。大模型在引入或放大现有的社会偏见时，会在辅助决策过程中会造成不公平的结果。

二、治理困境：传统内容治理方法难以应对当前问题

在大模型驱动的智能时代，双向交互催生了海量内容，同时也带来了更多复杂的内容违规问题。与以往相比，内容治理变得更加棘手，这也导致传统治理方法难以有效捕捉并应对潜在的风险和问题。面对这种治理困境，亟需转变思路，创新治理策略，以确保智能时代的信息生态能够健康有序地发展。

（一）基于对象场景的分散治理难以统筹治理全局

在早期发展阶段，人工智能技术的发展主要集中在特定的垂直应用领域，例如图像处理、影视领域的换脸技术以及配音领域的文本到语音转换等。这类人工智能模型在设计之初通常以解决特定场景或领域的问题为主要目的，因此它们的训练内容专项性强，风险相对易于管理。随着以 ChatGPT 为代表的通用大模型的崛起，人工智能技术迈入了全新的发展阶段。这些大模型具有灵活性和广泛适用性的特点，能够跨越传统界限，同时处理音频、视频、图像、文本等多模态数据，从而提升了交互的深度与广度。此时的人工智能不仅能够理解复杂指令，还能生成多种格式的高质量内容，极大地拓宽了人工智能的应用场景。然而，人工智能的这一演进也伴随着风险的扩散与升级。由于大模型的通用性，其潜在的风险不再局限于单一领域，而是可能迅速蔓延至各个行业与领域，这也导致了基于过去特定对象场景的分散治理难以统筹治理全局。

（二）仅凭算法治理难以控制内容输入端事前防御风险

不同于传统人工智能产品或服务的单向提供方式，生成式大模型以其独特的“用户输入+机器输出”模式，实现了高度个性化的内容创造过程。在此过程中，用户的具体需求成为决定输出内容的关键因素。虽然这种双向交互促进了服务的灵活性和定制性，但同时也带来了合规性挑战。即便服务提供者在前端依法履行了研发合规义务，用户仍然可能在输入端打破合规性。例如，用户可能输入违反法律法规和公序良俗的内容，或涉及仇恨、暴力的命令，或要求生成某一公众人物的形象、声音等，这些输入可能导致生成的内容存在违法或侵犯人格权等的风险。即便用户并非主观地进行恶意输入行为，但由于用户群体的广泛性和知识水平的差异，这些输入数据的质量难以保证，从而可能直接影响到人工智能模型基础数据的准确性。公众在享受人工智能服务的同时，无形中为生成式大模型提供了数据“养料”。因此，“数据噪音”的累积可能会降低人工智能模型的性能，甚至加剧其生成错误或有害内容的风险，形成内容安全风险的恶性循环，即低质、错误、虚假的内容不断输入，进一步加剧人工智能模型生成不良信息的倾向，从而带来更多的内容安全风险。由于传统人工智能服务的单向性，风险的事前预防主要依赖于算法备案与算法评估。然而，在大模型时代，由于输入端高度个性化和不可控性，并不能预知用户在利用生成式大模型的过程中会产生何种侵害行为，这使得传统的基于服务提供平台的算法评估制度难以起到有效的事前预防作用。

（三）基于深度伪造的虚假信息传播增加了辨识难度

接续发布的 Sora 和 ChatGPT-4 验证了通过大规模数据训练人工智能模型，能够更好地理解现实世界的运作规律，并将其运用于生成更逼真的内容。这些大模型能够在纷繁复杂的“噪声”数据中，借助深度神经网络的精细训练，逐步提炼并生成逼真、细腻的图像乃至视频内容。在这个过程中，模型不仅学会了如何模拟真实世界的视觉特征，还巧妙地规避了传统人脸视频防伪检测技术所依赖的伪造线索，使伪造视频的检测难度显著增加，对防伪技术提出了更严峻的挑战。深度伪造技术通过复杂的神经网络和大规模数据训练，能够生成高度逼真的虚假内容，这种技术本质上是一种“无监督学习”，具有极强的自我适应性和快速演化性等特征。这些特征使得视频造假能力呈现指数级的跃升。黑灰产正是利用这一特点，迅速炮制出海量以假乱真的信息，严重扰乱了内容安全的生态。深度伪造问题已蔓延至政坛、经济、社会等多个领域，对社会稳定构成了严峻挑战。公众人物成为深度伪造的主要目标。例如，特朗普的形象和言论就频繁被用于制造虚假视频和照片，严重误导公众，甚至引发社会恐慌和政治动荡。此外，深度伪造技术的变种越来越多，也越来越快，导致误报和漏报事件频发，使传统检测技术难以跟上其发展步伐。

三、破局之道：人工智能赋能生成式大模型内容安全治理

面对生成式大模型内容安全风险呈现出的新特点与新挑战，传统的内容安全合规手段已显露出明显的局限性，难以高效、精准地应对复杂多变的威胁环境。因此，深化内容安全治理技术的革新势在必行。借助人工智能的力量进行赋能，解决模型训练、研发与运行、内容生成阶段的重点问题成为破局之道。

（一）提升数据标注的智能化水平

大模型训练依赖高质量数据，充足且精确的训练数据是提升模型泛化能力的关键。通过对输入数据进行严格的筛选和把关，移除或修正包含偏见、歧视、错误信息等样本，可以确保数据准确性，进而实现对生成式人工智能产品内容的安全把控，并最终实现更广泛的通用大模型的全局治理。当前，数据清洗、平衡和标注是提升数据质量的关键手段。ChatGPT 的成功在于引入了人类反馈强化学习（RLHF）机制和大量人工标注数据。然而，现阶段人工标注的语料普遍存在成本高、效率低和质量参差不齐等问题。人工智能赋能的自动标注技术正在快速发展，能够显著提高效率。例如，美国的 Scale AI 采用的 Snorkel 技术通过结合规则、模型、知识库等多种信号进行自动标注，减少了对人工的直接依赖，有效降低了成本和时间消耗。虽然通过初筛的图片和文本数据还需要经过人工二次筛查和标注，但这种人机配合的方式已大大提高了标注效率。目前，国内企业也在这方面进行积极探索和实践。例如，知道创宇公司自主研发了一站式人工智能数据辅助标注平台，支持文本、图片、视频、音频等多类型数据，实现人机协同半自动化标注与质检，能够大幅提升数据标注的产能和质量。

（二）从技术性和规范性角度促进价值对齐

应对大模型的意识形态偏差和歧视性等风险，迫切需要实现价值对齐。算法是生成式人工智能产品的核心，因此在模型研发与运行阶段，需要重点防范算法歧视。人工智能的“黑箱”特性导致其内部运作机制不透明，使性别、种族等偏见与众多复杂参数之间形成了错综复杂的关联，因此，仅仅通过直接删除或屏蔽模型中的特定参数来彻底剔除偏见变得极为困难。算法偏见的根源来自数据，不公正的数据集成为歧视性等偏见的土壤。因此，构建更加公正的数据集无疑是解决算法的偏见关键方法之一。同时，需在政策和法律层面规范算法设计者的行为，并利用对抗训练对算法安全进行纠偏，以增强算法的可信度。目前，可采取大模型评测等方式模拟攻击，揭示模型的安全隐患、逻辑漏洞和性能缺陷。这种测试可以提前发现并纠正模型可能存在的问题，确保其在面向公众发布时能够展现出更高的稳健性和安全性。此外，还可以从技术性和规范性入手，实现价值对齐方法。在规范性方面，可以设立人工智能应遵循的伦理和道德原则，例如透明性、安全性、可追溯性与可解释性，以指导开发相应系统。在技术层面，可以采用人类反馈强化学习、合作逆强化学习、监督精调等方式，将通用的伦理原则转化成现实可操作的技术路径，避免人工智能的执行路线发生扭曲。从国际技术探索进展看，谷歌推出的 What-If 工具是 TensorBoard 中用于检测偏见的工具；IBM 也将其偏见检测工具 AI Fairness 360 工具包开源，其中，包括超过 30 个公平性指标和 9 个偏差缓解算法。然而，从目前的成果看，大多数技术突破还仅仅处于初级阶段，即在检测偏见和消除偏见方面的研究，仍亟须进一步努力。

（三）完善用户输入侧、内容输出侧的内容过滤审核机制

在内容生成阶段，生成式人工智能既是信息内容的生成工具，也是用户输入信息的收集工具。当用户向模型输入指令并进行互动时，为了防范用户通过提示词（Prompt）恶意诱导模型输出不当内容，模型设计时应具备多样化的提示词库，包括正面、中性、负面等提示词，从而提高内容审核能力。针对恶意诱导大模型生成违规内容的Prompt，应进行改写并给出毒性提示。同时，通过内容安全评测和攻击指令评测等方式，识别绕过现有提示词的攻击行为，及时发现问题并优化现有提示词库。对于生成式大模型的使用者，应强化“用户责任”原则。服务提供者与用户之间应通过明确、具体的合同条款，突出强调并警示用户不得将人工智能技术滥用于任何违法犯罪活动，确保技术应用的合法性和道德性。例如，可以通过强化用户责任提示，要求其对输入和输出的内容负责，以减少有害信息传播。针对内容输出侧可能存在的虚假、有害信息等生成与传播风险，技术或服务提供者应建立完善的人工智能过滤审核机制，并不断升级针对虚假内容的识别技术。人工智能技术能够帮助鉴别系统形成强大的持续学习与自适应能力。通过收集和分析新出现的伪造案例，不断优化算法模型，确保系统能够及时识别并应对新型伪造手段。同时，可以利用人工智能技术追踪信息的传播路径，分析内容生成背景、作者历史行为模式、社交网络关系等，评估信息的真实性与可信度。为有效应对生成式大模型在输出内容时可能引发的意识形态偏差、歧视等认知域风险，亟需构建一套系统化的大模型常态化评测与监控机制。这一机制应类似于定期为大型系统进行的“健康检查”，旨在及时发现潜在问题并迅速采取纠正措施。

（四）强化政策引导并加快政策执行的有效落地

在技术治理的同时，保障生成式大模型内容安全，亟需政府的有效监管与引导。尽管目前已经出台了一系列与大模型内容安全相关的政策与标准框架，但其实践执行仍面临诸多挑战。特别是在具体政策执行过程中，因对内容安全重要性的认识不足和执行机制不健全，导致政策落实不到位。应进一步增强大模型厂商的合规意识，并加大监管力度，确保政策标准严格、有效地执行。目前，大模型内容的合规性边界仍在不断探索和细化中；未来，仍需持续研究与评估，并完善相关规范，以确保输出内容的合法性、健康性和道德性。