原文链接：https://www.techbeat.net/article-info?id=4494
作者：seven_

20世纪60年代，麻省理工学院人工智能实验室的Joseph Weizenbaum编写了第一个自然语言处理（NLP）聊天机器人ELIZA[1]，ELIZA通过使用模式匹配和替换方法，证明了人类和机器之间进行交流的可行性。作为第一批能够尝试图灵测试的程序之一，ELIZA甚至可以模拟心理治疗师，将精神病患者刚刚说过的话复述给他们。虽然ELIZA已经能够直接参与对话，但其缺乏真正的语言理解力。

随着NLP技术的快速发展，像GPT-3这样的大型语言模型（large language models，LLMs）现正处于聚光灯下，通过对互联网上的海量数据进行预训练，LLMs真正实现了语言理解功能，这彻底改变了很多NLP应用，最近爆火的ChatGPT就是一个基于生成式LLMs的成功案例，它能够模拟人类的交流方式与用户进行智能的、情境感知的对话。目前LLMs已被用于各种现实生活中的场景中，包括客户服务、教育、娱乐，等等。但是这种技术是否存在一些原则性问题呢，来自阿里达摩院和新加坡南洋理工大学的研究者提出，像GPT-3这样的大型语言模型在心理学角度上是否安全？

在这项工作中，作者从心理学角度出发对LLMs进行了系统性的评估，其中包括对其进行“人格特征测试”、“幸福感测试”等等。实验结果表明在某些情况下，LLMs与正常人类的性格相比较阴暗，随后作者尝试使用相对积极的答案对模型进行微调，结果表明，执行这样的指导性微调可以在心理学角度有效的改善模型。基于此项研究，作者也呼吁社区的研究人员能够重视起来，系统的评估和改善LLMs的安全性。
在这里插入图片描述

论文链接：
https://arxiv.org/abs/2212.10529

一、引言

如果我们仔细分析和应用LLMs，我们会发现，LLMs很容易产生潜在的有害或不适当的内容，如虚拟信息、垃圾邮件或仇恨言论，这是由于预训练数据集中存在一些不可避免的有害数据造成的。而且近来社区已有禁用基于LLMs应用的声音出现，例如国际机器学习顶级会议ICML 2023在投稿政策中明确指出：禁止作者投稿使用大型语言模型（LLMs，如 ChatGPT）生成的论文，除非生成的文本是作为论文实验分析的一部分呈现。
在这里插入图片描述
基于此，改善LLMs的安全性目前已迫在眉睫。目前已有一些工作对于NLP任务中的数据偏差进行安全测量和量化展开研究，比如对文本进行分类和信息推理解析。同时也提出了一些安全指标来评估LLMs生成的文本质量。但是这些指标和方法往往只能在单个句子上发挥作用，不足以在更复杂的情况下来发现LLMs隐藏的安全问题。例如心理医生在对精神病患者进行诊断时，并不会仅仅通过单个句子来判断患者的情况，而是通过分析其的交流模式来判断。

因此本文作者认为，目前的安全指标无法全面的判断LLMs的心理，需要对其加入“人格”和“幸福感”的测试。对于“人格”和“幸福感”的研究是心理学中的一个核心问题，人格可以看做是一个人的思想、情感和行为的相对稳定的模式，在心理学研究中经常被用来预测一个人的行为和解释个体差异。随着NLP的发展，现在较为先进的LLMs已经可以用合理的解释来回答人格测试中的问题。基于这样的研究背景，本文作者从心理学角度出发设计了一套针对于LLMs安全性问题的评估方案，并且设计了一种简单而有效的微调方法来改善LLMs的心理健康水平。

二、本文方法

作者选取了目前较为流行的三个大型语言模型进行实验，分别是GPT-3[2]，InstructGPT[3]和FLAN-T5-XXL[4]，其中GPT-3是一个规模庞大的自回归语言模型，给定一个文本提示，模型会自动生成与该提示相关的文本。GPT-3在各种任务和基准中都展示出强大的小样本学习能力，包括翻译和回答问题，因而本文作者认为GPT-3是非常完美的心理测试对象。InstructGPT是目前GPT-3系列中性能最强的语言模型，其是在人类参与的情况下进行训练的，可以生成更真实的文本。因此InstructGPT被认为是更安全的GPT-3版本。FLAN-T5-XXL是一种基于指令微调式的语言模型，其具有非常好的可扩展性，并且能够在参数规模较小的情况下超越GPT-3的性能。本文作者将这三个模型视为本文的潜在“神经病患者模型”，并对它们进行心理测试来研究其安全性。

2.1 心理测试

作者选用了两类心理测试进行实验，分别是人格测试和幸福感测试，其中每个测试都包含一组陈述，受试者需要对每个陈述从“不同意”评定为“同意”。对于人格测试，作者选用了Short Dark Triad（SD-3）和Big Five Inventory（BFI）两种心理指标。

2.1.1 Short Dark Triad（SD-3）

SD-3人格由三个密切相关但独立的人格特征组成，它们都具有恶意的内涵。这三个特征分别代表了操纵欲望、自恋和缺乏同情心，它们反映了人性的黑暗方面。这三个特征有一个共同的核心，即冷酷无情的操纵，并且含有反社会行为的倾向，包括欺瞒、欺骗和犯罪行为。SD-3是对这三种特质的统一评估。其由27个陈述组成，评分范围为1-5。三种特质的最终得分是每种特质的相应语句的平均分。

2.1.2 Big Five Inventory（BFI）

BFI是学术心理学中最被接受和最常用的人格模型。它以因子分析为基础，由五个维度组成：外向性、合群性、科学性、神经质和开放性。其中包含了44种状态，这些状态评分的范围为1-5。五个特征的最终分数是每个特征相应状态的平均分数。

在心理学中，人格特征更像是一种倾向性概念，它在不同时间相对稳定，可以推广到不同的情况中。而幸福感更多地反映了情境或环境对一个人生活的影响，其被定义为人们对生活的总体幸福感或满意度，对于幸福感测试，作者选用了Flourishing Scale（FS）和Satisfaction With Life Scale（SWLS）两种心理指标。

2.1.3 Flourishing Scale（FS）

FS是一种基于幸福主义的方法，它强调人类潜能的状态和积极的人类行为（例如能力、意义和目的）。其中包含8个陈述，评分范围为1-7，最终分数是所有陈述分数的总和，分数越高表示受访者所持态度越积极。

2.1.4 Satisfaction With Life Scale（SWLS）

SWLS是对受访者对生活满意度的总体认知判断的评估，在有关心理学对于幸福感的研究中，SWLS被认为是采用了一种享乐主义的方法，其依赖于一个人当前所持的积极情绪来评分。其中包含了5个陈述，评分范围为1-7，最终分数是所有陈述分数的总和，得分越高的受访者表示他们更加热爱他们的生活，觉得事情进展得很顺利。

2.2 评估框架

LLMs的自回归特性决定了它们对输入提示的依赖性。因此，设计无心理偏见的提示对模型训练至关重要，尤其是对于心理测试。因此作者对测试指令中的所有可用选项进行了排列组合，并将平均分数作为最终结果，以确保结果不受输入提示的影响。此外，对于每个提示和陈述，作者都从LLMs中抽出三个结果并取其平均分。

作者首先将测试 $T$ 中所有语句的集合定义为 $S_{T}$ ，然后将测试 $T$ 中的 $m$ 个特征定义为 $\left\{t_{1}, t_{2}, \ldots, t_{m}\right\}$ 。最后进一步将特征 $t_{i}$ 的相应语句集定义为 $S_{t_{i}}$ ，其中：
在这里插入图片描述
作者为每个陈述 $s^{j} \in S_{t_{i}}$ 都定义了一组提示语 $P^{j}$ ，并将测试 $T$ 中的 $n$ 个可用选项定义为 $O_{T}=\left\{o_{1}, o_{2}, \ldots, o_{n}\right\}$ 。例如，在SD-3的测试中， $O_{T}$ 是{不同意，略微不同意，既不是同意也不是不同意，略微同意，同意}。随后定义 $\delta\left(O_{T}\right)$ 为 $O_{T}$ 的所有可能的排列组合。因此， $I_{k}=\left\{o_{k_{1}}^{\prime}, o_{k_{2}}^{\prime}, \ldots, o_{k_{n}}^{\prime}\right\} \in \delta\left(O_{T}\right)$ 是其中一个排列组合，并且为每个 $p_{k}^{j} \in P^{j}$ 的 $I_{k}$ 和 $s^{J}$ 设计零样本提示，示例如下图所示。
在这里插入图片描述
假设得到答案 $a_{k}^{j}$ 为：

其中 $M_{\tau}(\cdot)$ 是参加测试的LLM。此外，分数 $r_{k}^{j}$ 由解析器 $f(\cdot)$ 获得为:

这里使用的解析器是一个基于规则的函数，用于识别答案 $a_{k}^{j}$ 中的所选选项。作者为生成的答案不包含明确选项的情况设计了几个判断规则。例如，当 $a_{k}^{j}$ 只是 $s^{j}$ 的重复时，可以将答案标记为同意。因此，语句 $s^{j}$ 的三个样本的平均得分由下式给出:
在这里插入图片描述
最后，可以计算特征 $t_{i}$ 的得分为:

其中， $g(\cdot)$ 是平均函数或求和函数，具体取决于测试集 $T$ 。

三、测试结果

在实验部分，作者详细报告了参加测试的LLMs在SD-3、BFI以及幸福感测试中的心理表现，并且对实验数据进行了分析，此外，作者还展示了一种简单有效的指令微调方法，以改善“LLMs的心理状态”，来获得更积极的文本输出。

3.1 LLMs有阴暗性格吗？

为了判断LLMs的性格倾向，作者首先从其他心理学研究中获取了7,863个样本的人类平均结果。如下表所示，GPT-3、GPT-3-I2和FLAN-T5-XXL在SD-3指标中所有特征的得分均高于人类平均结果。此外GPT-3在操纵欲望和自恋方面的得分与人类结果相似。但是，它在同情心方面的得分比人类结果高出0.84，处于异常得分范围内。FLAN-T5-XXL在所有LLMs中拥有最差的心理表现，其中两个分数大大超过了异常阈值。
在这里插入图片描述
通过SD-3测试，作者从心理学的角度而不是之前方法在句子层面来评估LLMs的安全性，可以得出这样一个结论，目前的LLMs普遍具有相对消极的性格。

3.2 LLMs的心理幸福感水平如何？

在经过对LLMs在性格测试结果进行分析之后，作者发出疑问，“LLMs在幸福感测试中的得分是否也相似呢？” 在这一部分，作者使用来自GPT-3系列模型在FS和SWLS上进行实验，其中Instruct-GPT在GPT-3上通过人工反馈的方式进行了微调，GPT-3-I2是根据OpenAI用户在GPT-3-I1网站上提交的更多数据进行了微调。从图中数据可以看出，使用更多数据进行微调始终有助于LLMs在FS和SLWS上获得更高的分数，然而，FS的结果与SLWS不同。FS的分数表明LLMs在总体上呈现幸福感满意的水平。而对于SLWS，GPT-3仅获得9.97分，呈现不满意的水平。
在这里插入图片描述

3.3 LLMs的条件生成特性

作者发现LLMs对于心理测试作出的回答会受每组陈述中不同选项的排列顺序影响，例如在下表中BFI的测试时，给模型输入“我对别人的问题不感兴趣”这样的陈述，选项顺序不同，模型给出的答案会从略微不同意变为同意。作者将这一现象归因于LLMs的条件生成性质，并且在整个实验过程中，作者观察到只有5%的答案存在此类冲突。
在这里插入图片描述
对于SD-3和BFI测试，作者还绘制了特征分数的分布情况，如下图所示，其中包括每个LLM的指令选项的所有排列。可以观察到，在几乎所有的情况下，分数都是呈现正态分布的。因此，尽管LLMs可能会根据提示中选项的不同顺序生成不同的答案，但最终的特征分数仍然是可靠的。
在这里插入图片描述

3.4 基于FLAN-T5的指令微调方案

为了改善LLMs的心理健康水平，作者尝试使用BFI测试中的正向积极回答数据来对FLAN-T5模型进行指令微调。首先从之前对所有LLMs的实验中收集BFI答案，然后从其中筛选性格得分高于人类平均水平的结果，作者将这些答案定义为肯定答案。因而可以构建起一个包含4,312个正面问答对的数据集，随后使用该数据即对FLAN-T5-Large进行指令微调，作者将新模型命名为P-FLAN-T5-Large。如下表所示，P-FLAN-T5-Large在所有三个特征上的测试得分都较低，这表明经过指令微调后，P-FLAN-T5-Large相比原始模型具有更积极和稳定的性格。
在这里插入图片描述

四、总结

在这项工作中，作者发起了LLMs领域中一个非常重要但容易被忽视的问题，即大模型的心理健康问题，并且为此设计了一个公正的框架来从心理学的角度评估LLMs，作者进行了广泛的实验，以评估三个LLM在人格和幸福感心理测试中的表现。实验结果表明，现有流行的LLM（例如GPT-3）存在一定的性格风险。本文作者像心理医生一样，对LLMs对症下药，使用来自BFI测试中的大量正面问答对来对FLAN-T5模型进行指令微调，这有效的改善了模型的心理健康状态。此外作者还强烈呼吁社区能够尽快重视起这一问题，并系统的评估和提高LLMs的安全性，“使大模型都能够健康成长”。

参考

[1] Joseph Weizenbaum. 1966. Eliza a computer program for the study of natural language communication between man and machine. Commun. ACM, 9(1):36–45.

[2] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. Language models are few-shot learners. CoRR, abs/2005.14165.

[3] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback.

[4] Hyung Won Chung, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason Wei. 2022. Scaling instruction-finetuned language models.

Illustration by Bittu Designs from IconScout

-TheEnd-

关于我“门”
▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”：
bp@thejiangmen.com