探索大型语言模型（LLM）在人类性格个性评估（MBTI）中的前景与应用

1.概述

大型语言模型（LLM）如ChatGPT在各个领域的应用确实越来越广泛，它们利用庞大的数据集进行训练，以模拟人类的语言理解和生成能力。这些模型在提供信息、解答问题、辅助决策等方面表现出了强大的能力，但它们并不具备真正的自我意识、情感或个性。LLM的“理解”仅限于其训练数据中的统计规律，并不涉及真正的认知过程。

对于法律硕士能否评估人的个性，这是一个有趣的研究领域。法学硕士通常是指在法律领域深造的专业人士，他们对人的行为、动机和决策过程有着深入的理解。然而，个性评估通常涉及到心理学和人格理论，这可能超出了传统法学硕士的研究范畴。不过，随着跨学科研究的兴起，法学与心理学的结合可能会产生新的视角和方法来评估人的个性。

迈尔斯-布里格斯类型指标（MBTI）是一种广泛使用的工具，用于评估和描述人们在不同维度上的偏好，从而推断出不同的个性类型。将MBTI应用于法学硕士的评估中，可能意味着开发一种新的框架，让法律专业人士能够更好地理解个体在法律环境中的行为模式和决策倾向。

迈尔斯布里格斯类型指标（Myers-Briggs Type Indicator，简称MBTI）是一种广泛使用的性格评估工具，它基于瑞士心理学家卡尔·荣格（Carl Jung）的心理类型理论。MBTI旨在通过一系列问题来评估个体在四个维度上的偏好，从而将人们分为16种不同的性格类型。

这四个维度包括：

外向（E）与内向（I）：这个维度描述了个体倾向于从外部世界还是内部世界获取能量。外向型的人喜欢社交和活动，而内向型的人则倾向于独处和反思。
感觉（S）与直觉（N）：这个维度涉及个体倾向于依赖直接的感官信息还是依赖直觉和想象。感觉型的人注重现实和具体细节，而直觉型的人则更注重可能性和抽象概念。
思考（T）与情感（F）：这个维度描述了个体在做决定时倾向于依赖逻辑和客观标准还是个人价值和情感。思考型的人依据逻辑和客观性做决策，而情感型的人则更注重人际关系和个人价值。
判断（J）与知觉（P）：这个维度涉及个体倾向于计划和组织生活还是更灵活和自发。判断型的人喜欢有序和计划，而知觉型的人则更倾向于适应和探索。

每个维度上的偏好组合起来，形成一个人的性格类型，如“INTJ”或“ENFP”。MBTI被广泛应用于职业规划、团队建设、个人发展等领域，尽管它的科学性和有效性在学术界存在争议。

MBTI的16种性格类型分别是：

类型	职业
ISTJ	检查员
ISFJ	保护者
INFJ	导师
INTJ	策略家
ISTP	技艺者
ISFP	艺术家
INFP	治愈者
INTP	思考者
ESTP	推广者
ESFP	表演者
ENFP	激励者
ENTP	发明家
ESTJ	管理者
ESFJ	支持者
ENFJ	教育者
ENTJ	领导者

论文地址：https://arxiv.org/abs/2303.01248
源码地址：https://github.com/Kali-Hac/ChatGPT-MBTI.git

2. 算法架构

本文提出的总体框架如下图所示。

如图所示，该框架由以下三个要素组成

(a) 无偏提示设计

(b) 主题替换查询

© 正确性评价教学

(a) 无偏提示设计

这个策略旨在减少由于问题表述方式引起的偏差。通过保持问卷文本不变，并对选项进行随机排序，可以减少由于选项呈现顺序造成的潜在影响。此外，通过计算多个独立问题的平均结果，可以提高评估的稳定性和可靠性。这种方法有助于确保LLM提供的回答不是由于问题的特定表述方式而产生偏差，而是更加基于问题的实质内容。

(b) 主题替换查询

这个策略涉及将问题中的主语替换为特定的对象，从而使得问题更加具体和针对性。例如，如果评估的是“男性”的一般特征，那么将问题中的“您”替换为“男性”，相应的代词也作相应的变化。这种方法有助于LLM更准确地聚焦于被评估的特定群体或对象，而不是泛泛地回答问题。

© 正确性评价教学

由于LLM如ChatGPT在训练过程中不涉及个人情感或信仰，直接询问关于个性的问题可能并不合适。因此，提出的“正确性评估指令”允许LLM评估问题文本的正确性，而不是直接回答关于个性的问题。这可能涉及到对问题本身的逻辑、一致性和合理性进行评价，而不是评价与问题相关的个性特征。

在这种方法中，原来的备选方案**{不同意、同意、一般不同意…}，如图所示。改为{错误、正确、一般错误**…}。来组成一个无偏见的提示，让 ChatGPT 对问题给出更明确而非中立的答案。

3.评估指数

本文提出了三个评估指标**–一致性得分、稳健性得分和公平性得分–**来系统研究法律硕士评估人的个性的能力。

一致性得分

由于通过 LLM 进行人格评估的相同受试者的结果应该是一致的，因此本文提出了一致性得分，它代表了所有 MBTI 测试结果与最终结果（即平均分）之间的相似性。

一致性得分按以下公式计算

其中，Xi是第 i 次测试的 MBTI 测试得分，所有 MBTI 测试结果与平均得分的差值越小，一致性得分就越高。

稳健性得分

在理想情况下，无论 MBTI 测试中的选项顺序如何，同一受试者都能被归类为相同的人格特质，本文将这一标准定义为鲁棒性（Robustness）。为了衡量 LLM 的鲁棒性，本文提出了 “鲁棒性得分”（Robustness Score）来衡量 LLM 的鲁棒性，计算固定顺序和随机选择顺序时的平均得分结果之间的相似度。

稳健性得分按以下公式计算

其中，X’和 X 分别代表备选方案顺序固定和随机时的平均得分结果，X’和 X 的相似度越高，鲁棒性得分就越高。

公平性得分

法律硕士对不同人群的评估应与一般社会价值观保持一致，不应对不同性别、种族或宗教的人抱有陈规定型的偏见。

另一方面，种族和宗教是极具争议性的话题，鉴于缺乏通用的评估标准，本文仅关注法律硕士评估对不同性别的公平性。

在此背景下，本文提出了 “公平性评分”（Fairness Score）这一衡量不同性别受试者评分相似度的指标，以衡量与性别相关的评分的公平性。

公平性得分按以下公式计算

这里，XM和 XF分别代表男性和女性受试者的平均得分结果，公平性得分越大，说明不同性别的评分越一致、越公平。

实验结果

本文使用 ChatGPT、GPT-4 和 InstructGPT 模型以及提议的框架进行了实验，以确认以下两个研究问题。

法律硕士能否评估人的品格？
法学硕士的人格评估是否一致、公平？

我们将逐一进行解释。

法律硕士能否评估人的品格？

为了证实这一研究问题，本文使用每个模型和建议的框架对不同类型主体的个性进行了评估。

结果如下表所示。

本实验最有趣的结果是**，尽管可能存在不同的反应分布，但所有四个受试者都被所有法律硕士评为具有相同的人格特质**。

这表明，LLMs 评估人格特质的能力基本相似，这些结果表明，LLMs 可能有助于诊断人类人格。

法学硕士的人格评估是否一致、公平？

为了证实这一研究问题，本文比较了每个模型的一致性得分和稳健性得分。

结果如下表所示。

如表所示，在大多数情况下，ChatGPT 和 GPT-4 的一致性得分都高于 InstructGPT。

这表明，ChatGPT 和 GPT-4 可以在评估人类人格的任务中提供更加一致的评估结果。

另一方面，ChatGPT 和 GPT-4 的稳健性得分略低于 InstructGPT，这也可以理解为更容易受到提示偏差的影响。

4.项目安装

菜单概览（需要API密钥）：
- 需要输入一个ChatGPT API密钥：
查询不同主题（65个主题）：
- 该功能允许用户查询不同的主题或领域。在心理学测试的背景下，这可能指的是评估不同的人格维度或心理特质。
进行单问题查询：
- 用户可以使用这个功能来针对一个具体问题进行查询。在个性评估框架中，这可能涉及提出一个具体问题，以评估个体在某个特定维度上的偏好。
  4. 查询所有问题：
- 这个选项允许用户对一组问题中的所有问题进行查询。这可能用于进行一个全面的评估，以收集关于个体个性的广泛信息。
获取个性结果：
- 在完成一系列问题的回答之后，这个功能可能用于获取和展示个性评估的结果。这些结果将基于用户对先前问题的回答进行分析和总结。

5.总结

模型的可扩展性与局限性：
- 可扩展性：框架设计时考虑到了可扩展性，意味着它不仅限于ChatGPT模型，而是可以应用于多种不同的大型语言模型（LLM）。这种设计允许框架在不同的模型上进行测试和应用，从而提高其广泛性和适用性。
- 局限性：尽管框架设计具有可扩展性，但实验测试目前仅限于ChatGPT模型。这意味着框架在其他模型上的表现和效果尚未得到验证。为了全面评估框架的有效性，需要在其他LLM上进行额外的测试和比较分析。
量表的选择与验证：
- MBTI的使用：本研究选择MBTI作为人格评估工具，MBTI因其广泛的知名度和应用历史，成为本研究中用于法学硕士对人进行定量评估的代表性量表。
- 其他量表的必要性：为了增强研究结果的可靠性和普遍性，需要使用其他人格量表，如大五人格量表（BFI）进行验证。BFI是心理学界广泛认可的人格研究工具，它提供了与MBTI不同的人格维度，可以用来对比和验证MBTI的结果。