探索研究大语言在生物识别技术——使用ChatGP-4从完成从人脸识别到年龄估计

0.引言

论文提出以下几要点：
（1）. 人脸识别、性别检测和年龄估计的性能评估：

进行了一项研究，使用GPT-4这样的大型语言模型来处理人脸识别、性别检测和年龄估计等任务。
这些任务是生物识别技术中的常见应用，通常用于安全系统、社交媒体平台和市场研究等领域。

（2）. 隐私保护方法的提出：

研究中提出了一种避免隐私问题的方法，这对于使用生物识别数据至关重要。
考虑到生物识别信息的敏感性，确保隐私保护是此类技术应用中的一个关键方面。

（3）. GPT-4的性能：

GPT-4在这些生物识别任务中显示出了很高的性能，表明大型语言模型能够处理复杂的图像识别和分析任务。
这种高性能可能归功于其庞大的数据训练和先进的深度学习算法。

（4）. 错误识别和敏感信息泄漏的风险：

尽管性能高，但研究也指出了错误识别的风险，这可能导致误判或不正确的结果。
此外，还强调了敏感信息泄漏的风险，特别是在处理个人生物识别数据时。

（5）. 稳健性研究的需求：

鉴于这些风险，研究建议需要进一步进行稳健性研究。
这可能包括改进模型的准确性、安全性和隐私保护措施，以及在实际部署前进行广泛的测试和验证。

论文地址：https://arxiv.org/pdf/2403.02965.pdf

1.概述

在最新的技术进步中，大规模语言模型的出现引起了广泛关注。通过ChatGPT等模型，这些不断发展的人工智能已显示出在医学、教育甚至设计等广泛领域的应用潜力。ChatGPT尤其以其多功能性和高性能而著称，并以我们从未想象过的方式得到应用，从文本摘要到图像生成。在医疗保健领域，它有助于病人总结和早期疾病预测，而在教育领域，它可以创建独特的学习材料。此外，它在创建设计和医疗可视化的视觉效果方面也显示出了其实用性。

然而，ChatGPT 在生物识别领域的能力尚未得到充分探索。本文重点探讨 ChatGPT 在生物识别相关任务中的潜在能力。针对个人数据等隐私问题，ChatGPT 采取了避免直接回答的保障措施，但本文提出了一种新方法来规避这一限制，并实现面部特征识别和年龄估计等分析。

通过这一过程，我们旨在进一步提高 ChatGPT 解释能力的准确性。在初步回复分析之后，我们将使用情感分析对反馈进行评估，以捕捉人工智能回复中的细微差别，从而提高准确性。下图概述了这一过程。这一迭代分析过程表明，ChatGPT 在生物识别任务中表现出色，并表明大规模语言模型在这一领域可以发挥潜在作用。

2.CHATGPT 用于生物识别

本文利用 GPT-4 探索生物识别技术的新可能性。从人脸检测、性别检测、年龄估计和人脸识别开始，进行了一系列应用试验。下图显示了GPT-4 检测和计算人脸的示例。

为了规避 GPT-4 的隐私保护机制，避免直接回答问题，本文采用了一种方法，通过明确指出图像是 "人工智能生成的 "来引发更深入的分析。这种巧妙的方法提出了一种新方法，用于确定每张图像是否属于同一个人。

对于每项任务（人脸识别、性别检测和年龄估计），都设置了特殊的提示，以绕过 GPT-4 的保护措施，获得更精确的答案；GPT-4 的答案会反馈给 GPT-4 本身，供进一步分析。通过这一过程，GPT-4 所提供信息的质量和准确性得到了严格审查，其在生物识别任务中的性能也得到了全面评估。

3.人脸识别

本文使用 LFW、AgeDB 和 CFP-FP 三个数据集评估了 GPT-4 的能力，这三个数据集提供了各种各样的人脸图像。这些数据集是验证 GPT-4 能否准确识别人脸以及区分真实人脸和人工智能生成的人脸的理想工具。下表显示了根据这三个基准数据集评估的 GPT-4 的准确性。

虽然 GPT-4 没有经过人脸识别训练，但本表中的结果表明，它可以达到与 MobileFaceNet（一种预先训练好的人脸识别模型）相媲美的人脸识别性能。这说明了人工智能如何应对复杂的生物识别任务。

请注意，下图（左）显示的是被 GPT-4 正确识别为配对的一对，而下图（右）显示的是被 GPT-4 错误归类为配对的两对非配对，尽管它们是非配对。正如这些样本所示，GPT-4 为每个提示提供了解释。这对于人脸识别中的可解释性研究可能很有用，但也可能在假阳性情况下产生误导性输出。

4.性别检测

GPT-4 在性别检测方面也表现出色：在使用 Kaggle 上发布的数据集进行的严格评估中，GPT-4 的准确率达到了 100%。这是基于一个均衡的数据集，其中包含 2,700 张男性和 2,700 张女性图像，涵盖了整个年龄段。使用相同的数据集，DeepFace 模型的性能评级达到了 99%。下图显示了两个例子，其中 DeepFace 模型未能正确分类，而 GPT-4 则正确识别了它们。

此外，在测试使用 Eyes-2-Face 技术生成的合成人脸的性别检测时，GPT-4 通过分析混合了男性和女性特征的复杂图像，挑战了性别分类算法的局限性。下图中的示例就展示了这一点，它使用了混合了男性和女性眼睛区域特征的合成人脸。

这个例子可能有助于挑战那些与标准性别标识符不匹配的特异面部特征的算法。本文对一组 200 张合成人脸进行了测试，结果显示与使用 DeepFace 算法获得的结果相似。

5. 年龄估计

为了评估 GPT-4 估计年龄的能力，我们使用 UTKFace 数据集对 400 张真实人脸图像进行了测试。评估使用了代表不同年龄组的图像。对于每张图像，GPT-4 都需要估算出被测者的年龄范围。评估标准很简单：如果对象的实际年龄在 GPT-4 估算的范围内，则认为是准确的，否则认为是不准确的。结果，在 400 张图像中，GPT-4 正确分类了 299 张图像，准确率为 74.25%。下图显示了一个准确分类的例子。

下图还显示了一个分类不准确的例子。

然后使用 E2F-GAN 生成的合成人脸对其进行验证。本文使用一个包含 100 张专门设计的人工智能生成的人脸的数据集，在受控条件下评估 GPT-4 的识别和分类能力。评估结果表明，GPT-4 在准确度、精确度和可靠性方面的表现都超出了预期。特别是，在整个测试阶段，GPT-4 在处理和分类合成人脸时没有出现任何错误，在处理人工智能生成的图像方面表现出了很高的熟练程度。下图显示了合成人脸的年龄估计示例。

6.总结

本文探讨了大规模语言模型（如 ChatGPT）在生物识别任务中的适用性。本文尤其关注 ChatGPT 在生物识别相关任务中的能力，研究了它在人脸识别、性别检测和年龄估计方面的能力。由于生物识别被认为是敏感信息，ChatGPT 不会回答直接提示，因此本文创建了一种提示策略来绕过对它的保护，并评估了它在生物识别任务中的能力。

在人脸识别任务中，GPT-4 能够有效区分不同的面部特征，并能准确说出每张脸的特征。在性别检测方面，它也表现出很高的准确性，尤其是对于难度较大的年龄组。在年龄估计方面，它倾向于预测一个年龄范围，而不是一个精确的值，但它提供的预测值接近实际年龄，特别是对于较年轻的人群。这些实验结果表明，GPT-4 在生物识别应用中表现出良好的性能，并表明大规模语言模型和底层模型可能在生物识别中发挥重要作用。

另一方面，我们也注意到，在使用 GPT-4 时应谨慎。在识别任务中，即使在错误识别的情况下，也可能会产生似是而非、令人信服的解释。此外，生物识别信息属于敏感信息，因此在设计上不应对直接提示做出反应。不过，也有人认为，提示工程会使大规模语言模型变得脆弱，并有可能泄露敏感信息。未来的研究还需要更详细地调查大规模语言模型的稳健性。