Datawhale X 魔搭 AI夏令营-大模型技术（微调）-大模型评分

大语言模型（LLMs）在自动化复杂评分任务和增强决策过程方面展示了巨大的潜力。从作文评分到信用风险评估，LLMs 已表现出卓越的文本理解和分析能力。然而，要充分利用LLMs的潜力，必须探索如何将它们与其他AI形式（如基于规则的系统和预测模型）结合，以提高评分系统的可解释性和透明度。

1. 背景分析

1.1 人工评分

人工评分存在以下缺点：

主观性和不一致性：人类评分者可能会有不同的解释、偏见和个人标准，导致评分的不一致。
耗时且资源密集：手动评分过程通常耗时费力，尤其是在大规模评估或高量决策的情况下。
疲劳和认知限制：评分员容易因疲劳而导致评分质量下降。
缺乏详细反馈：人类评分者难以提供详细且有针对性的反馈。

1.2 AI评分

AI评分具有以下优势：

一致性和标准化：LLMs 可以根据预定义的评分标准进行训练，确保评分的一致性。
效率和可扩展性：AI系统可以快速高效地处理大量数据，适用于大规模评分场景。
客观性和公平性：LLMs 可以设计为减少偏见，提供更客观的评价过程。
细致且可操作的反馈：LLMs 能够提供详细的特征反馈，帮助被评估者更好地理解自身表现。

1.3 结合方法

通过将人工智能与人类决策结合的方式，具有以下优势：

增强人类判断：LLMs 提供初步评分和建议，人类专家可以根据专业知识进行审查和调整。
建立基准和规范：LLMs 通过大规模数据分析帮助设立参考标准。
识别异常：LLMs 可以标记偏离既定模式的异常输入，提示专家进一步审查。
持续学习和适应：AI系统可以根据人类反馈进行持续学习和改进。

将不同的AI形式结合的方式，具有以下优势：

基于规则的系统：将LLMs 与基于规则的系统结合，确保评分过程符合特定标准和法规。
预测模型：结合LLMs与处理结构化数据的预测模型，实现更全面的评分。
可解释AI：设计LLMs 生成人类可读的解释和理由，增强评分系统的透明度。

其中，多特征专门化（MTS）框架：用于零样本作文评分，将写作能力分解为不同特征进行评分。LLMs提供作文的评分和反馈，辅助人类评分员提高准确性和一致性。通用信用评分模型（CALM）：在信用评分和风险评估中应用LLMs，结合结构化和非结构化数据进行综合评估。

由此可见，LLMs 在评分任务中展示了巨大的灵活性和潜力，但需要与其他AI形式结合，以实现更加稳健、准确和可解释的评分系统。未来的研究应着重于LLMs与其他AI方法的最佳整合方式，并确保评分系统的公平性、责任性和稳健性。

2. 实验分析

《Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models》论文探讨了大语言模型（LLMs）在金融领域的信用评分中的应用，并提出了一种新的开放源码框架CALM，用于评估和优化信用和风险评估任务。

2.1 实验背景

在金融行业，信用评分是决定个人和企业贷款获取及条款的关键。然而，传统的信用评分方法存在知识范围狭窄和任务评估孤立的挑战。大语言模型的出现为克服这些限制提供了可能，尤其是其在多任务学习和少量样本泛化方面的强大能力。

2.2 实验内容

2.2.1 数据集构建与基准测试

数据集选择：收集了9个公开的数据集，涵盖了四个主要的金融任务：信用评分、欺诈检测、财务困境识别和索赔分析。数据集共包含14000个样本，数据集的复杂性和多样性为LLMs在信用和风险评估中的表现提供了广泛的测试基础。

信用评分：使用了德国、澳大利亚和Lending Club数据集，其中包含了关于贷款申请者的详细信息，用于评估其信用风险。
欺诈检测：使用了Credit Card Fraud和ccFraud数据集，这些数据集主要用于检测信用卡交易中的欺诈行为。
财务困境识别：包括波兰和台湾经济日报的数据集，这些数据集用于预测公司是否面临破产风险。
索赔分析：使用了PortoSeguro和旅行保险数据集，主要分析保险索赔的真实性。

为了保证模型的训练和评估质量，研究者对数据集进行了处理，包括对不平衡数据集的重新采样，以及对数据进行了匿名化处理，以保护敏感信息。

2.2.2 模型设计与训练

研究者设计并提出了“信用和风险评估大语言模型”（Credit and Risk Assessment Large Language Mo，CALM），该模型是通过对现有的大模型（Llama2-chat）进行指令调优（instruction tuning）得到的。指令调优使用了超过45000个样本的数据集，其中包括信用评分、欺诈检测和财务困境识别任务的数据。

为了提高模型在多任务中的表现，研究团队使用了LoRA策略，减少计算成本并提高训练效率。数据分为7：1用于训练和验证，模型进行了5个周期的训练，以确保模型在应对多种金融任务时具有足够的泛化能力。

2.2.3 模型评估

为了全面评估模型的性能，研究者设计了两个方面的评价标准：

模型性能：使用准确率（Accuracy）、F1分数和Matthews相关系数（Mcc）等指标来评估模型在不同任务中的表现，特别是在处理不平衡数据集时的表现。
偏见检测：使用了AI Fairness360框架，对模型在性别、年龄、国籍等敏感属性上的偏见进行评估。具体指标包括不平等待遇差异（EOD）和平均机会差异（AOD）。

2.3 实验结果

2.3.1 模型性能评估

GPT-4在多数任务中表现优异，尤其是在处理不平衡数据集时，其表现接近甚至超过了一些最先进的专家系统。例如，在Lending Club数据集上的表现，GPT-4展示了强大的泛化能力。然而，其他开源的LLMs（如Bloomz、Vicuna、Llama1、Llama2等）由于缺乏专门的训练，在应对金融任务时表现较为一般，尤其是在处理财务表格数据时表现不佳。

通过对不同数据集的评估，可以看出GPT-4和ChatGPT的表现显著优于其他开源模型。这表明在没有进一步训练的情况下，这些模型已经具备较强的多任务处理能力。然而，开源模型Llama2-chat和Chatglm2在进一步训练后表现有所提升，尤其是在处理对话场景和金融任务时。

2.3.2 偏见分析

通过对三个数据集（德国、ccFraud、旅行保险）进行分析，发现这些数据集在性别、年龄和国籍等敏感属性上的偏见相对较小。大多数的DI值（不平衡影响）接近1，表示数据本身相对公平。

2.3.3 泛化能力

在未使用的测试数据集上，如Lending Club和PortoSeguro，CALM模型的表现存在一定的波动。这表明虽然CALM在某些相似数据集上具有较好的泛化能力，但对于某些特定的数据集仍需要更多的专门训练。此外，CALM在某些任务上展示了较强的学习和应用能力，例如在信用卡欺诈检测和财务困境识别任务上，Mcc值显著提高。