大语言模型(LLMs)在自动化复杂评分任务和增强决策过程方面展示了巨大的潜力。从作文评分到信用风险评估,LLMs 已表现出卓越的文本理解和分析能力。然而,要充分利用LLMs的潜力,必须探索如何将它们与其他AI形式(如基于规则的系统和预测模型)结合,以提高评分系统的可解释性和透明度。
1. 背景分析
1.1 人工评分
人工评分存在以下缺点:
- 主观性和不一致性:人类评分者可能会有不同的解释、偏见和个人标准,导致评分的不一致。
- 耗时且资源密集:手动评分过程通常耗时费力,尤其是在大规模评估或高量决策的情况下。
- 疲劳和认知限制:评分员容易因疲劳而导致评分质量下降。
- 缺乏详细反馈:人类评分者难以提供详细且有针对性的反馈。
1.2 AI评分
AI评分具有以下优势:
- 一致性和标准化:LLMs 可以根据预定义的评分标准进行训练,确保评分的一致性。
- 效率和可扩展性:AI系统可以快速高效地处理大量数据,适用于大规模评分场景。
- 客观性和公平性:LLMs 可以设计为减少偏见,提供更客观的评价过程。
- 细致且可操作的反馈:LLMs 能够提供详细的特征反馈,帮助被评估者更好地理解自身表现。
1.3 结合方法
通过将人工智能与人类决策结合的方式,具有以下优势:
- 增强人类判断:LLMs 提供初步评分和建议,人类专家可以根据专业知识进行审查和调整。
- 建立基准和规范:LLMs 通过大规模数据分析帮助设立参考标准。
- 识别异常:LLMs 可以标记偏离既定模式的异常输入,提示专家进一步审查。
- 持续学习和适应:AI系统可以根据人类反馈进行持续学习和改进。
将不同的AI形式结合的方式,具有以下优势:
- 基于规则的系统:将LLMs 与基于规则的系统结合,确保评分过程符合特定标准和法规。
- 预测模型:结合LLMs与处理结构化数据的预测模型,实现更全面的评分。
- 可解释AI:设计LLMs 生成人类可读的解释和理由,增强评分系统的透明度。
其中,多特征专门化(MTS)框架:用于零样本作文评分,将写作能力分解为不同特征进行评分。LLMs提供作文的评分和反馈,辅助人类评分员提高准确性和一致性。通用信用评分模型(CALM):在信用评分和风险评估中应用LLMs,结合结构化和非结构化数据进行综合评估。
由此可见,LLMs 在评分任务中展示了巨大的灵活性和潜力,但需要与其他AI形式结合,以实现更加稳健、准确和可解释的评分系统。未来的研究应着重于LLMs与其他AI方法的最佳整合方式,并确保评分系统的公平性、责任性和稳健性。
2. 实验分析
《Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models》论文探讨了大语言模型(LLMs)在金融领域的信用评分中的应用,并提出了一种新的开放源码框架CALM,用于评估和优化信用和风险评估任务。
2.1 实验背景
在金融行业,信用评分是决定个人和企业贷款获取及条款的关键。然而,传统的信用评分方法存在知识范围狭窄和任务评估孤立的挑战。大语言模型的出现为克服这些限制提供了可能,尤其是其在多任务学习和少量样本泛化方面的强大能力。
2.2 实验内容
2.2.1 数据集构建与基准测试
数据集选择:收集了9个公开的数据集,涵盖了四个主要的金融任务:信用评分、欺诈检测、财务困境识别和索赔分析。数据集共包含14000个样本,数据集的复杂性和多样性为LLMs在信用和风险评估中的表现提供了广泛的测试基础。
- 信用评分:使用了德国、澳大利亚和Lending Club数据集,其中包含了关于贷款申请者的详细信息,用于评估其信用风险。
- 欺诈检测:使用了Credit Card Fraud和ccFraud数据集,这些数据集主要用于检测信用卡交易中的欺诈行为。
- 财务困境识别:包括波兰和台湾经济日报的数据集,这些数据集用于预测公司是否面临破产风险。
- 索赔分析:使用了PortoSeguro和旅行保险数据集,主要分析保险索赔的真实性。
为了保证模型的训练和评估质量,研究者对数据集进行了处理,包括对不平衡数据集的重新采样,以及对数据进行了匿名化处理,以保护敏感信息。
2.2.2 模型设计与训练
研究者设计并提出了“信用和风险评估大语言模型”(Credit and Risk Assessment Large Language Mo,CALM),该模型是通过对现有的大模型(Llama2-chat)进行指令调优(instruction tuning)得到的。指令调优使用了超过45000个样本的数据集,其中包括信用评分、欺诈检测和财务困境识别任务的数据。
为了提高模型在多任务中的表现,研究团队使用了LoRA策略,减少计算成本并提高训练效率。数据分为7:1用于训练和验证,模型进行了5个周期的训练,以确保模型在应对多种金融任务时具有足够的泛化能力。
2.2.3 模型评估
为了全面评估模型的性能,研究者设计了两个方面的评价标准:
- 模型性能:使用准确率(Accuracy)、F1分数和Matthews相关系数(Mcc)等指标来评估模型在不同任务中的表现,特别是在处理不平衡数据集时的表现。
- 偏见检测:使用了AI Fairness360框架,对模型在性别、年龄、国籍等敏感属性上的偏见进行评估。具体指标包括不平等待遇差异(EOD)和平均机会差异(AOD)。
2.3 实验结果
2.3.1 模型性能评估
GPT-4在多数任务中表现优异,尤其是在处理不平衡数据集时,其表现接近甚至超过了一些最先进的专家系统。例如,在Lending Club数据集上的表现,GPT-4展示了强大的泛化能力。然而,其他开源的LLMs(如Bloomz、Vicuna、Llama1、Llama2等)由于缺乏专门的训练,在应对金融任务时表现较为一般,尤其是在处理财务表格数据时表现不佳。
通过对不同数据集的评估,可以看出GPT-4和ChatGPT的表现显著优于其他开源模型。这表明在没有进一步训练的情况下,这些模型已经具备较强的多任务处理能力。然而,开源模型Llama2-chat和Chatglm2在进一步训练后表现有所提升,尤其是在处理对话场景和金融任务时。
2.3.2 偏见分析
通过对三个数据集(德国、ccFraud、旅行保险)进行分析,发现这些数据集在性别、年龄和国籍等敏感属性上的偏见相对较小。大多数的DI值(不平衡影响)接近1,表示数据本身相对公平。
通过对三个数据集(德国、ccFraud、旅行保险)进行分析,发现这些数据集在性别、年龄和国籍等敏感属性上的偏见相对较小。大多数的DI值(不平衡影响)接近1,表示数据本身相对公平。
2.3.3 泛化能力
在未使用的测试数据集上,如Lending Club和PortoSeguro,CALM模型的表现存在一定的波动。这表明虽然CALM在某些相似数据集上具有较好的泛化能力,但对于某些特定的数据集仍需要更多的专门训练。此外,CALM在某些任务上展示了较强的学习和应用能力,例如在信用卡欺诈检测和财务困境识别任务上,Mcc值显著提高。
2.4 实验总结
研究结果表明,大语言模型,尤其是经过指令调优的CALM模型,具有处理多任务金融任务的潜力,并能在某些任务上替代现有的专家系统。然而,模型在敏感属性上的偏见问题仍需进一步关注和解决。未来的研究应着重于提高模型的公平性,同时继续探索其在金融领域中的广泛应用。
3. 个人感受
技术的进步不仅仅是算法和计算能力的提升,更是如何将这些技术有效地应用到实际问题中,并解决其中潜在的伦理和社会问题。我们应更加关注如何在技术创新和社会责任之间找到平衡,推动AI技术在实际应用中的持续发展,不仅追求技术上的突破,更要关注技术的可持续性和社会价值。