Datawhale X 魔搭 AI夏令营-大模型技术(微调)-大模型评分

news2024/9/22 4:25:47

大语言模型(LLMs)在自动化复杂评分任务和增强决策过程方面展示了巨大的潜力。从作文评分到信用风险评估,LLMs 已表现出卓越的文本理解和分析能力。然而,要充分利用LLMs的潜力,必须探索如何将它们与其他AI形式(如基于规则的系统和预测模型)结合,以提高评分系统的可解释性和透明度。

1. 背景分析

1.1 人工评分

人工评分存在以下缺点:

  • 主观性和不一致性:人类评分者可能会有不同的解释、偏见和个人标准,导致评分的不一致。
  • 耗时且资源密集:手动评分过程通常耗时费力,尤其是在大规模评估或高量决策的情况下。
  • 疲劳和认知限制:评分员容易因疲劳而导致评分质量下降。
  • 缺乏详细反馈:人类评分者难以提供详细且有针对性的反馈。
1.2 AI评分

AI评分具有以下优势:

  • 一致性和标准化:LLMs 可以根据预定义的评分标准进行训练,确保评分的一致性。
  • 效率和可扩展性:AI系统可以快速高效地处理大量数据,适用于大规模评分场景。
  • 客观性和公平性:LLMs 可以设计为减少偏见,提供更客观的评价过程。
  • 细致且可操作的反馈:LLMs 能够提供详细的特征反馈,帮助被评估者更好地理解自身表现。
1.3 结合方法

通过将人工智能与人类决策结合的方式,具有以下优势:

  • 增强人类判断:LLMs 提供初步评分和建议,人类专家可以根据专业知识进行审查和调整。
  • 建立基准和规范:LLMs 通过大规模数据分析帮助设立参考标准。
  • 识别异常:LLMs 可以标记偏离既定模式的异常输入,提示专家进一步审查。
  • 持续学习和适应:AI系统可以根据人类反馈进行持续学习和改进。

将不同的AI形式结合的方式,具有以下优势:

  • 基于规则的系统:将LLMs 与基于规则的系统结合,确保评分过程符合特定标准和法规。
  • 预测模型:结合LLMs与处理结构化数据的预测模型,实现更全面的评分。
  • 可解释AI:设计LLMs 生成人类可读的解释和理由,增强评分系统的透明度。

其中,多特征专门化(MTS)框架:用于零样本作文评分,将写作能力分解为不同特征进行评分。LLMs提供作文的评分和反馈,辅助人类评分员提高准确性和一致性。通用信用评分模型(CALM):在信用评分和风险评估中应用LLMs,结合结构化和非结构化数据进行综合评估。

由此可见,LLMs 在评分任务中展示了巨大的灵活性和潜力,但需要与其他AI形式结合,以实现更加稳健、准确和可解释的评分系统。未来的研究应着重于LLMs与其他AI方法的最佳整合方式,并确保评分系统的公平性、责任性和稳健性。

2. 实验分析

《Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models》论文探讨了大语言模型(LLMs)在金融领域的信用评分中的应用,并提出了一种新的开放源码框架CALM,用于评估和优化信用和风险评估任务。

2.1 实验背景

在金融行业,信用评分是决定个人和企业贷款获取及条款的关键。然而,传统的信用评分方法存在知识范围狭窄和任务评估孤立的挑战。大语言模型的出现为克服这些限制提供了可能,尤其是其在多任务学习和少量样本泛化方面的强大能力。

2.2 实验内容
2.2.1 数据集构建与基准测试

数据集选择:收集了9个公开的数据集,涵盖了四个主要的金融任务:信用评分、欺诈检测、财务困境识别和索赔分析。数据集共包含14000个样本,数据集的复杂性和多样性为LLMs在信用和风险评估中的表现提供了广泛的测试基础。

  • 信用评分:使用了德国、澳大利亚和Lending Club数据集,其中包含了关于贷款申请者的详细信息,用于评估其信用风险。
  • 欺诈检测:使用了Credit Card Fraud和ccFraud数据集,这些数据集主要用于检测信用卡交易中的欺诈行为。
  • 财务困境识别:包括波兰和台湾经济日报的数据集,这些数据集用于预测公司是否面临破产风险。
  • 索赔分析:使用了PortoSeguro和旅行保险数据集,主要分析保险索赔的真实性。

为了保证模型的训练和评估质量,研究者对数据集进行了处理,包括对不平衡数据集的重新采样,以及对数据进行了匿名化处理,以保护敏感信息。

2.2.2 模型设计与训练

研究者设计并提出了“信用和风险评估大语言模型”(Credit and Risk Assessment Large Language Mo,CALM),该模型是通过对现有的大模型(Llama2-chat)进行指令调优(instruction tuning)得到的。指令调优使用了超过45000个样本的数据集,其中包括信用评分、欺诈检测和财务困境识别任务的数据。

为了提高模型在多任务中的表现,研究团队使用了LoRA策略,减少计算成本并提高训练效率。数据分为7:1用于训练和验证,模型进行了5个周期的训练,以确保模型在应对多种金融任务时具有足够的泛化能力。

2.2.3 模型评估

为了全面评估模型的性能,研究者设计了两个方面的评价标准:

  1. 模型性能:使用准确率(Accuracy)、F1分数和Matthews相关系数(Mcc)等指标来评估模型在不同任务中的表现,特别是在处理不平衡数据集时的表现。
  2. 偏见检测:使用了AI Fairness360框架,对模型在性别、年龄、国籍等敏感属性上的偏见进行评估。具体指标包括不平等待遇差异(EOD)和平均机会差异(AOD)。
2.3 实验结果
2.3.1 模型性能评估

GPT-4在多数任务中表现优异,尤其是在处理不平衡数据集时,其表现接近甚至超过了一些最先进的专家系统。例如,在Lending Club数据集上的表现,GPT-4展示了强大的泛化能力。然而,其他开源的LLMs(如Bloomz、Vicuna、Llama1、Llama2等)由于缺乏专门的训练,在应对金融任务时表现较为一般,尤其是在处理财务表格数据时表现不佳。

通过对不同数据集的评估,可以看出GPT-4和ChatGPT的表现显著优于其他开源模型。这表明在没有进一步训练的情况下,这些模型已经具备较强的多任务处理能力。然而,开源模型Llama2-chat和Chatglm2在进一步训练后表现有所提升,尤其是在处理对话场景和金融任务时。

2.3.2 偏见分析

通过对三个数据集(德国、ccFraud、旅行保险)进行分析,发现这些数据集在性别、年龄和国籍等敏感属性上的偏见相对较小。大多数的DI值(不平衡影响)接近1,表示数据本身相对公平。

通过对三个数据集(德国、ccFraud、旅行保险)进行分析,发现这些数据集在性别、年龄和国籍等敏感属性上的偏见相对较小。大多数的DI值(不平衡影响)接近1,表示数据本身相对公平。

2.3.3 泛化能力

在未使用的测试数据集上,如Lending Club和PortoSeguro,CALM模型的表现存在一定的波动。这表明虽然CALM在某些相似数据集上具有较好的泛化能力,但对于某些特定的数据集仍需要更多的专门训练。此外,CALM在某些任务上展示了较强的学习和应用能力,例如在信用卡欺诈检测和财务困境识别任务上,Mcc值显著提高。

2.4 实验总结

研究结果表明,大语言模型,尤其是经过指令调优的CALM模型,具有处理多任务金融任务的潜力,并能在某些任务上替代现有的专家系统。然而,模型在敏感属性上的偏见问题仍需进一步关注和解决。未来的研究应着重于提高模型的公平性,同时继续探索其在金融领域中的广泛应用。

3. 个人感受

技术的进步不仅仅是算法和计算能力的提升,更是如何将这些技术有效地应用到实际问题中,并解决其中潜在的伦理和社会问题。我们应更加关注如何在技术创新和社会责任之间找到平衡,推动AI技术在实际应用中的持续发展,不仅追求技术上的突破,更要关注技术的可持续性和社会价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python数据分析项目实战01_票房榜单分析和pyecharts大屏可视化

一:最终大屏效果展示 由于生成了html网页只能在本地上显示,这个大屏是动态的,只能显示其中的图片。如果要分享给他人使用,就需要将html源码转为网页。 生成的html源码入口:‬​‍​‌‌​⁠​​​‌‍​​​​​‬&a…

百日筑基第五十七天-虚拟线程

百日筑基第五十七天-虚拟线程 前提 JDK19于2022-09-20发布GA版本,该版本提供了虚拟线程的预览功能。下载JDK19之后翻看了一下有关虚拟线程的一些源码,跟早些时候的Loom项目构建版本基本并没有很大出入,也跟第三方JDK如鹅厂的Kona虚拟线程实…

Leetcode JAVA刷刷站(58)最后一个单词的长度

一、题目概述 二、思路方向 要解决这个问题,你可以通过遍历字符串 s 并从后往前计数的方式来实现。但更简洁且易于理解的方法是,首先去除字符串尾部的空格(如果有的话),然后找到最后一个单词的起始位置,并计…

I2C学习:传输速率

一.内容简介 I2C总线根据传输速度不同,可以划分为5种速度模式,见下列表格。 速度模式 最高速率 备注 标准模式Sm 100Kbps 双向传输 向下兼容 快速模式Fm 400Kbps 快速模式增强Fm 1Mbps 高速模式HSm 3.4Mbps 超快速模式UFm 5Mbp…

解决在移动端css使用100vh底部被遮盖的问题

原文引用:https://blog.csdn.net/hw_happy/article/details/132421653 移动端下,若使用100vh单位,那么高度不会是浏览器可视区域的高度,而是会高于可视区域,所以居底部的元素会被遮盖住: 如果是chrome浏览…

autocommit自动提交事务及commit、rollback用法

MySQL默认开启事务自动提交,每条SQL语句都会被当做一个单独的事务自动执行。 一、查看autocommit自动提交事物状态 SHOW VARIABLES LIKE ‘autocommit’; 1、开启状态:ON autocommit的值为ON,表示系统开启自动提交模式 2、关闭状态&#…

【VIsion Master】机器视觉软件二次开发(C#版本)学习笔记

0.前言 最近接手新项目,用海康威视旗下的HIK ROBOT Vision Master机器视觉软件做二次开发相关的项目,写一篇博客记录一下学习过程。 参考视频:https://www.bilibili.com/video/BV1tq4y1j7RP?p1 其他参考资料:软件自带的开发文档…

JavaScript语法基础之流程结构(顺序、选择、循环结构)

目录 1. 流程控制 1.1. 流程控制简介 1.1.1. 顺序结构 1.1.2. 选择结构 1.1.3. 循环结构 1.2. 选择结构:if 1.2.1. 单向选择:if… 1.2.2. 双向选择:if…else… 1.2.3. 多向选择:if…else_if…else… 1.3. 选择结构&#…

一口气学完Python编程语言的基础内容

文章目录 第1章 Python简介1.1 Python简介1.2 Python历史1.3 Python特点1.4 Python的应用场景1.5 Python的版本 第2章 Python环境搭建2.1 Python软件安装2.2 编辑器安装 第3章 Python基础语法3.1 第一个Python程序3.1.1 使用 Python 命令行3.1.2 使用 IPython3.1.3 使用 PyChar…

从新手到专家,2024年免费视频编辑软件成长之路

随着人们开始用视频来表达自己的看法、生活,促进来数字媒体和社交媒体的发展。用来处理视频的工具也越来越多,我们要怎么从一众的视频剪辑工具里找到属于自己的那一款免费视频剪辑软件呢?这次我们就来浅浅分析一下。 1.福昕视频剪辑 连接直…

Linux timedatectl 命令

timedatectl 是 Linux 系统中用于查询和更改系统日期、时间和时区的工具,它特别适用于那些使用 systemd 作为系统和服务管理器的系统。语法格式为“timedatectl [参数]”。 发现电脑时间跟实际时间不符?如果只差几分钟的话,我们可以直接调整。…

接受三个数字参数,返回最大

def mostNum(*nums): #nums为元组(不支持修改),转化为列表liNumslist(nums)for i in range(0,len(liNums)-1): #冒泡法if liNums[i]>liNums[i1]:cliNums[i]liNums[i]liNums[i1]liNums[i1]creturn liNums.pop() #列表最后一个最大的数被返…

花钱买不到系列—linux虚拟地址空间

不知道大家有没有听说过一个东西,叫C/C地址空间。 给大家画一个图这个图,作为C/C程序员应该比较熟悉,有人一个会有人把这个图叫做C/C地址空间,我觉得大家应该比较陌生,我也是刚刚学完,大家如果感兴趣的&…

计算机毕业设计 毕业季旅游一站式定制服务平台 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

圈子论坛小程序搭建教程,系统快速部署上线指南,支持文章、源码、链接等上传

圈子论坛小程序是一种基于移动端的社交平台,旨在为用户提供交流分享、互动沟通的空间。以下是关于圈子论坛小程序的详细解析: 一、圈子论坛小程序的定义与功能 定义:圈子论坛小程序是一个集社交、分享、交流于一体的移动应用,用户…

Unity视频流监控接入,点击播放只播放一帧画面

Universal Media Player 检查监控平台编码/解码配置(H265/H264)

安卓sdk manager下载安装

安卓sdk下载安装 android SDK manager下载 环境变量配置 ANDROID_HOME:D:\Android %ANDROID_HOME%\tools %ANDROID_HOME%\platform-tools %ANDROID_HOME%\build-tools\29.0.3Android SDK Platform-tools公用开发工具包,需要下载 Android SDK Tools基础…

llvm windows编译成功

一、所需工具 Visual Studio 推荐版本:Visual Studio 2022。其他版本亦可支持。 CMake 下载地址 Ninja 下载地址 LLVM 版本参考:llvm-project-llvmorg-18.1.8下载地址 二、配置与编译步骤 以管理员身份打开命令行终端,输入以下命令来设置…

Linux多进程

进程的概述 进程是计算机科学中的一个基本概念,它指的是在操作系统中正在执行的程序的实例 在Linux操作系统中,进程是程序执行的实体,是资源分配的基本单位 在在Ubuntu中,通过使用ps命令可以查看当前的进程列表 ps aux 进程与…

WSL2安装与使用

使用WSL2的前提条件: 1.开启CPU的虚拟化 打开任务管理器 ->性能->查看CPU虚拟化 2.开启Windows功能 任务栏输入“功能”,勾选下面选项,然后按照提示重新启动电脑。 3.搜索栏输入cmd,右键以管理员身份运行,输入…