LLM评估 | 大模型评估方法调研--论文解读(持续更新ing!!!)

news2025/2/24 23:56:21

目录

    • LLM-based NLG Evaluation: Current Status and Challenges
    • AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization
    • The Potential and Challenges of Evaluating **Attitudes, Opinions, and Values** in Large Language Models
    • EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria
    • PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization
    • JudgeLM: Fine-tuned Large Language Models are Scalable Judges
    • Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
    • 备注

LLM-based NLG Evaluation: Current Status and Challenges

简述:将LLM的评估方法分为四类:LLM衍生指标评估、用提示词评估、模型微调评估、人类与LLM协作评估,分别总结各种评估方法的现状和优缺点。

  • LLM衍生指标评估

    • 用生成词的概率评估:通过概率大小确定模型输出质量,强事实性的内容模型有更高的概率输出,也被用于幻觉检测,或加入扰动检测模型输出概率的变化
    • 用词/句嵌入评估:RAG的时候判断引用和输出之间的相似性,BertScore 评分
      • 鲁棒性不行,容易收到攻击,即微小变化的测试展示出完全不同的性能
      • 用大模型推理太慢,而且闭源模型无法查看输出概率
      • 偏见,预训练模型编码的内在偏差和相似性计算过程中注入的外在偏差
  • 用提示词评估

    • 单一答案打分
      • 不止评分,给出原因再评分更具可解释性,类似思维链
      • 分类别给出评分并加总,例如有用性、文笔丰富度、有害性;或几种特性给出评分,取最高分
      • 李克特量表:使用一组陈述,对每个陈述分为5个类别,分别是非常同意、同意、不一定、不同意、非常不同意,对应1-5的评分,加总评估
    • 成对比较
      • 在使用中等模型评判时,成对比较效果优于打分
    • 多例子排名
      • 对于不同模型的最佳评估方法不一定,包括评分、比较和排名
    • 布尔QA,对于是否类的评估场景
    • 错误分析,衡量模型能否按照要求输出,例如能否以要求的json格式输出分数
  • 模型微调评估

    • 通常方法都是精心构建评估数据,然后微调开源模型,下图是不同模型具体情况对比

    在这里插入图片描述

    • PandaLM和JudgeLM完全从常见的指令数据集中采样,如Alpaca 52K,而CritiqueLLM采用小规模采样,然后进行ChatGPT增强。相比之下,Prometheus和INSTRUCTSCORE依赖GPT-4根据种子数据生成所有指令,而Auto-J和Shepherd使用真实世界的数据。此外,由于大规模的人工注释是不切实际的,除了PandaLM和Shepherd分别在小规模社区数据上使用GPT-3.5和人工注释外,大多数作品都使用GPT-4作为强大的注释器。
  • 人类-LLM协作评估

    • 评估过程中人类与大模型不断修改审核

AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization

  • 发布自己的评估数据集和评估指标,数据集分科学、医学和政府领域,指标分为领域词重叠度和领域token分布偏移值,以及用GPT4来评估,测评了llama等多个模型的指标,包括零样本、两个样本、微调方法。
  • 结论
    • 小模型零样本不行,但给两个样本提示就能与大模型效果相当
    • 微调不会改变词汇领域,只会改变风格

The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models

  • 对模型中潜藏的人类认知特点(AOV,态度、观点、价值观)进行评估,拆解人类偏好的复杂性,更好的理解模型
  • 虽然之前有人调查模型中潜藏的特点,但没有专门研究AOV以及评估LLM内的AOV,这是第一篇。

EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria

  • 提出一个交互式系统—EvalLM。人类与LLM协作评估,人类先编写提示让LLM评估,在评估过程中人类指出LLM评估的问题,并给出更细致的评估标准,不断迭代优化评估标准,最终得到更准确的评估,并且减少了人工成本。
  • 招募专业人员来手动设计提示,总结手动设计提示的难点
    • 手动评估很费时间,评估者每次测试几个输出,但对于比较长的输出仍然很费时间
    • 评估是多方面的,需要同时衡量多个标准,每个评估者按照自己方式去评估,但有可能改进提示后引入其他方面的退化
    • 评估是动态的,评估过程中每个人的标准一直在变,且很难确定哪种是最好的标准
    • 评估很难定义,评估者通常不知道如何改进提示
  • 感觉文章写的晦涩,不过可以学习该系统的处理流程,以及文末附录中的提示词设计技巧

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

简述:制作评估数据集,用开源模型继续微调,评估效果可以与GPT4相当。

  • 训练集由 Alpaca 52K 数据集中采样,通过多种开源模型输出响应对,用 GPT3.5 判断哪个更好以此标注数据,为防止位置固有偏见过滤位置不统一的样本,最终使用 300K 个样本
  • 通过 llama-7B 微调的评判模型,更关注相对简洁性、清晰度、全面性、形式化程度和遵循指令
    • 做数据集时用提示词告诉GPT4评分标准,让其更关注简洁性~~
  • 自己创建了人工注释测试集,验证 PandaLM 的效果,7B 仅次于 GPT-3.5

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

简述:对标PandaLM,制作评估数据集,用开源模型微调,分析LLM评判存在的问题并给出解决办法。

  • 105K 种子任务,让 11 个大模型中生成答案,从中随机抽取配成答案对,让 GPT4 评判,最终得到训练集 100K、验证集 5K
    • 样本分为带参考和不带参考两种,不同的模板
    • GPT4先评分,再判断哪个更好,再给出原因
  • 使用Vicuna-7B、13B和33B参数模型微调
  • LLM评判偏差
    • 位置偏差:倾向与给特定位置高分
      • 交换位置来解决
    • 知识偏差:询问预训练数据之外的问题出现幻觉,且评判模型无法判断这种幻觉
      • 引入参考答案再让LLM来评判
    • 格式偏差:使用无参考的模板微调模型,然后在带参考的问题上评判,会出现格式不匹配
      • 随机丢弃带参考的样本,并使用相应的无参考的样本

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

简述:提出两个数据集,观察模型标注和人类标注一致性,调研LLM作为评判者的问题及解决办法。

  • 提出数据集
    • 现有评估数据集无法评估多轮对话能力,所以提出MT-Bench数据集,由80多个高质量多轮对话问题组成,旨在测试多回合对话和指令遵循能力
    • 创建聊天机器人竞技场(Chatbot Arena),用户自定义问题,由两个模型同时生成答案,用户判断哪个更好。在运行一个月后,收集了3万个样本。
  • 对大模型作为评判模型进行调研
    • 单一答案的评分:让LLM评委直接给一个答案打分单一答案
      • 无法辨别相似答案之间的细微差别,且当评判模型发生变化,绝对分数波动更大
    • 成对比较:一个LLM评委被告知一个问题和两个答案,任务是确定哪一个更好或者宣布一个平局
      • 待评价模型变多时,评价数量呈二次增长
        • 对模型效果排序才会存在此问题,只选出 top-1 不存在
    • 参考资料指导下的评分:对于数学和推理问题,除了要比对的两个回答,再提供一个参考答案
  • 大模型作为评判者存在的问题及解决办法
    • 模型可能会存在位置偏见,倾向于给特定位置的答案打高分
      • 位置偏见只在相似答案中出现,效果相差过大则偏见几乎消失
      • 解决办法:交换数据位置,让评判模型评两次,只有当一个答案在两个顺序中都是首选时才宣布获胜。如果调换后的结果不一致,则可以称其为平局。另一个更激进的方法是随机分配位置,这在大数据下是有效的。
      • 解决办法:引入小样本提示,可以显著提高一致性,但高一致性不代表高准确性,有可能引入新的偏差
    • 词语偏见,模型倾向于给更长的文本打高分,即使它们不如短文本清晰有效。
    • 自我增强偏差,有些模型更喜欢某个模型的输出,例如GPT4更喜欢自己的输出,GPT-3.5不喜欢自己
    • 数学和推理能力有限,即使某些时候GPT4自己可以输出答案,但在评判时容易受到输入的影响
      • 对于此类问题,让模型自己先独立生成答案,然后在评判时将其作为参考答案
  • 一致性评估
    • 在MT-Bench和Chatbot Arena上用大模型和人类标注,发现 GPT4 与人类的一致性高于人类之间,且将 GPT4 的判断展示给人类后,一部分人类觉得有道理并愿意改变观点
    • 模型之间的评判差异性越大,GPT4和人类一致性越高

备注

目前已解读论文有限,读者有什么好的论文可以再评论区推荐,我会及时更新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

揭秘高效语音转文字工具:让沟通更便捷

嘿,各位办公室的小伙伴们,今儿咱们来聊聊那些能让咱们文员生活大变样的神器——特别是那些能把咱们嘴里嘟囔的话儿,瞬间变成电脑里整整齐齐文字的语音转文字工具。说起来,自从有了这些宝贝,我感觉自己都快能飞起来了&a…

VUE 3.0 如何新建项目 详细教程 附环境搭建 推荐

本人新入手一台电脑,需要安装各种环境配置,顺便把过程记录一下,方便自己以后查看,也欢迎大家参考交流。 目录 一、环境搭建: 1.Node.js安装 2.国内淘宝镜像设置 3.安装vue 环境 二、新建vue项目 1.vue脚手架新建…

昇思25天学习打卡营第21天|FCN图像语义分割案例:从数据集下载到模型推理

目录 MindSpore 版本管理与数据集下载准备 图像分割数据集的定义、处理与获取 训练集数据的图像展示 基于 MindSpore 的 FCN8s 图像分割模型定义 图像分割模型的预训练模型加载与评估指标定义 基于 CPU 的 FCN8s 模型训练配置与准备 FCN8s 模型的权重加载与评估数据集的评…

大模型系列5--卷积神经网络

卷积神经网络 1. 背景2. 架构2.1. 卷积2.1.1. 单卷积层(多Channel输出)2.2.2. 多层卷积(卷积堆叠)2.2.3. 卷积关键参数2.2.4. 卷积常用计算公式 2.2. 池化层(pooling) 3. 经典网络结构3.1. VGG-163.2. ResN…

燃气安全无小事,一双专业劳保鞋让你步步安心!

燃气作为我们日常生活中不可或缺的能源之一,为我们的生活提供了极大便利,其安全性往往被忽视在忙碌的日常生活背后。然而,燃气事故一旦发生,后果往往不堪设想,轻则财产损失,重则危及生命。因此,…

【Linux】全志Tina配置AB区分区升级包

一、文件位置 V:\f1c100s\Evenurs\f1c100s\tina\target\allwinner\generic\configs\sw-subimgs-ab.cfg 二、文件内容 三、介绍 在第七行,可以设置产生的升级包是a区或是b区,使用ab区的名称来区分,ab区名称查询方法详见文章: …

angular入门基础教程(八)表单之双向绑定

绑定表单数据 为了让表单使用 Angular 的特性实现数据绑定,需要导入 FormsModule。 这个比 vue 要繁琐点,不复杂,但是比 react 的自己手动实现要方便,ng 帮我们实现了双向绑定 import { Component } from "angular/core&qu…

金蝶云星空历史库存信息批量计算生成

文章目录 金蝶云星空历史库存信息批量计算生成业务背景需求背景参考开发步骤创建单据《历史库存信息》界面表结构需要生成日期库存信息的日期范围存储为表创建日期表使用递归插入数据创建存储过程1,根据日期生成计算当日库存,生成《历史库存信息》创建存储过程2,根据日期范围…

Linux修炼之路之进程优先级,并行,环境变量

目录 一:进程优先级 二:并行并发 三:环境变量 接下来的日子会顺顺利利,万事胜意,生活明朗-----------林辞忧 一:进程优先级 1.基本概念 当使用ps -al指令时,就会显示用户所启动的所有进…

音视频入门基础:WAV专题(4)——FFmpeg源码中获取WAV文件音频压缩编码格式、采样频率、声道数量、采样位数、码率的实现

音视频入门基础:WAV专题系列文章: 音视频入门基础:WAV专题(1)——使用FFmpeg命令生成WAV音频文件 音视频入门基础:WAV专题(2)——WAV格式简介 音视频入门基础:WAV专题…

求职Leetcode题目(2)

1.柱状图中最大的矩形 据说这是2024年字节二面的题目,我感觉这道题跟接雨水有点类似,最重要的思路还是要找到什么时候能形成矩形的这么个情况,某个范围的矩形的高度,是由最短的柱形来决定的。 我们先整理一下,解决这道…

解决Firefox代理身份验证弹出窗口问题:C#和Selenium实战指南

引言 在使用Selenium和C#进行网页抓取时,遇到代理服务器的身份验证弹出窗口是一个常见的问题。这不仅会中断自动化流程,还会导致抓取任务失败。本文将提供一个实战指南,帮助开发者解决这个问题,并介绍如何在代码中设置代理IP、Us…

N32L406 移植MultiTimer教程 mdk5

MultiTimer 首先感谢开源作者 开源地址; github.com https://github.com/0x1abin/MultiTimer 简介 MultiTimer 是一个软件定时器扩展模块,可无限扩展你所需的定时器任务,取代传统的标志位判断方式, 更优雅更便捷地管理程序的…

C++学习笔记之指针高阶

数组名 数组名字是数组的首元素地址。 一个指针变量保存了数组元素的地址。我们就称之为数组元素指针,及数组指针。 数组指针的本质是指针,指向数组中的某个元素的地址。 由于数组名可以代表数组收元素地址,数组元素是可以通过 数组名[下标] 的格式访问, 那么可以定义一…

红酒行业新动态:抢先了解未来趋势

在风起云涌的红酒市场中,每一次变革都如同飓风般席卷整个行业。今日,我们一同探讨红酒行业的新动态,特别是定制红酒领域的未来趋势。让我们以洒派红酒(Bold & Generous)为引,洞察行业前沿,预…

60、redis安装和部署

一、关系型数据库与非关系型数据库 1.1、关系型数据库 关系型数据库是一个结构化的数据库,创建在关系模型(二维表格模型)基础上一般面向于记录。SQL语句(标准数据查询语言)就是一种基于关系型数据库的语言&#xff0…

2024-07学习笔记

1.${}取值 在这些属性源中,命令行参数和JVM系统属性拥有最高的优先级,它们可以覆盖在Properties文件中定义的属性。而操作系统环境变量和Properties文件的优先级相对较低,但是Spring会根据配置的不同情况进行属性的合并和覆盖,最终…

QUARKUS初体验

1.什么是QUARKUS? Quarkus是 Red Hat为GraalVM 和 HotSpot 量身定制用程序。特点是启动超快,内存极低,并且在容器编排平台(如Kubernetes)中提供了近乎即时的向上扩展和高密度的内存利用率。并且基于GraalVM&#xff0…

【YashanDB知识库】如何远程连接、使用YashanDB?

问题现象 在各个项目实施中,我们经常遇到客户、开发人员需要连接和使用YashanDB但不知如何操作的问题,本文旨在介绍远程连接、使用YashanDB的几种方式。 问题的风险及影响 无风险 问题影响的版本 历史版本~23.2 问题发生原因 无 解决方法及规避方…

Pytorch基础:Tensor的连续性

相关阅读 Pytorch基础https://blog.csdn.net/weixin_45791458/category_12457644.html?spm1001.2014.3001.5482 在Pytorch中,一个连续的张量指的是张量中各数据元素在底层的存储顺序与其在张量中的位置一致。这意味着每一个元素的地址可以通过下面的线性映射公式来…