大语言模型-检索测评指标

news2024/11/13 16:09:54

1. MRR (Mean Reciprocal Rank)平均倒数排名:

衡量检索结果排序质量的指标。
计算方式: 对于每个查询,计算被正确检索的文档的最高排名的倒数的平均值,再对所有查询的平均值取均值。
意义: 衡量对于多次查询,检索结果的排名,适用于评估检索结果排序效果好坏的情况。强调“顺序性”。
公式: |Q|表示查询的总次数, r a n k i rank_{i} ranki表示第i次查询中第一个准确结果的排序。
M R R = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ 1 r a n k i MRR = \frac{1}{{|Q|}}\sum_{i=1}^{|Q|}\frac{1}{rank_{i} } MRR=Q1i=1Qranki1

2. AP(Average Precision)平均精度:

衡量检索结果排序质量的指标。
计算方式: 一次查询结果正确结果的精确率求和除以查询结果的总数
意义: 衡量对于一个查询,检索结果中所有与 ground-truth相关的文档是否都有较高的排序。AP衡量的是整个排序的平均质量。
公式: K表示一次查询共查询K个文档,Pre代表精确率,Rel(n)表示这次查询结果中的第n个结果相关性分数,这里命中为1,未命中为0。
A P = ∑ n = 1 K P r e @ n ∗ R e l ( n ) K AP = \frac{\sum_{n=1}^{K}Pre@n*Rel(n)}{K} AP=Kn=1KPre@nRel(n)

2. MAP(Mean Average Precision)平均准确率:

衡量检索结果排序质量的指标。
计算方式: 对于每个查询,计算被正确检索的文档的平均精确率,再对所有查询的平均值取均值。
意义: 衡量对于多个查询,检索结果的平均精确率,适用于评估排序结果精确度的情况。
公式: |Q|表示查询的总次数,AP(i)表示第i次查询的平均精度。
M A P = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ A P ( i ) MAP = \frac{1}{{|Q|}}\sum_{i=1}^{|Q|}AP(i) MAP=Q1i=1QAP(i)

3. NDCG(Normalized Discounted Cumulative Gain)归一化折损累积增益:

衡量检索结果排序质量的指标。
计算方式: 对于每个查询,对每个被检索到的结果计算其相对于理想排序的增益值,然后对这些相对增益值进行加权求和,再除以理想排序的增益值
意义: 衡量对于一个查询,检索结果的绝对和相对排序质量,适用于评估排序结果的质量与排名准确度的情况。
公式: @k表示一次查询搜索k个文档;
N D C G @ k = D C G @ k I D C G @ k NDCG@k = \frac{DCG@k}{IDCG@k} NDCG@k=IDCG@kDCG@k
其中:
DCG@k(Discounted Cumulative Gain)代表这次k个查询结果列表中每个文档与查询的相关程度。
IDCG@k代表最理想的这次k个查询结果列表中的结果。
DCG@k的公式为: Rel(n)表示这次查询结果中的第n个结果相关性分数,这里命中为1,未命中为0。
D C G @ k = ∑ i = 1 k R e l ( i ) log ⁡ 2 i + 1 R e l ( i ) DCG@k=\sum_{i=1}^{k}\frac{Rel(i)}{\log_{2}{i+1} }Rel(i) DCG@k=i=1klog2i+1Rel(i)Rel(i)
IDCG@k是按照Rel(i)从高到低排序的DCG@k

4. Recall(召回率)

计算方式: 对于一个查询,所有被召回的样本正样本的比例。
意义: 关注于用户感兴趣的物品。
公式: 符号含义见下面的混淆矩阵。
r e c a l l = T P T P + F N recall = \frac{TP}{TP+FN} recall=TP+FNTP
在搜索任务中,R表示检索出的正确文档集合,T表示检索出的所有文档。
r e c a l l = R ∩ T T recall = \frac{R\cap T}{T} recall=TRT

5. Hit Rate(Recall@K)命中率

衡量检索结果准确性的指标。
计算方式: 对于一个查询,计算被正确检索的文档的占所有被检索的文档的比例。
意义: 衡量用户想要的项目有没有被检索到,强调预测的“准确性”。
公式:

6. Precision(精确率)

计算方式: 对于一个查询, 预测为正样本的样本中确实为正样本的比例。
意义: 关注于要推荐的物品。
公式: 符号含义见下面的混淆矩阵。
P r e = T P T P + F P Pre = \frac{TP}{TP+FP} Pre=TP+FPTP
在搜索任务中,R表示检索出的正确文档集合,T表示检索出的所有文档。
r e c a l l = R ∩ T T recall = \frac{R\cap T}{T} recall=TRT

7. Accuracy (准确率)

计算方式: 预测正确的样本所有样本中的比例。
意义: 每个样本的预测是否正确。
公式: 符号含义见下面的混淆矩阵。
A C C = T P + T N T P + F P + T N + F N ACC = \frac{TP+TN}{TP+FP+TN+FN} ACC=TP+FP+TN+FNTP+TN

参考

【基础】推荐系统常用评价指标Recall、NDCG、AUC、GAUC
信息检索与数据挖掘 | 【实验】检索评价指标MAP、MRR、NDCG
谈谈NDCG的计算

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1936779.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatTTS超强的真人AI语音助手下载使用教程

简介 ChatTTS是专门为对话场景设计的文本转语音模型,支持多人同时对话,适用的场景非常丰富,比如LLM助手对话任务,视频配音、声音克隆等。同时支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练&#xf…

【Android】 dp与sp,加冕为王

目录 重要概念 屏幕尺寸 屏幕分辨率 屏幕像素密度 基础知识: ppi pt DPI 的定义和重要性 Android 中的 DPI 级别 px dp(Density Independent Pixels) sp(Scale-independent Pixels) 安卓的dp/dip、sp 虚拟…

设置浏览器网页全屏

在日常笔记本上办公时,由于屏幕较小,为了尽可能多和方便的显示浏览器网页上的内容,可以设置网页全屏的方式,去掉屏幕顶端的网址栏和底端栏,具体设置如下: 以Edge浏览器和Google Chrome浏览器为例&#xff…

如何免费用java c#实现手机在网状态查询

今天分享手机在网状态查询接口,该接口适用的场景非常广泛!首先我们先讲下什么是手机在网状态?简单来说,就是你得手机号是否还在正常使用中,是否能够及时接收和回复信息,是否能够随时接听和拨打电话。如果你…

通过libx246 libfaac转换推送RTMP音视频直播流

一、RTMP简介及rtmplib库: RTMP协议是Real Time Message Protocol(实时信息传输协议)的缩写,它是由Adobe公司提出的一种应用层的协议,用来解决多媒体数据传输流的多路复用(Multiplexing)和分包(packetizing…

C++ :友元类

友元类的概念和使用 (1)将类A声明为B中的friend class后,则A中所有成员函数都成为类B的友元函数了 (2)代码实战:友元类的定义和使用友元类是单向的 (3)友元类是单向的,代码实战验证 互为友元类 (1)2个类可以互为友元类,代码实战…

相同IP地址仿真测试

相同IP地址仿真测试 背景与挑战解决方案技术优势功能特点 背景与挑战 在汽车电子领域,电子控制单元(ECU)的测试是确保其功能性和可靠性的关键步骤。然而,当测试场景涉及多个配置相同IP地址的ECU时,传统的测试方法面临…

GooglePlay 金融品类政策更新(7月17号)

距离上次政策大更新(4月5号)才过去了3个月,Google Play又迎来了一次大更新,不得不说Google Play的要求越来越高了。 我们来梳理一下这次GooglePlay针对金融品类更新了哪些政策: 1.要求提供金融产品和服务的开发者必须注册为组织…

IDEA的常见代码模板的使用

《IDEA破解、配置、使用技巧与实战教程》系列文章目录 第一章 IDEA破解与HelloWorld的实战编写 第二章 IDEA的详细设置 第三章 IDEA的工程与模块管理 第四章 IDEA的常见代码模板的使用 第五章 IDEA中常用的快捷键 第六章 IDEA的断点调试(Debug) 第七章 …

STM32使用SPI向W25Q64存储信息(HAL库)

SPI全双工通信:全双工在时钟脉冲周期的每一个周期内,每当主设备同时发送一个字节的同时,会接受从设备接受一个字节数据,SPI全双工最大的特点就是发送和接受数据同步进行,发送多少数据就要接受多少数据。使用全双工通信…

vst 算法R语言手工实现 | Seurat4 筛选高变基因的算法

1. vst算法描述 (1)为什么需要矫正 image source: https://ouyanglab.com/singlecell/basic.html In this panel, we observe that there is a very strong positive relationship between a gene’s average expression and its observed variance. I…

【iOS】static、extern、const、auto关键字以及联合使用

目录 前言extern关键字static关键字const关键字 联合使用static和externstatic和constextern和const auto关键字 先了解一下静态变量所在的全局/静态区的特点:【iOS】内存五大分区 前言 上面提到的全局/静态区中存放的是全局变量或静态变量: 全局变量…

逻辑回归(Logistic Regression,LR)

分类和回归是机器学习的两个主要问题。 分类处理的是离散数据回归处理的是连续数据 线性回归:回归 拟合一条线预测函数: 逻辑回归:分类——找到一条线可以将不同类别区分开 虽然称为逻辑回归,但是实际是一种分…

Chromium CI/CD 之Jenkins实用指南2024-在Windows节点上创建任务(九)

1. 引言 在现代软件开发流程中,持续集成(CI)和持续交付(CD)已成为确保代码质量和加速发布周期的关键实践。Jenkins作为一款广泛应用的开源自动化服务器,通过其强大的插件生态系统和灵活的配置选项&#xf…

【第4章】Spring Cloud之Nacos单机模式支持mysql

文章目录 前言一、初始化1. 初始化数据库2. 修改配置文件 二、效果1. 重新启动2. 新增用户 总结 前言 在0.7版本之前,在单机模式时nacos使用嵌入式数据库实现数据的存储,不方便观察数据存储的基本情况。0.7版本增加了支持mysql数据源能力,具…

数据如光,科技助航丨泰迪智能科技2024年暑期数据分析学徒班正式开班

7月16日,泰迪智能科技2024年暑期数据分析学徒班在泰迪智能科技天河培训中心正式开班,泰迪智能科技培训业务部孙学镂、教学代表周津、授课讲师巫兴港、就业指导老师赵欣欣、孟宪同、教学班主任黄晨华出席此次开班仪式。 仪式伊始,孙学镂代表广…

达梦数据库的系统视图v$arch_status

达梦数据库的系统视图v$arch_status 在达梦数据库(DM Database)中,V$ARCH_STATUS 是一个动态性能视图(Dynamic Performance View),用于显示归档日志的状态信息。这个视图可以帮助数据库管理员监控和管理数…

【Linux服务器Java环境搭建】010在linux中安装Redis,以及对Redis的配置与远程连接

系列文章目录 【Linux服务器Java环境搭建】 前言 好久没有更新博客了,今天下了班回到家,看到电脑桌上尘封已久的《Spring Boot应用开发实战》,翻开目录想起来之前写的系列【Linux服务器Java环境搭建】还未完结,那就继续吧&#…

通义千问AI模型对接飞书机器人-模型配置(2-1)

一 背景 根据业务或者使用场景搭建自定义的智能ai模型机器人,可以较少我们人工回答的沟通成本,而且可以更加便捷的了解业务需求给出大家设定的业务范围的回答,目前基于阿里云的通义千问模型研究。 二 模型研究 参考阿里云帮助文档&#xf…

IDEA的断点调试(Debug)

《IDEA破解、配置、使用技巧与实战教程》系列文章目录 第一章 IDEA破解与HelloWorld的实战编写 第二章 IDEA的详细设置 第三章 IDEA的工程与模块管理 第四章 IDEA的常见代码模板的使用 第五章 IDEA中常用的快捷键 第六章 IDEA的断点调试(Debug) 第七章 …