【NLP】训练chatglm2的评价指标BLEU,ROUGE

news2024/11/24 15:47:06

衡量模型输出的描述语句的准确性,因为衡量的对象是一个个的自然语言文本,所以通常会选择自然语言处理领域的相关评价指标。这些指标原先都是用来度量机器翻译结果质量的,并且被证明可以很好的反映待评测语句的准确性,主要包含4种:BLEU,METEOR,ROUGE,CIDEr
本文只介绍BLEU,ROUGE两个指标,其他待补充。

1、BLEU

  • BLEU(Bilingual Evaluation understudy,双语互译质量评估)是一种流行的机器翻译评价指标,一种基于精确度的相似度量方法,用于分析候选译文中有多少 n 元词组出现在参考译文中(就是在判断两个句子的相似程度)
  • BLEU有许多变种,根据n-gram可以划分成多种评价指标,常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n,BLEU-1衡量的是单词级别的准确性,更高阶的BLEU可以衡量句子的流畅性。

假设, c i c_i ci表示候选译文(也就是GT),该候选译文对应的一组参考译文(也就是模型预测出来的语句)可以表示为 S i = { s i 1 , s i 2 , … , s i m } \mathrm{S_{i}=\{s_{i1},s_{i2},\ldots,s_{im}\}} Si={si1,si2,,sim};将候选译文 c i c_i ci中所有相邻的 n 个单词提取出来组成一个集合 n − g r a m n-gram ngram,一般取 n = 1 , 2 , 3 , 4 n=1,2,3,4 n=1,2,3,4;用 ω k \omega_k ωkb=表示 n − g r a m n-gram ngram中的第 k k k 个词组, h k ( c i ) h_k(c_i) hk(ci)表示第k个词组 ω k \omega_k ωk在候选译文 c i c_i ci中出现的次数, h k ( s i j ) h_k(s_{ij}) hk(sij)表示第 k k k 个词组 ω k \omega_k ωk​,在参考译文 s i j s_{ij} sij中出现的次数。此时,在n-gram下,参考译文和候选译文 c i c_i ci的匹配度计算公式可以表示为:
p n ( c i , S ) = ∑ k min ⁡ ( h k ( c i ) , max ⁡ j ∈ m h k ( s i j ) ) ∑ k h k ( c i ) \mathrm{p_n}\left(\mathrm{c_i},\mathrm{S}\right)=\frac{\sum_{\mathrm{k}}\min\left(\mathrm{h_k}\left(\mathrm{c_i}\right),\max_{\mathrm{j}\in\mathrm{m}}\mathrm{h_k}\left(\mathrm{s_{ij}}\right)\right)}{\sum_{\mathrm{k}}\mathrm{h_k}\left(\mathrm{c_i}\right)} pn(ci,S)=khk(ci)kmin(hk(ci),maxjmhk(sij))

举例说明:
candidate:The cat sat on the mat.
reference:The cat is on the mat

( c a n d i d a t e 和 r e f e r e n c e 中匹配的 n − g r a m 的个数 ) / c a n d i d a t e 中 n − g r a m 的个数 (candidate\text{和}reference\text{中匹配的}n-gram\text{的个数})/candidate\text{中}n-gram\text{的个数} (candidatereference中匹配的ngram的个数)/candidatengram的个数
在这里插入图片描述
一般来说, n 取值越大,参考译文就越难匹配上,匹配度就会越低. 1 − g r a m 1-gram 1gram能够反映候选译文中有多少单词被单独翻译出来,也就代表了参考译文的充分性 2 − g r a m 2-gram 2gram 3 − g r a m 3-gram 3gram 4 − g r a m 4-gram 4gram 值越高说明参考译文的可读性越好,也就代表了参考译文的流畅性
当参考译文比候选译文长(单词更多)时,这种匹配机制可能并不准确,例如上面的参考译文如果是The cat,匹配度就会变成1,这显然是不准确的;为此我们引入一个惩罚因子。
B P ( c i , s i j ) = { 1 , l c i > l s i j e l − l s i j l c i , l c i   ≤ l s i j BP(c_i,s_{ij}) = \left\{\begin{matrix} 1\quad ,\quad l_{ci}>l_{s_{ij}} \\ {e^{l-\frac{l_{s_{ij}}}{l_{c_i}}},\quad l_{ci}~\leq l_{sij}} \end{matrix}\right. BP(ci,sij)={1,lci>lsijellcilsij,lci lsij
l 表示各自的长度。最终,BLEU的计算公式就是
B L E U = B P ⋅ exp ⁡ ( ∑ n = 1 N w n log ⁡ p n ) \mathrm B\mathrm L\mathrm E\mathrm U=\mathrm B\mathrm P\cdot\exp\left(\sum_{\mathrm n=1}^N\mathrm w_n\log\mathrm p_\mathrm n\right) BLEU=BPexp(n=1Nwnlogpn)
w n w_n wn代表每一个 n-gram 的权重,一般 n n n 最大取4,所以 w n = 0.25 w_n = 0.25 wn=0.25

BLEU 更偏向于较短的翻译结果,它看重准确率而不注重召回率(n-gram 词组是从候选译文中产生的,参考译文中出现、候选译文中没有的词组并不关心);原论文提议数据集多设置几条候选译文,4条比较好,但是一般的数据集只有一条。

2、ROUGE

BLEU 是统计机器翻译时代的产物,因为机器翻译出来的结果往往不通顺,所以BLEU更关注翻译结果的准确性和流畅度;到了神经网络翻译时代,神经网络很擅长脑补,自己就把语句梳理得很流畅了,这个时候人们更关心的是召回率,也就是参考译文中有多少词组在候选译文中出现了。
ROUGE(recall-oriented understanding for gisting evaluation)就是这样一种基于召回率的相似性度量方法,主要考察参考译文的充分性和忠实性,无法评价参考译文的流畅度,它跟BLEU的计算方式几乎一模一样,但是 n-gram 词组是从参考译文中产生的。分为4种类型:

ROUGE解释
ROUGE-N基于 N-gram 的共现(共同出现)统计
ROUGE-L基于最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-W带权重的最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-S不连续二元组共现性精度和召回率 Fmeasure 统计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/824828.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA中maven项目失效,pom.xml文件橙色/橘色

IDEA中maven项目失效,pom.xml文件橙色/橘色 IDEA中Maven项目失效 IDEA中创建的maven项目中的文件夹都变成普通格式,pom.xml变成橙色 右键点击橙色的pom.xml文件,选择add as maven project maven项目开始重新导入相应依赖,恢复…

智驾「完整数据闭环」受困,谁能蹚出一条最佳路线?

城市NOA,标志着自动驾驶商业化的一座里程碑,也意味着智能汽车下半场的开端。 自2023年上海车展以来,有关城市NOA的路线之争逐渐明晰,“重感知+轻地图”、借助纯感知和融合感知路线、以及BEVTransformer模型的智能驾驶…

为什么有的时候Socks5比HTTP爬虫IP更快?

作为一名长期从事爬虫行业动态IP解决方案服务商,我发现经常有客户疑惑:为什么有的时候Socks5代理IP比HTTP代理IP更快?其实,这个是很常见的一种现象。今天,我就来分析一下为什么Socks5代理IP有时比HTTP代理IP更快&#…

基于django社区物品转让平台-计算机毕设 附源码40507

django社区物品转让平台 目 录 摘 要 Abstract 第1章 前 言 1.1 研究背景 1.2 研究现状 1.3 系统开发目标 第2章 技术与原理 2.1 开发技术说明 2.2 B/S体系工作原理 2.3 Django框架介绍 6 2.4 MySQL数据库 7 2.5 Ajax应用 8 第3章 需求分析 9 3.1 需…

vue报错的几种情况 Duplicate keys detected: ‘1‘. This may cause an update error.

在遍历多层数组时, 出现以上情况是因为key值不值唯一的,只需要将key后面的值拼接一个简单的字段即可。如下: 这样就不会报错啦~

AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上)

大家好,我是风雨无阻。 通过前面几篇AI 绘画Stable Diffusion 研究系列的介绍,我们完成了Stable Diffusion整合包的安装、模型ControlNet1.1 安装、模型种类介绍与安装,相信看过教程的朋友们,手上已经有可以操作实践的Stable Diff…

微信小程序animation动画,微信小程序animation动画无限循环播放

需求是酱紫的: 页面顶部的喇叭通知,内容不固定,宽度不固定,就是做走马灯(轮播)效果,从左到右的走马灯(轮播),每播放一遍暂停 1500ms ~ 2000ms 刚…

使用CRM系统能不能降低客户流失率?如何操作?

客户流失率关系着企业的收入和利润,较高的客户流失率意味着企业需要不断地开发新客户来弥补损失,导致成本和风险大大提高。作为客户管理“神器”,CRM如何降低客户流失率? 1、提高客户满意度 CRM可以帮助企业收集和分析客户的反馈…

混合云:降本增效,云计算的未来趋势,企业数字化转型的王道!

随着云计算技术的不断发展,云计算已经成为了企业信息化的主流趋势,而混合云则是云计算领域发展的一个新方向。混合云指的是将公有云和私有云相结合,构建一种新的云计算模式。本文将从混合云的定义、特点、优势以及应用场景等方面进行阐述&…

Java 一文讲清楚 CompletableFuture

Callable 和 Future 创建一个Java线程的三种方式,其中继承Thread类或实现Runnable接口都可以创建线程,但这两种方法都有一个问题就是:没有返回值,不能获取执行完的结果。因此后面在JDK1.5才新增了一个Callable接口来解决上面的问…

rt-thread-studio排除构建和添加构建

1、排除构建 排除构建后,此文件会直接在资源管理器里消失,但并没有删除源文件, 2、添加构建 先打开导航器 再在导航器里找到文件,选择添加构建

Meta AI 开源万物可分割 AI 模型(SAM)

开始 4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型)。据介绍,该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一…

java增函数的单变量求解后续,还好之前东西都留着,要不然还得从头来一遍

这是一篇本来不应该存在的程序,但是有了世界之大,就有这一段程序,如果你同情我的遭遇,那么进来帮我改进一下,大家一起交流讨论一下吧,我谢谢大家了。 背景 这个事情发生在五个月前的3月2日,详细…

HTML+CSS+JavaScript:实现B站评论发布效果

一、需求 1、用户输入内容,输入框左下角实时显示输入字数 2、为避免用户输入时在内容左右两端误按多余的空格,在发送评论时,检测用户输入的内容左右两端是否带有空格,若有空格,发布时自动取消左右两端的空格 3、若用…

一篇文章带你搞懂Java多态的概念、优点、实现多态的方式、以及不同方式的区别

一篇文章带你搞懂Java多态的概念、优点、使用场景 基本概念 ​ **多态(Polymorphism)是面向对象编程的一个重要特性,它指的是同一个行为具有多个不同表现形式或形态的能力。**它允许我们使用父类的引用变量来引用子类的对象,并根…

【MySQL】DQL语句

8,DQL 下面是黑马程序员展示试题库数据的页面 页面上展示的数据肯定是在数据库中的试题库表中进行存储,而我们需要将数据库中的数据查询出来并展示在页面给用户看。上图中的是最基本的查询效果,那么数据库其实是很多的,不可能在将…

antd form表单文本标签右对齐的

实现代码如下&#xff1a; const formItemLayout {labelCol: { // 表示当前label在整行的占比xs: { span: 12 },sm: { span: 9},},wrapperCol: { // 表示当前输入框在整行的占比xs: { span: 12 },sm: { span: 15 },}, };<Formname"advanced_search"className&q…

有哪些常见的微信小程序推广引流方法?

如何对小程序进行推广引流。只有如此&#xff0c;才能为小程序获取到更多忠实用户&#xff0c;使小程序实现更大的价值。今天就为大家介绍一下微信小程序常见有效的推广方式。 1、附近的小程序&#xff08;免费&#xff09; 在小程序后台&#xff0c;开通“附近的小程序”&am…

微服务实战项目-学成在线-选课学习(支付与学习中心)模块

微服务实战项目-学成在线-选课学习(支付与学习中心)模块 1 模块需求分析 1.1 模块介绍 本模块实现了学生选课、下单支付、学习的整体流程。 网站的课程有免费和收费两种&#xff0c;对于免费课程学生选课后可直接学习&#xff0c;对于收费课程学生需要下单且支付成功方可选…

(4)(4.4) 使用测试版和开发版

文章目录 4.4 使用测试版和开发版 4.4.1 测试版 4.4.2 最新开发版本 4.4.3 自定义固件构建服务器 4.4.4 固件的局限性 4.5 测试 4.4 使用测试版和开发版 4.4.1 测试版 在稳定版(Stable)发布之前&#xff0c;会发布测试版(Beta)。如果你想尝试较新的功能或帮助开发人员飞行…