生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

news2024/11/5 17:24:51

文本生成评价指标

  1. 以 BLEU 为代表的基于统计的文本评价指标
  2. 基于 BERT 等预训练模型的文本评价指标

1.以 BLEU 为代表的基于统计的文本评价指标

1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具)

所有评价指标的鼻祖,核心思想是比较 候选译文 和 参考译文 里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。

unigram 用于衡量单词翻译的准确性,高阶 n-gram 用于衡量句子翻译的流畅性。

  • 一般取 N = 1 ~ 4,然后加权平均

    B L E U = B P × e x p ( ∑ n = 1 N W n × P n ) B P = { 1 e x p ( 1 − l r / l c ) l c = 机器翻译候选译文的长度 l r = 最短的参考译文长度 BLEU=BP \times exp(\sum_{n=1}^N W_n \times P_n)\\ \begin{aligned} BP= \begin{cases} 1 \\ exp(1-lr/lc) \end{cases} \end{aligned}\\ lc=机器翻译候选译文的长度\\ lr=最短的参考译文长度 BLEU=BP×exp(n=1NWn×Pn)BP={1exp(1lr/lc)lc=机器翻译候选译文的长度lr=最短的参考译文长度

    • W n W_n Wn 指的是 n-gram 权重,默认是均匀权重
    • BP 是惩罚因子,如果译文的长度小于最短参考译文,则 BP 小于 1
    • BLEU 的 1-gram 精确度表示译文忠于原文的程度,其他的 n-gram 表示翻译的流畅度
  • 优点

    • 易于计算,速度快。
    • 应用范围广泛
  • 缺点

    • 不考虑语义、句子结构
    • 不能很好的处理形态丰富的句子(所以论文中建议配备 4 条参考译文)
    • BLEU 偏向于较短的翻译结果

2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

ROUGE 是 BLEU 的改进版,从名字上可以看出,他专注于召回率而非精确率。

即,他会查看有多少个参考译文中的 n 元词组出现在输出中。

  • ROUGE 大致分为四种(前两种常用)
    • ROUGE-N(将 BLEU 的精确率优化为召回率)
    • ROUGE-L(将 BLEU 的 n-gram 优化为公共子序列)
    • ROUGE-W(将 ROUGE-L 的连续匹配给予更高的奖励)
    • ROUGE-S(允许 n-gram 出现跳词(skip))
  • 初衷
    • 在 SMT(统计机器翻译) 时代,机器翻译效果很差,需要同时评价翻译的准确度和流畅度。
    • 在 NMT(神经网络机器翻译) 时代,神经网络能力很强,翻译的结果大多都是通顺的,但是可能会一本正经的胡说八道
    • ROUGE 的出现是为了解决 NMT 的漏翻问题(低召回率)。所以 ROUGE 只适合评价 NMT,不适用于 SMT,因为他不评价译文的流畅与否。
  1. ROUGE-N
    • N 指 N-gram,计算方式与 BLEU 类似,但是基于召回率

    • ROUGE-N 主要统计 N-gram 上的召回率,对于 N-gram ,可以计算得到 ROUGE-N 的分数

      R O U G E − N = ∑ S ∈ { R e f e r e n c e S u m m a r i e s } g r a m N ∈ S ∑ g r a m N ∈ S C o u n t m a t c h ( g r a m N ) ∑ S ∈ { R e f e r e n c e S u m m a r i e s } g r a m N ∈ S ∑ g r a m N ∈ S C o u n t ( g r a m n ) ROUGE-N=\frac{\sum_{S\in \{ReferenceSummaries\}gram_N\in S}\sum_{gram_N\in S} Count_{match}(gram_N)} {\sum_{S\in \{ReferenceSummaries\}gram_N \in S}\sum_{gram_N \in S} Count(gram_n)} ROUGEN=S{ReferenceSummaries}gramNSgramNSCount(gramn)S{ReferenceSummaries}gramNSgramNSCountmatch(gramN)

      • 分母是统计参考译文中的 N-gram 的个数;分子是统计参考译文与机器译文共有的 N-gram 个数
  2. ROUGE-L
    • ROUGE-L 中的 L 指最长公共子序列(Longest Common Subsequence, LCS),ROUGE-L 计算的时候使用了 机器译文 C 和 参考译文 S 的最长公共子序列。

      R L C S = L C S ( C , S ) l e n ( S ) P L C S = L C S ( C , S ) l e n ( C ) F L C S = ( 1 + β 2 ) R L C S P L C S R L C S + β 2 P L C S R_{LCS}=\frac{LCS(C,S)}{len(S)}\\ P_{LCS}=\frac{LCS(C,S)}{len(C)}\\ F_{LCS}=\frac{(1+\beta^2)R_{LCS}P_{LCS}}{R_{LCS}+\beta^2P_{LCS}} RLCS=len(S)LCS(C,S)PLCS=len(C)LCS(C,S)FLCS=RLCS+β2PLCS(1+β2)RLCSPLCS

      • R L C S R_{LCS} RLCS 表示 召回率, P L C S P_{LCS} PLCS 表示精确率, F L C S F_{LCS} FLCS 就是 ROUGE-L
      • 一般 β \beta β 会设置一个很大的数,因此 F L C S F_{LCS} FLCS 几乎只考虑 R L C S R_{LCS} RLCS(召回率)
  3. ROUGE-W
  4. ROUGE-S

2.基于语言模型的方法

1.PPL(困惑度)

它也可以用来比较两个语言模型在预测样本上的优劣。

低困惑度的概率分布模型或概率模型能更好地预测样本。

P P L ( W ) = P ( w 1 w 2 . . . w N ) − 1 N PPL(W)=P(w_1w_2...w_N)^{-\frac1N} PPL(W)=P(w1w2...wN)N1

  • 在对模型进行损失计算的时候,直接对损失去个指数就是 PPL 了

2.基于 BERT 的评分指标 → B E R T S C O R E BERT_{SCORE} BERTSCORE

  • 核心思想:对两个 生成句 和 参考句(WordPiece 进行 tokenize) 分别用 BERT 提取特征,然后对两个句子的每个词分别计算内积,得到一个相似性矩阵。基于这个矩阵,可以分别对参考句和生成句做一个最大相似性得分的累加然后归一化,得到 B E R T s c o r e BERT_{score} BERTscore 的 precision 、 recall 和 F1

    R B E R T = 1 ∣ x ∣ ∑ x i ∈ x max ⁡ x ^ j ∈ x ^ x i T x ^ j P B E R T = 1 ∣ x ^ ∣ ∑ x ^ j ∈ x ^ max ⁡ x i ∈ x x i T x ^ j F B E R T = 2 P B E R T ⋅ R B E R T P B E R T + R B E R T R_{BERT}=\frac1{|x|}\sum_{x_i \in x} \max_{\hat{x}_j \in \hat{x}}x_i^T\hat{x}_j\\ P_{BERT}=\frac1{|\hat x|}\sum_{\hat x_j \in \hat x} \max_{x_i \in x}x_i^T \hat x_j\\ F_{BERT}=2\frac{P_{BERT}·R_{BERT}}{P_{BERT}+R_{BERT}} RBERT=x1xixx^jx^maxxiTx^jPBERT=x^1x^jx^xixmaxxiTx^jFBERT=2PBERT+RBERTPBERTRBERT

3.总结

  • BLEU
    • 优点:计算速度,适合评估机器翻译等文本生成任务的准确性。依赖于 n-gram 匹配,所以对短文本评价友好
    • 缺点:无法衡量语义,容易惩罚语义合理的表示;对自由度较高的生成任务表现不佳
    • 使用场景:机器翻译、文本摘要,尤其是目标文本相对固定的情形
  • ROUGE
    • 优点:对文本摘要任务适用,尤其是 ROUGE-L 可识别长的匹配序列,适合评估摘要生成中较长的语义片段
    • 缺点:依赖表层匹配,缺乏对语义的深层次理解
    • 使用场景:在摘要生成任务中表现良好
  • PPL
    • 优点:可量化生成文本的流畅度,适合语言模型的评估
    • 缺点:与人类理解不直接相关;低的 PPL 不保证高质量文本。
    • 使用场景:适用于评估语言模型在训练数据上的拟合程度,对生成模型的流畅度 衡量有效
  • B E R T s c o r e BERT_{score} BERTscore
    • 优点:基于 BERT 等预训练模型,能捕获词汇和语义的相似度,弥补了传统表层指标的不足;对重组、同义表达的容忍度更高
    • 缺点:计算较慢,依赖模型的复杂度;性能依赖于使用的预训练模型
    • 使用场景:适合需要语义理解的生辰任务,如开放式问答和文本生成任务,在多样化表达中优异。
  • 总结
    • B L E U BLEU BLEU R O U G E ROUGE ROUGE 更适合传统的,较为结构化的生成任务
    • PPL 适合流畅度的评估
    • B E R T s c o r e BERT_{score} BERTscore 适合更深层次的语义对齐场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2231114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Llama 3.2 Vision Molmo:多模态开源生态系统基础

编者按: 视觉功能的融入对模型能力和推理方式的影响如何?当我们需要一个既能看懂图像、又能生成文本的 AI 助手时,是否只能依赖于 GPT-4V 这样的闭源解决方案? 我们今天为大家分享的这篇文章,作者的核心观点是&#xf…

C++_day01

目录 0. 课前须知 1. C发展历史(了解) 2. C特点(熟悉) 3. 面向对象核心术语(熟悉) 4. 开发环境 5. 新建项目 4. 开发环境 5. 新建项目 0. 课前须知 C的思维与C语言完全不同,不能生搬硬套。 C偏向…

安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)

安娜的档案(Anna’s Archive)是一个颇受关注的资源库。它涵盖了广泛的内容,可能包括各类文献、资料等。其特色在于丰富的信息储备和一定的系统性。安娜的档案(Anna’s Archive)用户可以从中获取多样的知识和数据&#…

Linux 下执行定时任务之 Systemd Timers

不知道 ECS 因为什么缘故,上面安装的 MySQL 服务老是不定期挂掉,本来想通过 Linux 得 Cron 配置个半小时的定时检测任务,结果一直没有执行,因此又尝试使用了 Systemd Timers 进行了重新配置,简要做个记录。 Systemd Ti…

【星闪EBM-H63开发板】AT固件的接口简介

引言 前面介绍了星闪EBM-H63开发板的透传固件,现在介绍一下AT固件。AT固件比透传固件要复杂的多,都让功能也多很多,可以配置很多星闪相关的参数。AT固件没有AT命令模式和数据模式切换的问题,因为收发的数据是出现在AT命令中的。 …

51单片机教程(四)- 点亮LED灯

1、项目分析 让输入/输出口的P1.0连接一盏LED灯进行点亮。 2、技术准备 1 LED组成 ​ 说明 二极管有 P型 和 N型材料构成,通常是:硅/锗 掺杂其他元素(硼、磷等) 电子是带负电的,是负电荷的载体,电子流…

开源库 FloatingActionButton

开源库FloatingActionButton Github:https://github.com/Clans/FloatingActionButton 这个库是在前面这个库android-floating-action-button的基础上修改的,增加了一些更强大和实用的特性。 特性: Android 5.0 以上点击会有水波纹效果 可以选择自定义…

Ubuntu 24.04上启用 root 用户通过 SSH 和图形界面进行登录

一、启用 root 用户的密码登录 设置 root 用户密码: 在终端中输入以下命令为 root 用户设置一个密码: testtest-virtual-machine:~$ sudo passwd root [sudo] test 的密码: 新的密码: 无效的密码: 密码是一个回文…

深度学习基础知识-损失函数

目录 1. 均方误差(Mean Squared Error, MSE) 2. 平均绝对误差(Mean Absolute Error, MAE) 3. Huber 损失 4. 交叉熵损失(Cross-Entropy Loss) 5. KL 散度(Kullback-Leibler Divergence&…

基于vue框架的的考研信息共享平台v0eyp(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:国家政策,用户,院校政策,院校信息,考研资料,资料分类,考研论坛 开题报告内容 基于Vue框架的考研信息共享平台开题报告 一、研究背景与意义 随着考研人数的逐年增长,考研学生对高效、便捷、个性化的信息获取需求愈发强烈。…

区别:矩阵合同和矩阵酉相似

矩阵的合同和酉相似在许多方面具有相似性,但也有明显的区别。 定义 矩阵合同:给定矩阵 A 和 B ,若存在一个非奇异矩阵 P ,使得 则称矩阵 A 和 B 是合同的。合同变换常用于实对称矩阵的特征问题等。 酉相似:给定矩阵 …

海的回忆:海滨学院班级记忆录技术实现

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

半个月,练完这50个Python实战项目你就牛了!

今日精选50个Python实战项目,边做边学,让Python技能突飞猛进! 好记性不如烂笔头,实践是提升技能的王道!这70个项目涵盖广泛,难度亲民,特别适合Python新手入门与进阶。它们不仅实用性强&#xf…

贪心算法习题其三【力扣】【算法学习day.20】

前言 ###我做这类文档一个重要的目的还是给正在学习的大家提供方向(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非常非常高滴&am…

【Python游戏开发】石头剪刀布游戏(附完整Python完整代码)

石头剪刀布游戏:Pygame实现 结果图前言核心函数思考步骤实现原理和公式代码实现结论结果图 前言 石头剪刀布是一种经典的猜拳游戏,简单易玩但却蕴含着一定的策略性。本文将介绍如何使用Python和Pygame库开发一个简单的石头剪刀布游戏,并探讨其中的核心功能实现和思考过程。 …

Python | Leetcode Python题解之第526题优美的排列

题目&#xff1a; 题解&#xff1a; class Solution:def countArrangement(self, n: int) -> int:f [0] * (1 << n)f[0] 1for mask in range(1, 1 << n):num bin(mask).count("1")for i in range(n):if mask & (1 << i) and (num % (i …

阿里云k8s-master部署CNI网络插件遇到的问题

问题 按照网络上的部署方法 cd /opt/k8s # 下载 calico-kube-controllers配置文件&#xff0c;可能会网络超时 curl https://docs.projectcalico.org/manifests/calico.yaml -O kubectl apply -f calico.yaml 试了很多次都不行&#xff0c;k8s-master都是Not ready的状态 ca…

【数据结构与算法】第8课—数据结构之二叉树(堆)

文章目录 1. 树1. 什么是树&#xff1f;1.2 树的相关概念1.3 树的表示法 2. 二叉树2.1 特殊的二叉树2.2 二叉树的性质2.3 二叉树的存储结构 3. 实现顺序结构二叉树3.1 堆的概念3.2 堆的实现3.2.1 堆的数据结构3.2.2 堆的初始化3.2.3 堆插入数据3.2.4 删除堆顶数据3.2.5 堆的判空…

基于MATLAB人脸检测的汽车疲劳驾驶检测

课题介绍 疲劳驾驶导致汽车交通事故逐年增加&#xff0c;为了提升驾车的安全性&#xff0c;需对驾驶员疲劳状态实时监测并及时提醒. 为了提高疲劳驾驶判断效率及准确率&#xff0c;本文运用Viola-Jones 框架特征矩阵进行人脸预判断&#xff1b;预判断过程中为了减少Haar 值计算…

【p2p、分布式,区块链笔记 Torrent】WebTorrent的上传和下载界面

上传 upload.html client.seed <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>文件上传与哈希值&l…