EMNLP22评测矩阵:FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation

news2024/9/23 9:23:29

总结

在选择维度时,有点意思。

FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation

一般对话生成任务的评测也是从多个维度出发,这篇文章先选择了几个相关性程度低的维度,然后,在挑选后的维度上,测评相关性分值。
多个维度下的测评采用了metric ensemble和multi-task learning的方法。

第一步:维度选择

我们希望选择相关性较小的维度,以便我们的度量能够从不同角度全面地捕捉对话质量。
**以往的对话评测矩阵不同维度下的相关性:**选择了FED 的人类评级(Mehri 和 Eskenazi,2020a),一个高质量的对话级评估基准。

在这里插入图片描述

维度选择:
首先,考虑与“总体”类别 (> 0.75) 高度相关的维度。直觉是,与“整体”的高相关性表明细粒度维度对人类注释者对对话的整体印象的影响更大。其次,我们过滤掉注释者间一致性较低 (< 0.6)5 的维度,因为注释者间一致性较低可能表明该维度评估起来很复杂,并且人类注释者对该维度有不同的理解(Mehri 等人,2015 年)。 , 2022).最后,我们根据人类评委将它们标记为“N/A”(不适用)的频率来选择维度。高频表示该维度在不同的上下文中并不普遍适用。大多数维度不包含“N/A”评级,除了"Error recovery",有 25% 的时间被标记为“N/A”

**最终选择的维度有:**coherence, likability, and topic depth.

第二步:维度下的评测

文章的目标是在每个特定维度下,学习相应的评测函数。
在每个维度下,构建pair数据集,判断是good diagonal 还是 bad diagonal. 如果是good,则y越接近于1,如果是bad,则y越接近于-1.
在这里插入图片描述
网络架构非常简单。 RoBERTa-base (Liu et al., 2019) 被用作文本编码器 T,它将 (d + tr, d − tr) 映射到密集表示 (H + tr, H − tr)。 d + tr 和 d − tr 都被制定为带有特殊 to ken “” 的标记序列来分隔不同的话语。接下来,将 (H + tr, H − tr) 转换为具有平均池化的向量表示 (h + tr, h − tr)。通过输出大小为 1 的线性层和 Sigmoid 激活函数,h + tr 和 h − tr 分别转换为标量值 s q d + tr 和 s q d − tr

2.1 每个维度下的采样策略

Coherence (Coh) :第一个是语句重排,将人-人之间的对话作为positive pairs,将随机采样的对话作为negative pairs。
第二个是问题问答,采用PLM下的QA模型,计算QA pairs的分值,将低于最低阈值的pairs作为negative pairs,将高于某个阈值的作为positive pairs。
Likability:第一个策略是contradiction scoring,采用预训练的自然语言推理 (NLI) 模型 为人与人对话中的相邻话语对提供矛盾分数(介于 0 和 1 之间)。对于包含 k 个话语的对话,我们有 k -1 个邻接对,因此有 k -1 个矛盾分数。对话级别的矛盾分数是通过计算 k-1 个分数的平均值得出的。最后,设置两个阈值 (τ contra low , τ contra high )。矛盾分数低于 τ contra low 的对话被认为是 d + tr,那些分数高于 τ contra high 的对话被认为是 d − tr。第二种策略是基于对话中带有积极情绪的话语的数量,我们假设这可以作为一个代理指标来衡量对话者有多喜欢彼此交谈。直觉上,如果用户觉得对话系统讨人喜欢,他们往往会做出更有吸引力的回应。为了实施该策略,我们采用了预训练的情感分类模型并将其应用于对 w.r.t 的情感进行分类。对话中的所有话语。我们将所有话语都被归类为积极类别的对话视为 d + tr,将包含少于两个积极话语的对话视为 d - tr。
Topic Depth (Top):对于包含 k 个话语的对话,使用预训练的 NLI 模型 为对话中的每个话语对提供蕴含分数。类似地,应用两个阈值(τ 需要低,τ 需要高)来获得正面和负面的对话。蕴涵分数低于 τ 的对话被认为是 d + tr,那些分数高于 τ 的对话被认为是高的。

2.2 问题:如何组合多个评测矩阵下的评测分值?——metric ensemble and multitask learning

Metric Ensemble:计算多个维度下的算数平均数作为最终评测分值。
Multitask Learning:采用硬参数共享网络来同时学习这三个任务。更具体地说,文本编码器 T 在三个任务之间共享。在 T 之上,有三个独立的线性层,输出大小为 1,分别作为连贯性、可爱性和主题深度的子指标
losses of three tasks are summed together, Ltotal =Lcoh + Llik + Ltop
在推理过程中,给定 dj ∈ D,FineD-Evalmu 从三个线性层分别输出三个标量值 s coh dj 、 slik dj 和 s top dj 。与met ric ensemble类似,最终的metric score 是通过取三个分数的算术平均值得出的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/132371.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态规划经典题:编辑距离(hard) 详解,看了还不会你来砍我

&#x1f9f8;&#x1f9f8;&#x1f9f8;各位大佬大家好&#xff0c;我是猪皮兄弟&#x1f9f8;&#x1f9f8;&#x1f9f8; 文章目录一、最长公共子序列二、两个字符串的删除操作三、编辑距离Hard为了更好的理解&#xff0c;我们从易到难的来解决编辑距离的问题一、最长公共…

Tic-Tac-Toe可能棋局遍历的实现(python)

目录 1. 前言 2. 算法流程 3. 代码实现 4. 一个思考题&#xff1a;代码实现中的一个坑 5. 结果正确吗&#xff1f; 1. 前言 在上一篇博客中&#xff1a;Tic-Tac-Toe可能棋局搜索的实现&#xff08;python&#xff09;_笨牛慢耕的博客-CSDN博客Tic-Tac-Toe中文常译作井字棋…

基础数学(五)——数值积分

文章目录考试要求基础概念代数精度&#xff08;必考题&#xff09;代数精度的定义求代数精度的例题&#xff08;期末考试数值积分第一个大题&#xff09;数值积分公式的构造插值型求积公式&#xff08;必考题&#xff09;插值型数值积分公式定理Newton-Cotes求积公式Cotes公式代…

webpack 学习

1.拆分、合并 webpack-merge devlopment production 2.webpack-dev-serve devServer: { port contentBase progress open compress proxy:{ xxx:{ target:..., pathRewrite:{ "^/api" }, changeOrigin:true } } } 3.处理样式 css module:{ rules:[ { test:/\.sc…

qt开关控件设计(手把手从零开始)

从零开始手把手教你设计自己的qt控件1 说明1.1 显示效果1.2 控件特性1.3 设计方法2 控件需求分析2.1 必要需求2.1 顺带需求&#xff08;锦上添花&#xff09;3 功能设计3.1 设计思路&#xff08;重点内容&#xff09;3.2 自适应大小3.3 开关动画3.4 控件绘制4 总体代码1 说明 …

推动新能源越野场景革命 坦克品牌开创越野新生态

近日&#xff0c;坦克品牌以“创领越野新生态”为主题&#xff0c;携多款车型登陆第二十届广州国际汽车展览会。秉持“以用户为中心”&#xff0c;坦克品牌围绕技术与生态双线出击&#xff0c;正式亮相坦克500 PHEV长续航版、生活方式共创平台TANK Life。技术创领&#xff0c;打…

docker-ui创建使用

首先需要安装docker: apt install docker.io composer也需要安装&#xff1a; apt install composer docker查找docker-ui镜像&#xff1a; docker search docker-ui 在列表里选一个镜这里就选第一个。 docker pull builtdock/docker-ui 然后直接docker run 使用的时候&#x…

DSL操作ElasticSearch基础命令

文章目录一、DSL操作ES-RESTful风格二、DSL操作索引库2.1 PUT 添加索引2.2 GET 查询索引2.3 DELETE 删除索引2.4 POST 打开/关闭索引库三、DSL操作映射3.1 数据类型3.1.1 简单数据类型3.1.2 复杂数据类型3.2 创建索引库并设置映射3.2.1 语法格式3.2.2 举例3.3 查询索引库映射3.…

python中的类型注解

目录 一.类型注解 变量的类型注解 类型注解的语法 类型注解主要功能在于: 函数方法的类型注解 函数&#xff08;方法&#xff09;形参进行类型注解 函数&#xff08;方法&#xff09;返回值进行类型注解 小结 Union类型 小结 一.类型注解 变量的类型注解 思考 为什么…

Android美团多渠道打包Walle集成

一、为什么使用美团多渠道打包的方式&#xff1f; 打包更加快速 传统的通过productFlavors渠道包的方式&#xff0c;渠道10个以内还可以接受&#xff0c;如果100个渠道包&#xff0c;每个包需要打5Min,就是将近10个小时的打包&#xff0c;而采用美团Walle多渠道打包的方式只需…

PyTorch 2.0 推理速度测试:与 TensorRT 、ONNX Runtime 进行对比

PyTorch 2.0 于 2022 年 12 月上旬在 NeurIPS 2022 上发布&#xff0c;它新增的 torch.compile 组件引起了广泛关注&#xff0c;因为该组件声称比 PyTorch 的先前版本带来更大的计算速度提升。 这对我们来说是一个好消息&#xff0c;训练时间改进的结果令人印象深刻。PyTorch 团…

JavaScript 入门基础 - 流程控制(四)

JavaScript 流程控制 - 分支和循环 文章目录JavaScript 流程控制 - 分支和循环1. 什么是流程控制2. 顺序流程控制3. 分支流程控制 之 if语句3.1 什么是分支结构3.2 if 语句3.2.1 if 语句基本理解3.2.2 if 语句执行流程3.2.3 if 语句案例3.3 if else语句&#xff08;双分支语句&…

Threejs实现鼠标点击人物行走/镜头跟随人物移动/鼠标点击动画/游戏第三人称/行走动作

1&#xff0c;功能介绍 Threejs获取鼠标点击位置、实现鼠标点击人物行走、人物头顶显示名称标签、镜头跟随人物移动并且镜头围绕人物旋转&#xff0c;类似游戏中第三人称、鼠标点击位置有动画效果&#xff0c;如下效果图 2&#xff0c;功能实现 获取鼠标点击位置&#xff0c;…

【Linux】进程间通信 - 匿名/命名管道与System V共享内存

目录 前言 一.管道 0.什么是管道 1).管道的概念 2).管道的本质 3).管道指令: "|" 1.匿名管道 1).如何创建匿名管道 2).如何使用匿名管道进行通信 3).匿名管道的特点总结 2.命名管道 0).指令级的命名管道的通信 1).如何在编程时创建命名管道 2).如何在…

你好2023-使用msys64 openssl 制作QSslSocket实验所需证书

2023年开始了&#xff0c;第一篇&#xff0c;记录最近帮朋友制作QSslSocket所需证书的过程。 使用传统的TCP连接依旧是很多工业软件的常见通信方法。但如果恰好不希望别人通过抓包等方法研究上位机和控制器模块之间的协议格式&#xff0c;那使用SSL连接是一种掩耳盗铃的好办法&…

Pyinstaller - 你的“神”队友

哈哈&#xff01;今天是我在2023年发布的第一篇文章呀&#xff01; 这两天&#xff0c;我在做一个爬虫项目。因为我做好后准备给我的朋友看看&#xff0c;但我朋友没有 Python 环境。所以&#xff0c;只好想办法把 .py 打包成 .exe 。 在网上搜了一下&#xff0c;发现目前相对…

设计模式 ——工厂模式

前言 有一些重要的设计原则在开篇和大家分享下&#xff0c;这些原则将贯通全文&#xff1a; 面向接口编程&#xff0c;而不是面向实现。这个很重要&#xff0c;也是优雅的、可扩展的代码的第一步&#xff0c;这就不需要多说了吧。 职责单一原则。每个类都应该只有一个单一的功…

第三十一讲:神州路由器策略路由的配置

从局域网去往广域网的流量有时需要进行分流&#xff0c;即区别了不同用户又进行了负载分担&#xff0c;有时这种目标是通过对不同的源地址进行区别对待完成的&#xff0c;通过策略路由的方法可以解决此问题。 实验拓扑图如下所示 R1 R2 R3 F0/0 1.1.3.1/24 F0/0 1.1.3.2…

【AcWing每日一题】4261. 孤独的照片

Farmer John 最近购入了 N 头新的奶牛&#xff0c;每头奶牛的品种是更赛牛&#xff08;Guernsey&#xff09;或荷斯坦牛&#xff08;Holstein&#xff09;之一。 奶牛目前排成一排&#xff0c;Farmer John 想要为每个连续不少于三头奶牛的序列拍摄一张照片。 然而&#xff0c…

java多线程(11):线程协作

1 线程通信 应用场景 : 生产者和消费者问题 假设仓库中只能存放一件产品 , 生产者将生产出来的产品放入仓库 , 消费者将仓库中产品取走消费 如果仓库中没有产品 , 则生产者将产品放入仓库 , 否则停止生产并等待 , 直到仓库中的产品被消费者取走为止 如果仓库中放有产品 ,…