相似度系列-6:单维度方法:Evaluating Coherence in Dialogue Systems using Entailment

news2024/10/3 4:32:32

Evaluating Coherence in Dialogue Systems using Entailment

coherence 英文中意味着连贯性、条理性。
这篇文章是面向对话应用的,更加关注于对话中上下位的连贯性。

 1. 直接转换为 NLI问题,premise-hypothesis问题。——
 2. 数据集是自己构造的。——数据集的质量保证上,好像是引入了5个人工检验。
 3. 连贯性是通过分级评价得到的,三个级别.,矛盾、中性、一致的。这种分类体系下真的能够较好的发现人类和机器之间的correlation吗?

抓住评测矩阵中的某一项指标做评估,比如一致性、完整性或者其他的性质。

这篇文章评估的是对话系统中的连贯性。

摘要部分

摘要部分,写的ok .
背景:Evaluating open-domain dialogue systems is difficult to the diversity of possible correct answers.
前人的研究:Automatic metrics such as BLEU correlately weak with human annotations,resulting in a significant bias in different models and datasets.
我们的研究:In this paper ,we present interpertable metrics for evaluating topic cohence by making use of distributed sentence representations.
结果:Results show that our metrics can be used as a surrogate for human judgement.

美 /ˈsʌrəɡət/,英 /'sʌrəɡət/
v. 代理, 【法】代替
n. 代理人, 代替, 〈英〉(宗教法庭上)主教代表, 【心】代用人物
adj. 替代的, 代用的

introduction部分

引入部分:
对话系统是什么?对话系统最关键的困难是什么?连贯性是评估对话系统最关键的指标
A challenging task of building dialogue systems lies in evaluating their systems.
什么情况下是好的dialogue? 能够sustain coherence的dialogue是好的对话。
最后1-2段介绍自己的工作:transform the consistency of dialogue system as the NLI question.
NLI 是natural language inference problem
NLI:premise 和hypothesis
NLI的重点是认识到一个假设是否是从一个前提中推断出来的

说明了为神魔要选择NLI? The intuition 这种选择背后的直觉是,人类对话中的话语往往遵循一个一致的、连贯的流程,每个话语都可以从之前的互动中推断出来。

模型部分

核心思路:Given a conversation history H and a generated response r, the goal is to understand the premise-hypothesis pair((H, r)) is entailing.
在表征模型预测结果时,建模的问题类型是分类。
Learn a function to predict one of the three catagorys (含义一致/矛盾/中性) given premise-hypothsis pairs.

定义何为不连贯?何为连贯?
如果一个机器的回答与它以前的话语直接矛盾,或者在整个对话过程中遵循不合逻辑的推理,就可以认为是不连贯的。

数据部分

数据部分采用人工合成的方法。
premise-hypothesis pairs, namely InferConvAI.

模型部分

use the entailment model to predict a score for the generated utterances.

diagonal history is premise and generated response r as hypothesis.

These models were trained on the InferConvAI dataset. During evaluation, we use our test dialogue corpus from Reddit and OpenSubtitles, in which the majority vote of the 4-scale human rating constitutes the labels

评价指标效果

(1)三个baseline
在评价指标效果时,三个baseline,three
textual similarity metrics (Liu et al., 2016) based
on word embeddings: Average (A), Greedy (G),
and Extrema (E)

是将sentence视为Word的集合,忽视了句子词序

(2)semantic similarity,它衡量生成的反应和对话历史中的语料之间的距离。

Universal Sentence Encoder (USE) (Cer et al., 2018)
带下标数字的表示:第几轮对话
Abert表示使用bert得到sentence的embedding,然后取平均作为最终的embedding。

SS应该是在整个句子的前提计算NLI的分值。
A/G/E是在单个Word的基础上,计算NLI的分值。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/7270.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文带你了解【抽象类和接口】

1. 抽象类概念 在面向对象的概念中,所有的对象都是通过类来描绘的,但是并不是所有类都是用来描绘对象的。如果一个类中没有包含足够的信息来描绘一个具体的对象,这样的类就是抽象类。 举个简单的例子 上图中,三角形&#xff0…

构建一个商业智能 BI 分析平台,公司CIO应该重点关注什么?

企业级商业智能 BI 分析平台的构建是一个系统型的工程,涉及业务分析需求的把控、各类数据资源的整合清洗、数据仓库的架构设计、可视化分析报表逻辑设计、IT 部门与业务部门的工作边界划分与配合等等居多环节。 每一个环节的重要性都不容忽视,第一是业务…

(算法设计与分析)第三章动态规划-第二节:动态规划之背包类型问题

文章目录一:01背包问题(1)题目描述(2)解题思路(3)完整代码二:分割等和子集(01背包变形)(1)题目描述(2)解题思路…

Java:Jar包反编译,解压和压缩

1、简述 JAR 文件就是 Java Archive ( Java 档案文件),它是 Java 的一种文档格式。 JAR 文件非常类似 ZIP 文件。准确的说,它就是 ZIP 文件,所以叫它文件包。JAR 文件与 ZIP 文件唯一的区别就是在 JAR 文件的内容中&a…

蓝桥杯必备算法分享——差分算法

AcWing—差分算法 文章目录AcWing---差分算法一、什么是差分?二、差分的作用三、一维差分模板四、二维差分五、二维差分构造方法图示:六、二维差分矩阵模板总结差分算法是前缀和算法的逆运算。两者可以对比着学习: 一、什么是差分&#xff1…

旭日图超越了传统的饼图和圆环图,能表达清晰的多层级和归属关系

“旭日图是什么?用来干什么?” “没听说过旭日图......” “旭日图不就是多层饼图嘛......” 鉴于很多人对旭日图都不太了解,那今天我们就用平台的旭日图为大家讲解。旭日图看似低调简单,却一点都不简单! 旭日图由多…

关于pool.apply_async的学习【参数问题】

一、学习 参考:(1条消息) python pool.apply_async调用 参数为dataset的函数 不执行问题解决_嗯嗲和滴的博客-CSDN博客_pool.apply_async参数 一个参数的情况 一定要加逗号 在只有一个参数要传时 需要写成列表/元组的形式: task_fun.apply_async(args[v…

从零开始学前端:垃圾回收机制,闭包,案例 --- 今天你学习了吗?(JS:Day11)

从零开始学前端:程序猿小白也可以完全掌握!—今天你学习了吗?(JS) 复习:从零开始学前端:作用域、执行顺序 — 今天你学习了吗?(JS:Day10) 文章目…

网络编程——封装和分用(图解)

一、什么是封装 💌💌💌网络编程中的封装,并不是Java面向对象思想里的封装,继承,多态的封装.它是应用程序通过TCP协议传送数据时,每一次进行包装送入网络中,像极了发快递时的你. 思考…

FFplay文档解读-51-多媒体资源

33. 多媒体资源 以下是当前可用多媒体源的说明。 33.1 amovie 这与电影源相同,但默认情况下会选择音频流。 33.2 movie 从电影容器中读取音频和/或视频流。 它接受以下参数: filename要读取的资源的名称(不一定是文件;它也可以是通过某…

[附源码]java毕业设计基于web的健康信息管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Oracle Primavera Unifier文档管理器(Document Manager)

目录 引言 介绍 引言 在 Oracle Primavera Unifier 中,文档管理器维护项目的所有文件和文档。每个项目/外壳都包含自己的文档管理器,另一个文档管理器驻留在公司级别。管理员确保员工和项目/shell 成员始终使用最新版本的文档,并使访问和分…

热成像仪在LED产品的应用

热成像仪对LED产品的检测 LED产品检测 LED作为取代传统照明工具(如白炽灯、卤素灯等)的新型光源,但其散热效果严重影响LED的实际使用寿命,散热工艺成为LED应用和发展的关键因素,红外热像仪可以进行LED温度检测,帮助验证散热工艺。…

如何对珍贵水生物标本提供三维重建,数字化技术助力长江大保护...

近日,由武汉白鱀豚保护基金会发起的“看见长江的美好”系列长江大保护行动中,英特尔 Evo X BMW i 打造了“移动数字探索工作室”,携手【云端地球】团队来到了拥有百年生命印记的地方,这里收藏着包括白鲟、白鱀豚、中华鲟、长江江豚…

密码在智能汽车数据安全领域的应用研究报告

开放隐私计算 开放隐私计算 开放隐私计算OpenMPC是国内第一个且影响力最大的隐私计算开放社区。社区秉承开放共享的精神,专注于隐私计算行业的研究与布道。社区致力于隐私计算技术的传播,愿成为中国 “隐私计算最后一公里的服务区”。 177篇原创内容 …

HTTP状态码301和302的区别

简介 在HTTP状态码中,3XX表示重定向,指网页发生了转移,重定向到目标地址中。 301:表示永久性转移 (Permanently Moved) 302:表示临时性转移(Temporarily Moved) 说明…

java基础新

目录 集合总结 ​编辑Java异常体系 常见的运行时异常? Object类有哪些方法 ​编辑权限修饰符 分布式锁 Redis和Zookeeper实现分布式所哪个效率高 分布式事务 事务失效的8种原因 TCC 如果出现网络连不通怎么办? CAP理论 CAP有哪些组合方式&…

3环境变量

文章目录前言1. 概念引入2. 环境变量PATH3. 本地环境变量与系统环境变量4. set 和 env5. main函数带参数前言 大家一开始学习Linux时候,是否对其各种命令感到过好奇,为何这样输入不同就会执行不同,他的底层实现逻辑到底是怎么样的呢? 在解答这个疑惑之前,我们需要学习环境变…

计算机网络-网络层(移动IP通信过程,网络层设备路由器,路由表与路由转发)

文章目录1. 移动IP2. 网络层设备(路由器)1. 移动IP 移动IP技术是移动结点(计算机/服务器等)以固定的网络IP地址,实现跨越不同网段的漫游功能. 并保证了基于网络lP的网络权限在漫游过程中不发生任何改变。 重点知识点: 移动结点…

互联网食堂大比拼,谁才是互联网养猪场?

虽然疫情导致经济不景气,但是互联网行业怎么会如此不禁波折呢? 果不其然,疫情下的大厂还是大厂! 互联网大厂的福利多多,其中最容易让人忽视,但也最让人羡慕的就是互联网大厂的食堂了。 民以食为天&#xff…