A Neural Conversational Model 读后感

news2024/11/25 6:16:49

目录

摘要

1、介绍

2、相关工作

3、模型

4、数据(后面都是具体的东西,不赘述)

5、总结


使用微软翻译得到的中文原文:

摘要

会话建模是自然语言理解和机器智能中的一项重要任务。尽管存在以前的方法,但它们通常仅限于特定领域(例如,预订机票)并且需要手工制定的规则。在本文中,我们为这项任务提出了一种简单的方法,它使用最近提出的序列到序列框架。

我们的模型通过在给定前一个句子或对话中的句子的情况下预测下一个句子来进行对话。我们模型的优势在于它可以进行端到端的训练,因此需要的手工规则要少得多。

我们发现这个简单的模型可以在给定大型会话训练数据集的情况下生成简单的会话。我们的初步结果表明,尽管优化了错误的目标函数,但该模型能够很好地进行对话。它能够从特定领域的数据集以及大型、嘈杂和一般的电影字幕领域数据集中提取知识。在特定领域的 IT 帮助台数据集上,该模型可以通过对话找到技术问题的解决方案。在嘈杂的开放域电影脚本数据集上,该模型可以执行简单形式的常识推理。正如预期的那样,我们还发现缺乏一致性是我们模型的常见故障模式。

1、介绍

神经网络端到端训练的进步已经在语音识别、计算机视觉和语言处理等许多领域取得了显着进展。 最近的工作表明,神经网络可以做的不仅仅是分类,它们可以用来将复杂的结构映射到其他复杂的结构。这方面的一个例子是将一个序列映射到另一个在自然语言理解中具有直接应用的序列的任务(Sutskever et al., 2014)。该框架的主要优点是它几乎不需要特征工程和领域特异性,同时匹配或超过最先进的结果。我们认为,这一进步使研究人员能够针对哪个领域开展任务。知识可能不容易获得,或者对于手动设计规则太难的任务。

会话建模可以直接从这个构想中受益,因为它需要查询和响应之间的映射。 由于这种映射的复杂性,会话建模以前被设计为在非常狭窄的领域,并主要通过特征工程来辅助实现。在这项工作中,我们使用先前序列或者RNN生成的序列来预测下一个序列,来尝试建立一个对话模型任务。 我们发现这种方法在生成流利和准确的对话回复方面可以做得非常好。

我们在来自 IT 问答帮助台对话数据集的聊天会话上测试该模型,发现该模型有时可以跟踪问题并为用户提供有用的答案。 我们还对从嘈杂的电影字幕数据集中获得的对话进行了实验,发现该模型可以进行自然对话,有时还可以执行简单形式的常识推理。在这两种情况下,与 n-gram 模型相比,循环网络获得了更好的适应度,并捕获了重要的长期相关性。 从定性的角度来看,我们的模型有时能够产生自然的对话。

2、相关工作

我们的方法基于最近提出的使用神经网络将序列映射到序列的工作(Kalchbrenner & Blunsom,2013;Sutskever 等人,2014;Bahdanau 等人,2014)。 该框架已用于机器翻译,并在 WMT'14 数据集的英法和英德翻译任务上取得了改进(Luong 等人,2014;Jean 等人,2014)。 它还被用于其他任务,例如解析 (Vinyals et al., 2014a) 和图像加字幕 (Vinyals et al., 2014b)。由于众所周知普通 RNN 存在梯度消失的问题,因此大多数研究人员使用长短期记忆 (LSTM) 递归神经网络的变体 (Hochreiter & Schmidhuber, 1997)。

我们的工作也受到最近神经语言建模成功的启发(Bengio 等人,2003;Mikolov 等人,2010;Mikolov,2012),这表明递归神经网络是自然语言的相当有效的模型。最近,Sordoni 等人的工作和Shang等人,使用循环神经网络对简短对话中的对话进行建模(在 Twitter 式聊天中训练)。

在过去的几十年中,许多研究人员一直在追求构建机器人和会话代理,提供详尽的参考文献列表超出了本文的范围。 然而,这些系统中的大多数都需要一个相当复杂的多阶段处理流程(Lester 等人,2004;Will,2007;Jurafsky & Martin,2009)。我们的工作与传统系统不同,它提出了一种端到端的方法来解决缺乏领域知识的问题。 原则上,它可以与其他系统相结合,对候选回答的短名单进行重新评分,但我们的工作是基于通过概率模型生成答案,该模型经过训练以在某些情况下最大化答案的概率。

3、模型

我们的方法利用了(Sutskever et al., 2014)中描述的序列到序列(seq2seq)框架。该模型基于循环神经网络,一次读取输入序列一个标记,并预测输出序列,也是一次一个标记。在训练过程中,将真实的输出序列赋予模型,因此可以通过反向传播来完成学习。 该模型经过训练以在给定上下文的情况下最大化正确序列的交叉熵。 在推理过程中,假设没有观察到真实的输出序列,我们只需将预测的输出标记作为输入来预测下一个输出。 这是一种“贪婪”推理方法。一种不那么贪婪的方法是使用束搜索,并在上一步将几个候选者提供给下一步。 可以根据序列的概率来选择预测的序列。

具体来说,假设我们观察到有两个回合的对话:第一个人说“ABC”,第二个人回答“WXYZ”。 我们可以使用循环神经网络,并训练将“ABC”映射到“WXYZ”,如图 所示。模型在接收到序列结束符号“<eos>”时的隐藏状态可以看作是思想向量,因为它存储了句子或思想“ABC”的信息。

该模型的优势在于其简单性和通用性。 我们可以将此模型用于机器翻译、问答和对话,而无需对架构进行重大更改。将此技术应用于对话建模也很简单:输入序列可以是迄今为止已对话内容(上下文)的串联,输出序列是回复。

然而,与翻译等更简单的任务不同,像序列到序列这样的模型将无法成功“解决”建模对话的问题,因为有几个明显的简化:被优化的目标函数没有捕捉到通过人工实现的实际目标沟通,这通常是长期的,并且基于信息交换而不是下一步预测。缺乏确保一致性和一般世界知识的模型是纯无监督模型的另一个明显限制。

4、数据(后面都是具体的东西,不赘述)

在我们的实验中,我们使用了两个数据集:一个封闭域IT 帮助台故障排除数据集和开放域
电影成绩单数据集。两个数据集的详细信息。

5、总结

个人感觉,这篇报告就是一个成果展示报告,大致了解一下就行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/674922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL数据库:数据库的约束以及数据的聚合、联合查询

目录 一.关系模型的简要概述 二.数据库的约束 2.1约束类型 2.2NULL约束 2.3 UNIQUE&#xff1a;唯一约束 2.4 默认约束 2.5 PRIMARY KEY&#xff1a;主键约束 2.6 FOREIGN KEY&#xff1a;外键约束 2.7 CHECK约束 三.高效率查询 3.1高效率查询的分类 3.2聚合查询 …

Nginx热升级到1.23.4过程指导手册

一、问题描述 因环境内部安全扫描发现CVE-2021-23017、CVE-2022-41741、CVE-2022-41742、CVE-2019-20372漏洞&#xff0c;经分析后&#xff0c;需要将nginx升级到1.23.4版本&#xff1b; 现场环境&#xff1a;centos7.4 1708、nginx 1.20.1 资料&#xff1a;软件下载、360安全…

spring框架-循环依赖问题(二)

文章目录 什么是循环依赖解决循环依赖的办法知识扩展 什么是循环依赖 两个或多个类之间存在彼此依赖的情况,形成一个循环依赖链 代码&#xff1a; 单例bean的循环依赖&#xff1a; 先了解Bean的生命周期&#xff1a;1.实例化 2.初始化、3.使用 4.销毁 详细了解Bean生命周期…

数据库高级

数据库高级&#x1f985; 文章目录 数据库高级&#x1f985;范式&#x1f98d;什么是范式&#x1f40a;第一范式——1NF&#x1f996;第二范式——2NF&#x1f41f;第三范式——3NF&#x1f409;总结&#x1f419; 五大约束&#x1f40f;主键约束&#x1f421;外键约束&#x1…

第五章 ResNeXt网络详解

系列文章目录 第一章 AlexNet网络详解 第二章 VGG网络详解 第三章 GoogLeNet网络详解 第四章 ResNet网络详解 第五章 ResNeXt网络详解 第六章 MobileNetv1网络详解 第七章 MobileNetv2网络详解 第八章 MobileNetv3网络详解 第九章 ShuffleNetv1网络详解 第十章…

网络套接字函数 | socket、bind、listen、accept、connect

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和…

CSS3-补充-结构伪类选择器

结构伪类选择器 作用&#xff1a;在HTML中定位元素 优势&#xff1a;减少对于HTML中类的依赖&#xff0c;有利于保持代码整洁 场景&#xff1a;常用于查找某父级选择器中的子元素 选择器&#xff1a; 选择器 …

SAC算法小结

算法SAC 基于动态规划的贝尔曼方城如下所示&#xff1a; 则&#xff0c;基于最大熵的软贝尔曼方程可以描述为如下的形式&#xff1a; 可以这么理解soft贝尔曼方程&#xff0c;就是在原有的贝尔曼方程的基础上添加了一个熵项。 另外一个角度理解soft-贝尔曼方程&#xff1a; …

Vue-组件自定义事件(绑定和解绑)

组件自定义事件(绑定) 像click,change这些都是js的内置事件&#xff0c;我们可以直接使用&#xff0c;本次我们学习自己根据需求打造全新的事件&#xff0c;但是js内置的是给html元素用的,本次的自定义事件是给组件用的 注意&#xff1a;组件上也可以绑定原生DOM事件&#xf…

(十一)CSharp-LINQ(1)

一、LINQ 数据库可以通过 SQL 进行访问&#xff0c;但在程序中&#xff0c;数据要被保存在差异很大的类对象或结构中。由于没有通用的查询语言来从数据结构中获取数据。所以可以使用 LINQ 可以很轻松地查询对象集合。 LINQ 高级特性&#xff1a; LINQ 代表语言集成查询。LIN…

【机器学习】信息熵和信息度量

一、说明 信息熵是概率论在信息论的应用&#xff0c;它简洁完整&#xff0c;比统计方法更具有计算优势。在机器学习中经常用到信息熵概念&#xff0c;比如决策树、逻辑回归、EM算法等。本文初略介绍一个皮毛&#xff0c;更多细节等展开继续讨论。 二、关于信息熵的概念 2.1 …

尚硅谷课程vue学习(一)

目录 data两种写法el两种写法由vue管理的函数&#xff0c;一定不要写箭头函数&#xff0c;不然this指向windows实例了MVVM模型defineProperty属性数据代理v-on: v-bind:键盘事件keyup keydowncomputed计算属性监视属性watch监视属性和计算属性区别绑定class和style属性条件渲染…

cocosCreator 3.3~6 安卓热更新官方详细示例

官方的热更新虽给出了示例和源码&#xff0c;但是一些细节的地方和步骤还是没说清楚&#xff0c;导致新手包括我死活是运行不起来&#xff0c;热更新失败&#xff01;很打击人啊。这里有必要给出新手的热更新步骤&#xff0c;前提是你安装了Node.js和python环境&#xff0c;我装…

chatgpt赋能python:更新Python所有库,避免安全漏洞和兼容性问题!

更新 Python 所有库&#xff0c;避免安全漏洞和兼容性问题&#xff01; Python 是当今最受欢迎的编程语言之一&#xff0c;拥有强大而多功能的 API 和丰富的第三方库来支持开发&#xff0c;如 numpy、pandas、tensorflow 等等。但是&#xff0c;这些库不断地更新与改进&#x…

端午作业1

只要文件存在&#xff0c;就会有唯一对应的inode号&#xff0c;且相应的会存在一个struct inode结构体。在应用层通过open&#xff08;&#xff09;打开一个设备文件&#xff0c;会对应产生一个inode号&#xff0c;通过inode号可以找到文件的inode结构体 根据inode结构体中文件…

【Dart语言解密】想要深入了解Dart语法和类型变量吗?

快来读读这篇文章吧&#xff01;本文从Dart信息表示的角度出发&#xff0c;详细讲解了Dart的基础语法和类型变量。通过本文的学习&#xff0c;你将会对Dart语言有更深入的认识和理解&#xff0c;更好地掌握Dart的开发技巧和实践应用。快来一起解密Dart语言吧&#xff01; 1 Da…

数据透视表 - 学习笔记

教程资源&#xff1a;数据透视表_哔哩哔哩_bilibili 目录 一、内容概括 数据操作&#xff1a; 案例&#xff1a; 二、数据操作 &#xff08;一&#xff09;数据清洗 &#xff08;二&#xff09;创建数据透视表 1、数据格式 2、显示方式 3、分组 4、修改数据源 5、…

Web 安全之 HSTS 详解和使用

HSTS&#xff08;HTTP Strict Transport Security&#xff09; 是一种网络安全机制&#xff0c;可用于防范网络攻击&#xff0c;例如中间人攻击和 CSRF&#xff08;Cross-Site Request Forgery&#xff09;等攻击。本文将详细介绍 HSTS 的工作原理、应用场景以及如何在网站中开…

【计算机视觉 | 目标检测】arxiv 计算机视觉关于分类和分割的学术速递(6月 22 日论文合集)

文章目录 一、分类相关(4篇)1.1 Annotating Ambiguous Images: General Annotation Strategy for Image Classification with Real-World Biomedical Validation on Vertebral Fracture Diagnosis1.2 Benchmark data to study the influence of pre-training on explanation pe…

无需专业知识!学会用TensorFlow 2实现天气识别的秘诀

💡《目标识别100例》使用的是Python语言、TensorFlow框架,包含了几十种CNN算法案例💎 附有 🖥 源码 ,可一键运行,避免调试烦恼🏆 课程大作业、毕业论文可直接考借鉴🎈 同时 附带各种算法原理及对应的代码教程,用户可根据自身情况快速排列组合,在不同的数据集上实…