任务型对话对话策略学习的强化学习方法

news2024/12/25 9:26:23

任务型对话(TOD)系统旨在帮助用户解决从天气咨询到计划安排的一系列问题。完成任务的途径有二。

其一是端到端途径:直接将当前对话内容与系统的自然语言反映相关联。此种方法多是采用序列到序列的模型,然后进行监督训练。

第二种是模组途径:将系统分为四个相互依存的的组成部分:自然语言理解(NLU)、对话状态追踪(DST)、对话策略学习(DPL)和自然语言生成(NLG),如图1所示。

两种方法都有各自的优劣。端到端途径更灵活且对数据注释的需求更少。但却需要大量数据,且其黑盒结构完全不进行说明与控制。相反,模组途径更易理解和实施。尽管整个系统很难进行整体优化,但大部分商业对话系统都更倾向于管道途径。本文的研究也是对模组途径进行综述并总结对话策略学习的当前进展。文章会简单介绍管道途径四个模块的不同功能,然后对对话策略学习模块进行进一步说明。

四个模块中,NLU旨在将输入句子的意图和槽位识别为第一个直接与用户交互的模块。然后,DST将先前提取出的所有意图和槽位作为一个内部对话状态来呈现。接着,DPL模块根据输入的状态采取行动,来满足用户需求。最后,NLG模块将行动转变为自然语言形式并输出。在管道途径中,DPL是联系DST模块和NLG模块的中间纽带,直接关系到对话系统的成败,故相当重要。

当前,强化学习(RL)算法的发展极大推动了DPL研究的发展。列文等人(Levin et al.)是第一个把DPL当作马尔可夫决策过程(MDP)问题处理的团队。他们列出了将DPL建模为一个MDP问题的复杂度,并证明了将RL算法用于优化对话策略的合理性。此后,大部分研究都开始研究将RL算法实际应用于对话系统时出现的技术问题,并提出解决方案。同时,还有一批研究者则在试图将监督学习(SL)技巧运用在DPL。他们的主要想法就是将对话策略学习当作一个多级分类问题,将行动和状态反应分别当作标签和输入来处理。但是,SL技术有一个臭名昭著并且代价高昂的缺陷,那就是它并不考虑当前决定对于未来的影响,故所作决定多为次优。

深度学习领域的突破,使得把神经网络同RL结合起来的深度强化学习(DRL)方法让很多顺序决策问题的学习策略获得成功。其中包括像雅达利开发的游戏、围棋游戏Go以及多种多样的机器人任务等模拟环境。因此,DRL在单域对话领域受到了许多关注,并取得了可喜成果。神经模型可以提取高水平对话状态和解码复杂较长的语句。这是早期的所面临的最大挑战。随着对DPL的研究兴趣逐渐转移到更复杂的多域数据集,许多RL算法开始面临可扩展性问题。

当前,已有不少关注如何让RL个体在多域对话场景中更适应以及表现更好的研究。但几乎没有对过往大量有关将强化学习(RL)应用于TOD系统中的DPL的文献综述。格拉斯尔(Grassl)研究过RL在四种对话系统中的使用情况,即社交聊天机器人(chatbots)、信息机器人(infobots)、任务型对话机器人和个人助理机器人。但是,其对于将RL应用于TOD系统的过程和挑战并未充分讨论。类似地,戴氏(Dai et al.)等人虽对对话管理的进展和挑战进行了综述,但由于其研究兴趣的涵盖面广,故其中涉及到有关DPL中RL方法的讨论相当有限。而且,RL对话系统在五个核心的RL要素,即环境、策略、状态、行动和奖励方面通常有不同的设置。以往研究并没有考虑到不同系统的不连续设置,因而对这些系统之间进行的比较并不公平。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/745853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

can 相关背题

1 CAN FD 和CAN的 区别: CAN-FD:一帧数据最长64字节。以理解成CAN协议的升级版,只升级了协议,物理层未改变。传输速率不同、数据长度不同、帧格式不同、ID长度不同。 1)速率不同: CAN:最大传…

机械臂的雅克比矩阵推导

1. 线速度和角速度的递推通式推导 p i p i − 1 R i − 1 r i − 1 , i i − 1 \mathbf{p}_{i}\mathbf{p}_{i-1}\mathbf{R}_{i-1} \mathbf{r}_{i-1, i}^{i-1} pi​pi−1​Ri−1​ri−1,ii−1​ p i − 1 \mathbf{p}_{i-1} pi−1​是 { i − 1 } \{i-1\} {i−1}坐标系的原点的…

获取全国各地行政区的genjson数据以及使用leaflet加载行政区数据

前言 在写代码之前,我们需要做一些准备工作,需要有一份某个行政区的geojson数据,如果你没有也没关系,我们可以去下载,地址:geojson数据下载网站 打开网站,选择自己想要获取的行政区&#xff0…

FPGA学习——按键控制LED流水灯(附源码 无按键消抖版本)

文章目录 一、前言二、开发板按键原理图三、源码四、实现效果 一、前言 在博主的cyclone4开发板上一共有4个按键,本次实验的目的是为了实现每按下一次按键,都会使开发板上的4个LED灯切换一次状态,博主一共设计了四种状态,分别是&…

滴水逆向三期笔记与作业——02C语言——04 IF语句逆向分析下

OneNote防丢失。 海哥牛逼。 目录 一、if…else...反汇编1、反汇编特点2、案例分析 二、作业1三、IF...ELSE IF...ELSE IF..多分支语句1、多分支反汇编2、案例分析 四、作业2 一、if…else…反汇编 1、反汇编特点 2、案例分析 二、作业1 解: 分析图: 分…

【基于矢量射线的衍射积分 (VRBDI)】基于矢量射线的衍射积分 (VRBDI) 和仿真工具(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

前端开发中常见的20个数组方法,你掌握了几个?

文章目录 前言一、常见的数组方法1.1 push (将指定的元素添加到数组的末尾,并返回新的数组长度)1.2 pop (从数组中删除最后一个元素,并返回该元素的值)1.3 shift (从数组中删除第一个元素,并返回该元素的值)1.4 unshift (向数组首位添加一个或…

路径规划算法:基于鹈鹕优化的路径规划算法- 附代码

路径规划算法:基于鹈鹕优化的路径规划算法- 附代码 文章目录 路径规划算法:基于鹈鹕优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法鹈鹕…

VirtualBox单机版安装K8S+TF

本文参考自:kubernetes最新版安装单机版v1.21.5_kubernetes下载_qq759035366的博客-CSDN博客 只用一台VB虚拟机,装K8S加Tungsten Fabric。 0. 提前避坑: 0.1 Tungsten Fabric的VRouter对Linux内核版本有要求,以下内核版本才…

音视频——码率、帧率越高越清晰?分辨率、像素、dpi的关系

一 前言 本期我介绍一下视频的一些基础概念,如帧率、码率、分辨率、像素、dpi、视频帧、I帧、P帧、gop等。我i初步学习音视频,给这些专业词汇进行扫盲 会解释多少码率是清晰的,是否帧率越高越流畅等问题。 这些概念是比较杂乱的&#xff0c…

微信二维码登录,修改下面提示的字体和样式

背景 由于业务需要,需要把微信二维码下面默认的提示文字进行修改,如下图所示: 需要修改上面红色框内选择的字体,在研究的过程中,发现好多人都在查询这个问题,并且有些网友思路也是对的。可能只是方式没对。…

库存扣减设计和下单

这里写目录标题 前言正文库存设计原则常见库存扣减方案秒杀订单域设计整体服务领域模型领域服务领域事件之下单下单整体流程同步下单库存预扣减库存扣减 总结参考链接 前言 大家好,我是练习两年半的Java练习生,前面我们已经介绍了领域驱动和缓存设计&am…

路径规划算法:基于金豺优化的路径规划算法- 附代码

路径规划算法:基于金豺优化的路径规划算法- 附代码 文章目录 路径规划算法:基于金豺优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法金豺…

【网络编程】应用层协议——HTTPS协议(数据的加密与解密)

文章目录 一、HTTP协议的缺陷二、HTTPS协议的介绍三、加密与解密3.1 加密与解密流程3.2 为什么要加密和解密3.3 常见的加密方式3.3.1 对称加密3.3.2 非对称加密3.3.3 数据摘要(数据指纹)3.3.4 数据签名 四、HTTPS工作过程4.1 中间人攻击方式4.2 数字证书…

50行PyTorch代码中的生成对抗网络(GAN)

一、说明 2014年,蒙特利尔大学的伊恩古德费罗(Ian Goodfellow)和他的同事发表了一篇令人惊叹的论文,向世界介绍了GANs或生成对抗网络。通过计算图和博弈论的创新组合,他们表明,如果有足够的建模能力,相互竞争的两个模型将能够通过普通的旧反向传播进行共同训练。 二、原…

大学啥也没有学到,跑到培训班里学技术,真的有用吗-以下来自一位认识的朋友投稿-王大师

在学习IT技术的过程中,你是否也被安利过各种五花八门的技术培训班?这些培训班都是怎样向你宣传的,你又对此抱有着怎样的态度呢?在培训班里学技术,真的有用吗?–王大师告诉你 1、掌握 JAVA入门到进阶知识(持…

极验滑块(3代)验证码细节避坑总结

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 关于 w 值…

惊!这道题正确率竟然只有 22%:答案详解

《Go 语言爱好者周刊》第 148 期有一道题目:以下代码输出什么? package mainimport ("fmt" )func main() {m : [...]int{a: 1,b: 2,c: 3,}m[a] 3fmt.Println(len(m)) }A:3;B:4;C:10…

面试官:过滤器和拦截器有什么区别?

过滤器(Filter)和拦截器(Interceptor)都是基于 AOP(Aspect Oriented Programming,面向切面编程)思想实现的,用来解决项目中某一类问题的两种“工具”,但二者有着明显的差…

AI原生云向量数据库Zilliz Cloud创建备份快照

目录 创建快照 调整快照保留天数 相关文档 快照是为某个集群在指定时间点创建的备份。您可以基于快照创建新的集群或将快照用作集群数据备份。 说明 快照功能目前仅对签约用户开放。如需使用该功能,请联系我们。 创建快照 快照创建是异步操作,创建所需时间取决于集群大…