口语语言理解最新进展及前沿

news2024/11/19 10:41:40

口语语言理解

作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示信息,进而将这些信息为对话状态的追踪模块 D S T DST DST,
以及自然语言生成模块 N L G NLG NLG所使用
S L U SLU SLU任务通常包含以下两个任务:

  • 意图识别任务: intent detection
  • 槽位填充任务:slot filling
    以图1的句子「I like to watch action movie」为例,这两个任务的输出对应分别为Watch Movie和O, O, O, B-movie-type,I-movie-type, I-movie-type
    在这里插入图片描述

意图标注和槽位标注(BIO模式)

一般来将,我们可以将意图分类视作为一个句分类问题,研究也主要基于怎样对句子粒度的特征进行更好的表示,从传统特征表示到CNN,到基于RNN一系列模型等等,更好的句子表示被不断的挖掘。
意图识别问题可以被视作为一个序列分类问题,流行的方法从 C R F CRF CRF R N N RNN RNN再到 L S T M LSTM LSTM等等,研究为了对,对话单句里面的词进行更好的表示而不断挖掘。
传统的方法一般将意图识别和槽位填充视作两个独立的任务。忽视了这两个任务之间的共享信息,比如如果一个句子的意图是WatchMovie,那么这个句子就更可能包含movie name的槽位而不是music name的槽位。

考虑到这一点,随着对于联合模型的进一步挖掘,如图2所示,目前最好的工作,已经在 S L U SLU SLU领域的两个最广泛使用的数据集
ATIS[1]和SNIPS[2]上取得了96.6%和97.1%的槽位填充表现和98%到99%的意图识别表现。

在这里插入图片描述
图2 近期模型表现的趋势,目前SOTA(State-of-the-art)的工作在2020年取得了96.6%和97.1%的槽位填充表现和98%到99%的意图识别表现
如此高的分数不禁留给了我们研究者一个问题:我们已经完美地解决了口语语言理解这个任务了吗

我们将通过领域综述的方式解答这个问题,我们的综述内容主要包含三个方面:

  • 最近SLU领域进展的全面总结
  • 复杂情境下研究的挑战和机遇
  • SLU全面的代码,数据集等资源。

领域模型的分类

我们在本survey中提供了多元化的角度对模型进行了分类和归纳:
在这里插入图片描述
a:单任务模型、b是隐式联合建模、c是显式联合建模、d为预训练范式。

按照是否将意图识别任务和槽位填充任务看作联合任务。也可以将模型分类为单任务模型和联合模型

  • Single model:单任务模型
  • Joint model:联合模型
    单 任务工作主要集中在联合模型兴起之前,我们在文章中介绍了一些经典的两个任务上的单模型工作,比如RNN类型的探索,LSTM的引入,与CRF重构结合,句子信息利用上下文的探索等,并且为这些工作整理了结果。
    意图识别和槽位填充任务的经典单模型工作
    在这里插入图片描述
    在联合模型中,我们又可以根据共享信息是采用一个共享编码器隐式学习的,还是专门设计机构去进行任务之间交互的,去将联合模型分为隐式联合和显式联合
  • Implicit Joint: 隐式联合
  • Explicit Joint: 显式联合
    隐式联合模型中我们介绍了采用共享编码器的Joint ID and SF模型[7],将注意力机制引入的Attention bi-RNN模型[8]等等模型。我们节选了部分经常被使用作为baseline的模型,将他们的结果整理到表格中,方便研究者进行查阅。

意图识别和槽位填充任务联合模型表现

在这里插入图片描述
显式联合里面又可以根据交互的信息指导的利用方向将模型分为利用意图指导槽位的单方向交互(Single Flow Interaction)和两个方向互相交互的同时也使用槽位预测信息指导意图识别的双方向交互(Bidirectional Flow Interaction),单向交互包含了Slot-Gated模型[9],Self-Attention模型[10]和Stack-Propagation模型[11]等,双向交互介绍了Bi-Model[12],SF-ID[13],co-interactive transformer[14]等模型

  • 预训练范式
  • 非预训练范式
    此外,随着预训练模型的兴起,我们又将模型根据是否使用预训练模型的信息提取编码分为预训练范式的和非预训练范式的。当下研究中预训练在SLU的具体使用和其在一般的句子分类任务和序列分类任务的使用类似,以BERT模型为例,研究一般在句子的开头加入[CLS]符号作为句子信息的聚合锚定位置,然后将**[CLS]位置的编码作为句子的编码**,将其他位置的编码作为对应词的编码。我们介绍了BERT-Joint[15],Joint BERT +CRF[16]这些较为朴素直接的方法,和将编码器切换为预训练编码器进一步提升性能的Stack-Propagation +BERT[11],co-interactive transformer +BERT[14]等等相关的工作。

以我们提出的分类方式作为线索,我们可以更加清晰全面的对于当下研究提出的模型进行概括归类,深化我们对于领域研究的理解。

更复杂情境下的口语理解

新领域与挑战

我们之前的一个设定中,假定了一个单领域、单语言、单句对话等等较为强的假设下解决问题的情景。而在真实场景中,领域是较为灵活的,语言是较为多变的,单句对话情况是居于少数不利于用户体验的,所以该假定实际上限制了我们的应用能力,离我们的真实生活应用场景还有一段不小的距离。
我们在综述中对如下所述诸多重要的、具有更加复杂设定的新研究领域进行了相关工作的介绍与研究中所包含的挑战的总结

上下文的口语理解

实际情景中完成一个任务需要多轮次对话,多次的来-回而互相关联对话考验我们的系统能够更加有效的去获取上下文信息,我们介绍了领域的一项相关工作,包括采用记忆网络结构、动态利用上下文信息聚合等
总结了该领域包含的主要挑战有如何更好的将上下文信息进行聚合,以及如何克服远距离获取有效信息的障碍

多意图口语理解

在亚马逊内部语音数据集上,52%的对话都是具有多意图的,对句子能够多意图的设定能够更好的接近真实生活场景
为了我们介绍了一项相关工作,包括:联合进行多意图分类和槽位填充任务模型和进行多意图和槽位填充交互的模型等等,我么总结了当下的挑战主要在于,解决如何有效的对多意图和槽位填充进行交互和缺少相关的表中数据等问题。

中文口语理解

中文社区需要中文口语理解以进行相关的工作,我们介绍了一项相关工作,如字粒度编码和词粒度和字粒度结合信息的编码的方法
当下中文口语理解所面临的挑战是,如何有效的将词语信息集成以及如何处理特有的中文分词多种分词引发的问题

跨领域口语理解

对于单个领域的假设,我们限制了模型的表现,实际上我们的模型虽然在具有大量数据上的单领域语料上取得了良好的表现,但是却无法在切换到新领域后仍然保持相关的表现,限制了模型在实际使用中的实用性。
我们将当前的跨领域模型分类为隐式的多领域的信息编码共享和多领域的模型编码交互两类,介绍了一些相关的工作。我们总结该领域主要的挑战还有领域之间的信息的转化和领域零资源情景下模型表现。

  • 领域之间的信息转化
  • 领域零资源情境下的模型表现。

跨语言口语理解

我们这里所指的跨语言口语理解是指赋予模型在英语语言与语料训练之后能具有直接在其它语言上进行使用的能力,鉴于我们拥有充足的英语资源而在其他语言以及其他诸多小语种内没有那么多的资源,这个领域也逐渐引起大家的重视

我们介绍了一些相关的工作,包含一些专门为跨语言口语理解提出来的数据集以及为了不同语言的词语更好地对齐的数据增强方法。我们总结该领域的研究主要的挑战有解决不同词语之间的对齐,和用来处理新语言不断出现的模型的生成性

低资源口语理解

我们之前设定的假设我们具有相对充足的语料进行训练,但是实际上随着应用的快速部署,经常有新出现的对话情境下的数据很少甚至没有数据的情况。
我们将这些情况对应的研究分类为:少样本口语理解、零资源口语理解、和无监督口语理解,三个类别,我们对其进行了相关概念和工作的介绍。
我们总结该领域的挑战主要在于,当前还很少有演技专注于如何在低资源条件下,充分利用意图和槽位的连接以及当前公开用于衡量模型能力的Benchmark仍旧缺少.

总结

  • 慢慢的将该领域的知识点,啥的全部都将其搞彻底,研究透彻。
    *慢慢的理解该领域的全部研究内容都行啦的理由与打算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/163423.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企企购商城 | 破解降本难题,非生采购“利器”来了

近年来,疫情反复无常,全球市场环境动荡不安,在瞬息万变的环境下,很多企业都处于降本处境,采购降本成了其中的重要一环。其中,非生采购作为贯穿企业各个职能板块的采购活动,众多国际先进的企业已…

应用PID算法对ABS系统的仿真和分析

1、内容简介略635-论文V2 可以交流、咨询、答疑2、内容说明摘要:本文旨在设计一种利用模糊控制理论优化的pid控制器,控制abs系统,达到对滑移率最佳控制范围的要求 ,所提出的方案采用级联控制架构:设计用于外环中的车轮…

零基础开始QT绘图(6)

前面我们开始提到了GraphicView的使用,也提到GraphicsItem的使用,并且开始了自定义GraphicsItem的编写,而且上次我们的GraphicsItem也是可以拖动了,但这离我们需要的效果还有一定的距离。 所以,这次,我们进…

工程电磁设备在2018年杭州电磁大会的报告

1 方法原理 本篇是对多频电磁方法,应用的解读。 本汇报讲述了EMI传感器的基本情况,以及用手持多频电磁仪进行实际探测应用的例子。 什么是电磁感应?用发射装置(TX)激发谐波,产生一次场(Primary field),地下导体目标会相应产生涡流电磁场,产生二次场,被接收装置(RX…

「网络安全渗透」如果你还不懂CSRF?这一篇让你彻底掌握

1 什么是 CSRF 面试的时候的著名问题:"谈一谈你对 CSRF 与 SSRF 区别的看法" 这个问题,如果我们用非常通俗的语言讲的话,CSRF 更像是钓鱼的举动,是用户攻击用户的;而对于 SSRF 来说,是由服务器…

14.0、Linux-yum方式安装 docker

14.0、Linux-yum方式安装 docker 第一步: 检测 CentOS7 -> cat /etc/redhat-release 第二步: 用以下命令安装准备环境 -> yum -y install gcc yum -y install gcc-c 第三步: 如果之前安装过 docker 的,先用以下命令删…

【每日一题】【LeetCode】【第十三天】移动零

解决之路 题目描述 测试案例(部分) 第一次 看到这题目,第一时间还真想到了双指针法(暴力解法是个会写代码的都能第一时间想到,所以自己学会了尽量不第一时间用暴力解法) right的初始位置元素若为0&…

Jenkins-Slave分布式架构搭建

♥ Jenkins的分布式构建,在Jenkins的配置中叫做节点,分布式构建能够让同一套代码或项目在不同的环境(如:Windows和Linux系统)中编译、部署等。 ♥ 将jenkins项目发布在不同服务器上(分布jenkins工作空间,部署项目到不同…

java 简单了解spring之(IOC容器)

IOC 容器 是spring的一个重要组成部分 IOC 翻译过来叫控制反转 他在做的事是 降低计算机代码的耦合度 这个过程叫IOC 通过控制反转 对象在被创建时 由一个调控系统内所有对象的外界实体将将其所依赖的对象引用传递给他,也可以说,依赖被注入到对象中 说简…

[oeasy]python0048_取整_int_float_浮点型_cast_扮演_tab_制表键_制表符

转化为10进制 回忆上次内容 上次 把其他进制 转化回 十进制 用的是 int 函数 int 来自于 integer 同源词 还有 integrateentire意思都是完整的 完整的 和 零散的 相对 可以把 零散的小数 转化为 完整的整数吗?🤔 取整 可以 把一个浮点型的小数 取…

【Proteus仿真】【51单片机】酒精浓度检测系统设计

文章目录一、功能简介二、软件设计三、实验现象联系作者一、功能简介 本项目使用Proteus8仿真51单片机控制器,使用LCD1602显示模块、按键模块、LED和蜂鸣器、MQ-3酒精传感器模块等。 主要功能: 系统运行后,LCD1602显示酒精浓度值和阈值&…

【自学Docker】Docker命令

Docker命令 Docker命令分类 Docker环境信息 docker [info|version]Docker容器生命周期管理 docker [create|exec|run|start|stop|restart|kill|rm|pause|unpause]Docker容器操作运维 docker [ps|inspect|top|attach|wait|export|port|rename|stats]Docker容器rootfs命令 …

AMBA--AHB总线协议学习及Verilog实现与仿真(一)

1、AHB总线概述 AHB:Advanced High-performance Bus,即高级高性能总线。AHB总线是SOC芯片中应用最为广泛的片上总线。下图是一个典型的基于AMBA AHB总线的微控制器系统: 基于AMBA AHB的设计中可以包含一个或多个总线主机,通常一个系统里至少…

MySQL——如何正确的显示随机消息

在之前的文章中有介绍order by语句的几种执行模式。考虑如下场景:有一个APP,有一个随机显示英语单词的功能,也就是根据每个用户的级别有一个单词表,然后这个用户每次访问首页的时候,都会随机滚动显示三个单词。会发现随…

PhotoZoom2023专业的图片无损放大软件最新V8版功能介绍

PhotoZoom 8 全新版本 震撼来袭。 一款划时代的、技术上产生革命性影响的数码图片放大工具。 我们获取图片的方法,一般是从度娘图片和各个图库里找素材。但一般网上搜索到的很多图片像素都非常小,普通方法放大就像打了马赛克一样,根本没法直接…

基于STM32的室内环境监测系统、基于STM32的智能家居系统

程序源码无删减 整个开发用到的所有资料如下: 开发软件MDK JLINK驱动安装包及相关文件 stm32开发资料-stm32f103c8t6 PCtoLCD2002 取模软件 stm32配套的液晶屏资料以及相关程序 Stm32f103c8t6 UCOSII 各传感器的数据手册以及程序、BMP180、DHT11温度模块、HC-SR04 …

EthernetOnTCP--基于Qt QSslSocket 套接字在PCAP 集线器上实现以太网隧道

在上一篇文章中,我们使用PCAP建立了本地的软件集线器(Hub)。考虑到较远距离的跨车间调试,有必要使用Tcp连接构造一个以太网的隧道,使得两个车间之间的调试设备可以虚拟的连接在一个Hub上。当然,我们可以使用…

【ROS】—— 机器人系统仿真 —Rviz中控制机器人模型运动与URDF集成Gazebo(十五)

文章目录前言1. Arbotix使用流程1.1 安装 Arbotix1.2 创建新功能包,准备机器人 urdf、xacro 文件1.3 添加 Arbotix 配置文件1.4 编写 launch 文件配置 Arbotix1.5 启动 launch 文件并控制机器人模型运动2. URDF集成Gazebo2.1 URDF与Gazebo基本集成流程2.2 URDF集成G…

Spring Boot整合Redis(gradle + gson + lombok + redisTemplate)

本文创建了gradle项目,用来整合Spring Boot和Redis,用到了gradle gson lombok redisTemplate等技术。 重要文件: 文件名说明build.gradlegradle配置文件Redis2Application.java启动类Controller.java控制器类StudentService.java业务逻辑…

深入解析Linux虚拟化KVM-Qemu分析之virtio设备

说明: KVM版本:5.9.1QEMU版本:5.0.0工具:Source Insight 3.5, Visio 1. 概述 先来张图: 图中罗列了四个关键模块:Virtio Device、Virtio Driver、Virtqueue、Notification(eventfd…