2018 年 NLP 的 10 个令人兴奋的想法

news2025/1/22 1:05:24

一、说明

        这篇文章收集了有影响力的 10 个想法,我们将来可能会看到更多。

       对于每个想法,我们将重点介绍 1-2 篇执行良好的论文。为了保持列表简洁,这里没有涵盖所有相关工作。该列表必然是主观的,涵盖主要与迁移学习和泛化相关的想法。其中大多数(除了一些例外)都不是趋势(但我怀疑有些可能会在 2019 年变得更加“时尚”)。

1) 无监督 MT

        ICLR 2018 上有两篇无监督的 MT 论文。令人惊讶的是,它们根本有效,但与监督系统相比,结果仍然很低。在 EMNLP 2018 上,无监督 MT 取得了长足的进步,来自同一两组的两篇论文比他们以前的方法有了显着改进。我的亮点:

  • 基于短语的神经无监督机器翻译(EMNLP 2018):该论文在提炼无监督机器翻译的三个关键要求方面做得很好:良好的初始化、语言建模和反向任务建模(通过回译)。这三个在其他无监督的情况下也是有益的,我们将在下面看到。对逆向任务进行建模可以强制执行循环一致性,这已用于不同的方法中,尤其是在 CycleGAN 中。该论文进行了广泛的实验,甚至对两种资源匮乏的语言对(英语-乌尔都语和英语-罗马尼亚语)进行了评估。我们希望将来能看到更多关于低资源语言的工作。

无监督 MT 的三个原则的玩具插图。A) 两个单语数据集。B) 初始化。C) 语言建模。D) 回译(Lample et al., 2018)。

2) 预训练语言模型

        使用预训练语言模型可能是今年最重要的 NLP 趋势,因此我不会在这里花太多时间。已经有大量令人难忘的方法:ELMo、ULMFiT、OpenAI Transformer 和 BERT。我的亮点:

  • 深度语境化单词表示 (NAACL-HLT 2018):介绍 ELMo 的论文广受赞誉。除了令人印象深刻的实证结果外,它的亮点是仔细的分析部分,它梳理了各种因素的影响并分析了表示中捕获的信息。词义消歧 (WSD) 分析本身(左下方)执行得很好。两者都表明,LM 本身提供的 WSD 和 POS 标记性能接近最先进的技术。

与基线相比,第一层和第二层双向语言模型的词义消歧(左)和 POS 标记(右)结果(Peters et al., 2018)。

3) 常识推理数据集

        将常识纳入我们的模型是前进的最重要方向之一。然而,创建好的数据集并不容易,即使是流行的数据集也显示出很大的偏差。今年,有一些执行良好的数据集试图向模型传授一些常识,例如来自华盛顿大学的 Event2Mind 和 SWAG。SWAG 出乎意料地很快得到解决。我的亮点:

  • 视觉常识推理 (arXiv 2018):这是第一个包含每个答案的基本原理(解释)的视觉 QA 数据集。此外,问题需要复杂的推理。创建者不遗余力地解决可能的偏差,确保每个答案的先验正确概率为 25%(每个答案在整个数据集中出现 4 次,错误答案出现 3 次,正确答案出现 1 次);这需要使用计算相关性和相似性的模型来解决约束优化问题。希望防止可能的偏差将成为创建数据集时的常见组成部分。最后,看看数据的👇华丽呈现就知道了。

VCR:给定一张图像、一个区域列表和一个问题,模型必须回答问题并提供理由来解释为什么它的答案是正确的(Zellers et al., 2018)。

4) 元学习

        元学习在小样本学习、强化学习和机器人技术中得到了广泛应用,最突出的例子是与模型无关的元学习 (MAML),但在 NLP 中的成功应用很少见。元学习对于训练示例数量有限的问题最有用。我的亮点:

  • 低资源神经机器翻译的元学习 (EMNLP 2018):作者使用 MAML 来学习良好的翻译初始化,将每个语言对视为一个单独的元任务。适应低资源语言可能是 NLP 中元学习最有用的设置。特别是,将多语言迁移学习(如多语言 BERT)、无监督学习和元学习相结合是一个很有前途的方向。

迁移学习、多语言迁移学习和元学习之间的区别。实线:学习初始化。虚线:微调路径(Gu et al., 2018)。

5) 稳健的无监督方法

        今年,我们和其他人观察到,当语言不同时,无监督的跨语言单词嵌入方法就会失效。这是迁移学习中的一种常见现象,其中源和目标设置之间的差异(例如,域适应中的域、持续学习和多任务学习中的任务)会导致模型恶化或失败。因此,使模型对此类更改更健壮非常重要。我的亮点:

  • 一种用于单词嵌入的完全无监督跨语言映射的稳健自学习方法 (ACL 2018):本文不是元学习初始化,而是利用他们对问题的理解来制作更好的初始化。特别是,它们将两种语言中的单词配对,这些单词具有相似的单词分布。这是使用领域专业知识和分析中的见解来提高模型稳健性的一个很好的示例。

        三个单词的相似性分布。等效翻译(“two”和“due”)比不相关的词(“two”和“cane”——意思是“狗”;Artexte et al., 2018)。

6) 理解表示

        为了更好地理解表示,已经付出了很多努力。特别是,“诊断分类器”(旨在衡量学习的表示是否可以预测某些属性的任务)已经变得非常普遍。我的亮点:

  • 剖析上下文词嵌入:架构和表示 (EMNLP 2018):本文在更好地理解预训练语言模型表示方面做得很好。他们在精心设计的无监督和有监督的任务中广泛研究学习的单词和跨度表示。结果发现:预训练表示在较低层学习与低级形态和句法任务相关的任务,在较高层学习长距离语义。对我来说,这确实表明预训练的语言模型确实捕获了与在 ImageNet 上预训练的计算机视觉模型相似的属性。

        BiLSTM 和 Transformer 预训练表示在(从左到右)POS 标记、选区解析和无监督共指分辨率上的每层性能(Peters等人,2018 年)。

7) 巧妙的辅助任务

        在许多情况下,我们已经看到越来越多地使用多任务学习和精心选择的辅助任务。对于一项好的辅助任务,数据必须易于访问。最突出的例子之一是 BERT,它使用下一句预测(已在 Skip-thoughts 中使用,最近在 Quick-thoughts 中使用)效果很好。我的亮点:

  • 语义结构的句法支架 (EMNLP 2018):本文提出了一项辅助任务,通过预测每个跨度的相应句法组成类型来预训练跨度表示。尽管在概念上很简单,但辅助任务对跨度级别的预测任务(如语义角色标签和共指解析)有很大的改进。本文表明,在目标任务所需的级别(此处:跨度)学习的专业表示是非常有益的。
  • pair2vec: 用于跨句子推理的组合词对嵌入 (arXiv 2018):与此类似,本文通过最大化词对与其上下文的逐点互信息来预训练词对表示。这鼓励模型学习更有意义的词对表示,而不是更一般的目标,例如语言建模。预训练的表示在需要跨句子推理的任务(如 SQuAD 和 MultiNLI)中非常有效。我们可以期待看到更多的预训练任务,这些任务捕获了特别适合某些下游任务的属性,并与语言建模等更通用的任务相辅相成。

        来自 OntoNotes 的语法、PropBank 和共引用注释。PropBank SRL 参数和共指提及在句法成分之上进行注释。几乎每个论点都与句法成分有关(Swayamdipta et al., 2018)。

8) 将半监督学习与迁移学习相结合

        随着迁移学习的最新进展,我们不应忘记使用目标任务特定数据的更明确方法。事实上,预训练表示与许多形式的半监督学习相辅相成。我们探索了自我标记方法,这是半监督学习的一个特殊类别。我的亮点:

  • 使用交叉视图训练进行半监督序列建模 (EMNLP 2018):本文表明,一个概念上非常简单的想法,确保输入的不同视图上的预测与主模型的预测一致,可以在不同的任务集上带来收益。这个想法类似于 word dropout,但允许利用未标记的数据来使模型更加健壮。与其他自集成模型(如 mean teacher)相比,它是专门为特定的 NLP 任务设计的。随着隐式半监督学习的大量工作,我们希望看到更多明确尝试对目标预测进行建模的工作。

辅助预测模块看到的输入:辅助 1:他们前往__________________。辅助 2:他们前往华盛顿_______。辅助 3:乘飞机_____________华盛顿。辅助 4:飞机________________________(Clark et al., 2018)。

9) 大型文档的 QA 和推理

        问答 (QA) 方面已经取得了许多发展,出现了一系列 新的 QA 数据集。除了对话式 QA 和执行多步推理外,QA 最具挑战性的方面是综合叙述和大量信息。我的亮点:

  • NarrativeQA 阅读理解挑战赛 (TACL 2018):本文基于回答有关整个电影剧本和书籍的问题,提出了一个具有挑战性的新 QA 数据集。虽然当前方法仍然无法完成这项任务,但模型可以选择使用摘要(而不是整本书)作为上下文,选择答案(而不是生成答案)以及使用 IR 模型的输出。这些变体使任务更加可行,并使模型能够逐渐扩展到完整设置。我们需要更多像这样的数据集,这些数据集会带来雄心勃勃的问题,但仍然设法使它们可访问。

QA 数据集的比较(Kočiský et al., 2018)。

10) 感应偏置

        归纳偏差(如 CNN 中的卷积)、正则化、随机失活和其他机制是神经网络模型的核心部分,它们充当正则化器,使模型更具样本效率。然而,提出一个广泛有用的归纳偏差并将其合并到模型中是具有挑战性的。我的亮点:

  • 人类注意力的序列分类 (CoNLL 2018):本文提议使用来自眼动追踪语料库的人类注意力来规范 RNN 中的注意力。鉴于当前许多模型(如 Transformers)都使用注意力,因此找到更有效地训练注意力的方法是一个重要的方向。很高兴看到另一个例子,即人类语言学习可以帮助改进我们的计算模型。
  • 语义角色标签的语言知情自我注意 (EMNLP 2018):这篇论文有很多值得喜欢的地方:一个在句法和语义任务上联合训练的 Transformer;在测试时注入高质量解析的能力;以及域外评估。它还通过训练一个 Attention Head 来处理每个标记的句法父级,从而规范 Transformer 的多头注意力,使其对语法更加敏感。我们可能会看到更多 Transformer 注意力头用作辅助预测器的例子,专注于输入的特定方面。

10 年的 PropBank 语义角色标签。语言知情自我注意 (LISA) 与其他方法在域外数据上的比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2216730.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

老照片修复工作流教程:用 ComfyUI 轻松还原历史记忆

你是否有过这样的遗憾? 那些珍贵的老照片因为时间的流逝,早已失去了当年的色彩,变得模糊、褪色,甚至破损? 今天带你了解如何使用 ComfyUI 的老照片修复工作流,通过简单的几步操作,在短短十几秒…

三亚旅游微信小程序的设计与实现

详细视频演示 请联系我获取更详细的演示视频 项目运行截图 技术框架 后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念,提供了一套默认的配置,让开发者可以更专注于业务逻辑而不…

【深度学习代码调试1】环境配置篇(上) -- 安装PyTorch(安利方法:移除所有国内源,使用默认源)

【深度学习代码调试1】环境配置篇 -- 安装TensorFlow和PyTorch 写在最前面1. 创建新的Conda环境2. 安装PyTorch及相关库(可以直接跳到2.3安装方法)2.1 检查CUDA版本2.2 解决安装过程中常见问题2.2.1 超时问题(这个不是最终解决方案&#xff0…

AUTOSAR_EXP_ARAComAPI的5章笔记(13)

☞返回总目录 5.4.7 事件(Events) 在骨架侧,服务实现负责通知事件的发生。如 5.4.2 RadarService Skeleton Class 所示,骨架为每个事件提供一个事件包装类的成员。骨架的事件包装类与代理的事件包装类看起来明显不同。 在骨架端…

论文阅读:On determining the hinterlands of China‘s foreign trade container ports

集装箱港口腹地的边界线,只要存在,就可以作为未来港口发展和基础设施规划的参考点。在早期划定中国港口腹地的努力中,要么考虑的港口数量有限,要么仅根据港口总吞吐量划定腹地。因此,这些研究都没有让我们清楚地了解共…

快速理解AUTOSAR CP的软件架构层次以及各层的作用

在 AUTOSAR CP 的架构中,软件分为 应用层 (App)、运行时环境 (RTE) 和 基础软件层 (BSW) 三个主要层级。下面是每一层的主要功能与简单的代码示例来展示它们之间的关系。 1. 概述 应用层 (App):包含应用程序代码,主要实现业务逻辑。应用层通…

DeepFM模型代码详解

直到看到这篇文章,我才搞明白类别特征怎么做lookup的,也看明白了代码逻辑。如果你看完没懂,私信留下wx,给你讲懂。 1、Deepfm 的原理,DeepFM 是一个模型还是代表了一类模型,DeepFM 对 FM 做了什么样的改进…

【时时三省】(C语言基础)函数介绍strcat

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 strcat 字符串追加 示例: 比如我要把world加到hello后面去 就可以用这个 还有一种方法是这样 这两个代码的意思是一样的 只是写法不一样 写的时候要注意这些 •源字符串必须…

DAB-DETR: DYNAMIC ANCHOR BOXES ARE BETTER QUERIES FOR DETR论文笔记

原文链接 [2201.12329] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR (arxiv.org)https://arxiv.org/abs/2201.12329 原文笔记 在本文中,我们提出了一种新的查询公式,使用动态锚框进行DETR (DEtection TRansformer),并对查…

探索人工智能在数学教育上的应用——使用大规模语言模型解决数学问题的潜力和挑战

概述 论文地址:https://arxiv.org/abs/2402.00157 数学推理是人类智能的重要组成部分,人工智能界不断寻求应对数学挑战的方法,而在这一过程中,人工智能的能力需要进一步提高。从文本理解到图像解读,从表格分析到符号操…

大数据|MapReduce编程原理与应用

在大数据时代的浪潮中,MapReduce作为一种高效处理海量数据的编程模型,自其诞生以来便成为了数据处理领域的基石。本文旨在深入探讨MapReduce的基本原理、典型应用以及其在未来技术发展趋势中的展望,帮助读者更好地理解并应用这一关键技术。 一…

数制转换及交换机

数制转换 非位置化数字系统:罗马数字 位置化数字系统:二进制,八进制,十进制,十六进制 十进制数: 符号:2 2 2位置:2 1 0位权:该数字的真实大小 该位置上的数基数的位置…

如何设计开发RTSP直播播放器?

技术背景 我们在对接RTSP直播播放器相关技术诉求的时候,好多开发者,除了选用成熟的RTSP播放器外,还想知其然知其所以然,对RTSP播放器的整体开发有个基础的了解,方便方案之作和技术延伸。本文抛砖引玉,做个…

所有程序员的白嫖圣地-github

内容汇总 认识github页面如何从github下载资源git配置如何通过github管理工程代码 有人问github怎么用,几分钟了解这个每个程序员都在用的白嫖圣地。 打开github主界面,映入眼帘的是Home面板,它的作用是显示我们关注的人、点赞的项目等更新…

一款非常有用且高效的国产的Linux运维面板:1Panel介绍

1Panel介绍 一、1panel介绍二、1panel的安装1、不同系统安装2、安装日志3、访问地址 三、1panel的卸载1、停止服务2、卸载服务3、清理残留文件4、清除日志文件5、验证卸载是否成功 四、1panel的功能介绍1、服务器资源使用情况快速监控2、文件管理器简单易用3、创建和管理网站轻…

【Linux操作系统】进程等待

目录 一、什么是进程等待?二、为什么要进行等待?三、进程等待方法1.wait函数2.waitpid3.status阻塞等待和非阻塞等待(轮询等待)1.阻塞等待2.非阻塞等待 四、代码举例 一、什么是进程等待? "进程等待"是指一…

基于springboot摄影跟拍预定管理系统

作者:计算机学长阿伟 开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。 系统展示 【2024最新】基于JavaSpringBootVueMySQL的,前后端分离。 开发语言:Java数据库:MySQL技术:…

Finops成本优化企业实践-可规划篇

引言:本篇假设我们要在云上新增一个应用,讨论其在单体、failover、DR、集群模式下的成本规划。 假设该应用base on Linux,硬件要求是8cores、64G mem的云主机,并搭配500g内存,至少部署在一台云主机上。我们有开发、测…

Java项目: 基于SpringBoot+mysql+maven+vue林业产品推荐系统(含源码+数据库+毕业论文)

一、项目简介 本项目是一套基于SpringBootmybatismavenvue林业产品推荐系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操…

【Linux】解锁软硬链接奥秘,高效动静态库管理的实战技巧

软硬连接和动静态库 1. 软链接1.1. 概念1.2. 特点1.3. 应用场景 2. 硬链接2.1. 概念2.2. 硬链计数2.3. 特点2.4. 应用场景 3. 动静态库3.1 库存在的原因3.2. 静态库制作与使用3.2.1 打包3.2.2. 使用 3.3. 动态库制作与使用3.3.1. 打包3.3.2. 使用 4. 解决动态库查不到的4种方法…