NLP的不同研究领域和最新发展的概述

news2024/11/25 10:00:28

一、介绍

        作为理解、生成和处理自然语言文本的有效方法,自然语言处理 (NLP) 的研究近年来迅速普及并被广泛采用。鉴于NLP的快速发展,获得该领域的概述和维护它是困难的。这篇博文旨在提供NLP不同研究领域的结构化概述,并分析该领域的最新趋势。

研究领域是通常由(但不限于)任务或技术组成的学科和概念。

在本文中,我们将调查以下问题:

  • NLP中研究的不同研究领域是什么?
  • NLP研究文献的特点和发展是什么?
  • NLP未来工作的趋势和方向是什么?

        尽管NLP中的大多数研究领域都是众所周知和定义的,但目前没有常用的分类法或分类方案试图以一致和可理解的格式收集和构建这些研究领域。因此,很难对NLP研究的整个领域有一个概述。虽然会议和教科书中有NLP主题列表,但它们往往差异很大,而且通常过于宽泛或过于专业。因此,我们开发了一个分类法,涵盖了NLP中广泛的不同研究领域。尽管该分类法可能不包括所有可能的NLP概念,但它涵盖了广泛的最流行的研究领域,因此缺失的研究领域可以被视为所包含研究领域的子主题。在开发分类法时,我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域,而不仅仅是一个。因此,一些研究领域在NLP分类法中多次列出,但被分配到不同的更高级别的研究领域。最终的分类法是在与领域专家一起在迭代过程中经验开发的。

        分类法作为一个总体分类方案,其中NLP出版物可以根据至少一个包含的研究领域进行分类,即使它们不直接涉及其中一个研究领域,而只是其中的子主题。为了分析NLP的最新发展,我们训练了一个弱监督模型,根据NLP分类法对ACL选集论文进行分类。

您可以在我们的论文中阅读有关分类模型和NLP分类法开发过程的更多详细信息。

自然语言处理 (NLP) 分类法
自然语言处理分类法。 

二、NLP 的不同研究领域

        以下部分提供了上述NLP分类中包含的研究概念领域的简短解释。

2.1 综合

        多模态是指系统或方法处理不同类型或模态输入的能力(Garg 等人,2022 年)。我们区分可以处理自然语言文本以及视觉数据,语音和音频编程语言结构化数据(如表格或图形)的系统。

2.2 自然语言界面

        自然语言接口可以基于自然语言查询处理数据(Voigt 等人,2021 年),通常实现为问答或对话和对话系统

2.3 语义文本处理

        这个高级研究领域包括所有类型的概念,这些概念试图从自然语言中获取意义,并使机器能够从语义上解释文本数据。在这方面最强大的研究领域之一是试图学习单词序列的联合概率函数的语言模型(Bengio et al., 2000)。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务(Soni 等人,2022 年)。在表示学习中,语义文本表示通常以嵌入的形式学习(Fu等人,2022),可用于比较语义搜索设置中文本的语义相似性(Reimers 和 Gurevych,2019)。此外,可以合并知识表示,例如以知识图的形式,以改进各种 NLP 任务(Schneider 等人,2022 年)。

2.4 情绪分析

        情感分析试图从文本中识别和提取主观信息(Wankhade 等人,2022 年)。通常,研究侧重于从文本中提取观点情感极性。最近,基于方面的情感分析作为一种提供比一般情感分析更详细信息的方法出现,因为它旨在预测文本中给定方面或实体的情感极性(Xue and Li,2018)。

2.5 句法文本处理

        这个高级研究领域旨在分析文本的语法语法和词汇(Bessmertny et al., 2016)。在这种情况下,代表性任务是句法解析句子中的单词依赖关系,将单词标记为各自的词性,将文本分割成连贯的部分,或纠正语法和拼写方面的错误文本

2.6 语言学与认知NLP

        语言学和认知NLP处理自然语言,基于我们的语言能力牢牢植根于我们的认知能力的假设,意义本质上是概念化,语法是由用法塑造的(Dabrowska和Divjak,2015)。存在许多不同的语言理论,这些理论通常认为语言习得受通用语法规则的支配,这些规则对所有正常发育的人类都是通用的(Wise and Sevcik,2017)。心理语言学试图模拟人类大脑如何获取和产生语言,处理语言,理解语言并提供反馈(Balamurugan,2018)。认知建模涉及以各种形式建模和模拟人类认知过程,尤其是以计算或数学形式(Sun,2020)。

2.7 负责任和值得信赖的NLP

        负责任和值得信赖的 NLP 关注实施以公平、可解释性、问责制和道德方面为核心的方法(Barredo Arrieta 等人,2020 年)。绿色和可持续的NLP主要关注文本处理的有效方法,而低资源NLP旨在在数据稀缺时执行NLP任务。此外,NLP 中的鲁棒性试图开发对偏差不敏感、抗数据扰动且可靠的分布外预测模型。

2.8 推理

        推理使机器能够得出逻辑结论,并根据可用的信息,使用演绎和归纳等技术得出新知识。参数挖掘自动识别并提取推理和推理的结构,这些结构表示为自然语言文本中呈现的参数(Lawrence和Reed,2019)。文本推理,通常建模为蕴涵问题,自动确定是否可以从给定的前提推断出自然语言假设(MacCartney和Manning,2007)。常识推理使用文本中未明确提供的世界知识来连接前提和假设(Ponti 等人,2020 年),而数字推理执行算术运算(Al-Negheimish 等人,2021 年)。机器阅读理解旨在教机器根据给定的段落确定问题的正确答案(Zhang 等人,2021 年)。

2.9 多语言

        多语言处理涉及多种自然语言的所有类型的NLP任务,并且通常在机器翻译中进行研究。此外,代码切换可以在单个句子内或句子之间自由交换多种语言(Diwan 等人,2021 年),而跨语言传输技术使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。

2.10 信息检索

        信息检索涉及从大型馆藏中查找满足信息需求的文本(Manning et al., 2008)。通常,这涉及检索文档段落

2.11 信息提取和文本挖掘

        该研究领域的重点是从非结构化文本中提取结构化知识,并能够分析和识别数据中的模式或相关性(Hassani 等人,2020 年)。文本分类自动将文本分类到预定义的类中(Schopf 等人,2021 年),而主题建模旨在发现文档集合中的潜在主题(Grootendorst,2022 年),通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要产生文本摘要,在更少的空间中包含输入的关键点,并将重复保持在最低限度(El-Kassas 等人,2021 年)。此外,信息提取和文本挖掘研究领域还包括命名实体识别,它涉及命名实体的识别和分类(Leitner 等人,2020 年)、共指解析,旨在识别话语中对同一实体的所有引用(Yin 等人,2021 年),术语提取,旨在提取相关术语,例如关键字或关键字短语(Rigouts Terryn 等人,2020 年),旨在提取实体之间关系的关系提取,以及促进关系元组的域独立发现的开放信息提取(Yates等人,2007 年)。

2.12 文本生成

        文本生成方法的目标是生成既能被人类理解又与人类创作的文本无法区分的文本。因此,输入通常由文本组成,例如在保留语义的同时以不同的表面形式呈现文本输入的释义(Niu 等人,2021 年),旨在生成给定段落和目标答案的流畅且相关的问题生成(Song 等人,2018 年),或旨在生成与提示相关的自然文本的对话响应生成(Zhang 等人, 然而,在许多情况下,文本是作为其他模式输入的结果生成的,例如在数据到文本生成的情况下,基于结构化数据(如表格或图形)生成文本(Kale and Rastogi,2020),图像或视频的字幕,或将语音波形转录为文本的语音识别(Baevski 等人, 2020)。

三、NLP 的特点和发展

1952 年至 2022 年 ACL 选集中每年的论文数量。图片来源:作者

        考虑到NLP的文献,我们从研究数量作为研究兴趣的指标开始分析。50年观察期内出版物的分布情况见上图。虽然第一批出版物出现在1952年,但年度出版物的数量增长缓慢,直到2000年。因此,在2000年至2017年期间,出版物数量大约翻了两番,而在随后的五年中,它又翻了一番。因此,我们观察到NLP研究的数量呈近乎指数级增长,表明研究界的关注日益增加。

2002年至2022年按最受欢迎的研究领域划分的论文数量分布。

Distribution of the number of papers by most popular fields of study from 2002 to 2022. Image by author.

        通过检查上图,揭示了NLP文献中最受欢迎的研究领域及其随时间推移的最新发展。虽然NLP的大多数研究都与机器翻译语言模型有关,但这两个研究领域的发展是不同的。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去 20 年中经历了适度的增长速度。语言模型也已经研究了很长时间。然而,自2018年以来,有关该主题的出版物数量仅出现显着增长。在查看其他流行的研究领域时,可以观察到类似的差异。表示学习文本分类虽然普遍得到广泛研究,但部分停滞不前。相比之下,对话系统和会话代理,特别是低资源NLP,在研究数量上继续表现出高增长率。根据其余研究领域平均研究数量的发展,我们观察到总体上略有正增长。然而,大多数研究领域的研究明显少于最受欢迎的研究领域。

四、自然语言处理的最新趋势

NLP研究领域的增长份额矩阵。每个研究领域的增长率和作品总数是从2018年初到2022年底计算的。

NLP研究领域的增长份额矩阵。每个研究领域的增长率和作品总数是从2018年初到2022年底计算的。图片由作者提供。

        上图显示了NLP研究领域的增长份额矩阵。我们通过分析2018年至2022年间与NLP各个研究领域相关的增长率和论文总数,用它来研究当前的研究趋势和可能的未来研究方向。矩阵的右上方由表现出高增长率的研究领域组成,同时总体上有大量论文。鉴于本节中研究领域的日益普及,我们将它们归类为趋势之星。右下部分包含非常受欢迎但增长率较低的研究领域。通常,这些是NLP必不可少但已经相对成熟的研究领域。因此,我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率的研究领域,但总体论文很少。由于这些研究领域的进展相当有希望,但总体论文数量较少,因此难以预测其进一步发展,因此我们将它们归类为上升问号。矩阵左下角的研究领域因其论文总数低和增长率低而被归类为利基研究领域

        该图显示,语言模型目前受到的关注最多。根据该领域的最新发展,这一趋势可能会在不久的将来继续并加速。文本分类机器翻译表示学习是最受欢迎的研究领域之一,但仅显示出边际增长。从长远来看,它们可能会被快速增长的领域所取代,成为最受欢迎的研究领域。

        一般来说,与句法文本处理相关的研究领域表现出微不足道的增长和整体的低受欢迎程度。相反,与负责任和值得信赖的NLP相关的研究领域,如绿色和可持续的NLP,低资源NLP道德NLP,往往表现出高增长率和高受欢迎程度。这种趋势也可以在NLP中的结构化数据,NLP中的视觉数据以及NLP中的语音和音频中观察到,所有这些都与多模态有关。此外,涉及对话系统和会话代理以及问答的自然语言界面在研究界变得越来越重要。我们的结论是,除了语言模型之外,负责任和值得信赖的NLP,多模态自然语言界面可能在不久的将来成为NLP研究领域的特征。

        在推理领域,特别是在知识图谱推理和数字推理以及与文本生成相关的各个研究领域,可以观察到进一步的显着发展。尽管这些研究领域目前仍然相对较小,但它们显然吸引了越来越多的研究界的兴趣,并显示出明显的积极增长趋势。

五、结论 💡

        为了总结最近的发展并提供NLP格局的概述,我们定义了研究领域的分类法并分析了最近的研究进展。

        我们的研究结果表明,已经研究了大量的研究领域,包括多模态负责任和可信赖的NLP以及自然语言界面等趋势领域。我们希望本文能对当前的NLP格局提供一个有用的概述,并可以作为对该领域进行更深入探索的起点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1049686.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

淘宝商品详情接口数据采集用于上货,无货源选品上货,采集淘宝天猫商品详情数据

淘宝商品详情接口数据采集可用于上货。先通过关键字搜索接口,抓取到批量的商品ID,再将商品ID传入商品详情数据采集接口的请求参数中,从而达到批量抓取商品详情数据的功能。 接口名称:item_get,获取商品详情数据&#…

读高性能MySQL(第4版)笔记17_复制(下)

1. 复制切换 1.1. 复制是高可用性的基础 1.1.1. 总是保留一份持续更新的副本数据,会让灾难恢复更简单 1.2. “切换副本”(promoting a replica)和“故障切换”(failing over)是同义词 1.2.1. 意味着源服务器不再接…

JDBC【DBUtils】

一、 DBUtils工具类🍓 (一)、DBUtils简介🥝 使用JDBC我们发现冗余的代码太多了,为了简化开发 我们选择使用 DbUtils Commons DbUtils是Apache组织提供的一个对JDBC进行简单封装的开源工具类库,使用它能够简化JDBC应用程序的开发&#xff0c…

Ubuntu 20.04二进制部署Nightingale v6.1.0和Prometheus

sudo lsb_release -r可以看到操作系统版本是20.04,sudo uname -r可以看到内核版本是5.5.19。 sudo apt-get update进行更新镜像源。 完成之后,如下图: sudo apt-get upgrade -y更新软件。 选择NO,按下Enter。 完成如下&…

C# Onnx Yolov8 Detect 手势识别

效果 Lable five four one three two 项目 代码 using Microsoft.ML.OnnxRuntime; using Microsoft.ML.OnnxRuntime.Tensors; using OpenCvSharp; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing;…

软件设计师考试

知识点速记 数据库 三范式和BC范式之间的关系 并发操作带来的问题是数据的不一致性,主要有三类: 丢失更新:两个事务T1和T2读入同一数据并修改,T2提交的结果破坏了T1提交的结果,导致T1的修改被丢失 不可重复读,不可重…

【小笔记】fasttext文本分类问题分析

【学而不思则罔,思维不学则怠】 2023.9.28 关于fasttext的原理及实战文章很多,我也尝试在自己的任务中进行使用,是一个典型的短文本分类任务,对知识图谱抽取的实体进行校验,判断实体类别是否正确,我构建了…

windows 下 vs code 格式化代码(clang-format)

vscode 的格式化代码能力来源于插件(有不止一种插件提供格式化功能),而非 vscode 本身 1、安装插件 2、windows 下载 LLVM-17.0.1-win64.exe (exe 结尾的安装包) Releases llvm/llvm-project GitHub 可以直接把这…

python - random模块随机数常用方法

文章目录 前言python - random模块随机数常用方法1. 返回1-10之间的随机数,不包括102. 返回1-10的随机数,包括103. 随机选取0到100之间的偶数4. 返回一个随机浮点数5. 返回一个给定数据集合中的随机字符6. 从多个字符中选取特定数量的字符7. 生成随机字符…

巧用@Conditional注解根据配置文件注入不同的bean对象

项目中使用了mq,kafka两种消息队列进行发送数据,为了避免硬编码,在项目中通过不同的配置文件自动识别具体消息队列策略。这里整理两种实施方案,仅供参考! 方案一:创建一个工具类,然后根据配置文…

23.09.26用户切库流程记录

23.09.26用户切库流程记录 hello,我是阿昌,今天记录一下最近切库的流程,内容如下: 一、切库的原因 因为db_A用户数据量超过预期,磁盘空间逐渐不足,需要换成db_A库的压力,所以将部分db_A用户切…

外卖侠CPS小程序_带有分销功能的完整全套源码【前后端】

外卖侠CPS全套源码是一款为外卖平台提供分销功能的微信小程序。用户可以通过你的链接去领取外卖红包,然后去下单点外卖,既能省钱,又能获得佣金。该小程序带有商城、影票、吃喝玩乐等多个模块,适合不同用户的需求。 外卖CPS的势头…

第一届龙信杯取证比赛部分题目复现

感谢大佬是toto的wp 第一届“龙信杯”电子数据取证竞赛Writeup-CSDN博客 手机取证 1.请分析涉案手机的设备标识是_______。(标准格式:12345678) 打开龙信取证软件分析镜像即可得到结果 2.请确认嫌疑人首次安装目标APP的安装时间是______。…

FreeRTOS入门教程(任务优先级,Tick)

文章目录 前言一、什么是任务优先级二、FreeRTOS如何分辨出优先级最高可运行的任务三、FreeRTOS中的时钟节拍Tick四、什么是时间片五、相同优先级任务怎么进行切换六、任务优先级实验七、修改任务优先级总结 前言 本篇文章将带大家学习FreeRTOS中的任务优先级,并且…

FreeRTOS入门教程(任务状态)

文章目录 前言一、简单实验二、任务状态概念讲解三、vTaskDelay和vTaskDelayUntil1.vTaskDelay2.vTaskDelayUntil3.vTaskDelay和vTaskDelayUntil的区别 总结 前言 本篇文章将为大家讲解FreeRTOS中的任务状态,在FreeRTOS任务是有非常多种状态的,了解了任…

YOLOv7改进:GAMAttention注意力机制

1.背景介绍 为了提高各种计算机视觉任务的性能,人们研究了各种注意机制。然而,以往的方法忽略了保留通道和空间方面的信息以增强跨维度交互的重要性。因此,我们提出了一种全局调度机制,通过减少信息缩减和放大全局交互表示来提高深…

风光储一体化能源中心 | 数字孪生智慧能源

自“双碳”目标提出以来,我国能源产业不断朝着清洁低碳化、绿色化的方向发展。其中,风能、太阳能等可再生能源在促进全球能源可持续发展、共建清洁美丽世界中被寄予厚望。风能、太阳能具有波动性、间歇性、随机性等特点,主要通过转化为电能再…

This dependency was not found: vxe-table/lib/vxe-table in ./src/main.js

描述 使用时 安装 npm install xe-utils vxe-table 引入 import Vue from vue import xe-utils import VXETable from vxe-table import vxe-table/lib/style.css vxe-table是一个基于 vue 的 PC 端表格组件, 支持增删改查、虚拟滚动、懒加载、快捷菜单、数据校验…

微信公众平台怎么添加秒杀活动

微信公众平台是一个非常有用的工具,它可以帮助企业或个人建立自己的品牌形象,增加用户粘性,提高销售业绩等等。在微信公众平台上添加秒杀活动为主题可以吸引更多的用户关注,促进销售,提高品牌知名度等。下面我们将介绍…

uni-app 实现凸起的 tabbar 底部导航栏

效果图 在 pages.json 中设置隐藏自带的 tabbar 导航栏 "custom": true, // 开启自定义tabBar(不填每次原来的tabbar在重新加载时都回闪现) 新建一个 custom-tabbar.vue 自定义组件页面 custom-tabbar.vue <!-- 自定义底部导航栏 --> <template><v…