自然语言处理的分类

news2024/11/19 9:33:01

动动发财的小手,点个赞吧!

alt

简介

作为理解、生成和处理自然语言文本的有效方法,自然语言处理(NLP)的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展,获得该领域的概述并对其进行维护是很困难的。这篇博文旨在提供 NLP 不同研究领域的结构化概述,并分析该领域的最新趋势。

本文[1]中,我们研究以下问题:

  • NLP 研究哪些不同的研究领域?
  • NLP 研究文献的特点和随时间的发展是什么?
  • NLP目前的趋势和未来工作的方向是什么?

尽管 NLP 的大多数研究领域都是众所周知的和明确的,但目前还没有常用的分类法或分类方案试图以一致且易于理解的格式收集和构建这些研究领域。因此,了解整个 NLP 研究领域的概况是很困难的。虽然会议和教科书中列出了 NLP 主题,但它们往往差异很大,而且往往要么太宽泛,要么太专业。因此,我们开发了一个涵盖 NLP 广泛不同研究领域的分类法。尽管该分类法可能不包括所有可能的 NLP 概念,但它涵盖了广泛的最受欢迎的研究领域,因此缺失的研究领域可以被视为所包含研究领域的子主题。在制定分类法时,我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域,而不仅仅是一个。因此,一些研究领域在 NLP 分类中被多次列出,但被分配到不同的更高级别的研究领域。最终的分类法是与领域专家一起在迭代过程中凭经验开发的。

该分类法作为一种总体分类方案,其中 NLP 出版物可以根据至少一个所包含的研究领域进行分类,即使它们不直接涉及其中一个研究领域,而只是其子主题。为了分析 NLP 的最新发展,我们训练了一个弱监督模型,根据 NLP 分类法对 ACL Anthology 论文进行分类。

NLP的不同研究领域

以下部分对上述 NLP 分类法中包含的研究概念领域进行简短说明。

多模态

多模态是指系统或方法处理不同类型或模态输入的能力。我们区分可以处理自然语言文本以及视觉数据、语音和音频、编程语言或结构化数据(例如表格或图表)的系统。

自然语言接口

自然语言接口可以基于自然语言查询处理数据,通常实现为问答系统或对话系统。

语义文本处理

这一高级研究领域包括试图从自然语言中获取含义并使机器能够从语义上解释文本数据的所有类型的概念。这方面最强大的研究领域之一是尝试学习单词序列的联合概率函数的语言模型。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务。在表示学习中,语义文本表示通常以嵌入的形式学习,可用于比较语义搜索设置中文本的语义相似度。此外,可以合并知识表示(例如以知识图的形式)来改进各种 NLP 任务。

情绪分析

情感分析试图从文本中识别和提取主观信息。通常,研究的重点是从文本中提取观点、情感或极性。最近,基于方面的情感分析成为一种比一般情感分析提供更详细信息的方法,因为它旨在预测文本中给定方面或实体的情感极性。

句法文本处理

这一高级研究领域旨在分析文本的语法和词汇。这种情况下的代表性任务是句子中单词依赖性的句法分析、将单词标记到各自的词性、将文本分割成连贯的部分,或者纠正语法和拼写方面的错误文本。

语言学与认知 NLP

语言学与认知 NLP 处理自然语言的基础是这样的假设:我们的语言能力牢牢植根于我们的认知能力,意义本质上是概念化,语法是由用法决定的。目前存在许多不同的语言理论,它们普遍认为语言习得受到所有典型发育人类所共有的通用语法规则的控制。心理语言学试图模拟人脑如何获取和产生语言、处理语言、理解语言并提供反馈。认知建模涉及以各种形式,特别是计算或数学形式对人类认知过程进行建模和模拟。

推理

推理使机器能够使用演绎和归纳等技术,根据可用的信息得出逻辑结论并得出新知识。论据挖掘自动识别和提取自然语言文本中表达为论据的推论和推理结构。文本推理通常被建模为蕴涵问题,自动确定是否可以从给定前提推断出自然语言假设。常识推理使用文本中未明确提供的世界知识来连接前提和假设,而数值推理则执行算术运算。机器阅读理解旨在教会机器根据给定的段落确定问题的正确答案。

多语言能力

多语言处理涉及多种自然语言的所有类型的 NLP 任务,并且通常在机器翻译中进行研究。此外,语码转换可以在单个句子内或句子之间自由交换多种语言,而跨语言迁移技术则使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。

信息检索

信息检索涉及从大型集合中查找满足信息需求的文本。通常,这涉及检索文档或段落。

信息提取与文本挖掘

该研究领域的重点是从非结构化文本中提取结构化知识,并能够分析和识别数据中的模式或相关性。文本分类自动将文本分类为预定义的类别,而主题建模旨在发现文档集合中的潜在主题,通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要生成文本摘要,其中在更小的空间中包含输入的关键点,并将重复保持在最低限度。此外,信息提取和文本挖掘领域的研究还包括命名实体识别,处理命名实体的识别和分类,共指解析,旨在识别对同一实体的所有引用话语、术语提取,旨在提取相关术语,例如关键字或关键短语、关系提取,旨在提取实体之间的关系,以及开放信息提取,以促进关系元组的领域独立发现。

文本生成

文本生成方法的目标是生成人类可以理解且与人类创作的文本无法区分的文本。因此,输入通常由文本组成,例如在释义中,以不同的表面形式呈现文本输入,同时保留语义,问题生成旨在根据给定的段落生成流畅且相关的问题和目标答案,或对话响应生成,旨在生成与提示相关的自然外观文本。然而,在许多情况下,文本是作为其他模式输入的结果生成的,例如在数据到文本生成的情况下,基于结构化数据(例如表格或图表)生成文本 、图像或视频的字幕,或将语音波形转录为文本的语音识别。

NLP的特点和发展

alt

考虑到 NLP 方面的文献,我们从研究数量作为研究兴趣的指标开始分析。 50年观察期内的出版物分布如上图所示。虽然第一批出版物出现于 1952 年,但每年出版物的数量增长缓慢,直到 2000 年。相应地,2000 年至 2017 年间,出版物数量大约翻了两番,而在随后的五年中,又翻了一番。因此,我们观察到 NLP 研究的数量呈近指数增长,表明研究界的关注日益增加。

alt

检查上图,揭示了 NLP 文献中最受欢迎的研究领域及其随着时间的推移的最新发展。虽然 NLP 的大多数研究都与机器翻译或语言模型有关,但这两个研究领域的发展却有所不同。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去 20 年中经历了适度的增长。语言模型也被研究了很长时间。然而,自 2018 年以来,该主题的出版物数量才出现显着增长。在其他热门研究领域也可以观察到类似的差异。表征学习和文本分类虽然得到了广泛的研究,但其发展却部分停滞。相比之下,对话系统和对话代理,尤其是低资源 NLP,研究数量继续呈现高增长率。根据其余研究领域的平均研究数量的发展,我们观察到整体略有正增长。然而,大多数研究领域的研究明显少于最受欢迎的研究领域。

NLP 的最新趋势

alt

上图展示了NLP研究领域的增长份额矩阵。我们用它来通过分析 2018 年至 2022 年间 NLP 各个研究领域相关论文的增长率和总数来考察当前的研究趋势和未来可能的研究方向。矩阵的右上部分由以下研究领域组成:总体上表现出高增长率和大量论文。鉴于本部分的研究领域越来越受欢迎,我们将它们归类为热门明星。右下部分包含非常受欢迎但增长率较低的研究领域。通常,这些是 NLP 所必需的研究领域,但已经相对成熟。因此,我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率但总体上论文很少的研究领域。由于这些研究领域的进展相当有前景,但总体论文数量较少,难以预测其进一步发展,因此我们将其归类为上升问号。矩阵左下角的研究领域由于论文总数低且增长率低而被归类为利基研究领域。

从图中可以看出,目前最受关注的是语言模型。根据该领域的最新发展,这一趋势可能会在不久的将来持续并加速。文本分类、机器翻译和表示学习位列最热门的研究领域之列,但仅显示出边际增长。从长远来看,它们可能会被增长更快的领域取代,成为最受欢迎的研究领域。

一般来说,与句法文本处理相关的研究领域总体上表现出可忽略不计的增长和较低的受欢迎程度。相反,与负责任和值得信赖的NLP相关的研究领域,例如绿色和可持续的NLP、低资源NLP和道德NLP,总体上往往表现出高增长率和高受欢迎程度。这种趋势也可以在 NLP 中的结构化数据、NLP 中的视觉数据以及 NLP 中的语音和音频中观察到,所有这些都与多模态有关。此外,涉及对话系统、对话代理和问答的自然语言界面在研究界变得越来越重要。我们的结论是,除了语言模型之外,负责任且值得信赖的 NLP、多模态和自然语言界面也可能成为不久的将来 NLP 研究领域的特征。

在推理领域,特别是在知识图推理和数字推理以及与文本生成相关的各个研究领域中,可以观察到进一步显着的发展。尽管这些研究领域目前还相对较小,但它们显然吸引了研究界越来越多的兴趣,并表现出明显的积极增长趋势。

总结

为了总结最近的发展并概述 NLP 的前景,我们定义了研究领域的分类并分析了最近的研究进展。

我们的研究结果表明,已经研究了大量的研究领域,包括多模态、负责任和值得信赖的 NLP 以及自然语言界面等趋势领域。我们希望本文能够对当前 NLP 领域提供有用的概述,并可以作为更深入探索该领域的起点。

Reference

[1]

Source: https://towardsdatascience.com/a-taxonomy-of-natural-language-processing-dfc790cb4c01

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1059517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Golang 语言学习 01 包含如何快速学习一门新语言

Golang方向 区块链 go服务器端 (后台流量支撑程序) 支撑主站后台流量(排序,推荐,搜索等),提供负载均衡,cache,容错,按条件分流,统计运行指标 (qps, latenc…

java飞机大战

一、 概述 1.1 项目简介 本次Java课程设计是做一个飞机大战的游戏,应用Swing编程,完成一个界面简洁流畅、游戏方式简单,玩起来易于上手的桌面游戏。该飞机大战项目运用的主要技术即是Swing编程中的一些窗口类库、事件监听以及贴图技术。 1…

微信小程序WebSocket实现stream流式聊天对话功能

要在微信小程序实现聊天对话功能,回话是流式应答,这里使用了WebSocket技术。WebSocket大家应该都很熟悉,使用wx.connectSocket就可以了。这里可能需要注意下的是流式应答,后端如何发送,前端如何接收。直接上代码&#…

【1】c++设计模式——>UML类图的画法

UML介绍 UML:unified modeling language 统一建模语言 面向对象设计主要就是使用UML类图,类图用于描述系统中所包含的类以及他们之间的相互关系,帮助人们简化对系统的理解,他是系统分析和设计阶段的重要产物,也是系统编码和测试的…

小程序 用户反馈 与 客服对话 使用说明

在开发小程序时,通过翻阅官方文档,会发现 button 的 open-type 属性有很多值可以选。因此,我们就可以实现相应的按钮功能。 微信开发文档-表单组件-buttonhttps://developers.weixin.qq.com/miniprogram/dev/component/button.html contact…

嵌入式学习笔记(44)S5PV210的SD卡启动实战

8.5.1任务:大于16KB的bin文件使用SD卡启动 (1)总体思路:将我们的代码分为2部分,第一部分BL1小于等于16KB,第二部分为任意大小,iROM代码执行完成后从SD卡启动会自动读取BL1到iRAM中执行;BL1执行时负责初始化…

ChatGPT启蒙之旅:弟弟妹妹的关键概念入门

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

腾讯云服务器哪个配置比较值得?

腾讯云服务器哪款配置比较好值得买?轻量应用服务器性价比值得买,轻量2核2G3M带宽95元一年、2核4G5M带宽218元一年、2核2G4M带宽三年540元一年、4核8G12M配置446元一年、8核16G18M带宽1668元15个月、16核32G28M轻量服务器3468元15个月。腾讯活动入口&…

tiny模式基本原理整合

【Tiny模式】的基本构成 M【首头在首位】 U【/】 V【HTTP/】 Host H【真实ip】 XH \r回车 \n换行 \t制表 \ 空格 一个基本的模式构成 [method] [uri] [version]\r\nHost: [host]\r\n[method] [uri] [version]\r\nHost: [host]\r\n 检测顺序 http M H XH 有些地区 XH H M 我这边…

lenovo联想台式机 拯救者 刃7000-28ICBR(90KX)原装出厂Windows10系统镜像

LENOVO联想拯救者(90KX)原厂WIN10系统 下载链接:https://pan.baidu.com/s/1beocPJSmnFbY4Y_ZQM2djA?pwd4d1n 系统自带所有驱动、出厂主题壁纸LOGO、Office办公软件、联想电脑管家等预装程序 所需要工具:16G或以上的U盘 文件格式:ISO 文件大…

华为云云耀云服务器L实例评测|云耀云服务器L实例部署ZFile在线网盘服务

华为云云耀云服务器L实例评测|云耀云服务器L实例部署ZFile在线网盘服务 一、云耀云服务器L实例介绍1.1 云耀云服务器L实例简介1.2 云耀云服务器L实例特点 二、ZFile介绍2.1 ZFile简介2.2 ZFile特点 三、本次实践介绍3.1 本次实践简介3.2 本次环境规划 四、购买华为云…

《幸福之路》罗素(读书笔记)

目录 作者简介 作者的感悟 经典摘录 一、不幸福的成因 1、一部分要归咎于社会制度 2、一部分则得归咎于个人心理——当然,你可以说个人心理是社会制度的产物。 二、欠缺某些想要的东西,是快乐的必要条件 三、无聊与刺激 四、现代人的精神疲劳 五…

word已排序好的参考文献,插入新的参考文献,序号更新

原排序好的文献序号。 现在在3号后面插入一个新文献。4,5号应该成为5,6 这时在3号后面,回车,就会自动的增长。如下图: 但是如果手滑,把[4]删除了如何排序?? 如下图: …

基于Java的医院药品管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

聊天记录一句一句出现的视频制作,制作抖音聊天记录视频教程

聊天记录情感中视频制作工具是一款专注于将聊天记录转化为抖音视频的工具。它可以将平淡的聊天截图转化为生动有趣的视频,让你的回忆变得更加具有观赏性和情感共鸣。 首先,聊天记录一句一句出现的视频制作功能是该工具的一大特点。通过这个功能&#xf…

应力分析概要

1.概述 应力分析是一种用于结构件寿命分析的方法,最早的应用场景可能是路桥,因为西方提前我们两百年以上进入大工业时代。许多人工建筑的寿命是有限的,这类实际需求催生出寿命预测和诊断。结构件的失效,最根本的因素是因为应力的…

基于Matlab求解高教社杯全国大学生数学建模竞赛(CUMCM2004A题)-奥运会临时超市网点设计(附上源码+数据)

文章目录 题目思路源码数据下载 题目 2008年北京奥运会的建设工作已经进入全面设计和实施阶段。奥运会期间,在比赛主场馆的周边地区需要建设由小型商亭构建的临时商业网点,称为迷你超市(Mini Supermarket, 以下记做MS)网&#xf…

mybatis项目启动报错:reader entry: ���� = v

问题再现 解决方案一 由于指定的VFS没有找,mybatis启用了默认的DefaultVFS,然后由于DefaultVFS的内部逻辑,从而导致了reader entry乱码。 去掉mybatis配置文件中关于别名的配置,然后在mapper.xml文件中使用完整的类名。 待删除的…

排序---P1781 宇宙总统

思路: 当我们要对这些超大数进行比较排序时,如果我们用int或long基本数据类型时,会超出能承载的范围,因此我们选择用引用数据类型:BigDecimal或BigInteger。 区别在于基本数据类型直接比较大小,而是调用这…

平面图—简单应用

平面图:若一个图𝐺能画在平面𝑆上,且使𝐺的边仅在端点处相交,则称图𝐺为可嵌入平面𝑆,𝐺称为可平面图,简称为平面图。 欧拉公式:设有…