NLP论文阅读记录 - wos | 01 使用深度学习对资源匮乏的语言进行抽象文本摘要

news2025/1/11 14:27:36

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Abstractive text summarization of lowresourced languages using deep learning(2211)

0、论文摘要

人类必须能够应对信息技术革命产生的大量信息。因此,自动文本摘要被广泛应用于各个行业,以帮助个人识别最重要的信息。对于文本摘要,主要考虑两种方法:提取方法和抽象方法的文本摘要。提取摘要方法选择像源文档这样的句子块,而抽象方法可以根据挖掘的关键字生成摘要。对于资源匮乏的语言,例如乌尔都语,提取摘要使用各种模型和算法。然而,乌尔都语抽象概括的研究仍然是一项具有挑战性的任务。由于乌尔都语文学作品如此之多,生成抽象摘要需要进行广泛的研究。

方法。
本文利用乌尔都语百万条新闻数据集提出了乌尔都语深度学习模型,并将其性能与支持向量机(SVM)和逻辑回归(LR)等两种广泛使用的基于机器学习的方法进行了比较。结果表明,建议的深度学习模型比其他两种方法表现更好。使用编码器-解码器范式处理提取摘要生成的摘要以创建抽象摘要。

一、Introduction

1.1目标问题

在自然语言处理(NLP)中,文本摘要是一项艰巨的工作。它的目的是通过创建更小的版本而不失去意义,从许多论文中进行更易于管理的阅读和搜索信息。由于互联网在过去二十年的快速扩张,数据可用性新闻、文章和书评都可以在互联网上找到(Burney, Sami & Mahmood, 2012),并将迅速增加。文本数据显着增加,并且由于巨大的数据量。用户使用搜索查询在互联网上查找信息。即便如此,用户仍然必须访问大量网页,这不仅需要时间,而且要找到他们需要的信息也很头疼。因此,为了避免这个令人头疼的问题,处理如此大量的数据,并以最短的方式从整篇文章中获取信息(Kumar & Rani,2021),引入了一种方法,称为文本摘要。根据生成摘要的类型,文本摘要可以分为两类:抽象文本摘要和提取文本摘要。为了逐字摘录源文本的主要部分,提取摘要主要依赖于统计或语言因素(Suleiman & Awajan,2020)。而抽象摘要则重述了获得的文本,以产生源文本中未确定包含的单词,而不是复制源文本的某些部分(Liang、Du & Li,2020)。使用自然语言处理和先进的机器学习算法生成摘要使得抽象文本摘要比提取文本摘要更加困难。必须对材料进行解释和语义评估,以提供抽象摘要(Azmi & Altmami,2018)。
某些系统还采用卷积神经网络来检查语义特征(Wang 等人,2020)。然而,由于抽象生成的摘要与人类生成的摘要非常相似,因此抽象摘要优于提取摘要。因此,总结更具洞察力(Sunitha、Jaya 和 Ganesh,2016)。无论采用哪种总结方法,两种类型的总结都要求它们具有一定的特征。以下是这些领域的主要特征:即使材料很长,生成的摘要与原文的句子结构和含义也必须一致(Muhammad et al., 2018)。可以使用序列到序列范例中发现的两级编码器和解码器来产生压缩文本摘要。此外,生成的摘要应传达原文的整体含义。在保持相同含义的同时,摘要的长度必须比原文短(Burney, Sami & Mahmood, 2012;Liang, Du & Li, 2020)。最后,减少创建的摘要中的重复量也很重要。
根据研究,该模型基于深度神经网络。这可以提取与主题相关联的关键词,然后将其用作输入。最近,深度学习在 NLP 应用中取得了现代突破。由于特征空间稀疏且维度高,因此采用支持向量机和逻辑回归等机器学习算法来狭隘地处理 NLP 复杂问题(Young et al., 2018)。由于其有希望的结果,深度学习方法最近在抽象文本摘要中被广泛抛弃。

1.2相关的尝试

1.3本文贡献

本研究中提出的方法主要基于 seq2seq 递归神经网络 (RNN) 架构。 Seq2seq 映射用于 NLP 投标,例如文本摘要和机器转换,以绘制神经网络中字体、单词(Fischer,2004)和表达式的两种排列。为了执行此实验,需要考虑由超过 100 万条新闻报道及其摘要组成的数据集。它是可用于以乌尔都语语言执行 NLP 实验的最大数据集。文本是文本摘要中的初始序列,摘要是第二序列。深度学习技术用于解决高维数和字符的稀疏性。另一方面,RNN 由一系列隐藏状态组成,每个隐藏状态的输出都会馈送到下一阶段(Widyassari 等人,2022 年)。 RNN 的顺序方面使得顺序分析数据变得更加容易,例如根据前面或后面的单词来识别句子中术语的含义。所有先前秘密状态的生产力都累积在 RNN 的最后一个隐藏状态中,以形成上下文向量(Bhaduri,1990)。手稿中每个表达式的矢量描述与编码器每个隐藏阶段之前的隐藏状态的生产力混合在一起。 “SOS”符号的单词植入就是单词植入,生成的摘要的第一个单词就是输出。框架向量是解码器中初始未知状态的输入。最近使用了许多词嵌入模型,例如 word2Vec 和 GloVe。提取摘要模型不理解句子含义(Dwi Sanyoto,2017)。摘要是通过连接关键字、短语和句子创建的。
我们提出的抽象文本摘要方法分为三个阶段:在第一阶段,收集数据集并完成预处理。第二阶段,进行文本抽取摘要;第三阶段,进行抽象文本摘要。对于抽象概括,考虑编码器-解码器模型。编码器的三层和解码器的单层构成了建议的模型。编码器-解码器利用长短期记忆(LSTM)。以下是编码器层词嵌入的输入:初始层的输入文本、下一层输入文本的关键字以及最终层输入文本的名称实体。另一方面,使用词嵌入生成的词向量用作解码器层的输入。摘要是由解码器使用全局注意力方法创建的。
其余文章的结构如下。相关工作在“相关工作”部分中进行了描述。在“问题陈述和动机”部分,提供了问题陈述和动机。下一节将讨论研究贡献。 “建议模型”部分介绍了建议模型。接下来描述实验的评估和结果。 “结论”部分给出了结论。

总之,我们的贡献如下:
2015年,首次提出使用深度学习方法来抽象英语文本摘要(Dwi Sanyoto,2017)。然而,据我们所知,抽象的乌尔都语文本摘要仍然没有采用深度学习。这项研究的总体目标是 • 生成有意义且简洁的摘要,其中包括乌尔都语语言的新单词和句子。通过抽象的文本摘要增强了源文档的可读性和整体含义的掌握。 • 提高生成的波斯语摘要的正确性和可读性。这项工作的重点是利用抽象文本摘要模型。它考虑源数据或其他文档以生成摘要。生成两个摘要。第一个摘要由语言学家生成,而模型生成另一个摘要。将模型生成的摘要与语言学家生成的摘要进行比较。生成的摘要可以是多个文档或单个文档。

二.相关工作

近年来,乌尔都语语言学取得了重大进展。众多门户网站和新闻网站日复一日地产生大量数据。在不知道短语含义的情况下,提取摘要方法会构建摘要(Dwi Sanyoto,2017)。因此,抽象摘要比提取摘要更精确(Kiyani & Tas,2017)。然而,由于统计方法比语言学程序更快,因此提取的摘要生成得更快。专利标签的抽象和提取方法已经过研究(Moratanch & Chitrakala,2016)。总体而言,由于各种原因,比较抽象方法与提取方法(Dalal & Malik,2013)很困难。文本摘要的方法如图 1 所示。根据输出分为抽取式文本摘要和抽象式文本摘要。类型。提取摘要类型概述如图2所示,摘要摘要类型概述如图3所示。

在这里插入图片描述
在这里插入图片描述

无监督学习:这些方法不需要人工摘要(用户输入)来确定内容的关键方面。
基于图的方法:由于图可以有效地反映文档结构(Iyer,Chanussot&Bertozzi,2018),因此这些模型经常用于文档摘要。
基于概念的方法:这种方法使用 HowNet 和 Wikipedia 等外部知识库从文本中提取理论(Hashemi、Tyler & Antonelli,2014)。
基于模糊逻辑的方法:句子长度、句子相似性(Ropero et al., 2012)和其他文本属性是模糊逻辑技术的输入,随后提供给模糊系统。
潜在语义分析:称为潜在语义分析 (LSA) 的技术(Ozsoy、Alpaslan 和 Cicekli,2011)允许文本摘要任务提取句子和短语的潜在语义结构。

监督学习:在句子级别,与监督提取摘要相关的技术基于分类策略(维基百科,2022)。该模型通过使用示例来区分非摘要短语和摘要短语进行教学。机器学习依赖于贝叶斯规则:机器学习方法将文本摘要视为分类问题(Brownlee,2019)。根据每个属性,句子仅限于非摘要或摘要。基于神经网络:它考虑采用双层和反向传播方法的 RankNet 训练神经网络(Kamper 等人,2015)。为了对文档中的句子进行评分,神经网络系统必须首先进行特征提取关于测试和训练集中的句子。这是在第一阶段完成的,该阶段使用机器学习方法来标记训练数据。条件随机场:一种称为条件随机场的统计建模策略(Macherla,2020)专注于使用机器学习来产生结构化预测。
基于结构的方法:它利用深度学习算法从原始文档中选择关键段落(Garg & Saini,2019)。
基于树方法的摘要:(Kikuchi et al., 2014)使用依存树来描述文本和源文本中的信息。
基于模板方法的摘要:这是一种让最终用户可以自由地为应该摘要的信息设计模板的方法(Oya et al., 2014)。该模板包括副词、动词和名词等词性标记,最终用户可以定义句子在摘要中出现的方法。
基于本体的方法:开发本体的方法(Jishma Mohan et al., 2016)使用数据预处理、语义信息提取和本体开发。
引导和主体短语方法:它取决于“插入和替换”过程,该过程使用核心句子来替换每个步骤开始时的引导短语和类似的句法核心块(Sciforce,2019)。
基于规则的方法:使用这种方法(Vodolazova & Lloret,2019),文本材料通过显示为细节的集合来浓缩。
基于语义的方法:(Shahzad 等人,2022)在基于语义的方法中,与表型相关的想法取自领域知识库的类层次结构,语义相似性度量确定其重要性。
多模态语义模型:在这种方法中(Chen & Zhuge,2018),一个或多个文档的主题(图像和手稿数据)由提取主题内容和主题之间的相关性的语义单元表示。
基于信息项:以原文的句子为起点,利用原文的摘要表示来构造摘要数据。
基于语义图:丰富语义图(RSG)在源内容上构建语义图,压缩语义网络,然后从压缩语义图提供详尽的抽象摘要。
在这里插入图片描述

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1375014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

openai自定义API操作 API (openai.custom)

OpenAI 提供了一个自定义 API,允许开发者通过编程方式与 OpenAI 的 AI 模型进行交互。使用这个 API,你可以执行各种任务,例如文本生成、推理和翻译等。 以下是使用 OpenAI 自定义 API 的基本步骤: 创建 API 密钥:首先…

【C#】使用 LINQ 中的 Skip() 和 Take()进行分页,为什么要分页,分页作用是什么

欢迎来到《小5讲堂》 大家好,我是全栈小5。 这是是《C#》序列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握…

Demo: 给图片添加自定义水印并下载

给图片添加自定义水印并下载 <template><div class"wrap"><div class"optea"><div class"file-upload"><p>选择图片</p><el-button type"text" style"color: #c00;"><label f…

可狱可囚的爬虫系列课程 11:Requests中的SSL

一、SSL 证书 SSL 证书是数字证书的一种&#xff0c;类似于驾驶证、护照、营业执照等的电子副本。SSL 证书也称为 SSL 服务器证书&#xff0c;因为它是配置在服务器上。 SSL 证书是由受信任的数字证书颁发机构 CA 在验证服务器身份后颁发的&#xff0c;其具有服务器身份验证和…

小程序基础学习(事件处理)

概述&#xff1a;点击某一个标题&#xff0c;使标题选中增加不同颜色。 <!--pages/four/four.wxml--> <navigation-bar title"牧原" back"{{false}}" color"black" background"#FFF"></navigation-bar> <view c…

WPF XAML(一)

一、XAML的含义 问&#xff1a;XAML的含义是什么&#xff1f;为什么WPF中会使用XAML&#xff1f;而不是别的&#xff1f; 答&#xff1a;在XAML是基于XML的格式&#xff0c;XML的优点在于设计目标是具有逻辑性易读而且简单内容也没有被压缩。 其中需要提一下XAML文件在 Visu…

WindowsServer安装mysql最新版

安装 下载相应mysql安装包&#xff1a; MySQL :: Download MySQL Installer 选择不登陆下载 双击运行下载好的mysql-installer-community-*.*.*.msi 进入类型选择页面&#xff0c;本人需要mysql云服务就选择了server only server only&#xff08;服务器&#xff09;&#x…

x-cmd pkg | lf - 终端文件管理器

目录 简介首次用户技术特点竞品和相关作品进一步阅读 简介 lf 是一款功能强大的终端文件管理器&#xff0c;通过快捷键和类似 Vim 的键绑定来完成快速导航和文件操作。 其高度可定制性和扩展功能&#xff0c;可以满足高级用户的需求。 首次用户 使用 x env use lf 即可自动下…

C++ Primer 6.2参数传递 知识点+练习题

C Primer 6.2参数传递 知识点练习题 指针形参使用引用拷贝Const 形参实参尽量使用常量引用数组形参数组引用形参传递多维数组向main函数传参数含有可变形参的函数练习题待更新 指针形参 void reset(int *p) {*p0;//p指向的整型对象变为0p0;//只是对形参改变p&#xff0c;使其为…

【排序】归并排序(C语言实现)

文章目录 1. 递归版的归并排序1.1 归并排序的思想2. 递归版的归并排序的实现 2. 非递归版的归并排序 1. 递归版的归并排序 1.1 归并排序的思想 归并排序&#xff08;MERGE - SORT&#xff09;是建立在归并操作上的一种有效的排序算法, 该算法是采用分治法&#xff08;Divide a…

【Harmony OS - 消息通知】

应用可以通过接口发送通知消息&#xff0c;提醒用户关注应用中的变化。用户可以在通知栏查看和操作通知内容&#xff0c;通常用于当应用处于后台时&#xff0c;发送&#xff0c;本文主要来介绍在Harmony OS中的三种消息通知。 基础通知 总体流程有三步&#xff1a; 导入noti…

Qt 窗口阴影边框

环境&#xff1a;Qt 5.15 VS2019 方法一&#xff1a;QGraphicsDropShadowEffect 实现方法参考链接&#xff1a;https://blog.csdn.net/goforwardtostep/article/details/99549750 使用此方法添加窗口阴影&#xff0c;会出现警告信息&#xff1a; 且窗口最大化与还原切换时会…

facebook广告的基础知识与类型

Facebook广告是在Facebook平台上展示的一种数字广告形式&#xff0c;它允许广告主通过定位特定的受众群体来推广他们的产品、服务或品牌。以下是一些关于Facebook广告的基础知识&#xff1a; 支持Facebook广告的卡、556150、532959&#xff0c;点击获取 广告形式&#xff1a; …

【排序算法】三、选择排序(C/C++)

「前言」文章内容是排序算法之选择排序的讲解。&#xff08;所有文章已经分类好&#xff0c;放心食用&#xff09; 「归属专栏」排序算法 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 选择排序1.1 原理1.2 代码实现&#xff08;C/C&#xff09;1.3 优化1.3 特性总结 选择排…

SpringBoot外部配置文件

✅作者简介&#xff1a;大家好&#xff0c;我是Leo&#xff0c;热爱Java后端开发者&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;Leo的博客 &#x1f49e;当前专栏&#xff1a; 循序渐进学SpringBoot ✨特色专栏&…

232Modbus转Profinet应用案例分享

现场需求&#xff1a;现场需要将多台伺服接到控制器&#xff08;1200PLC&#xff09;上&#xff0c;用Modbus协议。 根据现场的描述&#xff0c;我们给出一个方案&#xff0c;在PLC和伺服中间加入232Modbus转Profinet&#xff08;XD-PNR200&#xff09;网关&#xff0c;232Modb…

【PaperReading】2. MM-VID

Category Content 论文题目 MM-VID: Advancing Video Understanding with GPT-4V(ision) 作者 Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu, Lijuan Wang (Microso…

使用pygame.draw绘制基本图形

import pygame# 初始化pygame pygame.init()# 创建显示窗口 screen pygame.display.set_mode((640, 480)) pygame.display.set_caption("绘制基本图形")# 定义颜色 BLACK (0, 0, 0) WHITE (255, 255, 255) RED (255, 0, 0) GREEN (0, 255, 0) BLUE (0, 0, 255)…

centos7下升级nginx1.8.0版本到nginx1.25.3版本

1、指定目录下载安装包 wget http://nginx.org/download/nginx-1.25.3.tar.gz 2、重命名老版本nginx目录 cd /usr/local/ mv nginx nginx_1.8.0 3、解压更新版本的压缩包 tar -zxvf nginx-1.25.3.tar.gz 4、进入nginx安装包目录下执行如下命令检测系统环境 --with-stream: 添…

【Docker】Docker安装入门教程及基本使用

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是Java方文山&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;推荐给大家我的专栏《Docker实战》。&#x1f3af;&#x1f3af; &…