四、自然语言中的生成式任务

news2025/1/12 15:54:56

目录

4.0 机器翻译

4.1 文本摘要

4.1.1 抽取式摘要

4.2.2 生成式摘要


 NLP学习笔记系列,欢迎收藏交流:

零、自然语言处理开篇-CSDN博客

一、NLP中的文本分类-CSDN博客

二、NLP中的序列标注(分词、主体识别)-CSDN博客

三、NLP中的句子关系判断-CSDN博客

四、自然语言中的生成式任务-CSDN博客

4.0 机器翻译

将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,输入为源语言句子,输出为相应的目标语言的句子。口语中文平均句子长度:7.8个词,书写中文平均句子长度:22.5个词。

传统的机器翻译:

1、基于规则(句法分析,人工编写规则)、基于统计,比较简单,即给定源语言s,求目标语言t的条件概率p(t | s) (1.2 生成式模型中讲到的),效果和现在神经网络的方法相比差的比较多,有兴趣的可以参考:

Nirenburg S. Knowledge-based machine translation[J]. Machine Translation, 1989, 4: 5-24.

Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the 40th Annual meeting of the Association for Computational Linguistics. 2002: 295-302.

2、基于神经网络的:

最早利用RNN做机器翻译,但RNN的缺点是梯度爆炸无法记住很长的上文,且网络结构注定只能串行输入:

Kalchbrenner N, Blunsom P. Recurrent continuous translation models[C]//Proceedings of the 2013 conference on empirical methods in natural language processing. 2013: 1700-1709.

随后最有名的也是transformer的起源:

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

4.1 文本摘要

4.1.1 抽取式摘要

依据主题、查询词等,找出文章中最相关的n个句子,组成摘要。主题抽取的方式有很多,诸如LDA、KNN等,相关性计算的方式也有很多,可以参考3.0的内容。连贯性较差。

(1)Lead-3算法:一般来说,作者常常会在标题和文章开始就表明主题,因此最简单的方法就是抽取文章中的前几句作为摘要。常用的方法为 Lead-3,即抽取文章的前三句作为文章的摘要。

(2)TextRank:仿造PageRank(PageRank简介,跟不懂的同学们一起分享一下_pagerank中page的意思-CSDN博客)的一种算法,将句子作为节点,使用句子间相似度,构造无向有权边。使用边上的权值迭代更新节点值(PageRank的更新流程),最后选取 N 个得分最高的节点,作为摘要。句子间的相似度计算如下:

 

(3)聚类的方式:将文章中的句子视为一个点,按照聚类的方式完成摘要。例如可以对句子先进行向量化(参考第0章中的内容),然后利用K-means(需指定中心数量)对句子进行聚类,然后得到每一个类别距离中心最近的句子作为摘要句。

(4)序列标注的方法(句子分类模型):为原文中的每一个句子打一个二分类标签(0 或 1),0 代表该句不属于摘要,1 代表该句属于摘要。最终摘要由所有标签为 1 的句子构成。基本流程是:句子向量化->分类模型->得到是摘要的句子组成摘要。论文参考:

Nallapati R, Zhai F, Zhou B. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents[C]//Proceedings of the AAAI conference on artificial intelligence. 2017, 31(1).

(5)排序式的摘要生成方法:将(4)中的打分和选择句子放在一个步骤进行,单向 GRU 记录已抽取的句子+双层 MLP打分,每一步训练选择使目标评价函数最大的的句子。

Zhou Q, Yang N, Wei F, et al. Neural document summarization by jointly learning to score and select sentences[J]. arXiv preprint arXiv:1807.02305, 2018.

4.2.2 生成式摘要

基于原文的上小文信息,重新生成m字数内的文章,出现的词不一定要在原文中出现过。

例如:

采用encoder-decoder的方式进行摘要生成,其模型基本部分为基于注意力机制的 Seq2Seq 模型,使用每一步解码的隐层状态与编码器的隐层状态计算权重,最终得到 context 向量,利用 context 向量和解码器隐层状态计算输出概率。

常见的方法有两类,一类是非transformer类型的:

1、Pointer-Generator指针生成器网络,基础模型是LSTM+ Attention,文本 -> embedding -> encoder -> decoder -> 获得概率 -> 映射词表,文献可参考:

See A, Liu P J, Manning C D. Get to the point: Summarization with pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.

 

另一类是基于transformer的

1、对话式摘要:Automatic Dialogue Summary Generation for Customer Service

2、BART

3、Pegasus

4、T5(Text-To-Text Transfer Transformer)

5、GPT

4.3 对话系统、问答系统

1、检索式对话和问答系统。对答案进行建库(向量或者字符串),对问题进行特征提取(语义理解、向量化),从库中匹配问题相关的答案,排序,抽取相关答案中的关键词组成最终答案返回给用户。

 

NLU需要完成三个任务,分别是域分类(判断用户的passage属于哪个域)、意图检测(判断用户的需求)和槽位填充(标注出有用的槽位信息)。

2、生成式对话和问答系统。典型的就是ChatGPT,网上有很多介绍的原理,感兴趣的可以参考这篇gpt3的原理介绍文章:The GPT-3 Architecture, on a Napkin

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1524125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于单片机的IC 卡门禁系统设计

摘要:针对传统门锁钥匙易丢失、配置不便和忘记携带等问题,提出了一种基于STC89C52 的IC 卡门禁系统设计。该系统以STC89C52 单片机为核心来控制电子锁模块的开关。主要过程是由RFID 模块读取IC卡ID 并通过串口发送至STC89C52 单片机模块,STC89C52 单片机模块可以实现在线对I…

使用广度优先搜索算法找到最短路径,然后绘制路径图

使用广度优先搜索算法找到最短路径,然后绘制路径图 from collections import deque import matplotlib.pyplot as plt# 定义网格环境的参数 GRID_SIZE 5 GRID_WIDTH 4 AGENT_SPEED 2 START_STATE (0, 0) GOAL_STATE (GRID_SIZE - 1, GRID_SIZE - 1)# 定义动作…

Excel小技巧 (4) - Sumif用法

学期末,根据以下表格如果要汇总学生的三门主课分数,如何能快速的汇总呢? sumif就是一个很好用的函数 SUMIF(指定汇总的key范围,汇总值,合计范围)

记录windiwos系统安装homestead环境的一次报错

相关软件版本 VirtualBox 7.0.14Vagrant 2.3.8 报错信息如下 Bringing machine homestead up with virtualbox provider... > homestead: Box lc/homestead could not be found. Attempting to find and install...homestead: Box Provider: virtualboxhomestead: Box Ve…

从电影《沙丘》说起——对人工智能的思考

从《沙丘》开始说起 之前看《沙丘》电影,里面有一类角色叫门泰特,这类人大脑可以飞快地运算,在电影设定里是替换人工智能、机器运算的存在。男主保罗也是这类型的人,但他可能基因更强大,吸食了香料后,他的…

力扣题目训练(22)

2024年2月15日力扣题目训练 2024年2月15日力扣题目训练563. 二叉树的坡度637. 二叉树的层平均值643. 子数组最大平均数 I304. 二维区域和检索 - 矩阵不可变154. 寻找旋转排序数组中的最小值 II 2024年2月15日力扣题目训练 2024年2月15日第二十二天编程训练,今天主要…

Qt for Mac阻止MacOS系统休眠

Qt开发的应用程序如果电脑休眠了会影响软件的使用,因此在软件的使用过程中需要防止电脑休眠,在Win上有专门的API进行处理,在Mac上也必需使用Mac平台自身的API,本篇介绍在Mac平台下使用Qt阻止Mac系统休眠。 要调用Mac系统的API&am…

【开发】Spring整合MyBatis、MyBatisPlus

目录 前言 Spring整合MyBatis 1. 在项目中的pom.xml中导入MyBatis和Spring相关的依赖: 2. 配置数据源 3. 编写实体类 4. 编写API接口 5. 编写单元测试方法(业务) Spring整合MyBatis-Plus 1. 在项目中导入依赖: 2. 配置数…

Java Virtual Machine

JVM 1、初始 JVM 简单描述一下 JVM :JVM 本质是一个运行在计算机上的程序,它的职责是运行字节码文件。 JVM 的三大功能: 解释和运行:对字节码文件中的指令,实时的解释成机器码,让计算机执行内存管理&am…

webpack5零基础入门-10babel的使用

Babel JavaScript 编译器。 主要用于将 ES6 语法编写的代码转换为向后兼容的 JavaScript 语法,以便能够运行在当前和旧版本的浏览器或其他环境中 1.安装相关包 npm install -D babel-loader babel/core babel/preset-env 2.进行相关配置 2.1第一种写法是在webp…

【C语言入门】浮点型数据在内存中的存储

✨✨欢迎大家来到Celia的博客✨✨ 🎉🎉创作不易,请点赞关注,多多支持哦🎉🎉 所属专栏:C语言 个人主页:Celias blog~ 目录 ​编辑 引言 引例 一、浮点型在内存中的存储方式 1.1 …

Employing Multi-Estimations for Weakly-Supervised Semantic Segmentation

eighted selective training (WST) 辅助信息 作者未提供代码

Vue+SpringBoot打造婚恋交友网站

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 会员管理模块2.3 新闻管理模块2.4 相亲大会管理模块2.5 留言管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 会员信息表3.2.2 新闻表3.2.3 相亲大会表3.2.4 留言表 四、系统展示五、核心代码5.…

解决分布式事务,Seata真香!

年IT寒冬,大厂都裁员或者准备裁员,作为开猿节流主要目标之一,我们更应该时刻保持竞争力。为了抱团取暖,林老师开通了《知识星球》,并邀请我阿里、快手、腾讯等的朋友加入,分享八股文、项目经验、管理经验等…

模型、算法、数据模型、模型结构是什么?它们之间有什么关联和区别?

模型、算法、数据模型、模型结构是什么?它们之间有什么关联和区别? 导读一、算法1、算法定义2、机器学习算法定义 二、模型1、模型定义2、数据模型定义3、机器学习模型定义 三、模型结构1、线性模型2、基于实例的模型3、决策树模型4、支持向量机5、集成方…

WebRTC:真正了解 RTP 和 RTCP

介绍 近年来,通过互联网进行实时通信变得越来越流行,而 WebRTC 已成为通过网络实现实时通信的领先技术之一。WebRTC 使用多种协议,包括实时传输协议 (RTP) 和实时控制协议 (RTCP)。 RTP负责通过网络传输音频和视频数据,而RTCP负责…

网络原理(2)——TCP协议

目录 一、TCP协议段格式 二、确认应答 三、超时重传 TCP全称为:"传输控制协议 Transmission Control Protocol)"。协议如其名,要对数据的传输进行一个详细的控制。 一、TCP协议段格式 源 / 目的端口号:表示数据从哪个进程来&am…

稀碎从零算法笔记Day20-LeetCode:回文链表

题型:链表、双指针 链接:206. 反转链表 - 力扣(LeetCode) 234. 回文链表 - 力扣(LeetCode) 来源:LeetCode 题目描述(红字为笔者添加) 给你一个单链表的头节点 head &…

.rmallox勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

导言: 近年来,勒索病毒的威胁日益增加,其中一种名为.rmallox的勒索病毒备受关注。这种病毒通过加密文件并勒索赎金来威胁受害者。本文将介绍.rmallox勒索病毒的特点,以及如何恢复被其加密的数据文件,并提供预防措施&a…

三、传输层拥塞控制、差错控制

3.1 概述和传输层服务 传输服务和协议: 为运行在不同主机上的应用进程提供逻辑通信; 传输协议运行在端系统-发送方:将应用层的报文分成报文段,然后传递给网络层;接收方:将报文段重组成报文,然后传递给应用…