国科大-自然语言处理复习

news2025/1/16 1:40:10

自然语言处理复习

  • 实体关系联合抽取
    • 流水线式
    • 端到端方法
  • 检索式问答系统
    • 流水线方式
      • 信息检索(IR)阶段
      • 阅读理解(RC)阶段
      • 基于证据强度的重排
      • 基于证据覆盖的重排
      • 结合不同类型的聚合
    • 端到端方式
      • Retriever-Reader的联合学习
      • 基于预训练的Retriever-Free方法
  • 情感分析
    • 联合三元组抽取

谨以此博客作为复习期间的记录

实体关系联合抽取

流水线式

  • 流水线式抽取(Pipline): 把关系抽取的任务分为两个步骤,首先进行实体识别,再抽取出两个实体的关系。
    在这里插入图片描述

  • 联合抽取(Joint Extraction): 端到端,同时进行实体和关系的抽取。流水线式抽取会导致误差在各流程中传递和累加,而联合抽取的方式则实现难度更大

端到端方法

在这里插入图片描述
流水线式抽取和新标注策略的实体关系联合抽取都可以和序列标注结合起来,
在这里插入图片描述

在这里插入图片描述

检索式问答系统

流水线方式

Document Retriever 和 Document Reader 分两步

  • Document Retriever:通过TF-IDF检索维基百科中与问题相关的Top K个文档
  • Document Reader:将答案抽取转化为抽取式阅读理解问题
  • • 输入:一个文档段落,一个自然语言描述的问题
  • • 输出:段落中抽取的答案片段
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

论文中提出的模型结构主要包括两个阶段:信息检索(IR)和阅读理解(RC),以及两种答案重排方法:基于证据强度的重排和基于证据覆盖的重排。以下是这些模型组件的详细介绍:

信息检索(IR)阶段

  • 目标:检索与给定问题最相关的网页段落。
  • 方法:使用搜索引擎(例如谷歌或必应)来找到与问题最相关的顶级网页段落。
  • 特点:与标准阅读理解任务不同,在开放领域设置中,RC模型通常在远程监督下进行训练。这意味着在训练阶段,RC模型会将包含正确答案的所有段落与问题进行匹配

阅读理解(RC)阶段

  • 目标:从检索到的段落中提取答案。
  • 方法:使用阅读理解模型(例如R3模型)来从这些段落中提取候选答案。
  • 特点:与单个固定段落的标准阅读理解任务不同,开放领域问答需要处理多个段落,并从中提取候选答案

基于证据强度的重排

  • 目的:利用段落中出现答案的频率或概率来评估答案的强度。
  • 实现:计算每个答案在顶级答案候选中出现的次数,或者将RC模型为每个答案跨度分配的概率相加,以确定最终预测

基于证据覆盖的重排

  • 目的:根据不同段落的证据如何覆盖问题来排列答案候选。
  • 实现:首先将包含答案的段落连接成一个“伪段落”,然后使用匹配LSTM模型来衡量这个伪段落如何涵盖问题的各个方面

结合不同类型的聚合

  • 方法:将两种重排方法的输出进行加权组合,无需额外训练。
  • 特点:首先使用softmax重新归一化两种基于强度的重排器和一个基于覆盖的重排器提供的前5个答案得分,然后对相同答案的得分进行加权求和,选择得分最高的答案作为最终预测

这种结合信息检索、阅读理解和多种重排策略的方法充分利用了多个段落的证据,有效地提高了开放领域问答系统的性能。

端到端方式

Retriever-Reader的联合学习

Lee et al., Latent Retrieval for Weakly Supervised Open Domain Question Answering, ACL,2019
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于预训练的Retriever-Free方法

Petroni et al. Language Models as Knowledge Bases? ACL, 2019

情感分析

联合三元组抽取

将问题转为一个序列生成问题
统一输入输出的标准
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

A Unified Generative Framework for Aspect-Based Sentiment Analysis

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1385433.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科创板涨跌幅限制20%,上海怎么开参考表账户佣金费率最低?万一是哪家证券公司?

科创板是中国证券市场上的一类创新性企业板块,全称为科技创新板。科创板以支持科技创新和高新技术产业为目标,主要面向科技创新型企业和高新技术企业。科创板的设立旨在为创新型企业提供更加灵活、开放、市场化的融资和退出机制,以加快科技创…

【软件测试学习笔记1】测试基础

1.软件测试的定义 软件的定义:控制计算机硬件工作的工具 软件的基本组成:页面客户端,代码服务器,数据服务器 软件产生的过程:需求产生(产品经理),需求文档,设计效果图…

怎样获取power shell 的全部可用命令?3/5(篇幅有点长,分成5份)

在power shell 窗口中,有一个获取全部可用命令的命令:get-command,获取到的命令有1640多个,够学习了吧?那么,power shell 命令有哪些类别呢? PowerShell命令可以分为以下几类: Cmd…

使用composer构建软件包时文件(夹)权限设置

在构建软件包的时候你可能会需要对包源内文件或文件夹的权限做出相应的调整,以确保软件包在部署到客户端后可以正常运行。在此之前我们先来了解一下Apple文件系统内文件或文件夹的权限设定。 常见的文件或文件夹会有Owner, Group, Everyone这三种类型的所有权&#…

经典文献阅读之--TwinLiteNet(可行驶区域和车道分割的高效轻量级模型)

0. 简介 对于自动驾驶来说语义分割是自动驾驶中理解周围环境的一项常见任务。可行驶区域分割和车道检测对于道路上安全且高效的导航尤为重要。为了满足自动驾驶汽车中可行驶区域和车道分割的高效轻量级,《TwinLiteNet: An Efficient and Lightweight Model for Dri…

反射助你无痛使用Semantic Kernel接入离线大模型

本文主要介绍如何使用 llama 的 server 部署离线大模型,并通过反射技术修改 Semantic Kernel 的 OpenAIClient 类,从而实现指定端点的功能。最后也推荐了一些学习 Semantic Kernel 的资料,希望能对你有所帮助。 封面图片: Dalle3 …

JVM篇--Java内存区域高频面试题

java内存区域 1 Java 堆空间及 GC? 首先我们要知道java堆空间的产生过程: 即当通过java命令启动java进程的时候,就会为它分配内存,而分配内存的一部分就会用于创建堆空间,而当程序中创建对象的时候 就会从堆空间来分…

图像处理-像素位置的一阶导数和二阶导数

图像处理-像素位置的一阶导数和二阶导数 空间卷积是一种图像处理中常用的技术,用于计算图像中每个像素位置的一阶导数和二阶导数。在这里将解释如何使用卷积操作来实现这些导数的计算。 一阶导数和二阶导数的性质: 一阶导数通常产生粗边缘&#xff1b…

redis原理(二)数据结构

redis可以存储键与5种不同数据结构类型之间的映射: String类型的底层实现只有一种数据结构,也就是动态字符串。而List、Hash、Set、ZSet都由两种底层数据结构实现。通常我们把这四种类型称为集合类型,它们的特点是一个键对应了一个集合的数据…

小程序系列--6.全局配置

一. 全局配置文件及常用的配置项 二、window 1. 小程序窗口的组成部分 2. 了解 window 节点常用的配置项 3. 设置导航栏的标题 4. 设置导航栏的背景色 5. 设置导航栏的标题颜色 6. 全局开启下拉刷新功能 7. 设置下拉刷新时窗口的背景色 8. 设置下拉刷新时 loading 的样…

【Python数据可视化】matplotlib之绘制高级图形:散点图、热力图、等值线图、极坐标图

文章传送门 Python 数据可视化matplotlib之绘制常用图形:折线图、柱状图(条形图)、饼图和直方图matplotlib之设置坐标:添加坐标轴名字、设置坐标范围、设置主次刻度、坐标轴文字旋转并标出坐标值matplotlib之增加图形内容&#x…

超声波清洗机真有用吗?眼镜党需注意!别被错误洗眼镜方法误导

超声波清洗机洗眼镜真的有用吗?眼镜党朋友一定要注意了,眼镜清洗可不能有一点马虎的哈! 眼镜是很多人日常生活中不可或缺的用品,然而清洁眼镜却是一个让人头疼的问题。随着科技的发展,超声波清洗机作为一种新兴的清洁…

《WebKit 技术内幕》之二: HTML 网页和结构

第二章 HTML 网页和结构 HTML网页是利用HTML语言编写的文档,HTML是半结构化的数据表现方式,它的结构特征可以归纳为:树状结构、层次结构和框结构。 1.网页构成 1.1 基本元素和树状结构 HTML网页使用HTML语言撰写的文档,发展到今…

实战 | 某电商平台类目SKU数获取与可视化展示

一、项目背景 最近又及年底,各类分析与规划报告纷至沓来,于是接到了公司平台类目商品增长方向的分析需求,其中需要结合外部电商平台做对比。我选择了国内某电商平台作为比较对象,通过获取最细层级前台类目下的SKU数以及结构占比&…

免费分享一套PyQt6图书管理系统(附带完整开发视频教程) Python入门项目实战,果断收藏了~~

大家好,我是python222_小锋老师,最近写了一套PyQt6图书管理系统源码,附带完整开发视频教程,作为Python学习者的入门实战项目,带大家一起入门学习Python技术,感谢大家支持,特来分享下哈。 项目实…

java小游戏——动漫美女拼图

1:继承 1.1 继承概述 首先,我们来说一下,什么是继承: 继承是面向对象三大特征之一(封装,继承和多态) 可以使得子类具有父类的属性和方法,还可以在子类中重新定义,追加属性和方法 也就是说&…

生日视频模板-试试这样制作

视频制作已经成为表达情感、记录生活的重要方式。尤其在生日这样的特殊日子,一份个性化的视频祝福不仅能让人感到温馨,还能成为长久珍藏的回忆。那么,如何快速制作出精美的生日模版视频呢?下面就给大家介绍几种可以制作生日模版的…

论文阅读:Attention is all you need

【最近课堂上Transformer之前的DL基础知识储备差不多了,但学校里一般讲到Transformer课程也接近了尾声;之前参与的一些科研打杂训练了我阅读论文的能力和阅读源码的能力,也让我有能力有兴趣对最最源头的论文一探究竟;我最近也想按…

300块成本从零开始搭建自己的家庭版NAS还可以自动备份,懂点代码有手就行!

前言 300块成本从零开始搭建自己的家庭版NAS,还可以手机上文件照片音乐自动备份,完全实现了自己的网盘效果,可以设置用户权限分配,目录上传、断点续传、并行上传、拖拽文件上传等日常操作。 为什么要搭建NAS? 现在的手…

【数据库】间隙锁Gap Lock

什么是间隙锁 间隙锁(Gap Lock):间隙锁是(RR级别下)一个在索引记录之间的间隙上的锁,可以是两个索引记录之间,也可能是第一个索引记录之前或最后一个索引之后的空间。间隙锁(Gap Lo…