阅读笔记 DAGA 低资源标记任务数据扩充方法

news2024/11/15 12:13:58

阅读笔记 DAGA 低资源标记任务数据扩充方法

文章目录

  • 阅读笔记 DAGA 低资源标记任务数据扩充方法
    • 前言
    • 概述
    • Introduction
    • Background
      • 1、NER
      • 2、Part-of-Speech (POS) Tagging
      • 3、Target Based Sentiment Analysis
    • Proposed Method
      • 1、Labeled Sentence Linearization
      • 2、Language Modeling and Data Generation
      • 3、Post-Processing
      • 4、Conditional Generation

题目: DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks

代码:github

前言

​ 本文旨在记录学习所得所感,如有错漏敬请斧正

概述

​ 数据增强技术已被广泛用于提高机器学习性能,因为它们增强了模型的泛化能力。在这项工作中,为了为低资源标记任务生成高质量的合成数据,作者提出了一种新的增强方法,该方法使用在线性化标记语句上训练的语言模型。

Introduction

​ 与图像和语音不同,旋转、裁剪、遮盖等人工转换规则很难推广到语言的原始数据中。因为简单的失真通常不会改变图像所包含的视觉信息的含义,但是删除或替换一个单词可能会使句子的含义完全改变。

​ 在自然语言处理领域已经有了不少已经取得较好效果的数据增强方法,如back translation等,但是对于*sequence tagging(分词、词性标注、命名实体识别等)*任务,其相对一般的下游任务(翻译、分类等)而言对数据增强产生的噪声要更为敏感。目前常见的的sequence tagging数据增强方法有使用弱标记器注释未标记的数据利用对齐的双语语料库诱导注释同义词替换等方法。而这三种方法都有自己的局限性:弱标记数据将不可避免地引入更多噪声;双语语料库需要额外资源,同义词替换依赖于额外知识,这二者皆不适用于低资源语言。

​ 本文研究了使用生成方法的序列标记任务的数据库扩充,主要方法为:

  • 首先将标记语句线性化
  • 在线性化的数据上训练语言模型
  • 使用语言模型生成
    请添加图片描述

​ 这个方法的特点是统一了句子生成和语言模型标记的过程,而且不需要像WordNet这样的额外资源,同时也可以借助条件生成技术对未标记数据或者知识库等资源进行利用。

Background

1、NER

​ NER(Name Entity Recognition)命名实体识别是信息提取的重要任务,主要作用是将文本中的命名实体定位并分类为预定义类型。这个任务有两个主要难点:其一是NER的手动标记训练数据量有限,其二则是由于可以被命名的单词种类有限,从小样本的训练数据中很难概括出单词种类。

2、Part-of-Speech (POS) Tagging

​ Part-of-Speech (POS) Tagging词性标注主要作用为给给定句子中的每个单词分配一个语法类的标记,是促进句法分析和观点分析等下游任务的基础。但目前的词性标记器的问题之一是:在低资源语言和稀有单词上,其准确度会显著下降

3、Target Based Sentiment Analysis

​ Target Based Sentiment Analysis基于目标的情感分析旨在检测句子中的观点目标并预测目标上的情感极性

Proposed Method

1、Labeled Sentence Linearization

​ 首先执行句子线性化,将标记的句子转换为便于语言模型学习单词和标签分布的线性序列。为使语言模型学习到单词和标签的关系,如下图所示,将标签插入到相应单词之前,将标签视为单词的修饰词。

请添加图片描述

对于具有大量O标记的任务(如NER、E2E-TBSA等),将标记从线性化序列中移除,同时在句子线性化之后,在句子的开头结尾添加特殊标记**[BOS][EOS]**以标记句子边界,促进模型训练和数据生成。

2、Language Modeling and Data Generation

​ 在线性化之后,使用语言模型来学习单词和标记的分布。这里采用的是一个单层LSTM递归神经网络语言模型(RNNLM)。如下图所示,对于线性化后的标记序列,首先进行标记嵌入,然后将嵌入后的结果输入dropout层,这里的目的是随机去掉一些标记的特征,防止模型过拟合;然后将dropout层的输出输入LSTM中以产生隐藏状态,然后输入dropout层,最后进行多分类。

请添加图片描述

​ 在训练完成后,可以用其生成用于标记任务的训练数据,首先将**[BOS]输入网络,生成下一个最高概率的标记,该标记又被作为输入生成下一个标记。由于我们在相应的单词前插入了标签**,所以当预测给定的句子*“我预订了飞往”的下一个标记时,“S-LOC”的概率比其他选项要大得多,因为语言模型在前面的学习中学到了大量这样的例子,而在预测更下一个词时,因为所有的*“S-LOC”后都是位置词,因此*“伦敦”、“巴黎”、“东京”*都是可能的选择,它们之间的概率非常相近,由于增加了随机性,所以模型会选择其中的任意一个。

3、Post-Processing

​ 生成的序列为线性格式,所以需要转换成原格式。同时,使用一些简单规则来清理生成的数据:

  • 删除没有标签的句子
  • 删除所有单词都是[unk]的句子
  • 删除标签前缀顺寻不正确的句子
  • 删除单词序列相同但标签不同的句子

4、Conditional Generation

提出条件生成方法,允许模型在低资源场景下使用未标记的数据或者知识库。在每个序列的开头加上**[labelled]、[unlabeled]、[KB]**条件标签之一,以标记它们的起源,其中KB表示通过将知识库与未标记的数据匹配来标记序列,这个方法使得语言模型可以学习这些数据间的共享信息。

而当实际生成数据时,在序列开头加上[labeled]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/73754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c#入门-命名参数

位置参数 在你填入实参时,你填入的类型和顺序都需要和形参相同。 因为默认情况下,他是按照从左到右的顺序依次填入实参的。 命名参数 你在声明参数时给变量声明的名字是有用的。 在填入实参时,可以加上名字,以指定你填入的是哪…

触觉智能分享-低成本高性能的厨电解决方案

每个热爱生活的人,一日三餐四季,柴米油盐这点小事,都值得去享受,可如何学会做一顿美味可口的饭菜,对厨房小白来说可不是易事,智能菜谱的出现,将做菜的烹饪过程进行了分步拆解,同时将…

基于STM32波形信号发生器proteus仿真设计(仿真+程序+报告+讲解)

基于STM32波形信号发生器proteus仿真设计(仿真程序报告讲解) 仿真图proteus 8.9 程序编译器:keil 5 编程语言:C语言 设计编号:C0075 讲解仿真视频: 基于STM32的波形信号发生器proteus仿真设计主要功能&#xff1a…

nessus无法导出报告(nessus转中文报告)

nessus漏扫报告,可是nessus导出的报告全是英文,客户说看不懂(说的好像中文就能看懂似的)。找了很多nessus转中文报告的工具都不是很靠谱,今天突然灵机一动发现了一个解决nessus无法导出报告方法。总的说来就是生产一个html文件转中文。 ness…

入门系列 - Git安装与配置

Git安装与配置 要使用Git,你必须在你的电脑上安装它。要不要使用并升级到最新的Git,那取决您的需要了。 下载Git 要下载Git安装程序,请访问Git的官方网站并进入下载页面。本文写于2022-11-29,此时您可以去官网链接去下载&#…

AI教你学测试

ChatGPT这个词相信大家最近看到都不会陌生,应该刷爆了各位的朋友圈,各种分享注册教程、什么AI写代码的文章比比皆是,今天,让我们一起来看一下OpenAI能不能教我们学测试呢,对测试人员的日常工作是否有帮助呢&#xff1f…

原生API编写简单富文本编辑器004

原生API编写富文本编辑器004 遗留的问题: 设置的字体是使用 font属性,而非CSS设置的字号只接受1-7, 并且是以 size 属性而非 CSS控制,超出大小无法设置。color使用HTML的input时,始终有一个input框在那里,并且如果手…

Oracle项目业务表单设计:Oracle PrimaveraUnifier BP

目录 基本介绍 Basic Introduction 业务流程组件 Business Process Components 数据定义 Data Definitions 数据要素 Data Elements 状态 Status 表单 Forms 工作流程 (可选)Workflow 日志 Log 上部表单 Upper Form 详细表单 Detail Form 行项…

找不到msvcr110dll,无法继续执行代码,解决方法分享

找不到msvcr110dll,无法继续执行代码,电脑出现这种情况,主要是缺失了msvcr110dll这个文件。 要解决这个问题,其实不难,有多种方法 第一种解决msvcr110dll的方法 1在百度搜索下载msvcr110.dll文件 2下载后将文件放在c盘windows…

Stimulsoft Dashboards.PHP 2022.4.5 Crack

Stimulsoft Dashboards.PHP 是一个用于设计和查看仪表板的完整软件包。您可以使用该工具集成到您的应用程序中或作为独立的解决方案。同时,不需要复杂的配置或第三方模块。您可以轻松地将仪表板集成到几乎任何 PHP 应用程序中。 仪表板设计器是一个直接影响分析面板…

【推荐学习收藏】9种回归算法及实例总结的太详细了

我相信很多人跟我一样,学习机器学习和数据科学的第一个算法是线性回归,它简单易懂。由于其功能有限,它不太可能成为工作中的最佳选择。大多数情况下,线性回归被用作基线模型来评估和比较研究中的新方法。 在处理实际问题时&#…

Web大学生网页作业成品——游戏主题HTM5网页设计作业成品 (HTML+CSS王者荣耀8页)

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

043-推箱子游戏源代码3

上一讲:042-推箱子游戏源代码2 摘要: 1、使用JAVA基础知识 2、GUI界面编程实现推箱子界面,常用控件的综合应用; 3、使用JAVA绘图技术实现推箱子过程的绘图功能; 4、使用键盘事件,通过方向键实现推箱子过程; 5、使用音频技术,实现播放背景音乐功能; 6、使用IO流技…

从西北工业大学被攻击说起,谈网络安全的最后一道防线—密码

一、背景 据央视2022年9月5日报道,我国西北工业大学(以下简称西工大)遭到美国国家情报局特定入侵办公室(代号TAO)非法入侵,目前已查明涉案人员13人,攻击次数一千余次,大量关键核心数…

保姆级微信双开教程

不知道大家是不是和我一样,两个微信账号,一个用于工作,一个用于私人。 一般来说,日常生活中使用的登录微信的设备也就3种,PC、Android、IOS。这三种设备中,Android经过各种厂商对OS的优化后,基本…

动态规划入门-01背包问题

动态规划入门-01背包问题 问题描述 假设你有个最大载重量为300kg300kg300kg的背包,有4个物品。它们的重量分别为123kg,88kg,93kg,100kg123kg,88kg,93kg,100kg123kg,88kg,93kg,100kg,价值分别为$$10,$19,$8,$20$。 请问背包内最大可以放入多少价值的物品…

第二证券|ChatGPT被“玩坏”,美图大涨45%,AIGC赛道风口来了?

AIGC(人工智能主动生成内容)近期被ChatGPT带火了! 近来明星人工智能公司OpenAI发布了全新的谈天机器人模型ChatGPT。该模型能够主动生成代码以及绘画、答复一系列问题、承认自己的错误、质疑不正确的假设,乃至回绝不合理的要求&a…

Caspase-1活性分析:艾美捷FAM-FLICA试剂盒解决方案

艾美捷FAM-FLICA Caspase-1 (YVAD) Assay Kit FAM-FLICA Caspase-1 活性分析试剂盒检测方案: 1、凋亡诱导: 在开始实验之前,确定可重复的方法用于通过触发胱天蛋白酶活性获得阳性对照。此过程随每个细胞系而显著变化。例如,细胞…

JUC并发编程第九篇,原子操作类分类解析,LongAdder为什么这么快原理分析?

JUC并发编程第九篇,原子操作类分类解析,LongAdder为什么这么快原理分析?一、基本类型原子类二、数组类型原子类三、引用类型原子类四、对象的属性修改原子类五、原子操作增强类六、原理分析,LongAdder 为什么这么快?位…

JS获取音频的总时长,解决Audio元素duration为NaN || Infinity 问题

当我们在加载一个线上mp3地址或者获取audio的duration的时候,会发现有拿到duration是Infinity的情况,这时如果我们动态的展示录音时间时候就会有问题。首先明确一下这是chrome浏览器自己的存在的一个bug,因为我们拿到的录音数据流没有定义长度…