阅读笔记 MulDA: DAGA向多语言方向的拓展

news2025/1/2 2:49:30

阅读笔记 MulDA: DAGA向多语言方向的拓展

文章目录

  • 阅读笔记 MulDA: DAGA向多语言方向的拓展
    • 前言
    • 概述
    • Introduction
    • MulDA: Our Multilingual Data Augmentation Framework
      • 1、Labeled Sequence Translation
      • 2、Synthetic Data Generation with Language Models
      • 3、Semi-supervised Method
      • 4、Post-Processing

原文: MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER

代码:github

前言

​ 本文旨在记录所学所得所感,如有错漏敬请斧正。

概述

​ 这篇文章在DAGA的基础上,提出多语言数据增强框架来减少源语言数据不足是对模型表现的影响,同时适用于语言模型在不同语言上的迁移。

Introduction

​ NER是信息提取的重要工具,在信息检索、问题解答和文本摘要等下游自然语言处理任务中有着重要作用。但是,对于除英语、德语等资源丰富的语言外的大部分语言而言,训练集仍然十分有限。

​ 跨语言NER方法主要有两类:一是基于实例使用机器翻译和标签投影的方法,二是基于模型的跨语言单词表示或预训练的多语言语言模型转换,通过知识蒸馏可以将基于模型的转移和基于实例的转移进行统一。上述的方法已经证明了零样本跨语言NER的性能,但是这些方法大多以拥有大量的源语言训练数据为前提,当数据量减小时可以观察到显著的性能下降。

​ 本文提出的框架引入了一种新的标记序列翻译方法,将训练数据翻译成目标语言和其他语言,根据多语言数据而不仅是源语言数据对基于LM的NER模型进行微调,以防止模型在语言特性上的过拟合。基于实例的转化方法通过只将实体和相应的上下文转换语言的方法为训练集添加了有限的语义变化。

​ 本文的主要贡献为:1、使用占位符进行标签投影,避免了翻译中单词对齐面临的许多问题,有效地将源训练数据翻译成期望的语言;2、提出了基于生成的多语言数据增强方法,增加了训练数据的多样性;3、通过实验,观察到当对低资源跨语言NER的多语言LM进行微调时,翻译到更多语言也可以时一种有效的数据增强方法,有助于提高性能

MulDA: Our Multilingual Data Augmentation Framework

​ 提出了一种利用基于实例与模型的跨语言转换优势的多语言数据增强框架,主要方法如下:首先使用新的标记序列翻译方法,将已注释的训练数据从源语言S翻译成一组目标语言T={T1, …, Tn}。然后在{D^S, D^T1, …, DTn}上训练语言模型以合成多语言的合成数据,其中DS是源语言训练数据,D^Ti是Ti语言的翻译数据。

1、Labeled Sequence Translation

​ 先前的翻译方法是首先将原句子翻译成目标语言,然后通过算法将单词或短语进行映射,但实际上由于语言的差异,这个映射关系不太准确。为了解决这个问题,还可以采用逐字翻译的方法,但这样需要以牺牲翻译质量为代价

​ 本文采用占位符的方式来解决以上问题:先在翻译之前用上下文占位符替换命名实体,然后在翻译之后替换占位符。

在这里插入图片描述

​ 通过这样的设计,占位符前缀可以向模型提供关于实体的上下文信息,从而使模型以合理的质量翻译句子;同时这个方法也起到了定位实体的作用。

2、Synthetic Data Generation with Language Models

​ 这部分方法中的LM与单语言DAGA并无太大区别,与单语言的DAGA主要区别在于:多语言的DAGA的LM训练时在句首加上了语言标签

在这里插入图片描述

源语言数据和通过翻译获得的多语言数据被连接起来,使用共享词汇表来训练或微调多语言的LM(s)。

3、Semi-supervised Method

​ 未标记的多语言句子一般很好找,为了更好地利用这些数据,本文提出了一种半监督方法,使用伪标记数据来微调多语言LM。首先使用在多语言翻译数据上训练的NER模型来注释未标记的句子。之后,使用另外两个用不同随机种子训练的NER模型,通过去除具有不同标签预测的数据来过滤带注释的数据。

4、Post-Processing

​ 本文还设计了几个简单的方法来对LM生成的数据进行处理和过滤

  • 删除仅包含O标记的序列
  • 分离句子和标记,将生成的序列转换为原格式
  • 使用在多语言翻译数据上训练的NER模型来标记生成的序列。然后比较LM和NER模型预测生成的标签,并删除不一致的句子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/111284.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tableau可视化设计案例-05Tableau进阶

文章目录Tableau可视化设计案例05Tableau进阶1.数据集合并1.1 数据导入界面1.2超市销售情况符号地图1.3智能显示1.4 仪表盘高级应用Tableau可视化设计案例 本文是Tableau的案例,为B站视频的笔记,B站视频 参考:https://www.bilibili.com/vide…

怎么使用CAM350检查Gerber?

文章目录什么是Gerber文件?Gerber中的文件由那些组成?怎么使用CAM350检查Gerber? ——导入CAM350的基础操作:对层的操作什么是Gerber文件? Gerber文件是设计完后PCB(brd文件)板文件后交给板厂制造成品的文件。Gerber一…

代码随想录刷题记录 day50 每日温度+下一个更大元素 I

代码随想录刷题记录 day50 每日温度下一个更大元素 I 739. 每日温度 思想 1.暴力解 两次for 超时了 2.单调栈 花了点时间理解的。 单调栈的基础入门题。找到一个数组中右边的第一个大于 等于 或者小于当前元素的下标的位置 以时间换空间,用一个栈来记录右边第…

明道云联合RestCloud打造APaaS+IPaaS融合解决方案

背景介绍 APaaSIPaaS发展趋势 随着企业规模的扩张以及业务需求变化越来越快,企业现有IT系统无法快速应对前端敏捷化的需求。企业IT架构将朝着敏捷化、低代码化、服务化方向发展,而APaaSIPaaS解决方案在这种需求下应运而生,IPaaS可以把现有固…

ARAS plm安装,各种踩坑

目录准备工作sql server安装NET Framework安装许可申请IIS服务开启IIS无法启动报错 HTTP 错误 500.19 - Internal Server Error错误变为 aras Error: Cannot access OAuth Server due to 500 (Internal Server Error)**Aras安装准备工作 sql server安装 登录出现的几个错误 s…

Python数据分析挖掘案例:Python爬虫助力疫情数据追踪

通过学习Python数据分析挖掘案例,可以掌握通过Python爬虫获取的数据进行处理以及可视化分析的主要方法和技能,并为后续相关课程学习及将来从事数据分析工作奠定基础。 新冠病毒疫情在武汉突然爆发,确诊病例、疑似病例、死亡病例等数据牵动着每…

Binary number

A binary number is a number expressed in the base-2 numeral system or binary numeral system, a method of mathematical expression which uses only two symbols: typically “0” (zero) and “1” (one). The base-2 numeral system is a positional notation with a…

5G FWA市场一跃而上,四信多款5G终端赋能FWA典型应用

随着国家政策相继出台,全球5G基础设施建设日益完善,带动千行百业的巨大变革。以工业互联网、远程医疗、车联网、消费级硬件等为例的应用场景均在5G加持下实现跨越式升级。与此同时,5G FWA作为弥合光纤欠发达地区数字鸿沟挑战的“杀手级应用”…

【kafka】学习笔记(一)

学习笔记一、概述1.1、MQ1.2、kafka1.3、消息队列的两种模式1.3.1、点对点1.3.2、订阅与发布1.4、Kafka基础架构二、安装2.1、 集群规划2.2、 下载安装2.3、 集群启动脚本三、Kafka命令行操作3.1、主题命令行操作3.2、生产者命令行操作3.3、消费者命令行操作四、 Kafka 生产者4…

常用的Linux命令介绍

ls: 如何区分一个文件类型是 文件夹 还是 普通文件: “-” 类型 表示是 普通文件 “d” 类型 表示是 文件夹 cd: cd -返回进入此目录前所在的目录 cd ~如果是root用户,相当于 cd /root;如果是普通用户,相…

7、操作系统之间的文件传输

Windows 与 Linux 在Windows与Linux中传输文件的常用方式有两种,一种是使用使用XFTP工具,另一种是使用rz sz 命令的方式进行 lrzsz 安装 yum install lrzsz -y 1)rz 将文件从window上传到Linux 2)sz 将文件从linux传输到window …

常用排序算法哪个效率更高之从理论到实践

前面整理了一篇关于排序算法的基础类库:基本排序算法类SortHelper 这里我们来看看这几个算法哪个效率更高一点呢? 1、先从理论来看看这几个算法 1、冒泡排序法 基本思想:两两比较待排序数据元素的大小,发现两个数据元素的次序…

RSA和AES的使用

文章目录为什么要对数据传输加密对称加密和非对称加密密钥的几种格式非对称加密算法----RSA算法产生公私密钥对对称加解密算法AES为什么要结合使用这两种算法利用RSA来加密传输AES的密钥,用AES来加密数据,思路如下:特点分析:参考链…

【探索Spring底层】14.谈谈参数解析器

文章目录1. 参数解析器概述2. 常见参数的解析1. 参数解析器概述 参数解析器是Spring-Web包提供的组件,并且SpringMVC中提供了很多参数解析器。 常见的参数解析器如下 org.springframework.web.method.annotation.RequestParamMethodArgumentResolverabbc908org.s…

部署并启动项目在linux(CentOS7)上,一名合格的程序猿不能不会(ಥ_ಥ)

各位小伙伴大家好呀哈哈哈~ 遇到问题不要慌─≡Σ(((つ•̀ω•́)つ让我先发个朋友圈~( • ̀ω•́ )✧ 我们知道项目的正常运行是需要先部署在服务器上,然后才能正常使用,我们一般都是在idea下写好然后直接部署在tomcat上或者其他服务器,但…

多维表需求管理表自动生成TAPD需求

【实现效果:】业务同学使用多维表管理客户需求,和产品团队经过评审之后,一键把多维表里对应的需求生成TAPD需求/缺陷单 【准备工作】 准备一个多维表,比如维格表、金山轻维表等 可以参考这两个模版: 金山轻维表&am…

【深入浅出Spring原理及实战】「开发实战系列」Aspectj和LoadTimeWeaving的动态代理技术实现指南

前提介绍 当我们聊到Spring框架的项目实际开发中,用的强大的功能之一就是(面向切面编程)的这门AOP技术。如果使用得当,它的最大的作用就是侵入性比较少并且简化我们的工作任务(节省大量的重复性编码)&…

【QT】PySide6 数据可视化折线图

一、项目介绍 本项目将通过PySide6构建一个可以显示数据折线图的可视化程序,其中,数据来源时美国地质调查局(US Geological Survey)上公开的一小时地震震级数据。 可以通过链接进行下载。 二、实现步骤 本项目的实现步骤可以概括为: 读取…

艾美捷过氧化氢酶检测试剂盒的功能和应用

过氧化氢酶(EC 1.11.1.6;2H2O2氧化还原酶)是一种普遍存在于大多数需氧细胞中的抗氧化酶。过氧化氢酶(CAT)参与过氧化氢(H2O2)的解毒,过氧化氢是一种活性氧(ROS&#xff0…

领域首创!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

古彝文传承至今已有数千年历史,是世界上最古老的文字之一。2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目(简称“古彝文…