多语言历史报纸广告事件抽取(ACL2023)

news2025/1/31 11:09:13

1、写作动机:

首先,获取大规模的、有注释的历史数据集是困难的,因为只有领域专家才能可靠地为它们打标签。其次,大多数现成的NLP模型是在现代语言文本上训练的,这使得它们在应用于历史语料库时效果显著降低。这对于研究较少的任务以及非英语语言尤为棘手。

2、主要贡献:

•构建了一个新的多语言数据集,包括英语、法语和荷兰语的“寻求自由事件”,由奴隶主发布的广告,报道了试图通过逃离奴役寻求自由的被奴役人,基于现有的英语语言“逃奴广告”数据集的标注。

•将从历史文本中提取事件的过程框架化为抽取式问答。即使有限的标注数据,通过利用现代语言的现有资源,这种形式化也能够取得出乎意料的好结果。

•证明了对于历史语言的跨语言低资源学习是非常具有挑战性的,实际上,将历史数据集机器翻译到目标语言通常是最有效的解决方案。

3、数据集:

奴隶主发布在报纸上的广告,内容是捉拿自行解放的奴隶。三种语言:英语、法语、荷兰语。

4、模型:

使用RoBERTa(英语),CamemBERT(法语),RobBERT(荷兰语),XLM-RoBERTa(多语言)模型,在大型抽取性问答数据集上进行了微调。

baseline :T0++(具有强大零样本能力的编码器-解码器transformer,用于在多种语言的历史文本中进行命名实体识别标记)、OneIE(一个英语事件抽取框架)

5、实验:

5.1实验设置:

零样本、少样本、半监督、跨语言训练方式。

5.2实验结果

零样本推理:

少样本推理:

半监督推理和跨语言推理:

6、局限性:

一种事件类型、一个语系、依赖翻译工具、受到OCR错误影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1383308.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年《一个项目征服Java中高级体系》博客计划

终于下决心来写一套大型的Java 笔记,不为别的,就是为了强迫自己将整个Java体系梳理清楚,让自己成为内功扎实的Java高级架构师。牛已经吹出来了,不做对不起网友! 经过一个多月的持续规划,现在终于定好了整体…

调用Clarifai API提取图像特征

官方文档放前面:Images | Clarifai Guide 功能很多,有各种不同的模型,可以提取不同的图像特征,比如图像摘要、图像实体等。。。 具体的调用过程: 1.进入官方网站Full Stack AI Developer Platform: Production Compu…

FPGA 移位运算与乘法

题目: 已知d为一个8位数,请在每个时钟周期分别输出该数乘1/3/7/8,并输出一个信号通知此时刻输入的d有效(d给出的信号的上升沿表示写入有效) 由题意可知: 复位信号高有效,低复位;在inpu_grant上升…

关于编程的一些小小记录

这里记录一些关于编程的小技巧吧,算是个记录 1,vs同时有多个cpp文件怎么办? 我们只想运行第一个cpp文件,那么怎么做呢? 其实很简单,单击你不想让之运行的文件,点击最下面的属性 最后设置为这样…

数学建模day15-时间序列分析

时间序列也称动态序列,是指将某种现象的指标数值按照时间顺序排列而成的数值序列。时间序列分析大致可分成三大部分,分别是描述过去、分析规律和预测未来,本讲将主要介绍时间序列分析中常用的三种模型:季节分解、指数平滑方法和AR…

最小花费-银行转账-图的最短路-超详细解析注释

最小花费-银行转账-图的最短路-超详细解析注释 【题目描述】 在n个人中,某些人的银行账号之间可以互相转账。这些人之间转账的手续费各不相同。给定这些人之间转账时需要从转账金额里扣除百分之几的手续费,请问A最少需要多少钱使得转账后B收到100元。 …

【Linux】Ubuntu 解压 zip、z01、z02等压缩文件的方法,Linux如何解压分卷压缩的

zip分卷压缩,在windows上压缩来的,如何解压这种文件: -rw-rw-r-- 1 20401094656 Dec 10 20:06 FFHQ.z01 -rw-rw-r-- 1 20401094656 Dec 10 20:10 FFHQ.z02 -rw-rw-r-- 1 20401094656 Dec 10 23:22 FFHQ.z03 -rw-rw-r-- 1 20401094656 Dec 10…

机器人跟踪性能量化指标

衡量机械臂关节轨迹跟踪控制的性能可以通过以下几个方面来进行: 跟踪精度:这是衡量机械臂关节轨迹跟踪控制性能的最重要的指标。它反映了机械臂实际运动轨迹与期望运动轨迹之间的偏差。跟踪精度越高,说明机械臂的控制性能越好。运动范围&…

设计模式——1_2 组合(Composite)

君子和而不同,小人同而不和 ——《论语》 文章目录 定义图纸一个例子:折算产品的成本BomMessageBomTree 写在后面的碎碎念职责分离非树状的组合模式组合和迭代器姑妄言之 定义 将对象组合成树状结构以表示“部分-整体”的层次结构。组合模式使得用户对单…

Python数据结构——字符串

目录 一、字符串的不变性 二、字符串的常见方法介绍 三、字符串对象的join()和split()方法 一、字符串的不变性 1、属于不可变对象,不能通过索引操作来改变字符串对象本身 s I like Python s[7] p 要修改字符串,需要使用字符串的replace()方法&am…

Python基础知识:整理16 使用pyecharts实现动态柱状图

1 基础柱状图的构建 from pyecharts.charts import Barbar Bar()bar.add_xaxis(["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"]) bar.add_yaxis("商家A", [5, 20, 36, 10, 75, 90]) bar.ad…

一个用于批量给图片增加水印的Python库

本文推荐一个开源免费Python脚本,可以在指定目录及其子目录中批量给图像添加水印,当然,你也可以集成到你的Web应用中。 给图片、视频增加水印以确认版权或者增加效果,是在媒体内容信息经常需要用到的技术。本文推荐一个开源免费P…

Redis集群(主从复制)

主从复制:是指将一台 Redis 服务器的数据,复制到其他的 Redis 服务器。 前者称为主节点(master),后者称为从节点(slave),数据的复制是单向的,只能 由主节点到从节点。 可以实现数据备份。即使当其中一台机器宕机其他机器还可以正…

如何运用AR技术提升制造效率?这里有答案!

当谈及AR技术在工业领域的应用,首先让人想到的是它为企业带来的巨大变革。从工业设计和制造到设备维护和维修,再到培训和技能传承以及设备操作和监测,AR技术凭借其独特的方式,帮助企业实现更高效的生产和运营。通过这些环节的优化…

office办公技能|word中的常见通配符使用

一、删除Word中含有指定内容的整行 操作方法: 1、快捷键 CtrlH,打开Word的查找替换窗口,单击【更多】按钮,勾选“使用通配符”。 2、在查找内容处,输入“替换内容*^13”,替换为处什么都不填。 3、单击【…

MySQL系列之数据导入导出

前言 大数据与云计算作为当今时代,数据要素发展的“动力引擎”,已经走进了社会生活的方方方面。而背后承载的云服务或数据服务的高效运转,起了决定作用。 作为数据存储的重要工具,数据库的品类和特性也日新月异。从树型、网络型…

第380场周赛挑战:二分,数位dp和KMP算法的综合运用

比赛地址 卡在第三题了,应该看看第4题kmp套模版的 一、最大频率元素计数 class Solution:def maxFrequencyElements(self, nums: List[int]) -> int:frequency {} # 哈希表用于统计频率max_freq 0 # 存储最大频率# 统计每个元素的频率for num in nums:i…

机器学习周报第28周

目录 摘要Abstract一、文献阅读1.题目:2.摘要3.问题描述4.过去方案5.论文方案6.论文模型7.相关代码 摘要 本周阅读了一篇混沌时间序列预测的论文,论文模型主要使用的是时间卷积网络(Temporal Convolutional Network,TCN&#xff…

1.3K Star,让发送短信变的更简单

Hi,骚年,我是大 G,我的公众号「GitHub指北」会推荐 GitHub 上有趣有用的项目,一分钟 get 一个优秀的开源项目,挖掘开源的价值。 前言 在日常的开发过程中,短信的发送经常使用(尤其是中小型的外…