数据增强:Simple Questions Generate Named Entity Recognition Datasets

news2025/1/21 1:01:19

数据增强的方式一般是无标注数据集的情形的一种解决方式,今天的讲座报告中对这问题做了梳理。11.27学术报告文章,应该是韩旭的报告。

文章目录

  • 问题背景
  • 一、论文核心
  • 二、文章内容
  • 三、experiments
  • 总结

问题背景

还是在于方法的创新,虽然是数据增强,但玩出了新花样呀。

标注数据集少,所以,在实体识别时,人们开始使用一些领域词典对齐生成伪标注数据集,但在一些情况下,字典也是不可得的,所以,如何解决呢?

一、论文核心

知识问答的形式,生成数据集,用于NER任务
(1)采用提示学习的范式,生成question
(2)采用phrase retrieval model 用于answer 这些问题
(3)在生成的数据上,测试model performance。

二、文章内容

(1) 查询表述:NER的需求首先被表述为简单的自然语言问题。

模板:Which [TYPE]?
针对数据集中每个type设计一种模板,用于retrieval corresponding的类型。

(2) 检索:我们使用一个开放领域的QA模型来检索相关的短语(即实体)以及要注释的句子。

检索语料是维基百科。
针对每个问题,选择到的top-k个phase来缓解噪声的影响。同时,dictionary形成。
句子中包含检索的phrase的句子被选择出来,每个句子的score由QA模型计算得到。

(3) 词典匹配:检索到的句子由规范化的短语来注释。生成train数据集。

(4) 自我训练:我们使用自我训练(self training),纯粹在我们生成的数据集上训练NER模型。更多细节见第3节。

First, we initialize a teacher model with the generated D˜ train. The
teacher then annotates X˜ train, and a student model is trained on the
re-annotated corpus
. For each iteration, the teacher model is updated
as the student model, and we use the student model as our final NER
model.

在这里插入图片描述

三、experiments

  1. 在rich-resource和few or zero shot条件下,测试模型的性能。
  2. 在fine-gain的实体类型上,测试模型的性能。
  3. 在消融实验中,研究了question template,一些normalization rules(规范化规则),self
    training 的影响。

总结

未来可能的方向:更好的QA模型;多种类型的NER任务(每种类型下,包含的可能实体数量是否有影响,比如美国州和运动员,后者实体量显然大于前者);


新的技术策略,解决旧的问题。
方法可不新颖,但是思路起码要OK。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Centos7下安装Oracle11g

1. 下载安装包 由于Oracle官网上无法下载Oracle数据库之前的版本,可以在 Oracle Software Delivery Cloud 里搜索oracle database 11g 或者百度网盘下载链接:https://pan.baidu.com/s/1r57xI5fSVba_Q3biCj06yg 提取码:xk30 2. 创建运行ora…

【BSC】使用Python玩转PancakeSwap(入门篇)

需求 最近我们需要在BSC上实现代币的自动化兑换,比如自动把BNB兑换成USDT,自动把USDT兑换成CAKE等其它代币,同时也要监视价格,在价格合适的时候再兑换代币。而PancakeSwap正是BSC上最大的去中心化平台,我们已经学会了…

潜匿的怪物,你的供应链真的安全吗?

网络钓鱼、DNS欺骗      勒索软件、MITM攻击      在这个网络环境      风声鹤唳的时代      这些网络攻击类型      你一定不会感到陌生      无孔不入,这个词用来形容网络攻击毫不为过。世上没有绝对锋利的矛,同样也没有坚不可摧的盾,即使您养成了安…

如何编写列名中带有空格的SQL查询

在这篇文章中,我们将学习如何写出列名中带有空格的SQL查询。空格在数据库对象的名称和表的列名的命名规则中受到限制。如果你想在对象名或列名中加入空格,查询和应用代码必须以不同的方式编写。在编写动态SQL查询时,你必须小心和精确。本文解…

【JavaWeb】Servlet系列 --- Tomcat安装及配置和常见的问题(2022最新详解、图文教程)

Tomcat的配置安装1. 关于WEB服务器软件2. 配置Tomcat的服务器第一步:配置Java的运行环境第二步:Tomcat的安装第三步:启动Tomcat3. 问题一:解决Tomcat服务器在DOS命令窗口中的乱码问题(控制台乱码)4. 测试To…

linux 用户不在sudoers文件中,此事将被报告

出现如下提示 gaokaoli 出现不在 sudoers 文件中。此事将被报告 一般是该用户 权限不够 既然知道权限不够可以添加到root用户组,获取权限即可 通过命令行添加到权限,发现还是不行 sudo usermod -g root gaokaoli 那就直接在配置文件中修改 通过执行…

word设置页码从非第一页开始

设置过程 参考:https://zhuanlan.zhihu.com/p/84998841 显示出分隔符和分页符 方法一: 在文档中直接按【CtrlShift8】组合键,即可显示出分节符。. 方法二: 点击【开始】-【段落】-【显示/隐藏编辑标记】按钮,也可显…

如何安装Jmeter监控服务器资源插件(JMeterPlugins + ServerAgent 方法一)?

一、下载插件 ServerAgent-2.2.3.zip 下载 JMeterPlugins-Extras-1.4.0.zip下载 JMeterPlugins-Standard-1.4.0.zip下载 (或者可以到网站下载插件:JMeterPlugins-Standard和JMeterPlugins-Extras 下载地址:https://jmeter-plugins.org/down…

计算机图形学(三) -- 3D 变换

文章目录3D 变换缩放(Scale)平移(Translation)旋转(Rotation)3D 旋转(3D Rotation)什么是欧拉角罗德里格斯旋转公式(Rodrigues Rotation Formula)Viewing transformation什么是 View / Camera Transformation相机标准位置(约定俗成)怎样将一个相机从一个任意的摆放,…

clickhouse单节点以及集群的安装

安装 因为clickHouse很消耗cpu资源,所以需要修改:用户可打开的文件数量和最大进程数: vim /etc/security/limits.conf * soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072//第一列代表用户用户组&#x…

[LeetCode周赛复盘] 第 92 场双周赛20221015

[LeetCode周赛复盘] 第 92 场双周赛20221015 一、本周周赛总结二、 [Easy] 6249. 分割圆的最少切割次数1. 题目描述2. 思路分析3. 代码实现三、[Medium] 6277. 行和列中一和零的差值1. 题目描述2. 思路分析3. 代码实现四、[Medium] 6250. 商店的最少代价1. 题目描述2. 思路分析…

org.springframework.test.util.ReflectionTestUtils.invokeMethod方法的使用

序言 为什么要用spring框架的ReflectionTestUtils工具类的invokeMethod方法? 当我们想要调用一个实例对象的私有方法时,我们可以利用反射机制去调用该私有方法。 Demo 含有私有方法的类, public final class DemoClass {private static …

Spring - BeanFactoryPostProcessor 扩展接口

文章目录Preorg.springframework.beans.factory.config.BeanFactoryPostProcessor源码探究1 是否实现BeanDefinitionRegistryPostProcessor 接口,分别写入集合2 处理实现了的PriorityOrdered和 BeanDefinitionRegistryPostProcessors 的 bean3. 处理实现了的Ordered…

Linux基础

一、Linux发展历程 1.1、Linux前身-Unix 1968年Multics 项目 MIT|、Bell 实验室、美国通用电气有限公司走到了一起,致力于开发Multics项目。到后期由于开发进度不是很好,MIT 和Bell实验室相继离开这个项目的开发,最终导致项目搁浅。 1970年 …

接口测试用例设计方法方式和流程一文到底

目录 1、通用信息校验 1、URL校验 2、请求方法校验 3、请求头 4、接口鉴权 2、接口参数校验 1、参数的必填项校验 2、参数的选填项校验 3、参数长度校验 4、参数数据类型校验 5、参数的有效性校验 6、参数的唯一性校验 7、参数关联项校验 3、其他补充项 1、幂等…

Kafka必问面试题

一、说说你对kafka的理解 kafka本身是一个流式处理平台,同时也具有消息系统得能力,在我们得系统中更多得是把kafka作为一个消息队列系统来使用 而如果来介绍kafka,大致可以分为这几块: kafka集群元数据得管理,集群得…

【云原生 | Kubernetes 实战】04、k8s 名称空间和资源配额

目录 一、什么是命名空间? 二、namespace 应用场景 三、namespacs 使用案例 四、namespace 资源限额 一、什么是命名空间? Kubernetes 支持多个虚拟集群,它们底层依赖于同一个物理集群。 这些虚拟集群被称为命名空间。 命名空间namespace…

《基础IO》

【一】C文件接口 我们使用C语言向文件写入东西的时候,基本上的套路都是先打开文件,然后调用C的文件接口,向文件中输入相应的数据,然后关闭文件。 a.size_t fwrite( const void *buffer, size_t size, size_t count, FILE *stream …

AlibabaP9整理出微服务笔记:Spring微服务不止架构和设计

微服务是一种架构风格,也是一种针对现代业务需求的软件开发方法。微服务并非发明出来的,确切地说是从之前的架构风格演进而来的。 但是深入介绍Spring Boot、Spring Cloud、Docker、 Mesos和Marathon掌握响应式微服务设计原则,轻松构建大规模…

每天五分钟机器学习:常用的聚类算法——k均值的运行原理和实现

本文重点 K-均值是聚类算法之一,该算法接受一个没有标签的数据集,然后将数据聚类成不同的簇。 k-均值运行原理 K-均值是一个迭代算法,假设我们想要将数据聚类成k个组,其方法为: 1.首先选择 k 个随机的点(样本点),称为聚类中心。 2.遍历数据集中的每一个数据,计算距离…