千言数据集赛题介绍

news2024/9/26 1:23:43

赛题题目

通用信息抽取任务评测

多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力

赛题介绍

信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域。一直受到学术界和工业界的广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域单一的抽取任务。难以评估相关技术与方法在通用场景和任务下的抽取性能
为此,中国科学院软件研究所,百度公司与千言开源数据集项目联合发起业界首个通用信息抽取评测。千言通用信息抽取竞赛
本榜单是千言通用信息抽取的常规赛版本。面对NLP开发者长期报名和提交。不设置截止提交时间,任务设置与该竞赛保持一致**:不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述**,着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用
————————————————————————
信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中,特定的抽取需求是指抽取任务中的抽取框架,抽要由抽取类别(人物名称、公司名称、企业上市事件)及目标结构(实体、关系、事件等)组成。本任务为中文信息抽取任务,即按照特定的抽取框架 s s s,从给定的一组自由文本 x x x中,抽取出所有符合抽取需求的信息结构 Y Y Y.(实体、关系、事件记录等)对于同一输入文本,不同的抽取框架会抽取不同的信息结构,如下:

抽取框架示例:金融事件抽取

输入文本text

宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市。

抽取需求

在这里插入图片描述

事件定义

企业通过证券交易所首次公开向投资者增发股票,以期募集用于企业发展资金的过程。
<上市企业> 于 <上市时间> 在 <上市板块> 上市,一共融资 <融资金额>。

论元定义

  • 上市企业:是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司
  • 上市时间:指证券管理部门在证券交易所上市交易的时间
  • 上市板块:是指主板、中小板、创业板、其他。
  • 融资金额:是指上市企业通过“上市”这一行为融到的总资本
    ——————————————————————
    在这里插入图片描述

抽取框架示例2 东奥事件抽取

输入文本text

2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!

抽取需求

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

抽取框架3人物信息

输入文本

2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!

抽取需求

在这里插入图片描述

示例输出3

在这里插入图片描述

示例框架4:对话情感抽取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据集介绍

本评测的数据及抽取框架主要来自于千言数据平台和百度通用信息抽取的应用案例,本文评测构建了多领域多场景下的多种抽取框架,包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务。以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。参赛者可以通过已有模型以及千言平台,公开课获得的数据集进行快速数据构建和现有模型的迁移
同时评测鼓励参赛者使用公开的可获取的数据集和知识库数据通过半监督、远距离监督等形式构建训练数据。
数据集组成主要包含两个部分:

  • 6个Seen Schema(已知框架)
    • 主要来自千言平台与AI Studio平台上可获取的数据,参赛者可根据平台数据构建模型,该赛道主要评测现有技术基于标记数据构建模型的能力
  • 4个Unseen Schema(未知框架)
    • 主要来自百度数据的抽取案例,评测方仅提供少量的验证数据,用与参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力
      本次评测数据分为三次发布:
  • Seen Schema定义文件、验证数据。 该部分数据主要来源于千言数据集平台中的各类数据。每一个Schema 包含结构和类型定义,并提供少量验证数据。验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
  • Unseen Schema定义和少量对应的验证数据。 每一个Schema 包**含结构和类型定义,并提供少量验证数据。**验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
  • 测试集数据(最终测试集)。 参赛者需要对纯文本数据及对应的抽取需求(同时包含seen和unseen)进行信息抽取,最后提交抽取结果。

数据说明

抽取框架定义

抽取框架定义文件为YAML格式,包含了不同任务的抽取形式和标签定义。每个抽取框架文件包含实体、关系和事件等定义信息

在这里插入图片描述

训练集文件

不同抽取框架的训练集文件为一个jsonlines文件,文件中的一行是一个训练实例,包含输入文本X,抽取框架S(schema)和目标结构Y(entity、relation、event)。数据样例如下:

{
“text”: “宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市,实控人白厚善的资本术也浮出水面,也引来各路资本加持。”,
“entity”: [],
“relation”: [],
“event”: [
{
“type”: “上市”,
“text”: “上市”,
“args”: [
{“type”: “上市板块”, “offset”: [38, 39, 40], “text”: “科创板”},
{“type”: “上市企业”, “offset”: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
“text”: “宁波容百新能源科技股份有限公司”}
]
}
],
“schema”: “金融信息”
}

训练文件中每个实例包含的常用字段为

  • text 输入文本
  • scheme:对应的抽取框架
  • entity 实体标注结果
  • relation 关系标注结果
  • event事件标注结果

测试集文件

在这里插入图片描述
测试文件中每个实例包含的常用字段

  • text 输入文本
  • scheme:对应的抽取框架
  • id 抽取实例id

提交格式

模型预测结果以编码为UTF-8的jsonlines的文件格式提交到AI Studio,平台进行在线评分,实时排名。文件中一行为一个json对象,是一个实例的预测结果,样例如下所示。选手需针对所有测试样例提交结果,若无输出结果则目标结构(entity、relation、event)列表为空

评测内容

本次大赛基于抽取系统从输入序列中抽取的输出记录进行评价。我们将不同范式的抽取任务统一表示成不同的多元组,并对集合去重的结果进行评价,评测脚本自动将提交格式中的输出结果转化为多元组并进行评价,评价形式可能包括二元组与三元组

多元组中所涉及的基本元素包括:

  • 文本块抽取结果span,(以字符串形式出现,不需要对应的offset)

  • 表示类型的标签(例如:实体类型、事件类型)

  • 表示关联关系的标签(例如:关系类型、事件论元类型)
    具体来讲,评测的多元组具体包含:

  • (Span,类型标签):代表性的抽取任务包括有实体抽取任务(实体提及span,实体类型)、事件触发词识别任务(触发词span,事件类型)

  • (关联关系标签,Span1,Span2):代表性的抽取任务包括有关系抽取任务(关系类型, 主体span, 客体span)、情感三元组(情感极性,意见对象span,情感表达span)

  • (类型标签,关联关系标签,Span):代表性的抽取任务包括有事件论元识别(事件类型,论元角色,论元span)
    请注意,本次评测主要关注于信息的抽取,而非标注。因此,对于同一段文本中出现多次的相同信息,我们将去重后进行评价。例如,对于同一段输入文本中出现有多次相同的特定实体,模型仅需要输出一个二元组即可,输出多个相同的二元组,评价脚本将自动去重

评价指标

在这里插入图片描述

总体打分

在这里插入图片描述

经验

慢慢的将这个比赛挖掘透彻,通过问题形式完成该比赛一个月完成一个都是进步,慢慢的积累自己的比赛经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/399653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Highcharts 写 venn图 (韦恩图),以及解决项目中venn的报错

Highcharts 写 venn图 鼠标悬浮效果以及点击事件 效果图如下&#xff1a; 参考highcharts官网venn 具体方法 安装包依赖&#xff1a;npm install highcharts //组件中引入 import Highcharts from highcharts; // import exportingInit from highcharts/modules/export…

【项目总结】基于SSM+SpringBoot+Redis的个人博客系统项目总结

文章目录项目介绍&#xff08;开发背景&#xff09;数据库设计主要使用到的技术点前端后端自定义统一返回对象自定义拦截器加盐加密操作分页功能session持久化自定义头像的存储和获取项目编写过程中遇到的困难点困难点一&#xff08;小&#xff09;困难点二&#xff08;小&…

C++11:右值引用和移动语义

文章目录1. 左值和右值表达式1.1 概念1.2 左值和右值2. 左值引用和右值引用2.1 相互引用2.2 示例代码2.3 左值引用使用场景缺点2.4 右值引用和移动语义小结2.5 移动赋值2.6 右值引用的其他使用场景右值引用版本的插入函数3. 完美转发3.1 万能引用3.2 如何实现完美转发3.3 完美转…

u盘拔掉再插上去文件没了原因|文件恢复方法

如果您遇到了“u盘拔了再插文件变空了”的类似问题困扰&#xff0c;请仔细阅读文本&#xff0c;下面将分享几种方法来恢复u盘上丢失的文件&#xff0c;赶紧来试试&#xff01;为什么u盘拔掉再插上去文件没了“我的u盘为什么放进东西后拔出&#xff0c;再插进电脑去东西就没有了…

从零开始学架构——复杂度来源

复杂度来源——高性能 对性能孜孜不倦的追求是整个人类技术不断发展的根本驱动力。例如计算机,从电子管计算机到晶体管计算机再到集成电路计算机,运算性能从每秒几次提升到每秒几亿次。但伴随性能越来越高&#xff0c;相应的方法和系统复杂度也是越来越高。现代的计算机CPU集成…

前端——5.HTML标签_段落标签和换行标签

这篇文章&#xff0c;我们来讲解一下HTML标签中的段落标签和换行标签 目录 1.段落标签 1.1介绍 1.2实际案例 1.3小拓展 2.换行标签 2.1介绍 2.2实际案例 3.小结 1.段落标签 我们首先来讲解一下段落标签 1.1介绍 在网页中&#xff0c;要把文字有条理地显示出来&…

图像主题颜色提取(Median cut)

前言 之前想对图片素材进行分类管理&#xff0c;除了打标签&#xff0c;还有一样是通过主题色进行分类。于是开始寻找能提取主主题色的工具&#xff0c;最后找到了大名鼎鼎的 Leptonica 库&#xff0c;其中就有中位切割算法的实现。下面附上中位切割算法的其它语言版本的实现。…

keras图片数字识别入门AI机器学习

通过使用mnist&#xff08;AI界的helloworld&#xff09;手写数字模型训练集&#xff0c;了解下AI工作的基本流程。 本例子&#xff0c;要基于mnist数据集&#xff08;该数据集包含了【0-9】的模型训练数据集和测试数据集&#xff09;来完成一个手写数字识别的小demo。 mnist…

Linux内核之内存管理知识以及伙伴系统

内存管理知识以及伙伴系统一、Linux 内核架构图二、虚拟内存地址空间布局2.1、用户空间2.2、内核空间2.3、硬件层面2.4、虚拟地址空间划分2.5、用户虚拟地址空间布局2.6、进程的进程描述和内存描述符关系2.7、内核地址空间布局三、SMP/NUMA 架构3.1、SMP3.2、NUMA四、伙伴系统及…

传输线的物理基础(四):传输线的特性阻抗

特性阻抗和控制阻抗对于一条均匀的线&#xff0c;无论我们选择看哪里&#xff0c;我们都会看到沿线传播时相同的瞬时阻抗。有一个表征传输线的瞬时阻抗&#xff0c;我们给它起了一个特殊的名字&#xff1a;特性阻抗。有一个瞬时阻抗是均匀传输线的特征。我们将这种恒定的瞬时阻…

RZ/G2L工业核心板U盘读写速率测试

1. 测试对象HD-G2L-IOT基于HD-G2L-CORE工业级核心板设计&#xff0c;双路千兆网口、双路CAN-bus、2路RS-232、2路RS-485、DSI、LCD、4G/5G、WiFi、CSI摄像头接口等&#xff0c;接口丰富&#xff0c;适用于工业现场应用需求&#xff0c;亦方便用户评估核心板及CPU的性能。HD-G2L…

idm如何下载种子文件和磁力链接 idm如何下载torrent

采用分段式下载技术并支持断点续传的idm下载加速器&#xff0c;几乎可以胜任所有的下载任务。由于该软件强大的下载能力和仅为10MB的小巧体积&#xff0c;idm被来自全球的用户亲切地称为天花板级的下载软件。那么有关idm如何下载种子文件和磁力链接&#xff0c;idm如何下载torr…

基于vivado(语言Verilog)的FPGA学习(1)——了解viviado面板和编译过程

基于vivado&#xff08;语言Verilog&#xff09;的FPGA学习&#xff08;1&#xff09;——了解程序面板和编译过程 每日废话&#xff1a;最近找实习略微一些焦虑&#xff0c;不想找软件开发&#xff0c;虽然有些C和python基础&#xff08;之前上课学的&#xff09;&#xff0c;…

编码技巧——Redis Pipeline

本文介绍Redis pipeline相关的知识点及代码示例&#xff0c;包括Redis客户端-服务端的一次完整的网络请求、pipeline与client执行多命令的区别、pipeline与Redis"事务"、pipeline的使用代码示例&#xff1b; pipeline与client执行多命令的区别 Redis是一种基于客户…

如何挖掘专利创新点?

“无意中发现了一个巨牛的人工智能教程&#xff0c;忍不住分享一下给大家。教程不仅是零基础&#xff0c;通俗易懂&#xff0c;而且非常风趣幽默&#xff0c;像看小说一样&#xff01;觉得太牛了&#xff0c;所以分享给大家。点这里可以跳转到教程。” 对于广大的软件工程师来说…

W806|CKLINK LITE|ICE调试|HardPoint|elf模板|CSDK|Debug|学习(4):CKLINK调试W806

目录 一、硬件连接 接线方式 错误提示 二、调试前准备 正常识别状态 wm_tool.exe缺失错误​ 三、flash配置 增加W806模板 compiler选项卡 Debug选项卡 ICE设置 正常连接信息 四、调试工程 添加硬断点 断点配置 仿真调试 下载固件 参考&#xff1a; 《手把手教…

《MySQL系列-InnoDB引擎28》表-约束详细介绍

约束 1 数据完整性 关系型数据库系统和文件系统的一个不同点是&#xff0c;关系数据库本身能保证存储数据的完整性&#xff0c;不需要应用程序的控制&#xff0c;而文件系统一般需要在程序端进行控制。当前几乎所有的关系型数据库都提供约束(constraint)机制&#xff0c;该机制…

群智能优化计算中的混沌映射

经实验证明&#xff0c;采用混沌映射产生随机数的适应度函数值有明显提高&#xff0c;用混沌映射取代常规的均匀分布的随机数发生器可以得到更好的结果&#xff0c;特别是搜索空间中有许多局部解时&#xff0c;更容易搜索到全局最优解&#xff0c;利用混沌序列进行种群初始化、…

基于Qt WebEngine 的Web仪器面板GUI程控技术

随着IIoT的发展&#xff0c;很多工业仪器也具备了远程管理的GUI。与早期使用串口进行命令交互不同&#xff0c;这些GUI可以直接在远程呈现数据。 作为希望对仪器、软件进行二次开发的小公司来说&#xff0c;会遇到GUI人工操作转自动化的需求。在无法通过串口等传统接口进行自动…

nextjs开发 + vercel 部署 ssr ssg

前言 最近想实践下ssr 就打算用nextjs 做一个人博客 &#xff0c; vercel 部署 提供免费域名&#xff0c;来学习实践下ssr ssg nextjs 一个轻量级的react服务端渲染框架 vercel 由 Next.js 的创建者制作 支持nextjs 部署 免费静态网站托管 初始化项目 npx create-next-app p…