超越传统标注方法:doccano平台提供智能化数据标注解决方案

news2024/11/17 11:36:37

目录

  • 前言
  • 一、doccano的介绍、安装
    • 1-1、doccano的介绍
    • 1-2、doccano的安装、初始化配置
  • 二、序列标注任务
    • 2-1、登录
    • 2-2、创建任务
    • 2-3、数据上传
    • 2-4、添加标签
    • 2-5、任务标注
    • 2-6、数据导出
  • 总结


前言

Doccano是一种用于文本标注的开源工具,旨在简化和加速标注任务的进行。它提供了一个直观的用户界面,使标注人员能够轻松地对文本数据进行标注,并创建高质量的训练数据集用于机器学习和自然语言处理任务。

一、doccano的介绍、安装

1-1、doccano的介绍

在这里插入图片描述

Doccano是一种用于文本标注的开源工具,旨在简化和加速标注任务的进行。它提供了一个直观的用户界面,使标注人员能够轻松地对文本数据进行标注,并创建高质量的训练数据集用于机器学习和自然语言处理任务。
以下是Doccano的一些主要特点和功能

  • 多种标注类型:Doccano支持多种常见的文本标注任务,如命名实体识别、文本分类、关系抽取等。您可以根据具体任务的需求选择适当的标注类型。
  • 协作标注:多个标注人员可以同时使用Doccano进行协作标注。标注人员可以独立地对同一份数据进行标注,并进行交互和讨论,以提高标注的一致性和准确性。
  • 快速导入和导出:您可以将原始文本数据以各种格式(如CSV、JSON、TXT等)导入到Doccano中进行标注。标注完成后,您可以将标注结果导出为各种格式,方便后续的数据分析和模型训练。
  • 自定义标签:Doccano允许您定义自定义的标签集,以适应不同的标注任务和标签体系。您可以根据需要创建和管理标签,并为每个标签定义颜色和快捷键,以提高标注效率。
  • 实时预览和反馈:在标注过程中,您可以实时预览已标注的文本,以及其他标注人员的工作。这样可以更好地了解整体标注进展,并提供即时的反馈和调整。
  • 标注统计和质量评估:Doccano提供了一系列统计信息和指标,用于评估标注任务的进展和质量。您可以查看每个标注人员的贡献、标注一致性以及标注时间等信息。
  • 可扩展性和自定义性:Doccano是一个开源工具,您可以根据需要自定义和扩展其功能。通过使用Doccano的API和插件系统,您可以根据特定要求进行定制和集成。

1-2、doccano的安装、初始化配置

doccano的安装:

pip install doccano

doccano的初始化配置:

# 初始化数据库
doccano init
# 创建超级用户,改成自己的用户名和密码
doccano createuser --username admin --password 123456
# 启动web服务端
doccano webserver --port 8000

打开网页,输入网址:
http://127.0.0.1:8000/

界面如下
在这里插入图片描述

二、序列标注任务

2-1、登录

登录:使用刚才创建的账号密码来登录
在这里插入图片描述

2-2、创建任务

创建项目时选择序列标注任务,并勾选Allow overlapping entity及Use relation Labeling。适配命名实体识别、关系抽取、事件抽取、评价观点抽取等任务。
在这里插入图片描述

  • 勾选序列标注后,需要填写项目名称等信息
    在这里插入图片描述
  • 勾选以下选项(允许实体重叠,使用关系标注)
    在这里插入图片描述

2-3、数据上传

导入数据
在这里插入图片描述
NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,UIE定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。
上传文件:将文件拖入,点击左下角导入。
在这里插入图片描述

注意:导入文件的过程中,碰到一直在加载中的问题。
解决方法:再开一个窗口,输入命令doccano task,开启任务窗口即可。

上传完成后我们可以看到文本已经被添加到项目中去,现在我们对文本进行打标
在这里插入图片描述

2-4、添加标签

抽取式任务包含Span与Relation两种标签类型

  • Span指原文本中的目标信息片段,如实体识别中某个类型的实体,事件抽取中的触发词和论元;
  • Relation指原文本中Span之间的关系,如关系抽取中两个实体(Subject&Object)之间的关系,事件抽取中论元和触发词之间的关系。

以下为添加标签的界面:添加标签即填写名字,key:选择快捷键,最后选择颜色。
在这里插入图片描述
在这里插入图片描述

2-5、任务标注

任务标注:点击右侧按钮开始进行标注。
实体标注:直接用鼠标选取文本即可标注实体。
在这里插入图片描述

在这里插入图片描述

2-6、数据导出

数据导出: 数据导出,选择文件类型为JSONL。
在这里插入图片描述
导出数据如下图所示

{"id":1,"text":"深大到双龙28块钱4月24号交通费","entities":[{"id":1,"label":"出发地","start_offset":0,"end_offset":2},{"id":2,"label":"目的地","start_offset":3,"end_offset":5},{"id":3,"label":"费用","start_offset":5,"end_offset":9},{"id":4,"label":"时间","start_offset":9,"end_offset":14}],"relations":[],"Comments":[]}

参考文章:
GitHub.
如何使用文本标注工具——doccano?.
参考文档.


总结

🤣真的好热。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/727386.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RocketMQ5.0--定时消息

RocketMQ5.0–定时消息 一、定时消息概览 定时消息或延迟消息是指消息发送到Broker后,并不立即被消费而是要等到特定的时间后才能被消费。RocketMQ并不支持任意的时间精度延迟,只支持特定延迟时间的延迟消息。 消息延迟级别在Broker端通过MessageStore…

vue中控制element表格列的显示与隐藏

背景 根据‘执行进度计算方式’的单选框里面的选项不同&#xff0c;展示不同的column 按最小制剂单位统计: 按含量统计: 实现方式 就是拿到选项框里面的值&#xff0c;再根据里面的值来判断哪些column显示和隐藏&#xff1b;关于显示和隐藏可以设置变量&#xff1b; <…

SpringBoot原理分析 | Spring Data整合:JDBC、Druid、Mybatis

&#x1f497;wei_shuo的个人主页 &#x1f4ab;wei_shuo的学习社区 &#x1f310;Hello World &#xff01; Spring Data Spring Data是一个用于简化数据库访问和操作的开源框架&#xff0c;为开发人员提供了一种通用的方式来处理不同类型的数据存储&#xff0c;例如关系型数据…

android13(T) Settings 主页面 Suggestion 菜单源码分析

1、什么是 Suggestion 菜单 呐&#xff0c;下面这个就是 Suggestion 菜单&#xff0c;一般出现在设置主界面最上方位置。 出现时机需要满足三个条件&#xff0c;1、设备不是 LowRam 设备 2、启用 settings_contextual_home 特性 3、在开机一定时间后(一般是几天&#xff0c;具…

山西电力市场日前价格预测【2023-07-08】

日前价格预测 预测明日&#xff08;2023-07-08&#xff09;山西电力市场全天平均日前电价为341.87元/MWh。其中&#xff0c;最高日前电价为871.53元/MWh&#xff0c;预计出现在22: 15。最低日前电价为143.16元/MWh&#xff0c;预计出现在13: 30。以上预测仅供学习参考&#xff…

缓存设计(本地缓存 + 分布式缓存)

缓存设计 前言正文缓存对象缓存服务缓存策略本地缓存Guava的使用 分布式缓存Redis缓存分布式缓存的生命周期分布式缓存的一致性问题 源码解读从缓存中获取秒杀品 分布式锁 总结参考链接 前言 大家好&#xff0c;我是练习两年半的Java练习生&#xff0c;本篇文章会分析秒杀系统…

el-form实现其中一个填写即可的校验

<el-formref"form":model"formData":rules"formRules"label-width"130px"><el-row :gutter"24"><el-col :span"12"><el-form-item label"司机姓名 :" prop"driverName"…

【贪心+最小子段和】EDU151 D

Problem - D - Codeforces 题意&#xff1a; 思路&#xff1a; 首先K是1e18的范围&#xff0c;不能去枚举&#xff0c;那么就去考虑猜测结论 手推样例&#xff1a; 初步可以猜测&#xff0c;K应该取的是某个峰值 结论是&#xff0c;K应该取最小子段和的左端点 因为当前缀和…

【Qt QML入门】第一个Quick应用

运行结果&#xff1a; 打开Qt Creator&#xff0c;创建一个Qt Quick Qpplication&#xff0c;IDE为我们创建一个应用工程&#xff0c;其中包含如下文件&#xff1a; .pro工程文件&#xff0c;我们通过它来打开整个工程&#xff1a; QT quick# You can make your code fail to…

这个618,项目经理竟然只能买它

早上好&#xff0c;我是老原。 转眼就来到了2023年年中&#xff0c;你们的个人成长计划启动了吗&#xff1f; 比如读书计划。 最近有不少粉丝朋友私信老原&#xff0c;希望能推荐一些可以帮自己“进化”的神作。 每个人的基础不同&#xff0c;想要“进化”还是得对症下药才…

C# --- 类型安全 与 var关键字

C# --- 类型安全 与 var关键字 什么是类型安全var关键字 什么是类型安全 类型安全就是编译器在编译阶段会检查变量内容和变量类型是否匹配, 如果不匹配会抛出错误类型安全的语言包括Java, C, C#等类型不安全的语言有JavaScript 下面这段代码是JavaScript, 编译器不会进行类型检…

git在工作中如何搭建和运用(巨详细!!)

最近有点闲&#xff0c;出一版git在实际公司上的一些运用 1&#xff0c;下载git&#xff0c; 下载git就不多说了&#xff0c;官方上下载安装就好了。 2&#xff0c;初始化 下载安装完成后&#xff0c;找个项目的空文件夹进去&#xff0c;右键点击git bash here &#xff0c;…

servlet和form和session表单实现最简单的登录跳转功能(详解,文末付源码)

目录 第一步&#xff1a;配置环境 在pom.xml引入servlet等依赖 这段代码赋值粘贴进web.xml 第二步&#xff1a;编写前端html的form表单 html代码&#xff08;复制这个&#xff09; 第三步&#xff1a;编写登录的java loginservlet代码&#xff08;复制这个&#xff09; 解释…

vue使用element plus引入ElMessage样式失效的问题

样式失效如图&#xff1a; 我使用的是按需引用&#xff0c;所以在main.js中直接导入下面样式就行&#xff1a; import element-plus/theme-chalk/index.css

Luogu P1280.尼克的任务

Luogu P1280.尼克的任务 原题点这里 思路 方法一&#xff1a;动态规划 这是一道动态规划的题目。 步骤主要分 5 5 5 步&#xff1a; 状态的定义转移式的推到递推顺序的判定边界的确定结果的输出 下面&#xff0c;我们针对这道题&#xff0c;细细地讲解一下每一个步骤 一…

MYSQL单表数据量达到多少时性能会严重下降的问题探讨!

不知从什么时候开始&#xff0c;有着MySQL单表数据量超过2000万性能急剧下降的说法。 在中国互联网技术圈流传着这么一个说法&#xff1a;MySQL 单表数据量大于 2000 万行&#xff0c;性能会明显下降。事实上&#xff0c;这个传闻据说最早起源于百度。具体情况大概是这样的&am…

PS 魔棒选区工具使用方法

我们现在PS中打开一个项目 然后 如下图 在工具左侧 选择魔棒工具 选择魔棒工具之后 我们的鼠标会变成像一个魔法棒一样的东西 我们拿着魔棒工具 在下图指向位置点一下 就可以看到 它在我们整个图上生成了一些选区 这个工具本身也带有一些色彩识别的功能 就相当于 你点的这…

【MySQL系列】MySQL库的学习及基本操作(增删查改)

「前言」文章内容大致是数据库的基本操作 「归属专栏」MySQL 「主页链接」个人主页 「笔者」枫叶先生(fy) 「枫叶先生有点文青病」「句子分享」 哪里会有人喜欢孤独&#xff0c;不过是不喜欢失望罢了。 ——村上春树《挪威的森林》 目录 一、创建/查看数据库二、删除数据库三、…

Java8 lambda 表达式 forEach 如何提前终止?

首先&#xff0c;让我们看一下Java 8中如何使用forEach()方法。forEach()方法接受一个Consumer接口作为参数&#xff0c;该接口定义了一个accept()方法&#xff0c;该方法接受一个对象并对其执行一些操作。因此&#xff0c;我们可以通过Lambda表达式来实现Consumer接口。下面是…

Camtasia2023中文版电脑屏幕记录和课件制作工具

TechSmith Camtasia是一个非常容易使用的电脑屏幕记录和课件制作工具。Camtasia 2023软件集强大的录屏、视频编辑编辑、视频菜单制作、视频影院和视频播放功能于一体&#xff0c;可以轻松制作各种教学课件、微课堂等。Camtasia 2023支持一键录制和共享高质量截屏视频&#xff0…