Windows安装和使用Doccano标注工具

news2024/9/22 7:20:37

简介

开源链接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.

Open source annotation tool for machine learning practitioners.

Doccano是一款开源的文本标注工具,由人工智能公司Hironsan开发并在GitHub上发布。它提供了一个直观而功能强大的用户界面,使用户可以轻松地进行文本标注、数据注释和标注项目的管理。Doccano支持多种类型的标注任务,例如命名实体识别、情感分析、文本分类等。

Doccano是Documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为情感分析、命名实体识别、文本摘要、意图识别、插槽填充、图片分类等NLP任务的语料库打标签。

Doccano的特点:

  • 用户友好的界面:Doccano的界面设计简洁直观,无需编程经验即可轻松上手。用户可以通过拖放和选择标签等方式进行标注,同时还提供了实时预览和反馈功能。
  • 多用户协作:Doccano支持多用户协作,团队成员可以共同参与标注项目,并通过评论和讨论功能进行实时沟通和协作。
  • 自定义标签模式:Doccano允许用户自定义标签,以适应不同的标注任务和领域需求。用户可以根据具体情况创建自己的标签集合,并为每个标签定义相应的颜色和含义。
  • 可扩展性:Doccano是开源工具,用户可以根据需要进行自定义扩展和功能添加。此外,它支持多种数据格式的导入和导出,包括JSON、CSV等。

电脑环境

操作系统名称:Microsoft Windows 11 家庭中文版

系统类型:基于 x64 的电脑

电脑已安装了docker desktop和MinGW-w64

关于Docker安装,可以参考windows安装Docker Desktop及国内镜像

MinGW 的全称是:Minimalist GNU on Windows 。它实际上是将经典的开源 C语言 编译器 GCC 移植到了 Windows 平台下,并且包含了 Win32API ,因此可以将源代码编译为可在 Windows 中运行的可执行程序。而且还可以使用一些 Windows 不具备的,Linux平台下的开发工具。更多信息可以访问MinGW官网。MinGW-w64 的代码和可执行文件被托管存储在 SourceForge 上,安装包下载访问: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net

安装和启动

根据Doccano官方介绍,给出了三种安装方式:

  • pip (Python 3.8+)
  • Docker: 通过docker pull直接拉取(下载)镜像
  • Docker Compose:从git仓库下载源码,然后指定环境变量后创建并启动容器。

我的电脑已安装了docker和MinGW-w64,所以直接用较为简单的Docker pull方式安装 Doccano镜像资源。

按照Docker方式安装,步骤如下:

注意一定是在MinGW32窗口运行,不能直接在windows命令行窗口运行,否则即使可以运行下面命令,但是无法启动容器)

(可能原因是:Windows 10 或 Windows 11 专业版或企业版支持运行 Windows 容器,但是Windows 家庭版或教育版仅支持运行 Linux 容器)

1、拉取镜像资源

docker pull doccano/doccano

2、作为一次性设置,按如下方式创建Docker容器

docker container create --name doccano \
  -e "ADMIN_USERNAME=admin" \
  -e "ADMIN_EMAIL=admin@example.com" \
  -e "ADMIN_PASSWORD=password" \
  -v doccano-db:/data \
  -p 8000:8000 doccano/doccano

3、接下来,通过运行容器启动doccano:

docker container start doccano

容器已启动,最后在浏览器运行:http://127.0.0.1:8000/

注1:如果要停止容器,请运行

docker container stop doccano-t 5

这是一种优雅停止(Graceful Shutdown)的方式,给它 5 秒的时间来完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 将强制停止它。

注2:如果要使用最新功能,请指定nightly标签:

docker pull doccano/doccano:nightly

使用Doccano进行标注任务

进入浏览器运行:http://127.0.0.1:8000/

点击“快速开始”, 会进入到登录页码:

整理的用户名和密码就是我们前面在创建docker容器时,设置的管理员参数(这里只是示例,参数值可以自行修改):

-e "ADMIN_USERNAME=admin" \

-e "ADMIN_EMAIL=admin@example.com" \

-e "ADMIN_PASSWORD=password" \

登录后,我们就可以创建项目,开展我们的标注任务了。

点击创建项目,有下面九种项目类型可以选择,填写:项目名称、描述和Tags(项目标签,它不是标注内容标签),以及勾选标注任务管理相关的选项(是否允许项目成员创建标签类型、文档按顺序还是打散排列、标注结果所有成员共享可见)。

注:如果前端页面展示全部是英文,可以点击右上角的语言选项,设置中文展示。

标注项目创建完后,我们就可以点击项目,进入到了该项目的“数据标注平台”页面。

在该页面,我们可以导入数据集、添加成员、创建或导入任务内容标签、统计和导出结果等。

总结一下,使用Doccano进行标注任务的步骤如下:

  1. 准备数据:将待标注的文本数据导入Doccano,可以是文本文件或数据集。
  2. 创建标注项目:在Doccano中创建一个新的标注项目,并定义标签集合。
  3. 标注文本:使用Doccano提供的界面工具,对文本进行标注。可以选择文本片段、标注对应的标签,并添加注释。
  4. 数据管理和导出:管理标注项目,查看已标注和未标注的文本,进行数据的导入和导出。

NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,在百度PaddleNLP的UIE(通用信息抽取)定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。

上传文件:将文件拖入,点击左下角导入。

参考:

强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录

超越传统标注方法:doccano平台提供智能化数据标注解决方案-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1927452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uni app 本地打包apk 教程

前言: 各位同学大家好,最近帮别人打包了一个 uni 的项目编译成apk 所以觉得必要分享下。 上效果图 原始工程 这种uni 原始的工程我们直接 这样我们就可以运行到我们的模拟器或者真机上面去 手动打包 开发环境 Android Studio 下载地址:An

1讲8小时!张宇新36讲怎么学效果最大化?

别怕!解决以下问题,就能让学习效果最大化。 1. 理解有难度。 如果你习惯传统教学模式,例如武忠祥老师的强化课,可能会觉得张宇36讲信息量太大,难以在短时间内消化和理解。 这是因为,考研数学教学的一端&a…

一个审计人为什么要辞职去日本做码农??

今天翻阅报道的时候,看到一篇记者采访记录: 文章的题目是:“审计人辞职去日本做码农的心路历程”。由于标题吸引住了我,我就点进去了看看。 被采访的对象:她在国内审计行业工作两年多后,自学编程&#xf…

Cesium--获取当前相机中心与地面的射线焦点

本文记录获取当前相机中心与地面的射线焦点的方法,可用于视角缩放过程中,控制视角自动平滑切换到二维等场景: 方法一定是视角中心能与地面有交集,如果对着地平线或对着天空肯定是没效果的。直接放代码: //调整相机到正…

计算机志愿攻略,高考生的必读

高考结束 又一年高考结束了 1342万学子们寒窗苦读十二载 迈入考场的那一刻 既紧张又兴奋 即使过去很多年 我仍然能回忆起当年的情景 当高考结束的铃声响起 所有的紧张和压力仿佛瞬间释放 走出来的那一刻 不管结果如何 我们都为自己能够勇敢地走过这段旅程而感到骄傲 …

基于Three.js实现三维空间中的箭头移动动画

继上一篇文章中实现了三维管道的可视化和流动模拟,最近需要基于曲面做三维物体的移动动画效果,特别是箭头等指向性物体的移动,因此就编写了以下方案,主要实现了三维空间内箭头等物体的创建和指向调整及动画效果等,具体如下: 1.基于Thee.js实现箭头等物体创建-THREE.Arrow…

解读网传《深圳IT圈⭕新解读八小时工作制》

网传深圳IT圈的新解读八小时工作制 工作时间安排: 10:00-12:0014:00-18:0019:00-21:00 初看:有惊喜 上午开始时间晚:相对于传统的9点开始,这种安排允许员工有更多的早晨时间,可以用来休息或处理个人事务。下午和晚上分…

S7-200smart与C#通信

https://www.cnblogs.com/heizao/p/15797382.html C#与PLC通信开发之西门子s7-200 smart_c# s7-200smart通讯库-CSDN博客https://blog.csdn.net/weixin_44455060/article/details/109713121 C#上位机读写西门子S7-200SMART PLC变量 教程_哔哩哔哩_bilibilihttps://www.bilibili…

电脑关机被阻止

1. winR输入regedit进入注册表 2. 选择HKEY_USERS-》.DEFAULT-》Control Panel-》Desktop 3. 右键DeskTop新建字符串值,命名为AutoEndTasks,数值设置为1

香橙派AIpro部署YOLOv5:探索强悍开发板的高效目标检测能力

香橙派AIpro部署YOLOv5:探索强悍开发板的高效目标检测能力 一、香橙派AIpro开箱使用体验 1.1香橙派AIpro开箱 拿到板子后第一件事情就是开箱: 开箱后可以看见一个橘子的标识,也就是香橙派了,并且还有四个大字:为AI…

Ubuntu系统安装mysql之后进行远程连接

1.首先要配置数据库允许进行远程连接 1.1 打开MySQL配置文件 /etc/mysql/mysql.conf.d/mysqld.cnf sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf1.2 修改 bind-address 行 #按i进入插入模式 bind-address 0.0.0.0 #按 Esc 键退出插入模式。 #输入:wq 然后按 Enter 保存并退…

alike-cpp 编译

1. 源码链接: https://github.com/Shiaoming/ALIKE-cpp 2.已经安装好显卡驱动,cuda,cudnn,没安装的参考: 切记装cuda-11.x的版本,最好cuda11.3的版本 ubuntu重装系统后,安装cuda,cudnn-CSDN博客 3.安装…

UE5.4新功能 - MotionDesign上手简介

MotionDesign是UE中集成的运动图形功能,我们在游戏中经常会见到,例如前方漂浮于空中的若干碎石,当玩家走进时碎石自动吸附合并变成一条路,或者一些装饰性的物件做随机运动等等,在引擎没有集成运动图形时,这…

《0基础》学会Python——第九讲

函数 一、函数的定义: 指在程序中创建一个独立的代码块,用于完成特定的任务或执行特定的操作。函数通常接收输入参数,并返回输出结果。通过定义函数,可以将复杂的程序分解成更小的模块,提高代码的可读性和可维护性。 …

【密码学】密码学数学基础:群的定义

一、群的定义 在密码学中,群(Group)的概念是从抽象代数借用来的,它是一种数学结构,通常用于描述具有特定性质的运算集合。 群的定义 群定义中的几个关键要素: 集合:首先,群是由一系…

一文了解SpringCloud

Springcloud 什么是Springcloud? 官网:Spring Cloud Data Flow Spring Cloud是一系列框架的有序集合。它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发,如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控…

保姆级教程--容器化部署prometheusd监控系统(yaml文件、docker命令均有详细解释、大白话描述服务作用、适合小白)

文章目录 前言用到的服务简述容器化部署prometheus的优势 环境一、安装docker二、容器化构建Prometheus监控系统1 部署Prometheus2.部署grafana 三、prometheus监控其他主机1.部署docker补充、如何查找仪表盘 前言 用到的服务简述 Prometheus:这是一个开源的监控系…

使用Copilot 高效开发繁忙的一天

在现代软件开发的世界里,使用AI工具如GitHub Copilot可以显著提高开发效率。 早晨:规划与启动 7:00 AM - 起床与准备 开发者早早起床,享用健康的早餐,并浏览新闻和技术博客,了解最新的科技动态。快速整理思路&#x…

WordPress:无法创建新文章?创建新帖子时候页面空白

wordPress中我们新建文章的时候,会遇到页面空白,这个问题是怎么导致呢?我们可以打开F12开发者模式看下报错信息,这是一个警告信息 Warning: Creating default object from empty value in /pub 到数据库 wp_posts中查看生成了很…

网络配置命令

文章目录 一、查看网络接口信息 ifconfig1.1 网络接口名称1.2 使用 ifconfig 查看网络接口信息1.2.1 输出示例1.2.2 输出解释 1.3 查看特定网络接口信息1.3.1 输出示例 1.4 查看所有网络接口信息1.5 特殊网络接口 二、修改网络配置文件2.1 配置文件示例2.2 使配置生效2.3 关闭 …