笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~
【doccano】文本标注工具
- doccano简介
- 安装doccano
- 1. 创建并激活虚拟环境
- 2. 安装doccano
- 运行Doccano
- 访问Doccano
doccano简介
doccano是一个开源的文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以为情感分析、命名实体识别、文本摘要等创建标记数据。只需创建项目、上传数据并开始注释即可。你可以在几个小时内建立一个数据集。
Doccano的主要特点包括:
- 用户友好的界面:提供直观的界面设计,支持直接在网页上进行文本标注。
- 多人协作:支持多人同时进行文本标注和校对,可以提高工作效率。
- 多样化的数据格式支持:可以导入和导出多种数据格式,方便用户灵活处理标注数据。
- 适用于多种NLP任务:支持文本分类、命名实体识别、关系抽取等多种自然语言处理任务的标注。
安装doccano
基于window平台,通过anaconda3安装(要确保anaconda3安装成功)
1. 创建并激活虚拟环境
- 打开命令提示符(cmd)或Anaconda Prompt。
- 创建一个新的Python虚拟环境:
conda create --name sentiment python=3.9
- 激活虚拟环境:
conda activate sentiment
2. 安装doccano
- 在激活的虚拟环境中,使用pip安装doccano:
pip install doccano -i https://pypi.tuna.tsinghua.edu.cn/simple
运行Doccano
-
初始化数据库。
doccano init
-
创建一个超级用户。
doccano createuser --username admin --password pass
-
启动 Web 服务器,端口号为 8000。
doccano webserver --port 8000
-
在另一个终端中,进入到安装了doccano的sentiment环境,运行命令
activate sentiment doccano task
访问Doccano
- 打开浏览器,并访问
http://localhost:8000
来打开Doccano的登录页面。 - 使用您创建的超级用户凭据登录并开始使用Doccano。
用户名:admin
密码:pass