文本标注技术方案(NLP标注工具)

news2025/2/28 3:43:54

Doccano

doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。

支持命名实体识别,情感分类,机器翻译任务,界面比较友好。

  • 当前公司私有化部署的地址:(当前挂掉了,后端处理中)
  • git:https://github.com/doccano/doccano

技术方案

前端:vue2 + nuxt

后端:python

技术难点

  1. 标注工具编辑器部分组件

功能:

  • 支持标注 Label
  • 支持关系 Relation

开源组件:

  • vue 组件:
    • https://www.npmjs.com/package/v-annotator
    • https://github.com/doccano/v-annotator/blob/master/package.json
    • demo:https://github.com/doccano/doccano/blob/93cfd52924378bd2c8e109fff2b072199ff2e8bc/frontend/pages/demo/named-entity-recognition/index.vue
<v-annotator
      :dark="$vuetify.theme.dark"
      :rtl="rtl"
      :text="text" //文本内容
      :entities="entities" // 注解内容
      :entity-labels="entityLabels" // 注解标签
      :relations="relations"// 关系内容
      :relation-labels="relationLabels" // 关系标签
      :allow-overlapping="allowOverlapping"
      :grapheme-mode="graphemeMode"
      :selected-entities="selectedEntities"
      @add:entity="handleAddEvent" // 添加注解内容
      @click:entity="onEntityClicked"  // 点击注解
      @click:relation="onRelationClicked" // 点击关系
        @addRelation="addRelation" // 添加 关系
      @contextmenu:entity="deleteEntity" // 右键菜单点击
      @contextmenu:relation="deleteRelation" // 右键菜单点击
    />

 <entity-editor
                :dark="$vuetify.theme.dark"
                :rtl="rtl"
                :text="currentDoc.text"
                :entities="currentDoc.annotations"
                :entity-labels="entityLabels"
                :relations="relations"
                :relation-labels="relationLabels"
                :allow-overlapping="allowOverlapping"
                @addEntity="addEntity"
                @click:entity="updateEntity"
                @contextmenu:entity="deleteEntity"
                @contextmenu:relation="deleteRelation"
              />
  • react 组件

https://github.com/microsoft/react-text-annotator

当前看 v-annotator 是 doccanno 封装的一个组件,react 这个组件要分析一下是不是支持当前的特性

代码如下:

import {AnnotationData, Labeler} from 'react-text-annotator'

const HomePage: React.FC = () => {
  const annotations: AnnotationData[] = [
    {
        id: 'id1',
        color: 'red',
        endToken: 5,
        startToken: 0,
        name: 'label111111',
        kind: 'label',
        onClick:(e) => {
          console.log(e);
        },
        level: 1,// 设置层级
        onRenderTooltip: (e) =><>label111111</>
    },{
      id: 'id1',
      color: 'green',
      endToken: 5,
      startToken: 1,
      name: 'label222222',
      kind: 'label',
      onRenderTooltip: (e) =><>label222222</>
  },
    {
        id: 'id2',
        color: 'blue',
        endToken: 25,
        startToken: 10,
        name: 'relation',
        kind: 'relation',
        
    }
];

const labelerText = 'This is sample text to test the labeler functionality.';


return <>
  <Labeler text={labelerText} annotations={annotations} labelerConfigs={{ isAnnotationResizingEnabled: true,isRtl: false, tokenizationType: 'character' }} 
    labelerOverflow={'scroll'}
    labelerHeight={"100px"}
  />
</>;
};

export default HomePage;

下面的了解即可

YEDDA:(2016)(python)

优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现。最大标签数8,界面也还过的去。

YEDDA(以前的 SUTDAnnotator)是为在文本(几乎所有语言,包括英语、中文)、符号甚至表情符号上注释块/实体/事件而开发的。它支持快捷注释,对于手动注释文本非常有效。用户只需选择文本范围并按快捷键,该范围就会自动注释。它还支持命令注释模型,可以批量注释多个实体,并支持将注释文本导出为序列文本。此外,更新版本还增加了智能推荐和管理员分析。它兼容所有主流操作系统,包括Windows、Linux和MacOS。

https://github.com/jiesutd/YEDDA

python

Prodigy(2017):

Prodigy 是一种现代注释工具, 用于为机器学习模型创建训练和评估数据。您还可以使用 Prodigy 来帮助您检查和清理数据、进行错误分析以及开发基于规则的系统以与统计模型结合使用。

https://prodi.gy/docs/

Python library

Chinese-Annotator:(2017)

基于prodigy的中文标注工具

https://github.com/deepwel/Chinese-Annotator

demo:https://demo.prodi.gy/?=null&view_id=textcat

技术方案:

  • vue2 element
  • Python

Brat:(2010)

支持实体、关系、事件抽取的标注。可以标注情感。

优点在标注实体的同时可以进行关系标注,还可以实现二级标注。

brat rapid annotation tool

GitHub - nlplab/brat: brat rapid annotation tool (brat) - for all your textual annotation needs

技术方案

  • jq
  • Python

IEPY

主要用来信息抽取和关系抽取任务

https://github.com/machinalis/iepy

DeepDive

主要用来关系抽取任务,17就停止更新了

http://deepdive.stanford.edu/#documentation

个人小结

大致可以选用Brat,Doccano,YEDDA,Prodigy试一下,选用Brat是因为有现成的中文情感标注,还有Brat有关系标注,选用Doccano是它的页面很友好,而且可添加的标签数也比较多,选用YEDDA是它完全用Python桌面开发且支持中文,选用Prodigy是因为支持标注的功能最全。

中文分词工具(分词工具有的也可以做命名实体识别和词性标注,可以去看看)

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

结巴分词 https://github.com/yanyiwu/cppjieba

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/965998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于springboot跟redis实现的排行榜功能(实战)

概述 前段时间&#xff0c;做了一个世界杯竞猜积分排行榜。对世界杯64场球赛胜负平进行猜测&#xff0c;猜对1分&#xff0c;错误0分&#xff0c;一人一场只能猜一次。 1.展示前一百名列表。 2.展示个人排名(如&#xff1a;张三&#xff0c;您当前的排名106579)。 一.redis so…

wireshark抓包体验

目录 1、使用基础 1.1 数据包筛选 1.2 MAC地址筛选 1.3 端口筛选 1.4 协议筛选 1.5 包长度筛选 1.6 http请求筛选 2.数据包搜索 3.数据包还原 2、例题复现 1、使用基础 1.1 数据包筛选 ip.src 源ip地址 同理可以得到筛选目标地址&#xff1a; ip.dst 目的ip地址 1.2 …

Unity中Shader的渲染排序Tags{“Queue“ = “Transparent“}

文章目录 前言一、在Unity中渲染排序一般是固定的几个层级&#xff0c;透明 和 半透明是以 2500 为 分界点&#xff0c;渲染层级 从 低 到 高二、渲染队列 可以 在 SubShader 或 Pass 中写 前言 Unity中Shader的渲染排序 一、在Unity中渲染排序一般是固定的几个层级&#xff0…

【vue2第十章】data数据与组件间通信

组件化化开发时data写法。 组件化开发中data是一个函数&#xff0c;一个组件的data选项必须是一个函数。需要保证每个组件的实列维护自己的独立的数据。 写法就是&#xff1a; 函数名(){return{属性名:值,属性名:值,属性名:值} }这里不管实列化多少份这个组件&#xff0c;每个…

软件架构Architecture篇卷首语

2023年9月2日&#xff0c;周六晚上 我为什么要开始学习软件架构&#xff1f;我为什么要专门开始这个专栏&#xff1f; 原因如下&#xff1a; Well-structured software is delivered in half the time, at half the cost, with 8x less bugs ——US Air Force study 这句话是我…

2022年06月 C/C++(六级)真题解析#中国电子学会#全国青少年软件编程等级考试

C/C++编程(1~8级)全部真题・点这里 第1题:小白鼠再排队2 N只小白鼠(1 < N < 100),每只鼠头上戴着一顶有颜色的帽子。现在称出每只白鼠的重量,要求按照白鼠重量从小到大的顺序输出它们头上帽子的颜色。帽子的颜色用 “red”,“blue”等字符串来表示。不同的小白鼠可…

C++面试题(期)-数据库(二)

目录 1.3 事务 1.3.1 说一说你对数据库事务的了解 1.3.2 事务有哪几种类型&#xff0c;它们之间有什么区别&#xff1f; 1.3.3 MySQL的ACID特性分别是怎么实现的&#xff1f; 1.3.4 谈谈MySQL的事务隔离级别 1.3.5 MySQL的事务隔离级别是怎么实现的&#xff1f; 1.3.6 事…

TiDB同城双中心监控组件高可用方案

作者&#xff1a; Prest13 原文来源&#xff1a; https://tidb.net/blog/44b9b8b1 背景 在双中心部署tidb dr-auto sync集群&#xff0c;出于监控的高可用考虑&#xff0c;在物理分离的两个数据中心分别部署独立的prometheusalertmanagergrafana&#xff0c;实现任一监控均…

查询优化器内核剖析之查询的执行与计划的缓存 Hint 提示

本篇议题如下: 查询的执行与计划的缓存 Hint 提示 首先看到第一个议题 查询的执行与计划的缓存 一旦查询被优化之后&#xff0c;存储引擎就使用选中的执行计划将结果返回&#xff0c;而被使用的这个执行 计划就会被保存在内存中一个被称之为“计划缓存”的地方&#xff0c;从…

Leetcode 面试题 17.01 不用加号的加法

设计一个函数把两个数字相加。不得使用 或者其他算术运算符。 示例: 输入: a 1, b 1 输出: 2 提示&#xff1a; a, b 均可能是负数或 0结果不会溢出 32 位整数 我的答案&#xff1a; 一、信息 1.设计一个函数把两个数相加 2.不得使用或者其他运算符 3.a,b均为负数或…

代码随想录算法训练营第39天 | ● 62.不同路径 ● 63. 不同路径II

文章目录 前言一、62.不同路径二、63.不同路径II总结 前言 动态规划 一、62.不同路径 深搜动态规划数论 深搜&#xff1a; 注意题目中说机器人每次只能向下或者向右移动一步&#xff0c;那么其实机器人走过的路径可以抽象为一棵二叉树&#xff0c;而叶子节点就是终点&#…

Socket交互的基本流程?

TCP socket通信过程图 什么是网络编程&#xff0c;网络编程就是编写程序使两台连联网的计算机相互交换数据。怎么交换数据呢&#xff1f;操作系统提供了“套接字”&#xff08;socket&#xff09;的组件我们基于这个组件进行网络通信开发。tcp套接字工作流程都以“打电话”来生…

Opencv快速入门教程,Python计算机视觉基础

快速入门 OpenCV 是 Intel 开源计算机视觉库。它由一系列 C 函数和少量 C 类构成&#xff0c; 实现了图像处理和计算机视觉方面的很多通用算法。 OpenCV 拥有包括 300 多个 C 函数的跨平台的中、高层 API。它不依赖于其它的外部库——尽管也 可以使用某些外部库。 OpenCV 对非…

Java开发环境---jdk下载与安装,配置环境变量及如何验证是否安装成功

1、jdk说明与介绍 1、JDK即Java Develop Kit&#xff0c;是Java开发工具包 2、JDK的基本组件包括&#xff1a; javac:编译器&#xff0c;将源程序转成字节码。jar:打包工具,将相关类文件打包成一个文件。javadoc&#xff1a;文档生成器&#xff0c;从源码注释中提取文档。jdb…

PlumeLog【lite模式】部署使用

一 简述 本文档记录PlumeLog【lite模式】模式安装使用 启动模式 优点 缺点 Lite 模式 不依赖任何外部中间件直接启动使用&#xff0c;部署简单 性能有限&#xff0c;一天10G内可以应付&#xff0c;最好是SSD硬盘,适合管理系统类小玩家 Plumelog: 一个简单易用的java日志…

ROS机器人编程---------(一)安装ROS

安装ROS 打开终端按顺序执行下面命令 默认安装在/opt/ros路径下 打开一个终端输入roscore 测试是否安装成功 启动ROS &#xff2d;aster roscore启动小海龟仿真器 rosrun turtlesim turtlesim_node启动海龟控制结点 rosrun turtlesim turtlesim_teleop_key使用键盘方向键控…

【李群李代数】Sophus库中SE3类测试(附manif 与sophus 对比)

测试演示 测试结果 对Sophus库中SE3类进行一系列的测试&#xff0c;包括李群性质、原始数据访问、变异访问器、构造函数以及拟合等方面。在每个测试中&#xff0c;都会使用一些预设的数据进行操作&#xff0c;并通过SOPHUS_TEST_APPROX和SOPHUS_TEST_EQUAL等宏来检查操作结果是…

2023应届生java面试搞笑之一:CAS口误说成开心锁-笑坏面试官

源于&#xff1a;XX网&#xff0c;如果冒犯&#xff0c;表示歉意 面试官&#xff1a;什么是CAS 我&#xff1a;这个简单&#xff0c;开心锁 面试官&#xff1a;WTF&#xff1f; 我&#xff1a;一脸自信&#xff0c;对&#xff0c;就是这个 面试官&#xff1a;哈哈大笑&#xff…

opencv入门-Opencv原理以及Opencv-Python安装

图像的表示 1&#xff0c;位数 计算机采用0/1编码的系统&#xff0c;数字图像也是0/1来记录信息&#xff0c;图像都是8位数图像&#xff0c;包含0~255灰度&#xff0c; 其中0代表最黑&#xff0c;1代表最白 3&#xff0c; 4&#xff0c;OpenCV部署方法 安装OpenCV之前…

AUTOSAR规范与ECU软件开发(实践篇)7.10MCAL模块配置方法及常用接口函数介绍之Base与Resource的配置

目录 1、前言 2 、Base与Resource模块 1、前言 本例程的硬件平台为MPC5744P开发板&#xff0c;主要配置MPC5744P的mcal的每个模块的配置&#xff0c;如要配置NXP的MCU之S32k324的例程请参考&#xff1a; 2 、Base与Resource模块 Base与Resource这两个模块与具体功能无关&…