通过前面几次weekly详细介绍了gBuilder非结构化抽取模型注册功能。但是在模型端点注册时需注意模型端点接受的标签集合需要与模型相匹配,因此本次主要对gBuilder包含的几个内置模型进行基本说明,也可在gBuilder模型中心查看详情。
CasRel
-
端点类型:联合抽取模型
-
是否可训练:不可训练
-
标签集:
毕业院校
嘉宾
配音
主题曲
代言人
所属专辑
父亲
作者
上映时间
母亲
专业代码
占地面积
邮政编码
票房
注册资本
主角
妻子
编剧
气候
歌手
获 奖
校长
创始人
首都
丈夫
朝代
饰演
面积
总部地点
祖籍
人口数量
制片人
修业年限
所在城市
董事长
作词
改编自
出品公司
导演
作曲
主演
主持人
成 立日期
简称
海拔
号
国籍
官方语言
-
标签是否可编辑:不用选择
-
端点描述:
作者:李俊(武汉大学)
描述:不受重叠三元组影响的关系抽取方法
训练数据:通用类数据(duie)
语种:中文
性能指标:DUIE数据集 P:80.5 R:75.0 F:77.7
FastNER
-
端点类型:命名实体识别模型
-
是否可训练:可训练
-
标签集:
NR
NS
NT
-
标签在训练时是否可被编辑:不可编辑
-
端点描述:
作者:复旦大学
描述:基于BERT-large多任务训练的NER模型
性能指标:MSRA数据集 F1=95.5, OntoNotes F1=93.82
相关论文:fastHan: A BERT-based Joint Many-Task Toolkit for Chinese NLP
训练数据:MSRA-NER与OntoNotes通用类语料
语种:中文
BertNER
-
端点类型:命名实体识别模型;
-
是否可训练:可训练
-
标签集:
图书作品
人物
机构
Text
影视作品
娱乐人物
Date
历史人物
国家
电视综艺
学校
行政区
气候
企业
奖项
文学作品
歌曲
音乐专辑
Number
地点
景点
城市
作品
企业/品牌
语言
学科专业
-
标签在训练时是否可编辑:可编辑
-
端点描述:
作者:张旻昊(北京大学)
描述:基于RoBERTa-CRF训练的NER模型
训练数据:DUIE 通用语料
性能指标:DUIE Entity-level 识别 F1: 83.5%
语种:中文
BERT-RE
-
端点类型:关系抽取模型
-
是否可训练:可训练
-
标签集:
NULL
毕业院校
嘉宾
配音
主题曲
代言人
所属专辑
父亲
作者
上映时间
母亲
专业代码
占地面积
邮政编码
票房
注册资本
主角
妻子
编剧
气候
歌手
获 奖
校长
创始人
首都
丈夫
朝代
饰演
面积
总部地点
祖籍
人口数量
制片人
修业年限
所在城市
董事长
作词
改编自
出品公司
导演
作曲
主演
主持人
成 立日期
简称
海拔
号
国籍
官方语言
-
标签在训练时是否可编辑:可编辑
-
端点描述:
作者:张若禹(北京大学)
描述:基于BERT+GRU+ATT的关系识别模型
训练数据:通用类数据(DUIE2.0)
语种:中文
性能指标:DUIE 关系分类任务 F1 84%(gold entity)