1. gBuilder介绍
我们知道知识图谱整个生命周期分为构建、存储管理与应用三个阶段。其中我们之前介绍的图数据库gStore对应解决的是知识图谱的存储与管理这个阶段问题。实际上知识图谱项目中大部分时间都花在知识图谱构建阶段,虽然知识图谱构建不直接体现价值,但是构建一个质量上层的知识图谱对于应用和价值的发挥至关重要作用,知识图谱构建部分是整个知识图谱项目的重难点工作。
因此,北京大学王选计算机研究所数据管理实验室联合北京大学重庆大数据研究院图数据库和知识图谱实验室历时三年研发了知识图谱自动化构建平台gBuilder。通过结合机器学习、知识图谱、图数据库等技术打造的一个针对结构化数据和非结构化数据的知识图谱自动化构建平台,实现数据向知识的转化,降低知识图谱构建门槛,促进知识图谱项目快速落地。
因为gBuilder为闭源产品,但是为了方便大家了解其相关功能,我们接下来将编写一些列gBuilder的功能介绍短文。本期介绍gBuilder的项目管理功能。
2 项目管理
2.1 简介
我们以项目的方式进行知识图谱的构建进行管理,每个知识图谱的构建任务都是一个项目,因此项目管理功能是使用gBuilder进行知识图谱构建的开端。
2.2 新增项目
针对每个知识图谱的构建需要通过新增项目来开始,当前我们项目类型根据当前的数据类型有结构化知识图谱构建和非结构化知识图谱构建两种。我们通过以下步骤新增项目,首先点击【新增】按钮新增项目。
填入要创建项目的名称和简介,其中项目类型可根据实际情况选择【结构化】、【非结构化】项目,结构化和非结构化具体是指当前用来构建知识图谱项目的数据类型,并可输入项目简介信息。
对于结构化和非结构化项目其构建流程是有所出入的,具体的将会在后面在结构化和非结构化的功能介绍中详细描述。但是从【项目管理】界面显示出新增的项目也能看出大致的不同,如下图所示:
对于结构化项目在项目管理卡片下面有schema、映射、mapping生成、mapping编辑、nt生成、nt任务6个功能按钮进行对应操作。而非结构化项目在项目管理卡片下面只有schema、构建、下载nt文件3个功能按钮。在构建知识图谱项目时,项目名称需要保证唯一性,在项目名称重复时系统会提示该项目名称已存在的消息。同时项目管理卡片有进度展示,可以展示当前知识图谱构建的整体进度情况,以百分比的形式进行展示。
我们也可在项目管理页面输入具体的项目名称进行搜索,同时可以刷新当前页面具有的项目:
为了便于操作在每个项目卡片右上角还有预览映射、导入、导出、编辑和删除操作按钮。
2.3 预览映射
gBuilder在构建时采用自顶向下构建的方式,无论结构化的项目还是非结构化的项目在做知识图谱构建之前都要进行本体概念的设计及schema的设计,同时我们可在项目管理卡片的-预览映射功能查看当前构建的知识图谱与schema的映射关系。
若还没设计schema的项目将会进行提示,若已经做好映射的schema将会展示实体、关系、属性的映射情况,如下图所示:
2.4 导入项目
用户若之前已经有构建好的知识图谱项目,包括schema、数据库连接信息、实体映射信息、属性关系映射信息等文件。用户可以从服务器和本地导入文件,导入的文件需要为一个压缩包,并且每个文件的命名要符合规范。
其中结构化和非结构化项目需要导入的文件不同,非结构化数据的知识图谱构建更多是采用机器学习算法和模型进行信息抽取,因此主要是导入schema设计文件,而结构化数据需要数据库连接等信息,具体的可根据gBuilder平台提示来导入。
我们以结构化项目为例讲解导入项目功能,点击【导入】功能按钮,用户可以选择从服务器和本地导入文件。
服务器导入:通过输入文件路径进行导入
本地导入:通过选择具体的本地文件夹即可导入
2.5 导出项目
类似的,用户也可导出已设计好的Schema文件、数据库连接文件、数据库表文件、实体映射信息、实体属性关系映射信息、跨表映射信息、Mapping文件的项目,以便后续使用,导出的文件也是一个压缩包,用户可以自行定义导出哪些文件。
点击导出按钮后还需要选择需要导出的哪些文件,在弹框中点击【导出文件】后面的具体文件名称,当具体的文件为选中状态时(蓝色)即可导出,默认状态为灰色状态,即未选中转态;若用户不选择的话导出的压缩包为空文件:
2.6 编辑项目
对于项目的名称和、项目类型简介用户可以自行编辑修改。
2.7 删除项目
我们可以删除不需要的项目,通过点击每个项目右上角的删除按钮删除。
若大家在实际项目中需要使用gBuilder可联系运营同学或者发送邮件进行项目层面合作沟通。