访问【WRITE-BUG数字空间】_[内附完整源码和文档]
本次任务试图为《海贼王》中出现的各个实体,包括人物、地点、组织等,构建一个知识图谱,帮助我们更好的理解这部作品。 项目内容包括数据采集、知识存储、知识抽取、知识计算、知识应用五大部分
. 项目背景
《海贼王》(英文名ONE PIECE) 是由日本漫画家尾田荣一郎创作的热血少年漫画,因为其宏大的世界观、丰富的人物设定、精彩的故事情节、草蛇灰线的伏笔,受到世界各地的读者欢迎,截止2019年11月7日,全球销量突破4亿6000万本,并被吉尼斯世界纪录官方认证为“世界上发行量最高的单一作者创作的系列漫画”。
《海贼王》从1997年开始连载至今,以及将近22年,在900多话的漫画中大量性格鲜明的角色相继登场,故事发生的地点也在不断变化,这既给我们带来阅读的乐趣,同时也为我们梳理故事脉络带来了挑战。
本次任务试图为《海贼王》中出现的各个实体,包括人物、地点、组织等,构建一个知识图谱,帮助我们更好的理解这部作品。
- 项目内容
本项目内容包括数据采集、知识存储、知识抽取、知识计算、知识应用五大部分
数据采集
本次项目主要采集构建了两个知识图谱和一个关系抽取数据集
人物知识图谱:主要包含各个人物的信息
关系抽取数据集:标注出自然语言中存在的实体以及他们之间的关系
实体关系知识图谱:构建《海贼王》中各个实体之间关系的知识图谱
知识存储
尝试使用了三元组数据库Apace Jena和原生图数据库Neo4j,并分别使用RDF结构化查询语言SPARQL和属性图查询语言Cypher,在知识图谱上进行查询。
知识抽取
基于之间构建的关系抽取数据集,利用deepke中提供的工具进行关系抽取实践,测试了包括PCNN、GCN、BERT等模型在我们构建数据集上的效果
知识计算
图计算:在Neo4j上对实体关系知识图谱进行了图挖掘,包括最短路径查询、权威结点发现、社区发现等
知识推理:在Apache Jena上对关系知识图谱进行了知识推理,补全了一部分的数据
知识应用
智能问答:基于REfO实现一个对于《海贼王》中人物的知识库问答系统(KBQA)。
可视化图片:通过D3对实体关系图片进行可视化,并整合了人物知识图谱中的信息,进行展示。
- 数据采集
3.1. 数据来源
本次项目中所使用的数据主要来源为两个:一个是从别的知识图谱中获取已经存在的知识信息,另一个是从相关网页中爬取解析半结构化的自然语言文本信息
3.2. 人物知识图谱构建
3.2.1. 抽取通用知识图谱中已有的目标域知识
知识图谱技术近些年来快速发展,一些公司机构已经构建了许多通用知识图谱,我们可以从中抽取出我们目标领域内相关的实体知识信息,作为我们知识图谱的冷启动数据。
CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,我们选择其作为通用知识图谱来源。
整个处理流程如下:
构建《海贼王》实体词汇库
获取实体列表
筛选实体列表
获取图谱中对应实体的三元组知识