面向《海贼王》领域数据的知识图谱项目

news2026/2/7 23:20:59

访问【WRITE-BUG数字空间】_[内附完整源码和文档]

本次任务试图为《海贼王》中出现的各个实体，包括人物、地点、组织等，构建一个知识图谱，帮助我们更好的理解这部作品。项目内容包括数据采集、知识存储、知识抽取、知识计算、知识应用五大部分

. 项目背景
《海贼王》(英文名ONE PIECE) 是由日本漫画家尾田荣一郎创作的热血少年漫画，因为其宏大的世界观、丰富的人物设定、精彩的故事情节、草蛇灰线的伏笔，受到世界各地的读者欢迎，截止2019年11月7日，全球销量突破4亿6000万本，并被吉尼斯世界纪录官方认证为“世界上发行量最高的单一作者创作的系列漫画”。

《海贼王》从1997年开始连载至今，以及将近22年，在900多话的漫画中大量性格鲜明的角色相继登场，故事发生的地点也在不断变化，这既给我们带来阅读的乐趣，同时也为我们梳理故事脉络带来了挑战。

本次任务试图为《海贼王》中出现的各个实体，包括人物、地点、组织等，构建一个知识图谱，帮助我们更好的理解这部作品。

项目内容
本项目内容包括数据采集、知识存储、知识抽取、知识计算、知识应用五大部分

数据采集
本次项目主要采集构建了两个知识图谱和一个关系抽取数据集
人物知识图谱：主要包含各个人物的信息
关系抽取数据集：标注出自然语言中存在的实体以及他们之间的关系
实体关系知识图谱：构建《海贼王》中各个实体之间关系的知识图谱

知识存储
尝试使用了三元组数据库Apace Jena和原生图数据库Neo4j，并分别使用RDF结构化查询语言SPARQL和属性图查询语言Cypher，在知识图谱上进行查询。
知识抽取
基于之间构建的关系抽取数据集，利用deepke中提供的工具进行关系抽取实践，测试了包括PCNN、GCN、BERT等模型在我们构建数据集上的效果
知识计算
图计算：在Neo4j上对实体关系知识图谱进行了图挖掘，包括最短路径查询、权威结点发现、社区发现等
知识推理：在Apache Jena上对关系知识图谱进行了知识推理，补全了一部分的数据

知识应用
智能问答：基于REfO实现一个对于《海贼王》中人物的知识库问答系统(KBQA)。
可视化图片：通过D3对实体关系图片进行可视化，并整合了人物知识图谱中的信息，进行展示。