0 基础知识

知识图谱中，知识的结构化表示主要有符号表示和向量表示两类方法。符号表示包括：一阶谓词逻辑，语义网络，描述逻辑和框架系统等。当前主要采用基于图的符号化知识表示，最常用的是有向标记图。
有向标记图分为：属性图（property graph）和RDF图（Resource Description Framework，RDF）。
- 属性图：图数据库Neo4j实现的图结构表示模型，工业界最常用的知识图谱建模方法。优点：允许为实体或边添加属性，易于存储和查询。缺点：缺乏工业标准规范的支持，不关注更深层次的语义表达、不支持符号逻辑推理。
  - 顶点（vertex）/节点（node）
  - 边（edge）/关系（relation）：有向边和对应标签
  - 标签（label）
  - 属性（property）：键值对
- RDF：W3C推出的语义数据交换标准与规范，支持逻辑推理。RDF的基本组成单元是 (S,P,O)三元组，（Subject主，Predicate谓，Object宾）。
  - 在RDF的基础上还提供了RDFS(Resource Description Framework Schema)。定义了Class、subClass、Property、subProperty、domain、range、type…等概念。
OWL(Ontology Web Language)：在RDFS的基础上增加了更多的语义表达构建，如一对多、多对一、多对多等关系，全称量词和存在量词，互反关系、传递关系、自反关系、对称性等。

1 图数据存储

一般不用这种方式，除非场景非常简单。
图上的查询语言：SPARQL。
最简单的存储：SPO三元组
属性表存储：把同一实体类型的属性组织为一张表进行存储。优点：self-join减少了。缺点：空值多，对Subject聚类比较复杂，不易处理多值属性。
二元表存储：对三元组按属性分表。优点：无空值，不用聚类，对subject-subject-join性能好，缺点：insert代价高，subject-object join性能差。
全索引结构存储：

最朴素的做法是定义规则进行正则匹配，但规则难以维护。因此一般用AI来进行序列标注。
基于机器学习的方法有：HMM、CRF;目前主要研究基于深度学习的序列标注算法，如CNN/RNN/Transformer，如：BiLSTM+CRF，基于预训练模型。
参考文献：《A Survey On Deep Learning for Named Entity Recognition》（TKDE2020）