读书笔记--知识图谱基础概念与关键环节解析

知识图谱相当于一张网，是一种大型知识库，一种揭示实体之间关系的语义网络，是事物及其关系的形式化描述，分为通用知识图谱和领域（行业）知识图谱，如DBpedia，OpenKG，Wikidata. 知识图谱为多源、异构、海量、动态数据的表达、组织、管理和利用等提供了一种更为有效的方式，知识图谱促进了理解和处理，使得智能化水平更高，更接近人类认知思维。

大家研究知识图谱，其实主要是关注知识图谱和智能化之间的关系，特别是知识图谱与认知智能的关系。
知识图谱与认知智能的关系：认知的高度决定你创造价值的高度，包括你对世界的认知和世界对你的认知。认知的基础是知识，需要我们从数据中挖掘形成知识，进而提升认知，实现人工智能的认知能力提升，提升业务人员的决策效率。
智能类型主要分为计算智能、感知智能和认知智能，详见图1-1，认知智能具有对信息的获取处理、存储、转化和应用能力。认知智能是产业实现突破的核心手段，协同的基础是认知意图、数据、知识之间的逻辑关系和业务意义，用于辅助分析决策，人工智能的新一代趋势要求利用知识、数据、算法和算力，将符号学知识驱动的AI和数据驱动的AI结合起来，形成强大的认知决策智能，提升人、物和企业的信息博弈能力。

图1-1

通过学习知识图谱构建及应用案例，了解到知识图谱的构建是一项长期发展和优化的过程工程，需要不断的研究探索和应用实践。知识图谱的落地研究有符号学派、统计学派和图网络学派。目前学术界研究较多的图神经网络（GNN）综合了符号和图拓扑结构信息。
知识图谱的发展历程，详见图1-2。

图1-2

知识图谱主要涉及到知识抽取、表示、融合、建模、推理等关键环节的解决与突破，知识图谱的构建过程详见图1-3。

图1-3

一、知识抽取

知识抽取是从结构化、半结构化、非结构化数据中提取实体、关系及属性等知识要素，同时基于语句和语境抽取实体间关系及实体所描述的事件，以便于后续的知识融合。
知识抽取也叫做信息抽取，主要任务有实体抽取、实体链接（包括链接、实体消岐和共指消解）、关系抽取、属性抽取和事件抽取，主要方法有众包法、爬虫法、机器学习法和专家法。
结构化数据的信息抽取见下图

半结构化数据的信息抽取主要通过编写数据清洗、标注和解析评估来实现，主要通过XPath对表格、列表和网页进行解析实现信息抽取。
非结构化数据的信息抽取主要通过隐马尔可夫模型（HMM)、条件随机场（CRF）、长短时记忆（LSTM）等实现实体抽取。关系抽取主要有基于触发词、基于依存句法分析的模板抽取方法，基于监督学习方法和基于弱监督学习方法的抽取。

二、知识表示

知识表示是如何用合适的方式来表示各种知识要素，相当于将知识符号化的过程，以便计算机能够理解，主要有基于符号，基于向量的知识表示。
基于符号表示法主要有早期的一阶谓词逻辑表示、产生式规则表示、语义网络表示、框架表示法，语义网表示法有RDF、RDFS、OWL方法。
基于向量的表示法主要有TransE、TransH、TransR、TransD、TransSparse，组合模型，三元组的神经网络模型等

三、知识融合

知识融合是通过冲突检测、真值发现等技术进行消除冲突，进行关联与合并的过程，主要有概念层的本体对齐和数据层的实体对齐。本体对齐明确一个统一的知识体系。通过融合形成高质量的知识图谱。知识融合任务的执行流程详见下图。

本地对齐方法有基于字符串比较、基于路径结构和基于实例方法。
实体对齐方法有属性相似度（文本字符串、聚合相似度和向量相似度）和实体相似度（聚合、聚类和嵌入式知识表示）

四、知识建模

知识建模是建立知识图谱的数据模式，是构建知识图谱规范的过程，相当于通过知识建模，使得知识更加组织有序、层次分类和简洁关联。
知识建模：Top-Down和Down-Top，前者是从泛化到专精化，后者是从专精化--抽象--泛化。知识建模主要包括两个任务或步骤，本体建模和知识表示建模，本体建模建立概念层的层次结构，达到人类可理解的程度，知识表示建模建立知识图谱数据层的模型，得到图谱数据模型，使得计算机可理解这些数据之间的关系。
知识建模方法有手工建模方法、半自动建模和数据驱动的本体自动建模。
手工建模方法：包括明确本体及任务、模型复用、列出本体涉及领域中的元素、明确分类体系、定义类的属性和关系、定义属性的约束条件和创建实例等七个步骤，详见下图。

半自动建模：详见下图所示

本体自动建模：数据驱动的本体自动建模包括实体并列关系计算、实体上下位关系抽取、本体生成等，详见下图所示。

五、知识推理

察己则可以知人，察今则可以知古，通过丰富扩展知识库，更好的支持智能检索、推荐和知识问答等，丰富挖掘隐含的知识，知识推理其实是知识图谱建设的终极目标，通过推理可以弥补数据不足的情况，完成实体预测、关系预测、属性预测和路径预测等。将知识库中的关系和属性等信息补全，也是知识库工程化的重要工作。主要有基于逻辑规则、基于知识表示学习和基于图的推理和混合推理。
逻辑规则主要有一阶谓词逻辑、描述逻辑、概率图逻辑和路径规则逻辑。
知识表示学习推理主要有基于张量分解模型、基于转移的表示逻辑

六、知识存储

知识也是一种数据，也需要存储，知识存储方法主要有基于RDFS、基于NoSQL和基于分布式存储。
基于RDFS：三列表存储、水平表、属性表、全索引表。
基于NoSQL：列式存储、文档存储和图存储
基于分布式：RDFPeers、YARS2、4Store
利用Apache Jena存储数据，可参考SPARQL查询和JENA存储
利用TDB和Fuseki存储和管理三元组，可以通过SPARQL进行查询，进入目录运行fuseki-server.bat
利用Neo4j存储数据：实现了从json抽取数据到neo4j，从mysql 抽取数据到neo4j。

七、知识计算

知识计算也叫做知识应用，相当于通过知识统计、图挖掘、知识推理等方法与传统应用的结合，提供知识补全、知识纠错，来提高知识完备性扩大知识覆盖面，通过简洁的自然语言形式自动地回答用户提出的问题，实现知识图谱的各类应用。

八、知识图谱平台

知识图谱如果想得到规范化建设并得到有效应用，就需要建立知识图谱平台，有些也叫做知识服务平台，逐步解决构建周期长、难度大，复用低等难题，实现知识图谱的一站式平台服务、集成的基础能力和行业场景的解决方案。目前开源的有AiMind知识图谱平台。
知识图谱标准体系结构图详见下图。

知识图谱管理平台实现将多个数据和知识的所有方、开发方和应用方的需求与认知对齐，形成从认知、建设到服务的一体化、平台化服务产品，平台架构详见下图。

九、知识图谱的应用场景

1.智能搜索

传统的搜索：关键词--网页的匹配关系，没有真正理解用户查询内容本质，即语义理解。
基于图谱的搜索：通过用户提交的问句，首先要对其进行语义理解，不局限于字面本身，准确把握用户真实意图，然后通过对实体、关系和用户的理解，分析交互行为，进行知识检索获取准确答案，图谱更深入、广泛和完备，并且有完整的知识体系，是一种长尾搜索。