知识图谱认知智能理论与实战----------第二章知识图谱模式设计

news2024/10/2 16:18:01

文章目录

- - 一. 知识图谱模式
  - 二. 模式与本体
  - 三. 本体概论
  - - I. 模式与本体辨析
    - II.本体的构成要素
    - III.实体分类
    - IV.实体分类
  - 四. 六韬法
  - - I. 场景
    - II. 复用
    - III. 事物
    - IV. 联系
    - V. 约束
    - VI. 评价

一. 知识图谱模式

在这里插入图片描述

实体：eg：法国，巴黎…
关系：eg：属于，基于…
三元组：<主语，谓词，宾语> eg：<巴黎，属于，法国>

二. 模式与本体

本体的核心目标：定义一组领域内的概念和类别，以及它们之间的关系来组织信息和知识。
本体与知识图谱的区别：
- 本体更多地追求知识的本质；知识图谱模式偏向于产业应用。
- 本体不仅包含知识本身，还包含许多推理逻辑；知识图谱模式更关注知识本身，与推理逻辑相分离。

三. 本体概论

I. 模式与本体辨析

模式和本体是对相同事物的不同表达。在大多数情况下，可以忽略两者区别，将模式视为分离了推理规则的本体。
- 在知识图谱领域倾向于使用模式。
- 在语义网和哲学领域更倾向于使用本体。

II.本体的构成要素

实例：也称个体，类似于知识图谱中的实体。eg：贝多芬。
类：实例的父类，和java当中的定义一样，也类似于知识图谱模式中的实体类型。eg：人物。
属性：类可能具有的属性、特征、特性、参数、描述等。eg：人物的生日、性别…
关系：类与类、概念与概念之间可能存在的关系。eg：is - a 或 has - a
规则：基于类、属性和关系等元素来描述逻辑推断的语句。eg：音乐家是男的。
公理：采用某种逻辑的断言或规则所共同构成的理论。eg：八大恒星属于银河系。

III.实体分类

应用范围角度：
- 基础本体（Foundation Ontology，FO）：收录了适用于多个不同领域的共有的或核心的概念或术语。eg：Schema和COSMO。
  - Schema：基于协作性社区（schema.org）活动构建的本体，CNSchema是Schema的中文翻译。
  - COSMO（Common Semantic Model）：通用语义模型，旨在收录所有语义原语。（利用这些原语能够从逻辑上明确说明任何领域本体的元素的含义。语义原语：指那些不能从本体中已经存在的概念的组合来表示的概念。）
- 领域本体：对特定领域的或者现实世界的一部分的事物、知识进行建模。eg：生物学、遗传学、金融领域等。eg：GO（Gene Ontology，GO）:提供一个框架和一组概念来描述来自所有生物体的基因产能等功能。
形式化角度：
- 轻量级本体：类似于知识图谱模式，侧重于概念化，即知识和知识的层次结构。
- 重量级本体：使用丰富且完善的公理和规则来建模知识。

IV.实体分类

资源描述框架（Resource Description Framework，RDF）：用来描述Web资源的特性,及资源与资源之间的关系，是一个基础且通用的数据模型。

<?xml version=“1.0”?>
    <RDF xmlns=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlna:DC=http://purl.org/metadata/dublin-core#>
        <Description about=http://www.dlib.org/dlib/may98/miller>
            <DC:title>
                An introduction to the Resource Description Framework
            </DC:title>
            <DC:creator>
                Eric Miller
            </DC:creator>
            <DC:date>
                1998-0501
            </DC:date>
        </Description>
    </RDF>

RDF详细内容，可以参考：https://blog.csdn.net/m0_37565948/article/details/81568054

四. 六韬法

从场景、复用、事物、联系、约束、评价6个角度来设计知识图谱。

I. 场景

“场景”：指所设计的知识图谱的服务范围，一般包括用于构建目标知识图谱的结构化数据和非结构化数据、知识存储的方式要求，以及基于目标知识图谱的各类应用。
最关键的目标是对齐认知（清晰的描述动机，一致无歧义地理解环境，对齐参与各方对动机和环境的认知，并明确的表示出来，形成相应的文档）。具体如下图：
常见的方法：头脑风暴、问题清单、调查问卷、多方会议等。任何一种方法都是不完美的，不同的人往往会因为立场、背景、知识储备等原因发生分歧、产生冲突。

II. 复用

如果从零开始建立知识图谱，真的是太累了，可以复用别的数据，站在巨人的肩膀上。

领域词汇表（实体名称）可以进行复用，eg：《外国音乐辞典》
基础本体可以复用Schema、COSMO当中的一些内容。
领域本体可以复用其他现成的知识图谱。eg：OpenKG（中文的开放知识图谱社区）

III. 事物

在知识图谱设计中，最核心和基础的就是设计好实体类型，用实体类型来清晰、明确和无歧义的描述一类事物，也包括了咋基本原则中所介绍的语义、外延、颗粒度等内容。

定义类型，通常包括一下步骤：
- 对事物的分类：厘清在场景中需要处理哪些类型的事物。
- 对事物类别的命名：充分考虑命名的语义、外延和颗粒度。有些虽然类名、类别名、概念等说法不同，但是表示的却是一类事物。
- 抽象出合适的特征：以属性名列表的方式来描述事物的多维特征。
- “如无必要，勿增实体”：在满足需求的情况下，实体数量适量即可。
- 事物是演化和发展的：实体类型和属性名列表并非是不变的、固定的，而是演化发展的。
实体类型区分的越细，对下游应用的使用就越方便，但在构建知识图谱的时候遇到的困难就越多。需要权衡在场景的需求中是否需要划分为这几种类型。
- eg：若研究的对象是音乐家在音乐领域的贡献，就对音乐家进行不断的细分，而对作品本身保证颗粒度大一些；
- 若需要研究作品本身，作品本身就需要不断的细化，比如能够区分“大协奏曲”和“独奏协奏曲”等。

IV. 联系

事物间是普遍联系的，即在任意两个实体间可以建立任意的关系。定义关系类型依赖于实体类型。

定义关系类型的流程：
- 依次选取实体类型列表中的每一个实体类型。
- 梳理该实体类型和自身的关系
- 梳理该实体类型和所有其他实体类型的关系
- 对每个关系进行探讨，赋予一个适合的关系名称。（关系名称需要明确表达事物间的联系，并且在场景相关方中能能够有一致的表达）
- 将定义好的关系类型可视化，并对每一个关系类型及其对应属性名列表进行评估，确定其必要性。
多用“继承”和“组合”这两种设计模式。
- 继承：is a；has subclass；subclass of。
- 组合：has a；part of；has part。

V. 约束

对模式的约束，包括数据类型、取值范围和权限控制三大部分内容。

数据类型：
- 基本数据类型： Character、Integer、Decimal、Complex、DateTime、SpatialDatatType、UUID、Binary等，书上P68页。
- 复杂数据类型：list、set、map、tuple。
取值范围：
- 枚举类型约束（eg：国家列表、行政区列表）、数值类型的取值上下限、日期时间类型约束、文件类型（eg：对文件内容进行校验，区分JSON、XML等）、字符串约束规则（eg：手机号）、跨属性约束（eg：URL中的域名必须等于域名属性的值）等。
权限控制：对广义资源的受众进行访问限制。
- 通用方法；基于角色的访问控制。