爱奇艺文娱知识图谱的构建与应用实践

2012年5月，Google发布了知识图谱(Knowledge Graph)，以提升搜索引擎返回的答案质量和用户查询的效率。有了知识图谱作为辅助，搜索引擎能够洞察用户查询背后的语义信息，返回更为精准、结构化的信息，更大可能地满足用户的查询需求。

知识图谱在工业领域得到了广泛应用; 7-2

目前，随着智能信息服务应用的不断发展，知识图谱已广泛应用于智能搜索、智能问答、个性化推荐、聊天机器人、大数据风控、证券投资、智能医疗、自适应教育等领域。知识图谱做AI技术的重要垂直分支，其在技术领域的热度也逐年上升。

本篇是『知识图谱构建与落地实践』的实践篇，我们与来自爱奇艺的NLP工程师奇异果，一起研究学习爱奇艺搜索团队2015年开始搭建的 奇搜知识图谱库 (爱奇艺搜索 - 全网视频搜索引擎) ，了解奇搜知识图谱的构建过程，及其在爱奇艺搜索、NLP服务中的具体应用。

一、知识图谱介绍

本质上，知识图谱是一种揭示实体之间关系的语义网络，对现实世界的事物及其相互关系进行形式化地描述。

知识图谱(Knowledge Graph) | 定义; 7-3

A knowledge graph consists of a set of interconnected typed entities and their attributes.

——《Exploiting Linked Data and Knowledge Graphs in Large Organisations》

知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说，知识图谱由一系列的（实体，关系，实体）三元组构成，用以表达现实世界中的诸多场景。

实体（Entity）指的是现实世界中的事物，是图里的节点。
关系（Relation）指的是不同实体之间的某种联系，是图里的“边”。

知识图谱 | 社交网络知识图谱示例; 7-4

图示为一个社交网络知识图谱：实体有『人』『物品』『建筑』『城市』等。『人与人之间的关系』可以是朋友或粉丝，『人与物品的关系』可以是创作或喜欢。

二、奇搜知识图谱构建方法与流程

爱奇艺搜索（奇搜，https://so.iqiyi.com/）是国内最大的视频搜索引擎之一，涵盖全网海量视频资源,为用户提供优质的全网视频&娱乐领域的搜索服务。

爱奇艺搜索 | https://so.iqiyi.com/ | ; 7-5

奇搜团队努力完善对视频内容和用户意图的理解，并在过程中构建了以视频领域为主的知识图谱库。

爱奇艺搜索 | 以视频为主的知识图谱库; 7-6

当前，奇搜知识图谱的构建流程主要分为几个步骤：

知识表示与建模
知识获取
知识融合
知识存储
知识应用（知识查询与推理）

爱奇艺 · 奇搜知识图谱的构建流程; 7-7

2.1 知识表示与建模

我们在确认知识的建模表示方式之后，再构建知识图谱。目前主要的知识建模方式有两种，爱奇艺奇搜知识图谱的构建采用的是自顶向下的建模方式。

（1）自顶向下的数据建模方法。先为知识图谱设计数据模式（ Schema ），再依据设计好的数据模式进行有针对性的数据抽取；

（2）自底向上的数据建模方法。先进行数据的收集和整理，再根据数据内容总结、归纳其特点，提炼框架，逐步形成确定的数据模式。

知识表示与建模 | 2种数据建模方法; 7-8

1）RDF三元组

RDF（Resource Description Framework），即资源描述框架，实际上是一种数据模型，用来链接资源的各种描述。

Resource：页面、图片、视频等任何具有URI标识符。
Description：属性、特征和资源之间的关系。
Framework：模型、语言和这些描述的语法。

知识表示与建模 | RDF与(S,P,O)三元组; 7-9

RDF由一系列三元组（triple）模型组成，即每一份知识可以被分解为 (Subject(主)，Predicate(谓)，Object(宾))。

主语（Subject）：声明被描述的对象
谓语（Predicate）：这个对象的属性
宾语（Object）：这个属性的值

所以，RDF三元组可以被描述成 (对象，属性，值)，即上文提到的 (节点，边，节点) 这样的图。

2）RDFS (RDF Schema)

一个三元组就是一个关系。在RDF里可以声明一些规则，从一些关系推导出另一些关系。这些规则称为“Schema”，所以有了 RDFS（RDF Schema）。规则可以用一些词汇表示，如Class、subClassOf、type、Property、subPropertyOf、Domain、Rnage等。

知识表示与建模 | RDFS推理实例; 7-10

『爱奇艺是一家人工智能公司』和『一家人工智能公司是一家高科技公司』，可以推导出『爱奇艺是一家高科技公司』。

3）奇搜知识图谱Schema

奇搜基于RDF/RDFS定义了图谱的实体类型、关系（属性）类型、以及实体本身的 Schema 定义。每一层定义在 Schema 的表示语法上都是一致的。

知识表示与建模 | 知识图谱Schema; 7-11

Rules层（规则层）。一些基础概念的定义（包括RDF/RDFS已有的定义，以及基于RDF / RDFS定义的、供实体类型/属性定义使用的规则定义），该层规则的定义一般在确定后是不可变的。
Ontology层（本体定义层）。包括可实例化的实体类型（Class，可继承）和属性（Property，可继承）的定义，如Thing，Person，wife，name等。
Entities层（实体层）。保存在实体库中的具体实体。

为了帮助定义和使用图谱 Schema（主要上图中的本体定义层），爱奇艺搜索团队开发了一套 Schema 系统来负责管理和解析奇搜知识图谱的 Schema 定义：

知识表示与建模 | 奇搜知识图谱Schema系统; 7-12

最终定义的实体类型的继承关系片段示例如下图：

知识表示与建模 | 实体类型的继承关系(片段); 7-13

2.2 知识获取

知识图谱的构建是后续应用的基础，而且构建的前提是需要把数据从不同的数据源中抽取出来。知识获取是构建知识图谱的前提条件，也是自动构建知识图谱的影响核心要素。

数据是知识图谱的根基，直接关系到知识图谱构建的效率和质量。比如，从结构化的数据中构建知识图谱比从非结构化的数据中构建，效率和准确率要高；数据越复杂，噪音越大，构建成本就越高。

目前奇搜知识图谱的数据来源除去人工创建的数据外，主要有站内数据、垂直网站数据与百度百科数据三种数据来源。

知识获取 | 不同数据来源的优势 & 劣势; 7-14

1）实体分类

实体分类主要用于处理百度百科的数据。因为百度百科的数据没有类别信息，需要先对词条进行实体类型的识别。具体实现是为每种实体类型训练一个实体分类器，准确率可衡量，并且互不影响，可以快速拓展。

知识获取 | 实体分类器; 7-15

实体分类器模型示意图，整体采用启发式方法。

构建基于规则池的分类器，生成训练数据，训练DNN模型（self-attention）文本分类模型；
DNN分类器与规则分类器互相扩充迭代（一到两轮），最终线上使用规则分类器。
生成过程中会用上百科词条中的描述文本、infobox字段、超链接词条、词条标签等信息作为特征。

2）实体抽取

实体抽取，是指从数据中识别和抽取实体的属性与关系信息。对不同类型、不同数据源的数据，分别开发属性/关系抽取脚本。

由易到难，主要包括以下三类抽取方式：

知识获取 | 实体抽取; 7-16

（1）结构化数据抽取：大部分站内/垂直网站的信息，以及部分百度百科的信息，是结构化的数据，比较易于抽取。源数据结构和实体类型定义（即目标数据结构）多种多样。为了提高开发效率，将结构化数据的抽取流程进行抽象，并写成统一的框架，利用策略模式将抽取的具体规则用groovy脚本来实现。当扩展新的来源和目标实体类型时，只需实现新的抽取脚本。

（2）半结构化数据抽取：百度百科中存在很多表格、列表等格式不完全规则的半结构化信息，抽取有一定难度。比如，半结构化信息中存在一些质量较高的统计性的数据。对于这类数据，采用基于有监督学习的包装器归纳方法进行抽取。

（3）非结构化数据挖掘：百度百科以及站内的描述等大量文本中，也存在有很多宝贵的信息。对于这类数据的实体挖掘，需要借助自然语言处理的手段（主要是实体识别等服务）。