扩展学习|一文读懂知识图谱

一、知识图谱的技术实现流程及相关应用

文献来源：曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015, 38(12):127-132.

（一）知识图谱的特征及功能

知识图谱是为了适应新的网络信息环境而产生的一种语义知识组织和服务的方法,通过把用户查询的关键词映射到语义知识库的概念上,使计算机能够理解人类的语言交流模式,从而更加智能地反馈给用户需要的答案。知识库是知识图谱的核心,采用某种知识表示方式来存储管理互相关联的知识片集合,它必须包含丰富的数据,数据来源于原有的关系型数据库、LOD中的部分关联数据集、领域本体、用户数据、从半结构化和非结构的数据内容中抽取出的理论知识、事实数据、启发式知识等。知识库是服从于本体控制的知识单元的载体,覆盖了各种概念、实例、属性、关系等要素,并保持高效率地更新,以便随时满足用户的知识需求。以谷歌知识图谱为例,它在2012年5月发布时已包含5亿多的对象实体和关于这些实体的超过35亿的事实关系,仅仅6个月后,实体数量增长到5. 7亿,事实关系增长到180亿,到目前为止,还在不断地更新扩展。

知识图谱的功能主要体现在知识组织、展示与搜索方面: 第一,给用户提供正确的理想答案,在一定程度上克服自然语言的歧义性; 第二,通过信息元侧边栏,把经过梳理、总结的知识提供给用户; 第三,通过信息推荐, 提供更深入更广阔的知识,知识图谱尝试通过对其他用户相关的搜索记录进行推理,帮助用户在提问之前就回答出下一个问题,激发用户对知识的搜索兴趣,从而进行一次全新的查询操作。

（二）知识图谱的实现流程及关键技术

知识图谱的实现流程可总结为6个模块,即知识获取、知识融合、知识存储、查询式的语义理解、知识检索和可视化展现,见图1。其中知识库的构建是知识图谱实现的核心,知识库中存储的内容需要经过广泛的知识获取及充分的知识融合,当用户进行查询检索时,用户的自然语言查询式经过语义分析处理后进入检索系统,和知识库中的内容进行匹配,整合后的反馈结果以可视化的形式展现给用户。

1.知识获取

为了提高知识服务的质量,提供用户满意的答案,知识图谱不仅要包含各个领域的常识性知识,还要及时发现并添加新知识,知识的数量和质量决定了其所能提供的知识服务的广度和深度以及解决问题的能力,因此知识图谱的构建需要以高效的知识获取作为支撑。

常识性知识的获取主要来自百科类站点和各种垂直站点的结构化数据,如从DBpedia中抽取某一主题的知识, 根据一定的抽取策略提取出领域相关的事实,包括主题下的细分知识以及扩展的相关类别知识等。同时还要从一些半结构化和非结构化数据中抽取实例和属性来丰富相关实体的描述。

随着用户交互大量涌现,用户生成内容( UGC)不断增加,大量用户投入到网络信息的创建、组织和传播中,这其中产生的一些知识也是知识图谱知识获取中重要的一方面。新知识可以从用户的查询日志中发现新的实体属性,不断地扩展知识的覆盖率。此外,由于知识图谱要根据用户的兴趣提供相关的知识推荐,所以用户相关的行为数据也要抽取,包括用户所在的国家,能确定用户身份的信息、查询语句使用的语言、查询时间、以往的访问日志数据等。例如在用户查询过程中可以分析用户的兴趣: 根据用户筛选后点击的链接,以及 “长点击”与 “短点击”判断用户对答案的满意度及感兴趣程度,从而获得用户行为数据, 也可以根据这些数据抽取对应的实体。

知识获取实现的主要技术包括机器学习、知识挖掘、自然语言处理、基于内在机理的知识发现技术等。在大数据环境下,智能化的数据抽取、提炼与挖掘技术显得尤为重要,大量的知识资源为后续的知识推理融合奠定了坚实的基础。

2.知识融合

由于知识图谱中的知识来源广,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、实体重要度计算和推理验证等步骤,达到数据、信息、方法、经验以及人的思想的融合。

异构数据整合要进行数据清洗、实体对齐、属性值决策以及关系的建立。数据清洗包括对拼写错误的数据、相似重复数据、孤立数据、数据时间粒度不一致等问题进行处理; 实体对齐解决来自不同数据源的相同实体中对同一特性的描述、格式等方面不一致的问题,对实体描述方式和格式进行规范统一,如 “籍贯”与 “出生地” 的表述差别,日期书写格式的不同等; 属性值决策主要是针对同一属性出现不同值的情况下,根据数据来源的数量和可靠度进行抉择,提炼出较为准确的属性值; 关系是知识图谱中非常重要的知识,任何实体概念都不是孤立的,都处在和周围概念一定的逻辑关系中,如等同关系、属分关系和相关关系等。从本质上看,知识图谱建立关系的过程可以简化为相关实体挖掘,即寻找用户类似查询中共现的实体或是在同一个查询中被提到的其他实体,通过对链接的提取统计以及对用户查询日志的分析,发掘查询式的主题分布,把同一主题中的相关实体进行类型验证并建立关联。

实体的重要度主要通过Page Rank等算法进行计算, 实体属性和实体间的关系、不同实体和语义关系的流行程度、抽取的置信度等都会影响实体重要度计算的结果。用户查询式中的实体被识别后,关于该实体的结构化摘要就会展现给用户,当查询涉及多个实体时,就需要选择与查询更相关且更重要的实体展现出来。如查询 “李娜”, 同名实体有超过20个,就要根据重要度的计算对这些实体进行排序。

推理的规则一般涉及两类,针对属性和针对关系的。通过推理验证可以检测逻辑矛盾,提高知识质量; 也可以获取属性值和实体间隐含的关系,从而建立更多实体间的关联。通过推理形成新的数据对知识进行再扩展,提高知识的完整性,并通过知识的聚合、分类等技术把知识具体化和分类整合。

3.知识存储

知识图谱中的知识存储在它的知识库中,是一个规模庞大的关联集合。杂乱的信息经过前期的融合与处理,形成了有序、关联可用的知识,按照知识的类别以规范化的形式分类存储在知识库中不同的知识模块里,生成索引, 以便在知识检索时更加智能有效地匹配以及进行知识的深度挖掘。

知识库中知识节点和节点间映射关系的数目是庞大的,并且在不断增长。另外,知识库中的知识与规则要保证及时的更新、纠错与维护,一些知识会长期存储保留, 而一些时效较短的知识就要及时删除或修改,知识的变化还会打乱其内部像网络一样的关联关系,这给知识存储带来了很大的挑战。因此,知识图谱中的知识依赖合适的存储介质和合理的存储方式进行有效存储,既保证知识的可读性和稳定性,又不影响系统运行效率和对数据的操纵管理能力。知识库中知识的更新修订遵守一定的原则, 使得新知识的加入与老知识的更新不会引起知识库结构发生变化,修改后的知识库不应该依赖原始知识库或新公式的语法形式,同时要保持知识表达的充足性和连贯一致性,新知识应该尽可能多地被接受,而许多老知识也应该尽量保持,这样更有利于知识库大量吸收并储备各方面的知识。

总之,知识图谱的知识存储依赖于海量数据存储技术来管理大规模分布式的数据,以实现海量存储系统大容量、可扩展、高可靠性和高性能的要求。

4.查询式的语义理解

用户的查询式一般可分为4种: 定义型,如 “什么是知识组织”; 事实型,如 “Knowledge Graph的出现时间”;肯定否定型,如 “Tim Berners-Lee是万维网之父吗”; 意见型,如 “如何看待大数据时代”。针对用户不同的查询式问题,经过自然语言处理,可以根据以上类型大致归类,系统分类理解查询式,方便答案的反馈。

知识图谱中对查询式的语义分析包括以下几个关键步骤: 1对查询式进行分词、词性标注和查询纠错。

2对句法进行分析,基于一些通用词典和本体库等实现实体识别,同时对实体进行过滤和消歧; 基于模式挖掘实现属性识别,对实体属性进行归一处理。因为用户的表达方式不一样,不同用户对实体、属性等都有不同的描述方式,因而对不同的描述进行归一,进而和知识库中的相关知识匹配。

3用户情感及语境的理解分析,在不同语境下用户查询式中的实体会有差别,知识图谱要识别用户的情感,以反馈用户此刻需要的答案。

4查询式扩展,明确了查询的确切所指以及用户的信息意图后,加入与其语义相关的其他概念来实施扩展。查询式语义分析后会生成标准查询语句,以SPARQL为代表,SPARQL查询语句是基于模板匹配的一种标准化的格式,可以与知识库中的知识更好地衔接; 另外,它还是基于需求重要度排序后的查询语句,反馈的知识结果会展现出优先顺序。

查询式的语义理解涉及的相关技术主要包括自然语言处理技术和人工智能等。

5.知识检索

知识检索是基于之前的知识组织体系,实现知识关联和概念语义检索的智能化检索方式。知识图谱中的知识检索包含两类核心任务: 一是利用相关性在知识库中找到相应的实体; 二是在此基础上根据实体的类别、关系及相关性等信息找到关联的实体。

用户输入的查询式经过语义分析理解后生成的标准查询语句进入检索系统后被解析,与知识库中的知识匹配, 并进行统计、排序、推理、推荐、预测等工作。系统会基于对查询词表达的概念和语义内涵的深度理解作为搜索依据,同时对该词的同义词、近义词、广义词、狭义词检索,进行概念的扩充,扩大检索,避免漏检; 另外,还会进行相关概念的联想检索,做好推荐预测的工作。通过对知识库进行深层次的知识挖掘与提炼后,检索系统为用户反馈出具有重要性排序的准确且完整的知识,并推荐用户可能感兴趣的相关知识。

知识检索阶段涉及信息检索、知识挖掘等关键技术, 比如相似性、重要性计算。

6.可视化展现

知识图谱可视化的结果展现提升了用户的使用体验,它将知识库中的信息转化为更方便用户理解的方式进行呈现,通常整合为简洁明了的内容放在一个信息栏中,用户可以一目了然地了解到他需要的知识,快速解答疑惑; 同时提供了更加丰富的富文本信息,除文字外还有图片、列表等可以直接消费的形式,增加了更多的用户交互元素,提升用户体验,如图片浏览、点击试听等,引导用户在短时间内获取到更多的知识。例如,在百度中搜索 “十大元帅”,信息栏中既有文字的介绍,还有每一位元帅的照片; 搜索 “周星驰和吴孟达的电影”,信息栏中整合了所有符合条件的电影结果,还可以按照类型、地区、年代、最新、最热、用户好评等标签缩小搜索范围,帮助用户快速锁定目标; 在搜狗搜索中输入 “梁启超儿子的太太的好友”,信息栏中简洁地给出答案: 泰戈尔和金岳霖,并配有他们的照片,另外还显示了问题答案的推理说明。

知识图谱可视化的展现不仅注重答案的精准,注重内容显示粒度上的把握,还关注页面中显示的位置、知识模块位置的安排等细节,还考虑了在智能手机和平板电脑等多种设备上显示的效果等问题。需要涉及Web客户端技术、可视化技术、人机交互等技术来帮助用户实现高效答案获取和知识学习。

二、知识组织研究现状

文献来源：司莉,何依,郭晓彤.国外知识组织研究主题、特征及思考[J].情报资料工作,2024,45(01):12-22.

知识组织的探索从古希腊柏拉图、亚里士多德开始，一直伴随着人类文明史发展的整个过程。其发展不仅是内部变革使然，也是外部技术驱动的结果。本文从理论视角全方位、系统性探索了新科技浪潮对KO的影响，深入揭示国外KO研究主题、研究方法及领域应用的特征。研究结果发现，过去二十年间KO研究主题持续深入细化，关注点从概念理论等表层问题转向核心价值、伦理道德、质量评估、教学培训等深层问题的探讨，方法体系从面向纸质文献的书目描述、分类标引到面向多源异构多模态资源的语义关联，技术手段从依赖于专家人工操作到辅以众包及自动化技术，不断得到继承与发展。研究方法形成“实践-理论-实践”的发展路径，实证研究逐渐成为主流。应用范围从图书情报向生物医学、教育法学等领域扩展，且呈现向药物安全监测、课程建模管理、新闻浏览等特定场景发展的趋势。鉴于此，我国可在教学培训、理论和实践应用方面进一步拓展KO疆域，包括：建立合理的评估体系，重视KO质量；关注中文数据基础设施建设，推动语义化、关联化进程；从实证研究出发，关注领域知识组织研究，促进研究成果转化；“群体+技术+专家”三轮驱动，加快海量数据的组织；扩展特定领域应用实践，提升KO服务水平；更新教学内容，优化理论基础课与实践进阶课，培养伦理道德、跨文化意识。