知识图谱学习总结

知识图谱学习总结

news2026/3/22 8:43:51

1 知识图谱的介绍

知识图谱，是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系，通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识，使信息资源更易于计算、理解以及评价，并能实现知识的快速响应和推理。

1.1知识图谱的应用

当下知识图谱已在工业领域得到了广泛应用，如搜索领域的Google搜索、百度搜索，社交领域的领英经济图谱，企业信息领域的天眼查企业图谱，电商领域的淘宝商品图谱，O2O领域的美团知识大脑，医疗领域的丁香园知识图谱，以及工业制造业知识图谱等。

1.2知识图谱构建分类

识图谱的构建技术主要有自顶向下和自底向上两种。

自顶向下构建：借助百科类网站等结构化数据源，从高质量数据中提取本体和模式信息，加入到知识库里。
自底向上构建：借助一定的技术手段，从公开采集的数据中提取出资源模式，选择其中置信度较高的信息，加入到知识库中。

1.3 “实体-关系-实体”三元组

下图是典型的知识图谱样例示意图。可以看到，“图谱”中有很多节点，如果两个节点之间存在关系，他们就会被一条无向边连接在一起，这个节点我们称为实体（Entity），节点之间的这条边，我们称为关系（Relationship）。

知识图谱的基本单位，就是“实体(Entity)-关系(Relationship)-实体(Entity)” 构成的三元组，这也是知识图谱的核心。

二、数据类型和存储方式

知识图谱的原始数据类型一般来说有三类（也是互联网上的三类原始数据）：

结构化数据（Structed Data），如：关系数据库、链接数据
半结构化数据（Semi-Structured Data），如：XML、JSON、百科
非结构化数据（Unstructured Data），如：图片、音频、视频

典型的半结构化数据样例如下：

如何存储上面这三类数据类型呢？

两种选择：

可以通过 RDF（资源描述框架）这样的规范存储格式来进行存储，比较常用的有 Jena等。

另一种方法是使用图数据库来进行存储，常用的有 Neo4j等。

注意：

截止目前为止，看起来知识图谱主要是一堆三元组，那用关系数据库来存储可以吗？

对，从技术上来说，用关系数据库来存储知识图谱（尤其是简单结构的知识图谱），是完全没问题的。但一旦知识图谱变复杂，用传统的「关系数据存储」，查询效率会显著低于「图数据库」。在一些涉及到2,3度的关联查询场景，图数据库能把查询效率提升几千倍甚至几百万倍。

而且基于图的存储在设计上会非常灵活，一般只需要局部的改动即可。当你的场景数据规模较大的时候，建议直接用图数据库来进行存储。

三、知识图谱的架构

知识图谱的架构主要可以被分为：

逻辑架构
技术架构

3.1 逻辑架构

在逻辑上，我们通常将知识图谱划分为两个层次：数据层和模式层。

模式层：在数据层之上，是知识图谱的核心，存储经过提炼的知识，通常通过本体库来管理这一层（本体库可以理解为面向对象里的“类”这样一个概念，本体库就储存着知识图谱的类）。
数据层：存储真实的数据。

可以看看这个例子：

模式层：实体-关系-实体，实体-属性-性值
数据层：吴京-妻子-谢楠，吴京-导演-战狼Ⅱ

3.2 技术架构

知识图谱的整体架构如图所示，其中虚线框内的部分为知识图谱的构建过程，同时也是知识图谱更新的过程。别紧张，让我们顺着这张图来理一下思路。

首先，我们有一大堆的数据，这些数据可能是结构化的、非结构化的以及半结构化的；
然后，我们基于这些数据来构建知识图谱，这一步主要是通过一系列自动化或半自动化的技术手段，来从原始数据中提取出知识要素，即一堆实体关系，并将其存入我们的知识库的模式层和数据层。

四、构建技术

前面的内容说到了，知识图谱有自顶向下和自底向上两种构建方式，这里提到的构建技术主要是自底向上的构建技术。

如前所述，构建知识图谱是一个迭代更新的过程，根据知识获取的逻辑，每一轮迭代包含三个阶段：

信息抽取：从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达。
知识融合：在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等。
知识加工：对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。

4.1 知识抽取

知识抽取（infromation extraction）是知识图谱构建的第1步，其中的关键问题是：如何从异构数据源中自动抽取信息得到候选指示单元？

信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括：实体抽取、关系抽取和属性抽取。

(1）实体抽取

实体抽取，也称为命名实体识别（named entity recognition，NER），是指从文本数据集中自动识别出命名实体。

图中，通过实体抽取我们可以从其中抽取出四个实体：“非洲”、“中国海军”、“冷锋”、“战狼”。

(2）关系抽取

文本语料经过实体抽取之后，得到的是一系列离散的命名实体。为了得到语义信息，还需要从相关语料中提取出实体之间的关联关系，通过关系将实体联系起来，才能够形成网状的知识结构。这就是关系抽取需要做的事，如下图所示。

(3）属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息，如针对某个公众人物，可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1986760.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

链表是个好东西

链表是个好东西

链表和数组的区别数组存放数据的地址是连续的，且增加，删除数据需要把后面的数据给挪位置而链表存放数据的地址是随机的，他有一个指针指向下一个地址，增加，删除数据仅仅将指针指向给修改了即可结构体用指针变量名访…

阅读更多...

CLion运行C++程序

CLion运行C++程序

CLion运行C程序 MacBook Linux Windows C和C开发工具介绍 CLion安装和运行C程序 CLion设置新建C项目运行Hello world 点击执行,如图或使用命令执行 #默认会生成a.out可执行文件 g main.cpp #执行 ./a.out#-o指定生成的文件名,比如: abc g main.cpp -o abc#执行./abc.o…

阅读更多...

【vulnhub】Basic Pentesting :2靶机

【vulnhub】Basic Pentesting :2靶机

靶机安装下载地址：https://download.vulnhub.com/basicpentesting/basic_pentesting_2.tar.gz 运行环境：Virtual Box 注意：启动之后如果ip扫描不到，那就关闭之后，重新生成一个新的MAC网段信息收集靶机IP扫描 ne…

阅读更多...

AnyMP4 Screen Recorder：高效专业的Mac/Win录屏神器

AnyMP4 Screen Recorder：高效专业的Mac/Win录屏神器

AnyMP4 Screen Recorder，一款专为Mac和Windows用户设计的高效、专业屏幕录制软件，凭借其强大的功能和便捷的操作体验，赢得了众多用户的青睐。这款软件不仅适用于教育、工作、娱乐等多种场景，更是成为在线教学、游戏直播、视频创作…

阅读更多...

分享一个基于微信小程序的生鲜订购与配送平台SpringBoot（源码、调试、LW、开题、PPT）

分享一个基于微信小程序的生鲜订购与配送平台SpringBoot（源码、调试、LW、开题、PPT）

💕💕作者：计算机源码社 💕💕个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流&…

阅读更多...

【playwright】开个新坑

【playwright】开个新坑

常用功能遍历点击

阅读更多...

代码随想录 day 34 动态规划

代码随想录 day 34 动态规划

第九章动态规划part02 今天开始逐渐有 dp的感觉了，前两题不同路径，可以好好研究一下，适合进阶详细布置 62.不同路径本题大家掌握动态规划的方法就可以。数论方法有点非主流，很难想到。 https://programmercarl.com/0062…

阅读更多...

RocketMQ5.0 Consumer Group

RocketMQ5.0 Consumer Group

消费者分组的概念消费者分组（Consumer Group）是指一组消费同一类消息的消费者实例。每个消费者分组有一个唯一的名称，用于标识该分组。消费者分组的设计使得消息能够被多个消费者实例并行消费，同时确保每条消息只被一个消费者实…

阅读更多...

吴恩达机器学习笔记

吴恩达机器学习笔记

1.机器学习定义： 机器学习就是让机器从大量的数据集中学习，进而得到一个更加符合现实规律的模型，通过对模型的使用使得机器比以往表现的更好 2.监督学习： 从给定的训练数据集中学习出一个函数（模型参数）…

阅读更多...

LLM(大语言模型)「Agent」开发教程-LangChain（三）

LLM(大语言模型)「Agent」开发教程-LangChain（三）

v1.0官方文档｜最新文档一、LangChain入门开发教程：Model I/O 二、基于LangChain的RAG开发教程 LangChain是一个能够利用大语言模型（LLM，Large Language Model）能力进行快速应用开发的框架： 高度抽象的组件…

阅读更多...

分享一个基于微信小程序的流浪动物救助领养平台springboot（源码、调试、LW、开题、PPT）

分享一个基于微信小程序的流浪动物救助领养平台springboot（源码、调试、LW、开题、PPT）

💕💕作者：计算机源码社 💕💕个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流&…

阅读更多...

C++基础编程100题-035 OpenJudge-1.4-16 三角形判断

C++基础编程100题-035 OpenJudge-1.4-16 三角形判断

更多资源请关注纽扣编程微信公众号 http://noi.openjudge.cn/ch0104/16/ 描述给定三个正整数，分别表示三条线段的长度，判断这三条线段能否构成一个三角形。输入输入共一行，包含三个正整数，分别表示三条线段的长度&#x…

阅读更多...

数据资产：发展现状与未来展望

数据资产：发展现状与未来展望

数据资产：发展现状与未来展望数据资产作为当今数字经济发展的关键要素，正发挥着日益重要的作用。数据资产是被合法拥有或控制的，能进行计量的，为组织带来经济和社会价值的数据资源。它经历了从数据到数据资产的市场化过程&#x…

阅读更多...

一文带你玩转全新采集配置 CRD：AliyunPipelineConfig

一文带你玩转全新采集配置 CRD：AliyunPipelineConfig

作者：玄飏既然是一文玩转，自然要讲些背景 1.1. 什么是 iLogtail 采集配置长话短说： SLS：阿里云日志服务，一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能，全面提升您在研发、…

阅读更多...

atsec增加Swift CSP评估资质

atsec增加Swift CSP评估资质

atsec信息安全评估员现已被Swift列为Swift客户安全计划（CSP：Customer Security Programme）认证评估员目录中的评估提供商，可以帮助全球金融机构评估其针对CSP强制性和咨询性控制的合规级别。在金融行业，Swift要求使用其…

阅读更多...

NVIDIA Triton系列03-开发资源说明

NVIDIA Triton系列03-开发资源说明

NVIDIA Triton系列03-开发资源说明大部分要学习 Triton 推理服务器的入门者，都会被搜索引擎或网上文章引导至官方的 https://developer.nvidia.com/nvidia-triton-inference-server 处（如下截图），然后从 “Get Started” 直接安…

阅读更多...

基础岛-任务1：书生大模型全链路开源开放体系

基础岛-任务1：书生大模型全链路开源开放体系

视频地址: https://www.bilibili.com/video/BV18142187g5/ 书生大模型全链路开源开放体系–笔记技术发展 inerLM2.5 支持100wtoken核心技术思路数据合成 1.基于规则的构造代码公式，函数，数学题解2.基于模型的数据扩充代码加注释3.基于人类反馈的数…

阅读更多...

从ssm框架到 spring框架再到 springmvc框架设计思想

从ssm框架到 spring框架再到 springmvc框架设计思想

一、在使用ssm框架的时候，从前端发送get请求到后端处理数据的完整流程是： WebServlet(name "getAll", value "/getAll") public class AddServelet extends HttpServlet {Overrideprotected void doGet(HttpServletRequest reque…

阅读更多...

FPGA知识基础之RAM--基于IP核的单端口RAM设计

FPGA知识基础之RAM--基于IP核的单端口RAM设计

目录一、RAM简介1.1 基本特性1.2 RAM对电脑性能的影响1.3 RAM的应用场景二、存储器的分类1.存储器分类2.RAM分类三、实验任务四、程序设计1.系统模块2.波形绘制3.IP核设置4.代码编写RTL代码Testbench代码五、仿真提示：以下是本篇文章正文内容，下面案…

阅读更多...

WebRTC 初探

WebRTC 初探

前言项目中有局域网投屏与文件传输的需求，所以研究了一下 webRTC，这里记录一下学习过程。 WebRTC 基本流程以及概念下面以 1 对 1 音视频实时通话案例介绍 WebRTC 的基本流程以及概念 WebRTC 中的角色 WebRTC 终端,负责音视频采集、编解码、NAT 穿…

阅读更多...

推荐文章

最新文章