知识图谱学习总结

news2025/1/9 16:28:18

1 知识图谱的介绍

        知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并能实现知识的快速响应和推理。

1.1知识图谱的应用

        当下知识图谱已在工业领域得到了广泛应用,如搜索领域的Google搜索、百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱,电商领域的淘宝商品图谱,O2O领域的美团知识大脑,医疗领域的丁香园知识图谱,以及工业制造业知识图谱等。

 1.2知识图谱构建分类

识图谱的构建技术主要有自顶向下自底向上两种。

  • 自顶向下构建:借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。
  • 自底向上构建:借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。

1.3 “实体-关系-实体”三元组

        下图是典型的知识图谱样例示意图。可以看到,“图谱”中有很多节点,如果两个节点之间存在关系,他们就会被一条无向边连接在一起,这个节点我们称为实体(Entity),节点之间的这条边,我们称为关系(Relationship)

         知识图谱的基本单位,就是“实体(Entity)-关系(Relationship)-实体(Entity)” 构成的三元组,这也是知识图谱的核心。

 二、数据类型和存储方式

知识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据):

  • 结构化数据(Structed Data),如:关系数据库、链接数据
  • 半结构化数据(Semi-Structured Data),如:XML、JSON、百科
  • 非结构化数据(Unstructured Data),如:图片、音频、视频

 典型的半结构化数据样例如下:

 如何存储上面这三类数据类型呢?

两种选择:

可以通过 RDF(资源描述框架)这样的规范存储格式来进行存储,比较常用的有 Jena等。

 另一种方法是使用 图数据库来进行存储,常用的有 Neo4j等。

 

注意:

截止目前为止,看起来知识图谱主要是一堆三元组,那用关系数据库来存储可以吗?

        对,从技术上来说,用关系数据库来存储知识图谱(尤其是简单结构的知识图谱),是完全没问题的。但一旦知识图谱变复杂,用传统的「关系数据存储」,查询效率会显著低于「图数据库」。在一些涉及到2,3度的关联查询场景,图数据库能把查询效率提升几千倍甚至几百万倍。

        而且基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。当你的场景数据规模较大的时候,建议直接用图数据库来进行存储。

三、知识图谱的架构

知识图谱的架构主要可以被分为:

  • 逻辑架构
  • 技术架构

 

3.1 逻辑架构

在逻辑上,我们通常将知识图谱划分为两个层次:数据层和模式层。

  • 模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理这一层(本体库可以理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。
  • 数据层:存储真实的数据。

可以看看这个例子:

  • 模式层: 实体-关系-实体,实体-属性-性值
  • 数据层:吴京-妻子-谢楠,吴京-导演-战狼Ⅱ

3.2 技术架构

        知识图谱的整体架构如图所示,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。别紧张,让我们顺着这张图来理一下思路。

  • 首先,我们有一大堆的数据,这些数据可能是结构化的、非结构化的以及半结构化的;
  • 然后,我们基于这些数据来构建知识图谱,这一步主要是通过一系列自动化或半自动化的技术手段,来从原始数据中提取出知识要素,即一堆实体关系,并将其存入我们的知识库的模式层和数据层。

四、构建技术

        前面的内容说到了,知识图谱有自顶向下和自底向上两种构建方式,这里提到的构建技术主要是自底向上的构建技术。

        如前所述,构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:

  • 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
  • 知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。
  • 知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

4.1 知识抽取

        知识抽取(infromation extraction)是知识图谱构建的第1步,其中的关键问题是:如何从异构数据源中自动抽取信息得到候选指示单元?

        信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取

       (1)实体抽取 

        实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体

 图中,通过实体抽取我们可以从其中抽取出四个实体:“非洲”、“中国海军”、“冷锋”、“战狼”。

(2)关系抽取

        文本语料经过实体抽取之后,得到的是一系列离散的命名实体。为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。这就是关系抽取需要做的事,如下图所示。

 

(3)属性抽取

        属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1986760.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

链表是个好东西

链表和数组的区别 数组存放数据的地址是连续的,且增加,删除数据需要把后面的数据给挪位置 而链表存放数据的地址是随机的,他有一个指针指向下一个地址,增加,删除数据仅仅将指针指向给修改了即可 结构体用指针变量名访…

CLion运行C++程序

CLion运行C程序 MacBook Linux Windows C和C开发工具介绍 CLion安装和运行C程序 CLion设置 新建C项目 运行Hello world 点击执行,如图 或使用命令执行 #默认会生成a.out可执行文件 g main.cpp #执行 ./a.out#-o指定生成的文件名,比如: abc g main.cpp -o abc#执行./abc.o…

【vulnhub】Basic Pentesting :2靶机

靶机安装 下载地址:https://download.vulnhub.com/basicpentesting/basic_pentesting_2.tar.gz 运行环境:Virtual Box 注意:启动之后如果ip扫描不到,那就关闭之后,重新生成一个新的MAC网段 信息收集 靶机IP扫描 ne…

AnyMP4 Screen Recorder:高效专业的Mac/Win录屏神器

AnyMP4 Screen Recorder,一款专为Mac和Windows用户设计的高效、专业屏幕录制软件,凭借其强大的功能和便捷的操作体验,赢得了众多用户的青睐。这款软件不仅适用于教育、工作、娱乐等多种场景,更是成为在线教学、游戏直播、视频创作…

分享一个基于微信小程序的生鲜订购与配送平台SpringBoot(源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

代码随想录 day 34 动态规划

第九章 动态规划part02 今天开始逐渐有 dp的感觉了,前 两题 不同路径,可以好好研究一下,适合进阶 详细布置 62.不同路径 本题大家掌握动态规划的方法就可以。 数论方法 有点非主流,很难想到。 https://programmercarl.com/0062…

RocketMQ5.0 Consumer Group

消费者分组的概念 消费者分组(Consumer Group)是指一组消费同一类消息的消费者实例。每个消费者分组有一个唯一的名称,用于标识该分组。消费者分组的设计使得消息能够被多个消费者实例并行消费,同时确保每条消息只被一个消费者实…

吴恩达机器学习笔记

1.机器学习定义: 机器学习就是让机器从大量的数据集中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好 2.监督学习: 从给定的训练数据集中学习出一个函数(模型参数)…

LLM(大语言模型)「Agent」开发教程-LangChain(三)

v1.0官方文档|最新文档 一、LangChain入门开发教程:Model I/O 二、基于LangChain的RAG开发教程 LangChain是一个能够利用大语言模型(LLM,Large Language Model)能力进行快速应用开发的框架: 高度抽象的组件…

分享一个基于微信小程序的流浪动物救助领养平台springboot(源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

C++基础编程100题-035 OpenJudge-1.4-16 三角形判断

更多资源请关注纽扣编程微信公众号 http://noi.openjudge.cn/ch0104/16/ 描述 给定三个正整数,分别表示三条线段的长度,判断这三条线段能否构成一个三角形。 输入 输入共一行,包含三个正整数,分别表示三条线段的长度&#x…

数据资产:发展现状与未来展望

数据资产:发展现状与未来展望 数据资产作为当今数字经济发展的关键要素,正发挥着日益重要的作用。数据资产是被合法拥有或控制的,能进行计量的,为组织带来经济和社会价值的数据资源。它经历了从数据到数据资产的市场化过程&#x…

一文带你玩转全新采集配置 CRD:AliyunPipelineConfig

作者:玄飏 既然是一文玩转,自然要讲些背景 1.1. 什么是 iLogtail 采集配置 长话短说: SLS:阿里云日志服务,一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升您在研发、…

atsec增加Swift CSP评估资质

atsec信息安全评估员现已被Swift列为Swift客户安全计划(CSP:Customer Security Programme)认证评估员目录中的评估提供商,可以帮助全球金融机构评估其针对CSP强制性和咨询性控制的合规级别。在金融行业,Swift要求使用其…

NVIDIA Triton系列03-开发资源说明

NVIDIA Triton系列03-开发资源说明 大部分要学习 Triton 推理服务器的入门者,都会被搜索引擎或网上文章引导至官方的 https://developer.nvidia.com/nvidia-triton-inference-server 处(如下截图),然后从 “Get Started” 直接安…

基础岛-任务1:书生大模型全链路开源开放体系

视频地址: https://www.bilibili.com/video/BV18142187g5/ 书生大模型全链路开源开放体系–笔记 技术发展 inerLM2.5 支持100wtoken核心技术思路 数据合成 1.基于规则的构造代码 公式,函数,数学题解2.基于模型的数据扩充代码加注释3.基于人类反馈的数…

从ssm框架 到 spring框架 再到 springmvc框架 设计思想

一、在使用ssm框架的时候,从前端发送get请求到后端处理数据的完整流程是: WebServlet(name "getAll", value "/getAll") public class AddServelet extends HttpServlet {Overrideprotected void doGet(HttpServletRequest reque…

FPGA知识基础之RAM--基于IP核的单端口RAM设计

目录 一、RAM简介1.1 基本特性1.2 RAM对电脑性能的影响1.3 RAM的应用场景 二、存储器的分类1.存储器分类2.RAM分类 三、实验任务四、程序设计1.系统模块2.波形绘制3.IP核设置4.代码编写RTL代码Testbench代码 五、仿真 提示:以下是本篇文章正文内容,下面案…

WebRTC 初探

前言 项目中有局域网投屏与文件传输的需求,所以研究了一下 webRTC,这里记录一下学习过程。 WebRTC 基本流程以及概念 下面以 1 对 1 音视频实时通话案例介绍 WebRTC 的基本流程以及概念 WebRTC 中的角色 WebRTC 终端,负责音视频采集、编解码、NAT 穿…