知识存储概述

news2024/9/20 6:04:13

文章目录

    • 知识存储概述
    • 知识存储方式
    • 知识存储基础工具
    • 技术发展趋势

    知识存储是针对知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,以支持对大规模图数据的有效管理和计算。知识存储的对象包括基本属性知识、关联知识、事件知识、时序知识和资源类知识等。知识存储方式的质量直接影响到知识图谱中知识查询、知识计算及知识更新的效率。

知识存储概述

    从存储结构划分,知识存储分为基于表结构的存储和基于图结构的存储,如下图所示。

图片名称
知识存储方式

知识存储方式

    基于表结构的存储,是指运用二维的数据表对知识图谱中的数据进行存储。根据不同的设计原则,可以具有不同的表结构,如:三元组表、类型表和关系数据库。三元组表如jena等,优点是简单直接,易于理解。缺点是整个知识图谱都存储在一张表中,导致单表的规模太大。相应的插入,删除,查询,修改的操作开销也大。对实用性大打折扣。复杂查询在这种存储结构上的开销巨大。复杂查询拆分成若干个简单查询的操作,降低了查询的效率。

    基于图结构的存储即使用图模型描述和存储图谱数据。这种方式能直接反应图谱的内部结构,有利于知识的查询,结合图计算算法,进行知识的深度挖掘与推理。目前业界公认的图模型有3种,分别是属性图(Property Graph)、资源描述框架(RDF)和三元组超图(HyperGraph),其中属性图和资源描述框架已广泛运用到多个图数据库产品中。

    属性图或带标签的属性图(Labeled-Property Graph),由顶点(圆圈)、边(箭头)、属性(key:value)和标签组成,顶点和边可以有标签。属性图的表达很贴近现实生活中的场景,也可以很好地描述业务中所包含的逻辑。常见的属性图结构如下图所示。其中,节点的标签是User,边的标签是FOLLOWS。

图片名称
属性图结构

    鉴于传统关系数据库拥有较高的通用性、可靠性、稳定性及成熟的技术,基于RDF的知识形式也广泛使用关系数据库作为其存储方式。目前主要有以下三种存储方案:基于三元组的三列表存储、水平存储、基于类的属性表存储和基于谓词存储等。对于基于RDF知识的三列表存储,该存储方式将关系数据库表的3列分别存储为RDF知识三元组的主语、谓语和宾语,即对应(实体,关系,实体)或者(实体,属性,属性值)。该三列表存储方式与传统的结构化数据存储方式相兼容,通用性好。但面向大规模的知识图谱,其本身包含大量的三元组,从而会造成关系数据库低效的查询性能。

    超图概念的提出,是为了解决简单图中的共指消解和分割等问题。对于我们熟悉的图而言,简单图的一个边(edge)只能和两个顶点连接;而对于超图来讲,人们定义它的边(超边hyperedge)可以和任意个数的顶点连接。超图可以完美刻画标签网络中一条边包含多节点的问题。图和超图的示意图如下图所示:

图片名称
普通图与超图

知识存储基础工具

    知识图谱的存储并不依赖特定的底层结构,一般的做法是按数据和应用的需求采用不同的底层存储,甚至可以基于现有关系数据库或NoSQL数据库进行构建。关系型数据库是典型的基于表结构的存储,图数据库是典型的基于图结构的存储。

    关系数据库通过属性对现实世界中的事物进行描述,采用关系模型来组织数据的数据库,其以行和列的形式存储数据。一行一个记录,一列表示一个属性。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。根据DB-Engines的统计数据,从2013年到2019年,Oracle、MySQL和Microsoft SQL Server稳居关系型数据库的前三甲,如下图所示。

图片名称
关系数据库的使用热度趋势

    图数据库源起欧拉和图理论(graph theory),也可称为面向/基于图的数据库,图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对,优点是快速解决复杂的关系问题。图数据库是一种非关系型数据库,支持对图结构进行查询、增加、删除、更新等操作。相对传统的关系型数据库,查询速度快、操作简单、能提供更为丰富的关系展现方式。根据DB-Engines的统计数据,列举了一些近几年来常用图数据库的使用热度趋势曲线,如下图所示。

图片名称
基于图模型数据库的使用热度趋势

技术发展趋势

    知识存储过程完成对各类知识图谱组成元素的存储,以支持对大规模图数据的有效管理,满足快速查询、读取、写入的操作,为知识计算等应用提供服务支撑。针对知识图谱的分布式存储、知识存储的伸缩性和灵活性,以及基于LOD的知识存储,是技术发展的重点方向,同时,超图(Hyper Graph)也是未来知识存储的研究热点。知识存储相关技术发展趋势包括以下几个方面:

    随着互联网及各领域数据的持续积累,各个领域方向的知识图谱数量与规模日益增长,单机系统的数据存储能力难以应对知识图谱数据的大规模增长。同时,基于资源描述框架(RDF)存储的知识图谱更便于知识推理和计算,符合知识图谱应用的未来需求。但RDF存储模式所含有大量三元组的数据,使其索引效率与更新维护成本大于其它图存储模式。因此,未来知识存储的一种研究趋势为如何利用分布式数据库系统来解决RDF数据的大规模增长问题。

    随着知识图谱的规模越来越庞大、知识的表示方式越来越复杂,这对目前的知识存储方式提出了挑战。如何设计出可支持对复杂节点的定制、具有良好可伸缩性和灵活性的知识存储模式,满足复杂的查询、读取、计算和应用需求成为面向知识图谱的知识存储的迫切要求。

    由于知识表示RDF模型的通用性和灵活性,知识图谱供应方越来越倾向将自身的知识图谱数据表示成RDF格式并发布到互联网上。通过URI相互链接起来,这些发布在互联网上的RDF数据共同构成了一个覆盖整个互联网的庞大知识图谱。为了让这个庞大知识图谱网络更加丰富和完善,W3C积极推进LOD项目。LOD已成功将数百个RDF数据集相互链接在一起以增强数据的可用性。

    超图所拥有的简单图无可比拟的复杂关系表示方式,能更加全面详尽地描述业务、还原场景。但目前对超图的可视化表示方法还没有理想方案,对于超图的划分方式、深度学习及应用,大部分仍处于实验室研究阶段。推广到各领域进行工程化运用,无论在计算效率和成本上都存在较大问题。但随着知识图谱的普及,未来对于复杂关系的表示的需求,将逐步增多,超图技术的研究和应用探索将是知识图谱的下一个方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1702934.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Overall Accuracy(OA)、Average Accuracy(AAcc)计算公式

四个重要的指标: True Positive(TP)、False Positive(FP)、True Negative(TN)和False Negative(FN)。 TP表示分类器预测结果为正样本,实际也为正样本&#xf…

以一道简单的例题计算灵敏性分析

在例1.1中,全部的变量包括:猪的重量w(磅),从现在到出售猪期间经历的时间t(天),t天内饲养猪的花费C(美元),猪的市场价格p(美元/磅),售出生猪所获得的收益R(美元),我们最终获得的净收益P(美元).这里还有一些其他的有关量,如猪的初始重量(200磅)…

看看我一天鼠标点击多少次,键盘点击多少次

1、说明 前一段时间看到新闻,公司监控员工的一天中使用键盘数据次数,员工键盘和鼠标点击次数太少而被辞退。真是让人气愤,真是万恶的资本家呀。 我赶紧看看我一天工作下来我点击了多少次键盘和鼠标,可是我怎么知道呢,咱是干啥的呀,干脆写个小软件统计一下我一天点了多少…

3d火灾救援模拟仿真培训软件复用性强

消防VR安全逃生体验系统是深圳VR公司华锐视点引入了前沿的VR虚拟现实、web3d开发和多媒体交互技术,为用户打造了一个逼真的火灾现场应急逃生模拟演练环境。 相比传统的消防逃生模拟演练,消防VR安全逃生体验系统包含知识讲解和模拟实训演练,体…

Redis篇 数据的编码方式和单线程模型

编码方式和单线程模型 一.redis中的数据类型二. Redis中查询编码方式命令三. 单线程模型四. 经典面试题,redis为何这么快?什么是IO多路复用? 一.redis中的数据类型 在redis中,数据类型大致分为5种 1.字符串类型 2.哈希 3.列表 4.集合 5.有序集合 redis底层在实现这些数据结构…

AI性价比之最、国产化后浪香橙派 AIpro深度体验

目录 前言硬件上手分析第一印象硬件参数分析主控猜测电源分析壳子分析软件测试tf卡镜像烧录与上电开机板卡的连接芯片确认与算力测试体验AI应用样例大模型试用CPU性能测试与升级其他试用记录SATA SSD启动使用感受与场景需求分析使用感受场景需求分析无人机应用场景智慧城市IOT领…

linux 查看csv文件,按指定列聚合 排序

在Linux中,你可以使用awk工具来查看CSV文件的内容,并按照指定的列进行聚合。awk是一种强大的文本处理工具,它可以处理文本文件中的数据,并根据条件执行相应的操作。 以下是一个示例,假设你有一个名为data.csv的CSV文件…

ES学习圣经:从0到1, 精通 ElasticSearch 工业级使用

尼恩:百亿级数据存储架构起源 在40岁老架构师 尼恩的读者交流群(50)中,经常性的指导小伙伴们改造简历。 经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会&#xff0c…

LeetCode第131场双周赛C++题解

3158.求出出现两次数字的XOR值 给你一个数组 nums ,数组中的数字 要么 出现一次,要么 出现两次。 请你返回数组中所有出现两次数字的按位 XOR 值,如果没有数字出现过两次,返回 0 。 示例 1: 输入:nums …

我被恐吓了,对方扬言要压测我的网站

大家好我是聪,昨天真是水逆,在技术群里交流问题,竟然被人身攻击了!骂的话太难听具体就不加讨论了,人身攻击我可以接受,我接受不了他竟然说要刷我接口!!!!这下…

对于创建相关项目时,项目出现红色感叹号,且无jre环境显示,应该怎么解决?

首先,假设你已经下载好了相关你的jre环境,注意:如果你的jre不想用之前用的默认的话,你应该新建一个新的文件路径来存储你的新的jre环境下的项目文件。 先直接new->project->javaproject 点击next: 显示如下:&…

Vue实现二维码的展示及下载

个人介绍 hello hello~ ,这里是 code袁~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 🦁作者简介:一名喜欢分享和记录学习的…

技术贴 | Query 物理计划构建指南

在往期博客《执行器 - Query 执行详解》中,我们介绍到到一条 Query 的 SQL 语句需要经过:词法分析 —— 生成 AST 语法树 —— 生成物理计划。本期博客我们接续上篇讲解一条 Query 语句物理计划的具体结构,以及如何构建物理计划。 物理计划是…

AI预测福彩3D采取888=3策略+和值012路一缩定乾坤测试5月27日预测第3弹

今天继续基于8883的大底,使用尽可能少的条件进行缩号,同时,今天同样准备两套方案,一套是我自己的条件进行缩号,另外一套是8883的大底结合某位彩友的2码不定位奖号预测二次缩水来杀号。好了,直接上结果吧~ …

多波段光源 通过8种波长实现的成像解决方案

光源在机器视觉中的重要性不容小觑,它直接影响到图像的质量,进而影响整个系统的性能。光源的作用包括提供足够的照明,并确保被摄物体的特征能够被准确地捕捉到图像中,使被检测物体产生清晰的图像,提高图像的对比度和亮…

BEVFormer论文详细解读

文章目录 1. 前言1.1 3D VS 4D1.2 .特征融合过程中可能遇到的问题1.3 .BEV提出背景1.4 .BEV最终得到了什么1.5 .输入数据格式 2. 背景/Motivation2.1 为什么视觉感知要用BEV?2.2 生成BEV视角的方法有哪些?为何选用Transformer呢? 3. Method/S…

业务实战————Uibot6.0 .1多页面商品信息抓取RPA机器人

前言 【案例描述】 鲜果记水果店计划在淘宝电商平台上开设一家新店,小微是该企业运营部分的运营专员,主要负责公司商品上架和管理的工作。 公司计划在开店的新品促销活动中增加水果品类红富士苹果。小微需在商品上架前了解目前平台中销量前列的红富士苹…

【音视频基础概念】颜色与图像

文章目录 前言一、三原色不同三原色的概念三原色的作用 二、颜色空间颜色空间是什么颜色空间的作用常见颜色空间示例灰度图像是什么灰度图像的作用灰度图像的技术细节示例 总结 前言 在当今数字媒体时代,音视频技术在我们的日常生活中占据了重要位置。无论是观看电…

【UE5.1 角色练习】08-物体抬升、抛出技能

前言 在上一篇(【UE5.1 角色练习】08-传送技能)的基础上继续实现控制物体抬升、抛出的功能。 效果 步骤 一、准备技能动画 1. 在项目设置中新建一个操作映射,这里命名为“Skill_GravityControl”,用按键4触发 2. 通过IK重定向…

Redis篇 String

String概念和set,get扩充 一. String类型的基本介绍二. String中set,get方法扩充 一. String类型的基本介绍 redis中所有的key都是字符串类型的,但是value的类型差异很大. redis中的字符串,直接就是二进制方式存储的,可以存储整数,二进制数据 文本数据,Json,xml还有音频等. 二.…