论文浅尝 | Relational schema optimization for RDF-based KGs

news2024/11/18 1:46:47

89c19ce70af4be0cb4c469aa25e0b546.png

笔记整理:郑国鹏,天津大学硕士

链接: https://www.sciencedirect.com/science/article/pii/S0306437921000223

动机

特征集(CS)根据与其主题节点相关的属性集来组织RDF三元组。它可以捕捉到RDF数据的隐含模式。虽然大多数基于CS的方法在空间和查询性能上有明显的改善,但在回答复杂查询工作负载时, CS的数量会变得非常大,最终影响系统性能。本文根据CS的层次结构进行合并,解决上述的CS数量过多的问题。

亮点

本文的方法采用网格来捕捉CS之间的层次关系,识别密集的CS并将密集的CS与它们的祖先合并。本文在关系主干之上实现了合并的算法,每个合并的CS都存储在一个关系表中。

本文的亮点主要包括:

•将CS合并问题,归纳为一个网格缩小问题。并利用CS的层次结构,提出了一种新型的CS合并算法。极大程度的减少的CS的数量。减少连接操作•实现了raxonDB系统,在存储和查询处理都运用了本文提出的CS合并算法。

概念及模型

•概念:CS节点

0e539d15a7ddc8201db13b1c487e98f2.png

477db3badf8863cd448df0678effc0e8.png

节点S表示主语,一个CS由主语及其谓词构成。

节点C表示一个CS划分。

本文的核心目的在于,利用CS之间的层级关系,对CS节点进行合并。主要有两个步骤:寻找稠密节点(合并的终点),寻找合适的合并路径。

•寻找稠密节点

稠密节点,即终点节点。其他CS节点需要通过层级关系最终合并到稠密节点上。因此,稠密节点的选择至关重要。本文希望合并后表的空值越少越好,因此以空值为标准设计了代价模型。公式如下图所示:

3fc642303bd39211b78745952c59dd1b.png

在选定完稠密节点之后,CS节点图以稠密节点为终点,划分成各子图。如下图所示:深紫色为稠密节点。

e89de13069545796a40e56db087b0927.png

子图划分算法如下图所示:

c6ccd0c5edb74906e087bce999167c37.png

•节点合并

在划分出子图之后,则该考虑如何将CS节点合并到稠密节点。本文先采用穷举的方式进行合并,但是时间复杂度过高。继而采用贪心的思想,降低时间复杂度,对节点进行合并。合并示意图与算法如下所示:

c93efe33b2d9fe808640e92d95045bb4.png

1616e7c072bfd17a9ec49e6dcecca7dc.png

另外,本文将CS合并算法应用的存储和查询优化中,实现的raxonDB系统,系统架构如下图所示:

e3cffa8ba3527cee1cf3ad345837d61a.png

理论分析

实验

作者在LUBM2000、Geonames、Reactome三个数据集上,与virtuoso、rdf3x、triplebit、emergent、axonDB等单机SPARQL查询系统进行对比。性能均明显优于现有的系统。

793537a95899f27a61352e980c6b0f14.png

1ec37f2236c22d327955bb75eeeb21f2.png

83658357f0368cb87df98c28e7aeaa36.png

总结

在本文通过考虑RDF三元组中的隐含模式,解决了将异质RDF数据集自动映射到关系模式的问题。提出了一种提取特征集的方法,即描述数据中不同类别的RDF实例的属性集,并利用不同CS之间的层次关系,以便将它们合并并映射到关系表中。本文提供了两种算法,一种是穷举算法,在指数时间内选择CS的祖先子图进行合并;另一种是贪婪算法,通过使用启发式算法将性能提高到多项式时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/107406.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3、面向对象

文章目录3、面向对象3.1 介绍3.1.1 基本语法3.1.2 案例分析3.2 类和对象3.2.1 类3.2.1 对象3.3 属性3.4 方法3.5 方法参数3.6 传值方式3.7 静态3.8 静态代码块3.9 包3.10 import3.11 构造方法3.12 继承3.13 super、this3.14 继承、构造方法3.15 多态3.16 方法重载3.17 方法重载…

获奖 | APT检测能力再获认可,创宇猎幽荣获“金帽子”年度优秀安全产品奖

近日,2022网络安全金帽子年度评选活动揭晓,创宇猎幽APT流量监测系统获年度优秀安全产品奖。“金帽子”评选推动行业发展创宇猎幽获年度优秀安全产品奖“金帽子”年度评选活动旨在推动网络安全行业的健康发展,让更多的普通大众真正了解和认识网…

【技术应用】java接口幂等性实现方案

【技术应用】java接口幂等性实现方案一、前言二、幂等性三、幂等设计思路四、实现代码五、总结一、前言 最近在做一个线上的项目,与之前内网项目还是有很多差别的,尤其在安全性和并发性的处理上,要多做一些措施,第一步就是接口的…

Java HashSet

HashSet 基于 HashMap 来实现的,是一个不允许有重复元素的集合。 HashSet 允许有 null 值。 HashSet 是无序的,即不会记录插入的顺序。 HashSet 不是线程安全的, 如果多个线程尝试同时修改 HashSet,则最终结果是不确定的。 您必…

流量与技术双重加持,小游戏迎来高速增长周期

2017 年 12 月 28 日,微信小游戏正式上线。“跳一跳”刷爆了微信朋友圈,随后欢乐斗地主、坦克大战、纪念碑谷、拳皇等经典游戏纷纷出现在小游戏平台上。在过去的5年间,各大平台纷纷紧跟微信的步伐,纷纷入局小游戏,当前…

【CSS】速查复习background相关所有属性(上)

前言 background是一种 CSS 简写属性,用于一次性集中定义一个或多个背景属性,其中的属性有以下这些: background-clip background-color background-image background-origin background-size background-attachment background-blend…

window.location.href跳转页面后拿不到cookie

场景 最近在改其他同事写的系统时,我只改了个文案,但是打包部署上去发现其他地方出现了问题。原因可能是因为这个问题被同事修复过但是没有把代码提交,我拉取的时候这个问题还是存在的。最终拿同事之前打的包与我打的最新包对比,…

Java项目:SpringBoot+Mybatis+layui的学生成绩管理系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 功能介绍 SpringBoot学生成绩管理系统。主要分老师与学生两个角色。 其中,教师角色包含以下功能: 教师登录,学生信息管理,成绩管…

ETHERCAT从站设计与FOC伺服马达电流环控制

ETHERCAT从站开发方案介绍-含ET9300对比 EtherCAT一般设计要求(针对uCESC的方案): 硬件上:主控制器uCESC(可选各供应商的EtherCAT从站控制器) 操作系统:无特殊要求,根据产品性能决…

利用python在网上接单赚钱,兼职也能月入过万,还不赶紧学起来

我觉得python接单我是最有发言权的,从2013年进入大学,我就是一个不安分的学生,总是想着通过自己的技术来实现财富自由。 我崇拜雷军,我觉得雷布斯不仅技术强,而且很有商业头脑,可是我是个呆呆的瓜皮&#…

小白到底如何学 Python?

小白:我为什么要学习Python, 它能为我带来什么?我能学会吗?…… 为什么学习 Python? 计算机编程语言有很多,在我接触到的语言里面,比如Java, C, C等,Python是最容易上手的一门语言。 只要你会一点英语&…

GitHub 又一可视化低代码神器,诞生了!速度!手慢无!

在此之前,我曾多次与您交谈,在现阶段互联网业务疯狂增长的推动下,低代码编程被赋予了新的使命和义务,即帮助开发人员快速构建一个可以在早期以较低成本投入市场的应用程序。 那么,有没有一个成熟的低代码工具是开源的、…

使用docker快速部署ferry开源工单系统

大家好,我是早九晚十二,目前是做运维相关的工作。写博客是为了积累,希望大家一起进步! 我的主页:早九晚十二 开源软件ferry是集工单统计、任务钩子、权限管理、灵活配置流程与模版等等于一身的开源工单系统&#xff0c…

【蓝桥杯】第11届Scratch国赛中级组第6题 -- 3D打印小猫

[导读]:蓝桥杯大赛是工业和信息化部人才交流中心举办的全国性专业信息技术赛事。蓝桥杯大赛首席专家倪光南院士说:“蓝桥杯以考促学,塑造了领跑全国的人才培养选拨模式,并获得了行业的深度认可。” 春雷课堂计划推出Scratch蓝桥杯…

Linux网络协议之TCP协议(传输层)

Linux网络协议之TCP协议(传输层) 文章目录Linux网络协议之TCP协议(传输层)1.理解TCP协议2.谈谈可靠性问题3.TCP协议格式4.关于TCP的两个问题5.TCP序号与确认序号6.TCP缓冲区7.TCP窗口大小8.TCP的六个标志位9.确认应答机制(ACK)10.超时重传机制11.连接管理机制11.1 三次握手和四…

LEADTOOLS 入门教程: 使用 H264 视频创建 DICOM 文件 - 控制台 C#

LEADTOOLS是一个综合工具包的集合,用于将识别、文档、医疗、成像和多媒体技术整合到桌面、服务器、平板电脑、网络和移动解决方案中,是一项企业级文档自动化解决方案,有捕捉,OCR,OMR,表单识别和处理&#x…

Android系统之路(初识MTK) ------Android11.0添加Recents一键清除最近任务按钮

Android11.0添加Recents一键清除最近任务按钮 今天因为在复测昨天的一个monkey压测并且还没测完,所以打算记录最近做系统开发的一些心得和经验,也记录一下自己的系统开发历程 修改前效果: 修改后的效果: 后期补上… 需要修改的文件列表(注意:各个版本或平台可能要修改…

Git使用

一、Git介绍 1.1、版本控制 在我们日常生活中,使用微信6.5.3版本,QQ7.4版本,Chrome 43.0.2357.65 版本,表示的都是某些软件使用的版本号。这些软件在开发过程中,版本都是由1不断的变化而来。对于软件公司来说&#x…

用魔法打败魔法!AI识别名人造假视频;OpenAI开源Point-E进军3D打印市场;谷歌CALM算法加速文本生成… | ShowMeAI资讯日报

👀日报合辑 | 🎡AI应用与工具大全 | 🔔公众号资料下载 | 🍩韩信子 📢 用魔法打败魔法!基于面部、手势和声音识别名人 deepfake 视频 https://www.pnas.org/doi/pdf/10.1073/pnas.2216035119 Deepfake 是 …

模型评估指标

模型评估指标【准度、精度、召回率、F1-score及ROC曲线】总结 参考于李沐的机器学习课程。 通常要使用多个模型综合评价一个模型的好坏。 Accuracy 预测正确的个数 / 样本总个数 sum(y_pred y_label)/y_label.size()Precision 正确地预测为类别 i 的个数 / 预测为 i 的总…