创邻科技Galaxybase助力SPG推动知识图谱应用落地

news2024/9/21 17:44:58

1. 知识图谱实践应用:从理论到落地的全景视角

知识图谱,作为一种先进的数据模型和信息表示策略,极大地提升了信息检索与分析的能力。该模型利用图结构,将不同领域、层次和类别的信息有机整合,令复杂的数据关系变得清晰易懂。 在诸如人工智能、搜索引擎优化以及数据分析等多个重要领域中,知识图谱早已证明了其巨大的价值和潜力。通过对大量数据进行高效查询和推理,知识图谱不仅能提供更个性化、更准确的信息服务,也有助于提高企业和个人的决策效率。

随着大数据技术和数字经济的快速演进,知识图谱处理的数据量和复杂度也随之递增。这使得传统的三元组(subject-predicate-object)存储方案在性能和可扩展性上逐渐显得不足。因此,大多数工业应用现已转向更为高效的、基于属性图的图数据库解决方案。与三元组方法相比,这些原生图数据库针对图结构进行了优化,实现了免索引邻接(index-free adjacency),从而即便在大规模数据操作和复杂查询的环境下也能维持出色的性能。成熟的商业图数据库还进一步提供了数据安全、事务支持、水平扩展、实时容灾以及运维监控等关键功能,确保了数据的高可靠性和安全性,同时也增强了系统的可扩展性和可维护性,从而对知识图谱的商业化落地提供了强有力的支持。

2. 知识图谱应用的挑战:实践落地过程中的核心难题

在践行多个知识图谱应用项目的过程中,我们深刻感受到,长期维护和有效运用知识图谱涉及多方面的复杂挑战。这些挑战大致可以分为两个主要领域:一是静态的数据与动态的业务需求之间的张力,二是高易用性与强表达力的平衡。

2.1 静态的数据和动态的业务需求

  • 选择图模式(Schema):弱类型与强类型的权衡
    选择弱类型/弱Schema约束的图数据库可以赋予业务人员极大的灵活性,在数据查询和分析上能够快速上手。然而,随着数据量的逐渐膨胀和业务需求的复杂化,这种架构缺乏明确的规范和结构、容易带来数据不一致问题和数据质量问题,将导致后续的数据维护和性能优化面临巨大困境。因此,在生产环境中,我们会推荐使用强类型/强Schema约束,以确保长期的可维护性和查询性能。

  • 复用基础图谱:一图多用的挑战
    以企业股权穿透图谱为例,初步构建的图谱通常包含企业投资企业、个人投资企业等数据,可供业务人员探索实际控制关系、集团关系等企业关系的查询和推理。在引入交易数据后,业务人员可以从更多维度探索图谱,譬如挖掘企业间的关联交易关系。但此时如何高效地复用先前的基础图谱就会成为一个问题。若通过调用的方式复用原图谱,新业务对原图谱的修改将影响原业务的稳定;若将两个图谱融合形成完整的企业交易图谱,则如何保证两个图谱的企业数据更新的一致性又是新的挑战。

  • 数据一致性:逻辑依赖导致的连锁反应
    当底层数据发生变化,上层业务推理衍生出的关系或特征也必然要重新计算。仍以企业股权穿透图谱为例,企业实控人是由股权关系和规则计算推理出来的,若传导链路中的企业股权数据发生变化,那么整个连通图范围内的企业实控人都将重新计算。在大量数据更新时,进行这样全图的级联计算是相当耗费系统资源的。因此,如何确保数据一致性,同时减少系统压力,是我们需要持续解决的难题。

  • 子图处理:标准化与实体对齐
    子图处理是业务实践中一个普遍存在的问题。比如,在反欺诈、反洗钱等业务中,业务人员需要对一定范围内的子图进行详细分析,而子图的定义方式和在子图内进行筛选、剪枝等操作的方式并无统一标准。同样,涉及多个图的子图在融合时往往会产生歧义,导致数据无法有效对齐。

  • 持续膨胀的Schema与数据
    随着业务进展,新的业务形态与关系不断涌现、业务决策逻辑与依据不断调整迭代,这也意味着我们需要频繁地更新图谱Schema和数据。长时间下来,原始和衍生数据的混合使得数据维护与溯源变得复杂。

综合来看,原始数据本质上是较为单一和稳定的,然而业务需求却是不断变化和拓展的。这就需要我们能够在实际应用中灵活地构建和调整图模式,以满足多维度、全局视角的业务分析需求。

2.2 易用性与表达力的双重挑战

  • 查询语言的学习门槛与推理能力
    虽然Cypher/GQL等图查询语言相对直观,但要求业务人员具有将复杂推理逻辑转换为具体图查询的能力,这对非技术人员来说并不容易。

  • 业务逻辑开发人员需要兼具查询性能优化的能力
    通常情况下,查询语言的不同写法会导致生成不同的执行计划,从而影响查询性能。在一些对性能要求较高的场景中,开发人员需要通过自定义函数或过程的方式实现高效的查询。在开发过程中,需要深入了解业务逻辑、图Schema、推理过程,才能对查询进行优化,这无疑增加了项目落地的复杂性和时间成本。

  • 初始图模式(Schema)的定义至关重要,否则后续修改的代价很高
    图模式的选择会极大的影响产品性能和易用性,因此对数据分析师也有较高的要求。图模式是在知识图谱应用开发的早期就需要确定的,它会影响后续所有查询的写法以及性能。

  • 对“事件”这样随时间演化的数据缺少标准处理机制
      现有的属性图系统缺乏对“事件”这一动态数据类型的标准处理机制。一般情况下,我们会通过在点边上增加时间戳类型的属性来表示事件,但对事件在时间维度下怎样进行演化和关联缺乏标准的分析处理机制。这往往导致事件传导推理结论的可解释性不够直观,且不同系统的实现方式千差万别,缺乏统一管理的接口。在数据分析时如果涉及到数据过期、需要对数据进行时间切片等情况时,会进一步加大事件处理的复杂度。

总体而言,我们都希望产品具备高度的易用性和强大的表达能力,但这两者往往难以兼得。实现这一平衡,便是知识图谱应用落地过程中需要持续攻克的难题。

3.语义增强可编程知识图谱SPG:解决知识图谱应用落地难题的新篇章

面对知识图谱应用落地的复杂挑战,一种先进的解决方案应运而生——那就是新一代工业级知识语义表示框架SPG(Semantic-enhanced Programmable Graph,语义增强可编程知识图谱)。SPG不仅为“知识”提供了一种形式化和可编程的框架,让人可以直观的解读、让机器能够高效的处理,而且在知识层级间实现了兼容与递进。更令人振奋的是,该框架具备对非完备数据状态下的图谱构建和持续演化的强大支持。SPG框架更是顺畅地融合了大数据与AI技术,使得对海量数据的知识化转换成为可能,从而极大地提升了数据的应用价值。通过SPG框架,我们可以更加高效地构建和管理图谱数据,同时可以更好地支持业务需求与场景应用。

SPG系统由五大精心设计的模块组成,每个模块都充当着不可或缺的角色。

  • SPG-Schema: 提供了包括主体、谓词、逻辑在内的核心语义管理功能。
  • SPG-Controller: 这一模块负责任务分发、服务部署、数据转换、算子编译以及知识查询等多重任务。
  • SPG-Engine: 负责Schema转换、知识写入和推理计算,同时还支持多引擎适配。
  • SPG-Program: 一个高度可编程的SDK框架,让开发变得更为便捷。
  • SPG-Interface: 一个基于大语言模型的用户交互界面,使得操作更为直观和友好。

这五大模块共同构成了一个高度分层、模块化且解耦合良好的系统,使得团队成员可以更加专注于自己擅长的领域。SPG的设计考虑到了不同专业背景的团队成员,实现了业务与技术之间的高效协作。业务人员只需使用具有语义推理能力的SPG语法,便可轻松完成图谱推理。与此同时,编程开发人员无需深入了解复杂的业务逻辑,只需专注于图查询和图计算的性能优化。通过实现对应的接口,他们便可以高效地应对各种实际应用场景。

总体而言,SPG不仅是一种技术框架,更是一种业务与技术和谐共生的全新范式。通过这一框架,我们不仅能更高效地构建和管理复杂的图谱数据,还能更全面地满足多样化的业务需求和应用场景。

在这里插入图片描述

4. 深入了解SPG引擎层:实现智能推理与计算的核心

作为SPG工作组的核心参与者,创邻科技承担了引领SPG-Engine模块设计和规范制定的重任。SPG-Engine层不仅是SPG理论到实际应用的关键转换点,更是连接SPG与第三方属性图系统(简称为LPG,Labeled Property Graph)的桥梁。这一层主要由三大子模块组成:SPG2LPG Translator、SPG2LPG Builder和SPG2LPG Executor。其详细的模块架构如下图所示:
在这里插入图片描述

  • SPG2LPG Translator: 负责SPG与属性图之间Schema的转换。考虑到SPG Schema涉及到丰富的语义表达,譬如概念类型、标准属性和事件对象,以及subClassOf这样的语义关系,这些在属性图Schema中都没有显式的表达,从而需要进行精细的映射和转换。

  • SPG2LPG Builder: 负责知识的格式转化。由于业务层的知识数据是按照SPG Schema进行组织的,因此在导入到属性图系统之前需要将这些数据转换为属性图兼容的格式,以实现知识的写入和更新。

  • SPG2LPG Executor: 负责查询和计算的核心模块,它主要执行来自SPG-Controller的、基于RDG(Resilient Distributed Graph,弹性分布式图,借鉴了弹性分布式数据集RDD的定义)算子构成的执行计划,以实现复杂的推理和计算过程。

SPG引擎的底层能力,包括图存储、图查询和图计算等,通常由第三方属性图系统提供。第三方属性系统是可以支持单机或分布式部署的独立服务进程,具备独立的集群安装、部署、运维、监控、管理方式,及Web用户界面。该图系统通过一组适配接口和SPG Controller所在进程进行交互。

为适应不同的第三方属性图系统能力,SPG-Engine存在两种实现策略:一是使用具备HTAP(混合事务/分析处理)能力的单一底层系统,二是使用分别具备TP(事务处理)和AP(分析处理)能力的组合系统。不论采用哪种实现方式,第三方属性图系统都需要满足SPG对其提出的不同等级的技术与功能要求,并按照SPG-Engine Core所描述的接口规范完成适配。

在这里插入图片描述
综上所述,SPG引擎层是一个多功能、高效且灵活的模块,不仅负责SPG系统和属性图系统之间的衔接转换,还具备与多种第三方属性图系统的高度互操作性,为复杂的知识图谱应用提供了坚实的基础。

5. 映照未来的SPG技术蓝图

按照SPG的技术规划,未来将首批适配蚂蚁TuGraph图数据库和创邻Galaxybase图数据库,以加速SPG技术从理论到实践的成熟转化。TuGraph和Galaxybase的卓越性能使其能够完美实现SPG-Engine的高级要求,这将显著提升SPG系统在实时推理方面的计算效率。

未来我们也将大力推动SPG技术在多行业领域的应用和实践,包括但不限于金融、能源、政务及互联网。我们相信,通过解决这些行业特有的复杂问题和挑战,Galaxybase和SPG技术将能够为企业和终端用户带来更为出色的使用体验和更高的价值回报。

此外,我们正积极推动建设一套统一的SPG能力评测体系,通过标准化的功能和性能指标来驱动SPG技术的不断创新和完善。这不仅有助于提升SPG技术自身的成熟度,还将促进整个知识图谱行业水平的提升。

创邻科技Galaxybase也将站在SPG技术发展的最前沿,从引擎优化到产业落地,全方位推进图技术的进步与普及,赋能企业加速释放数据资产价值。

创邻科技自主研发的图数据库Galaxybase,是分布式原生图数据库的杰出代表之一。 该产品采用了先进的分布式架构,对图数据的存储和处理进行了深度优化,实现了卓越的横向扩展性,完全满足了知识图谱对高效图数据存储和处理的要求。值得一提的是,Galaxybase的存储和计算内核完全由创邻科技自主研发,不依赖第三方开源方案,因此完全符合国产信创标准,适配各种国产CPU和操作系统。得益于其原生图存储和图处理的优势,Galaxybase已在金融、能源、政府、高等教育、互联网等多个行业中成功支持了知识图谱应用的实际部署。多家大型商业银行已经选择使用Galaxybase作为其企业级知识图谱应用平台的基础技术,成功实现了知识图谱建模、分析、挖掘、服务的全流程集成,构建了企业图谱、信贷风险图谱等多个领域知识图谱,应用于精准营销、风险防控、反洗钱、合规审计等业务领域。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/986780.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Json“牵手”阿里巴巴商品详情数据方法,阿里巴巴商品详情API接口,阿里巴巴API申请指南

阿里巴巴平台是全球领先的网上B2B交易市场。阿里巴巴(B2B.com)是全球国际贸易领域内最大、最活跃的网上交易市场和商人社区。它拥有来自200余个国家和地区超过360万的注册用户,阿里巴巴中国站在中国地区拥有超过2100万的注册用户。 阿里巴巴…

PostgreSQL 查询修改max_connections(最大连接数)及其它配置

文章目录 查询max_connections(最大连接数)修改max_connections(最大连接数)其他配置 查询max_connections(最大连接数) SHOW max_connections;修改max_connections(最大连接数) 要设置PostgreSQL数据库的最大连接数,你需要修改数据库的配置文件 postgresql.conf。…

Fiddler 系列教程(二) Composer创建和发送HTTP Request跟手机抓包

Fiddler Composer介绍 Composer的官方帮助文档:http://www.fiddler2.com/fiddler/help/composer.asp Fiddler的作者把HTTP Request发射器取名叫Composer(中文意思是:乐曲的创造者), 很有诗意 Fiddler Composer的功能就是用来创建HTTP Request 然后发送…

C++多态【下】

文章目录 1.多态实现的底层1.1初识多态原理1.2深入理解虚函数表1.单继承虚函数表2.探究虚函数表存储数据3.知识点金4.多继承虚函数表 2.题目讲解 1.多态实现的底层 1.1初识多态原理 class Dad { public:virtual void Cook() { cout << "佛跳墙" << en…

Kafka3.0.0版本——消费者(消费者组原理)

目录 一、消费者组原理1.1、消费者组概述1.2、消费者组图解示例1.3、消费者组注意事项 一、消费者组原理 1.1、消费者组概述 Consumer Group&#xff08;CG&#xff09;&#xff1a;消费者组&#xff0c;由多个consumer组成。形成一个消费者组的条件&#xff0c;是所有消费者…

Qt实现图书管理系统(C++)

文章目录 数据库表的实现创建表将powerDesigner里面的表导出成xxx.sql脚本将SQL文件导入数据库创建表 图书管理系统思维导图创建工程开发阶段创建Dlg_login登录页面login页面样式主页页面布局主函数测试login设置logo打包程序子页面的样子将子页面放到StackedWidget里面按钮直接…

springboot MongoDB 主从 多数据源

上一篇&#xff0c;我写了关于用一个map管理mongodb多个数据源&#xff08;每个数据源&#xff0c;只有单例&#xff09;的内容。 springboot mongodb 配置多数据源 临到部署到阿里云的测试环境&#xff0c;发现还需要考虑一下主从的问题&#xff0c;阿里云买的数据库&#x…

C语言——指针完全版

一、指针的运算 1.1指针 - 整数 总结&#xff1a;指针的类型决定了指针向前或者向后走一步有多大&#xff08;距离&#xff09;。 1.2指针 - 指针 int main() {int arr[10] { 0 };printf("%d\n", &arr[9] - &arr[0]);return 0; } 当我们想用两个指针相减时…

【100天精通Python】Day57:Python 数据分析_Pandas数据描述性统计,分组聚合,数据透视表和相关性分析

目录 1 描述性统计&#xff08;Descriptive Statistics&#xff09; 2 数据分组和聚合 3 数据透视表 4 相关性分析 1 描述性统计&#xff08;Descriptive Statistics&#xff09; 描述性统计是一种用于汇总和理解数据集的方法&#xff0c;它提供了关于数据分布、集中趋势和…

怎么把pdf转换成jpg图片?

怎么把pdf转换成jpg图片&#xff1f;在工作中&#xff0c;如果我们收到无法修改编辑的PDF文件&#xff0c;可能会遇到一些困难。尤其是当平台或网站只支持JPG图片格式&#xff0c;而领导又要求我们将pdf文件改为JPG格式时&#xff0c;情况就更为棘手了。这对于我们打工一族来说…

二、模型驱动测试设计

如果能够提升抽象层级&#xff0c;测试设计师会更加有效和有效率。 完全改正软件是不可能到达的&#xff0c;其原因是可以以形式化的方式来表述的而且是富有哲理的。聪明的软件工程师不再追求软件的完全正确&#xff0c;而是试着评判软件的行为来决定其是否为可接受的。**包括可…

Linux之SELinux

目录 概述 定义 作用 SELinux与传统的权限区别 SELinux工作原理 名词解释 主体&#xff08;Subject&#xff09; 目标&#xff08;Object&#xff09; 策略&#xff08;Policy&#xff09; 安全上下文&#xff08;Security Context&#xff09; 文件安全上下文查看 …

【MySQL基础】事务隔离03

目录 隔离性与隔离级别事务隔离的实现事务的启动方式MySQL事务代码示例 在MySQL中&#xff0c;事务支持是在引擎层实现的。MySQL是一个支持多引擎的系统&#xff0c;但并不是所有的引擎都支持事务。比如 MySQL 原生的 MyISAM 引擎就不支持事务&#xff0c;这也是 MyISAM 被 Inn…

永安通配符和多域名SSL证书的区别

随着互联网的快速发展&#xff0c;现在大多数人都已经习惯在网上交流、购物、学习&#xff0c;因此互联网上的各种类型的网站越来越多&#xff0c;不仅是企事业单位创建各种类型的网站&#xff0c;个人开发者创建的网站也越来越多&#xff0c;一张单域名SSL就不能满足个人或者企…

Windows云服务器 PHP搭建网站外网无法访问的问题

前言&#xff1a;本人在华为云上租了一台windows的云主机&#xff0c;可以远程访问桌面的那种&#xff0c;然后想搭个网站&#xff0c;最开始想到的是IIS&#xff0c;测试了下用html的文件&#xff0c;没有问题。但是&#xff0c;php文件却不能用&#xff0c;因为少了PHP环境。…

【LeetCode - 每日一题】2594. 修车的最少时间(23.09.07)

2594. 修车的最少时间 题意 给定每个师傅修车的时间和需要修的车辆总数&#xff0c;计算修理所有汽车需要的最少时间。师傅可以同时修车。 解法 二分 看到题目没有任何头绪&#xff0c;直接查看题解。 至于为什么用二分做呢&#xff0c;讨论区有个友友这么说到&#xff1a…

【Linux】LVM原理及核心概念

LVM是什么&#xff1f;LVM核心概念LVM的优势在Linux上使用LVM感谢 &#x1f496; LVM是什么&#xff1f; LVM是一种高级的磁盘管理工具&#xff0c;用于在Linux和其他类Unix操作系统中管理磁盘存储。它的核心思想是将底层物理存储抽象为逻辑存储单元&#xff0c;从而提供了更大…

如何使用HTTP代理爬虫,防止对网站造成负面影响

在当今大数据时代&#xff0c;爬虫技术已经成为了获取数据的重要手段之一。但是&#xff0c;由于爬虫程序的高频访问容易对目标网站造成负面影响&#xff0c;如增加服务器负载、影响网站性能等&#xff0c;因此&#xff0c;如何使用HTTP代理爬虫防止对网站造成负面影响成为了一…

idea中mapper直接跳转到xml的插件

一.点击File | Settings | Plugins&#xff0c;下载插件 二、重启idea

Shopify电子邮件营销方法?邮件营销的技巧?

Shopify电子邮件营销怎么操作&#xff1f;独立站如何做邮件营销? Shopify电子邮件营销是一种强大的工具&#xff0c;可帮助电商企业与其客户建立联系并提高销售。蜂邮EDM将探讨一些有效的Shopify电子邮件营销方法&#xff0c;以帮助您最大限度地利用这一策略。 Shopify电子邮…