从零开始,她如何为客户创建语义知识图谱?

news2024/10/6 14:18:42

在这篇文章中,Capgemini 的知识图谱负责人 Veronika Heimsbakk 分享了她为客户创建语义知识模型的方法。阅读本指南,了解她如何与客户合作,从头开始构建语义知识模型,并发现可以应用于您自己的语义建模项目的实践。

如何为客户构建语义知识模型

在参加 2024 年知识图谱大会时,我与 metaphacts 的创始人兼首席科学官 Peter Haase 一起参加了一个关于本体及其建模的讨论小组。之后,metaphacts 邀请我为他们的博客撰稿,详细阐述我的语义建模方法。在这里,我将重点介绍我与客户合作创建语义知识图谱时通常遵循的步骤。

值得一提的是,我没有遵循某一种特定的本体建模方法,而是基于不同的方法,因为客户的成熟度和需求各不相同。这篇博客文章将描述我日常工作的基本步骤和构建模块,不过,我在 Capgemini 的同事可能会有不同的方法。

目录

  • • 先决条件:在开始语义建模之前

  • • 与客户的初步活动

  • • 绘制初步概念

  • • 开始自己的建模过程

  • • 发现对公理和/或约束的需求

  • • 使用实例填充

  • • 回到起点

先决条件:在开始语义建模之前

在开始实际的信息建模之前,有几件事需要先搞清楚。这些步骤可以与客户一起完成,也可以由客户自行提供这些信息。在此,我假设用例和/或用户故事已经确定。

    1. 确定范围
    1. 确定信息来源
    1. 时间框架和里程碑

确定范围

您的客户需要确定知识图谱将服务的范围。发现一个足够小且具有足够高价值的范围,以展示知识图谱能够为其用例带来的奇迹,这是一门科学。然而,由于知识图谱是一个动态模型,具有易于扩展的特性,开始的范围可以非常小。

假设用例是为咨询公司创建一个简历和项目的门户,那么一个起始范围可以是来自某个特定部门的所有员工和项目,之后可以逐步添加更多部门。在此阶段,您还需要开始考虑粒度问题。知识图谱是数据的原子分解,但对于您的特定项目,您真正需要的粒度级别是多少?保持简单。在本体开发过程中,这个粒度问题会多次出现。

确定信息来源

接下来,您需要了解有哪些信息来源,以及它们的形式。我们是否可以访问这些信息?是否需要考虑第三方来源?信息来源差异很大。它们可以是 Word 文件、Excel 表格、SQL 数据库、数据流、PDF 文件、JSON API,几乎任何类型的文件都可以。作为知识工程师,您必须为处理非结构化数据、混乱数据、低质量数据做好准备。我们的工作是解析、转换,并在客户的数据中创建秩序和完整性。

时间框架和里程碑

与您的客户一起,规划所需的里程碑,并将它们绘制在项目的时间线上。本体建模是一个迭代的工作,需要与客户领域专家密切合作,以建立语义知识层,即本体所服务的层。在确定范围时,必须考虑到可用的时间。一个为期 8-20 周的最小可行产品(MVP)或概念验证(PoC)将有不同的里程碑和阶段,与一个全面的项目相比。

与客户的初步活动

在您独自一人,沉浸在您最喜欢的建模工具中并映射所有那些混乱的数据之前,您需要与客户一起完成一些活动。这些活动将帮助并在整个过程中为您提供指导。

核心问题

在先决条件就位后,您可以开始定义一系列核心问题。这些是您希望通过本体回答的自然语言问题。它们通常可以很好地转换为 SPARQL 查询,以便稍后测试知识图谱。核心问题列表将作为建模过程中的有用指南,并在测试知识图谱时非常有帮助。

回到我们之前的例子,一些核心问题可能是:“Lisa 在过去三年中参与了多少个 Azure 项目?”、“我们有多少 PRINCE2 认证的高级架构师?”、“我们需要所有与 AWS 相关项目的 KPI 统计数据。”,等等。问题越多越好!

找到这些问题是与客户一起进行的活动。

绘制初步概念

这是我在这份工作中最喜欢的活动之一——从客户的头脑中挖掘知识,并一起将其绘制在纸上!我通常将这个活动安排为一个 2-4 小时的研讨会,所用的工具是 A3 纸和一盒彩色铅笔。

我们从用例开始。它包含什么?有哪些概念,它们的含义是什么?这个概念是否与其他概念有关系?它是否包含“子概念”?

您的工作是提出那些看似愚蠢的问题,以便将客户的知识从他们的脑海中挖掘出来并记录在纸上。如果一开始有些困难,您可以让客户将相关词语写在便利贴上,按类别分组,然后开始绘制。

开始自己的建模过程

现在是时候开始实际的建模工作了。此时,您手中已经有了几种有用的工具:绘图、核心问题和信息来源。

接下来,您可以选择不同的方法来开始这阶段的工作。

  • • 可能某些信息来源包含机器可读的模式或类似的内容,您可以将其解析为 RDF 以获取一个初始框架。

  • • 可能您的客户已经熟悉 RDF,并希望参与工作。在这种情况下,建立一个协作基础设施非常重要。作为知识工程师,您需要了解供应商的生态系统,以便为客户做出最佳的工具和数据库推荐,以满足他们的需求。

  • • 也可能您几乎没有任何可参考的材料,除了通过先决条件和绘图研讨会收集到的线索。

无论哪种情况,本体都会逐渐成形。

考虑已建立的本体

网上有很多可用且维护良好的本体,等待您为客户用例复用它们的知识。是否有任何外部本体或词汇表可以为您的客户用例使用?

我与公共部门的客户合作较多。在挪威,我们有自己的国家数据目录,它基于 DCAT-AP-NO、SKOS-AP-NO 以及相关的 RDF 规范。在大多数项目中,我会重用这些 RDF 资源来描述客户的知识。

发现对公理和/或约束的需求

在某些情况下,可能需要推理功能。我最常遇到的是实体分类推理,但在少数情况下,我也遇到过基于各种指标的实体排列或组合推理。如果确实需要为推理目的描述公理和限制,请确保您有一个允许您这样做的工具。尽管我并不总是在本体中需要公理,但我倾向于为所有本体利用 RDFS 推理。这是为了确保本体的语义与实例数据的预期相符,并避免模型构建方式带来的意外结果。

然而,SHACL 形状的约束需求在当今更为常见。我认为,在封闭世界假设下验证数据通常比开放世界假设更接近现实情况。但我仍然会分别建模本体和形状,通常先建模本体,然后将这些 RDF 资源复用到 SHACL 形状描述中。

[图片:水电站的分类公理示例,然后根据最大输出将个体分类到其适当的组。]

使用实例填充

对于大多数用例,客户希望使用本体来推动数据驱动的决策、分析和洞察。在这些情况下,填充实例数据(个体)到知识图谱中的需求变得明显。

在这种情况下,您不会想手动添加这些实例。市场上有许多映射工具可供选择,或者您可以使用 RDF 编程框架根据本体映射个体。

回到起点

一旦图谱包含了个体及其属性和关系,再加上知识层(即本体),您就拥有了一个 知识图谱。您可以根据已建立的核心问题开始测试和评估。

如前所述,大多数核心问题都可以轻松转换为 SPARQL 查询,这使得回答它们变得容易。将您的答案(最好通过知识图谱可视化工具可视化)带回客户,与他们一起评估质量和准确性。我们找到了我们想要的东西吗?是否获得了新的洞察?我们是否遗漏了什么?客户数据中是否存在不一致?

关于作者

Veronika Heimsbakk
知识图谱负责人
Capgemini,洞察与数据部门

Veronika 是一位热情的语义知识图谱传播者。最近被评为挪威科技界前 50 名女性之一。她的主要研究领域是 SHACL。


读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2192098.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微积分-反函数6.5(指数增长和衰减)

在许多自然现象中,数量的增长或衰减与其大小成正比。例如,如果 y f ( t ) y f(t) yf(t) 表示在时间 t t t 时某种动物或细菌种群的个体数量,那么似乎可以合理地假设增长速率 f ’ ( t ) f’(t) f’(t) 与种群 f ( t ) f(t) f(t) 成正比…

在实际芯片里,电阻电容电感是怎么制作的

一、电阻 以前的半导体工艺中,使用图形化和掺杂后的硅制作电阻,电阻值的高低取决于长度、线宽、结深和掺杂浓度。现在一般都使用多晶硅制作IC芯片上的电阻,多晶硅的线宽高度、宽度和掺杂浓度决定了电阻值大小。 为什么用多晶硅做电阻呢&am…

【IO】多路转接Select

一、初识 select 系统提供 select 函数来实现多路复用输入/输出模型. select 系统调用是用来让我们的程序监视多个文件描述符的状态变化的;程序会停在 select 这里等待&#xff0c;直到被监视的文件描述符有一个或多个发生了状态改变; select 函数原型 C #include <sys/…

u盘拷贝文件管控如何实现?4个方法一举搞定,一文详解!100%纯干货,赶快码住!

数字化办公日益普及&#xff0c;U盘作为便携的数据存储设备&#xff0c;在文件传输和备份中扮演着重要角色。 然而&#xff0c;U盘的使用也带来了数据泄露的风险&#xff0c;如何有效管控U盘拷贝文件呢&#xff1f;u盘拷贝文件管控如何实现&#xff1f; 本文&#xff0c;将详细…

winforms基本操作-将datagridview内容保存为excel文件

title: winforms基本操作-将datagridview内容保存为excel文件 tags: [winforms, windows, datagridview] categories: [客户端, windows, winforms] 这里记录一下将winforms展示的datagridview&#xff0c;导出或保存为excel文件。 这里说一下环境、版本信息&#xff1a; win系…

在线教育系统开发:SpringBoot框架的实战应用

4系统概要设计 4.1概述 本系统采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式&#xff0c;是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示&#xff1a; 图4-1系统工作原理…

什么软件能指定usb端口禁用?五款电脑USB端口禁用软件!(热门分享)

什么软件能指定usb端口禁用&#xff1f; USB端口&#xff0c;作为电脑与外部设备连接的重要接口&#xff0c;其安全性日益受到企业的重视。 为了有效防止数据泄露和未经授权的设备接入&#xff0c;指定USB端口禁用成为了许多企业的迫切需求。 本文&#xff0c;将介绍五款热门…

京东云主机怎么用?使用京东云服务器建网站(图文教程)

京东云主机怎么用&#xff1f;非常简单&#xff0c;本文京东云服务器网jdyfwq.com使用以使用京东云服务器搭建WordPress博客网站为例&#xff0c;来详细说下京东云主机的使用方法。使用京东云服务器快速搭建WordPress网站教程&#xff0c;3分钟基于应用镜像一键搞定&#xff0c…

程序传入单片机的过程,以Avrdude为例分析

在市场上有各式各样的单片机&#xff0c;例如Arduino&#xff0c;51单片机&#xff0c;STM等。通常&#xff0c;我们都用其对应的IDE软件进行单片机的编程。这些软件既负责将程序代码转写成二进制代码&#xff0c;即机器语言&#xff0c;也负责将该二进制代码导入单片机。与此同…

YOLO11改进|卷积篇|引入空间通道重组卷积ScConv

目录 一、【SCConv】卷积1.1【SCConv】卷积介绍1.2【SCConv】核心代码 二、添加【SCConv】卷积2.1STEP12.2STEP22.3STEP32.4STEP4 三、yaml文件与运行3.1yaml文件3.2运行成功截图 一、【SCConv】卷积 1.1【SCConv】卷积介绍 SCConv 模块提供了一种新的视角来看待CNNs的特征提取…

无人机企业必备运营合格证及甲级服务能力等级证书详解

无人机企业在运营过程中&#xff0c;需要取得一系列资质证书以确保其合法、安全、高效地开展业务。其中&#xff0c;运营合格证和甲级服务能力等级证书是两个重要的资质认证。以下是这两个证书的详细解析&#xff1a; 无人机企业运营合格证 无人机企业运营合格证是由国家相关…

10个令人惊叹的AI工具

AI 确实改变了游戏规则&#xff1b;它彻底改变了我们工作、创造和与技术互动的方式。虽然 ChatGPT、DALLE 和 Midjourney 等巨头占据了大部分头条新闻&#xff0c;但还有很多其他不为人知的 AI 工具和技术&#xff0c;大多数都同样令人惊叹。 以下是十种你可能没有听说过但绝对…

【AI知识点】正则化(Regularization)

正则化&#xff08;Regularization&#xff09; 是机器学习和统计学中的一种技术&#xff0c;用于防止模型过拟合。在训练模型时&#xff0c;模型可能会过度拟合训练数据&#xff0c;导致在新数据上的表现较差。正则化通过在优化过程中引入额外的约束或惩罚项&#xff0c;使模型…

python如何比较字符串

Python可使用cmp()方法来比较两个对象&#xff0c;相等返回 0 &#xff0c;前大于后&#xff0c;返回 1&#xff0c;小于返回 -1。 a "abc" b "abc" c "aba" d "abd" print cmp(a,b) print cmp(a,c) print cmp(a,d) //返回 0 1 …

pWnos1.0 靶机渗透 (Perl CGI 的反弹 shell 利用)

靶机介绍 来自 vulnhub 主机发现 ┌──(kali㉿kali)-[~/testPwnos1.0] …

解决 OpenCloudOS 中 yum 安装 yum-utils 命令报错的问题

目录 前言1. 问题背景与错误分析2. 深入分析错误原因2.1 OpenCloudOS 与 CentOS 之间的区别2.2 文件冲突的具体分析 3. 解决方案3.1 使用 --replacefiles 强制安装3.2 使用 yum swap 替换冲突包3.3 手动调整冲突包 4. 预防与优化建议4.1 确保软件源的兼容性4.2 定期更新系统 结…

爆赞!豆瓣9.6,多语言版本全球发行,程序员入门大模型必读之作!

当一本书的内容足够好&#xff0c;它就会拥有多个语言版本 我已将这本大模型书免费分享出来&#xff0c;需要的小伙伴可以扫取。 在这个信息全球化的时代&#xff0c;一本书籍的卓越内容往往能够跨越语言的界限&#xff0c;触及世界各地读者的心灵。今天&#xff0c;我们庆祝…

617、合并二叉树

1、题目描述 . - 力扣&#xff08;LeetCode&#xff09; 规则&#xff1a;一个二叉树覆盖到另一颗二叉树上。 (1)重复的节点就将节点值做累加 (2)不重复的节点就取并集。 最终得到一个全新的二叉树&#xff0c;如下图所示。 2、分析 分析&#xff1a;也属于构造二叉树&#x…

Llama 3.2 安卓手机安装教程

在刚刚结束的Meta开发者大会上&#xff0c;Llama 3.2惊艳亮相。此次&#xff0c;它不仅拥有多模态能力&#xff0c;还与Arm等公司合作&#xff0c;推出了专门针对高通、联发科硬件优化的“移动”版本。 NSDT工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 -…

Centos Stream 9备份与恢复、实体小主机安装PVE系统、PVE安装Centos Stream 9

最近折腾小主机&#xff0c;搭建项目环境&#xff0c;记录相关步骤 数据无价&#xff0c;丢失难复 1. Centos Stream 9备份与恢复 1.1 系统备份 root权限用户执行进入根目录&#xff1a; cd /第一种方式备份命令&#xff1a; tar cvpzf backup.tgz / --exclude/proc --exclu…