论文导读 | 多模态知识图谱的构建

news2024/11/7 7:38:53

背景介绍

现有的知识图谱大多是以单一的文本的形式表示,而多模态知识图谱会将文本信息和图像等其他模态的信息综合起来。

多模态知识图谱主要分为两种表现形式,其一是将多模态信息作为实体的属性,另一种是将多模态信息作为单独的实体。

多模态知识图谱目前也有较多的应用,针对知识图谱本身而言,它可以提供额外的多模态信息,以便进行连接预测等任务,而针对下游任务而言,可以据此进行视觉问答、图文匹配等。

本文将介绍四篇多模态知识图谱构建的相关论文,涉及到的方法主要分为两类,即根据多模态文档构建(GAIA、RESIN)和根据搜索引擎获取的图像构建(MMKG、Richpedia)。

GAIA

GAIA系统的结构如下,主要由文本知识抽取分支、视觉知识抽取分支和跨媒体知识融合模块构成。两个分支由相同的多模态文档集(比如有图片或视频又有文本的新闻)作为输入、都使用了DARPA AIDA本体中的相同类型,以便在跨媒体知识融合模块进行合并。

图片

文本知识抽取分支

文本知识抽取分支由常规的文本实体抽取、关系抽取、事件抽取等模块构成。

对于可链接到同一背景知识图谱实体的提及,会添加共指信息。对于无法链接到知识图谱的提及,会使用启发式的规则将其聚成NIL簇(NIL簇是指提及同一实体但没有相应知识图谱条目的实体提及簇)。

此外,GAIA为每篇文档中的每个实体分配了一个显著性得分。如果该实体以名称的形式提及,则显著性会更高,以名词或代词的形式提及,则显著性会变低。每个文档中的所有实体的显著性得分会进行归一化处理。

视觉知识抽取分支

视觉知识抽取分支通过目标检测等模型生成检测框,以此进行实体抽取。特别地,GAIA单独使用人脸检测器MTCNN,并将结果作为额外的人物实体。

视觉实体连接过程中,模型尝试将每个实体与背景知识图谱中的实体联系起来。为每种粗粒度实体类型开发了不同的模型。对于人类型的实体,训练了一个FaceNet模型。对于位置、设施和组织实体,使用了预训练好的DELF模型。为了识别地缘政治实体,训练了CNN识别国旗,并将其归入预定的国家实体列表。如果在图像中检测到了国旗,会应用一套启发式规则,在知识图谱中创建某些实体与检测到的国家之间的国籍隶属关系。例如,一个手持乌克兰国旗的人将隶属于乌克兰。

视觉实体共指消解的过程中,使用聚类算法将检测框的内容聚成NIL簇,对于链接到同一真实世界实体的检测框,也添加共指信息。

跨媒体知识融合模块

使用视觉定位的方法来实现文本和视觉知识图谱的合并。GAIA将文本中的每个实体的提及与其周围图像进行比较,得出每张图片的相关性得分,以及每张图片中相关性热图。对于相关性足够高的图像,对热图进行阈值化处理,以获得一个检测框,将该检测框内容匹配到已知的视觉实体上。如果找不到对应的实体,就以此创建一个新的视觉实体。最后,将对应的文本实体和视觉实体连接起来。

评估

对系统中每个单独模块的评估结果如下:

图片

为了衡量端到端的效果,GAIA参加了TAC SMKBP 2019评估,系统根据语料库构建多模态知识图谱,并根据构造的知识图谱中对类查询和图查询的响应情况对系统性能进行了评估,结果如下:

图片

03

Resin

Resin系统结构如下,与GAIA类似,也有文本分支和视觉分支,Resin通过视觉和文本共指实现两个分支的合并。此外,通过模式匹配模块将构造的知识图谱与模式库中合适的模式融合。

图片

文本通道

对于多模态文档当中的语音,Resin使用Amazon Transcribe API将其转换为文本,后续当作文本信息处理。使用OneIE对文本进行句子级别的实体、关系、事件联合抽取,然后将实体提及链接到WikiData。由于事件抽取中,很多信息是跨句子的,所以文章还开发了文档级事件抽取模型,并把两个模型的结果合并作为最终输出。

对于抽取出的事件,Resin会根据文本中的前后关键词或者明确的日期和时间提及,对文档中的所有事件提及对进行先后排序。

视觉通道

视觉事件和论元的抽取由事件分类和论元抽取模型构成,对于视频数据,以秒进行采样,并将其作为单个图像处理。

视觉和文本共指

对于检测到事件的视频帧,训练弱监督的模型找到与之相似的句子。然后采用基于规则的方法来确定视觉事件提及和文本事件提及是否共指,其标准为:

•它们的事件类型相匹配。

•不同模态中同一论据角色的实体类型没有矛盾。

•视频帧和句子具有较高的语义相似性得分。

模式匹配

模式匹配模块旨在从模式库中找到与抽取出的事件、实体、关系最匹配的模式。

首先,Resin根据IE图(即抽取出的结果)和模式库中的模式图的时间先后关系对事件进行拓扑排序。然后,对于每一个IE图-模式图对,采用类似最长公共子序列方法来找到最佳匹配。匹配模块对最长公共子序列算法进行了扩展,算法先对事件进行匹配,然后贪婪地匹配事件的论元和关系,最后根据事件、论元和关系的匹配程度进行评分,将匹配度最高的IE图和模式图合并,形成最终的实例化模式。

评估

对系统中每个单独模块的评估结果如下:

图片

文章在LDC2020E39上评估了系统的端到端的效果,DARPA program’s phrase 1对其中约25%的系统输出结果进行人工评估,约70%的事件抽取是正确的。

04

MMKG

MMKG当中,以维基百科URI作为查询字符串,从搜索引擎爬取图片,将其作为实体的一种属性。

图像筛选

为了控制爬取结果的质量,对于每个实体,存储20张搜索结果中排名最高的图片,并过滤掉小于224像素的图片,以及长宽比大于2.5的图片。此外,还删除了损坏的、低质量的和重复的图像。

05

Richpedia

Richpedia从Wikidata收集30638个关于城市、景点和名人的实体,并从Wikipedia和搜索引擎上收集并筛选图像,并使用基于规则的方法添加图片实体的属性和图片实体之间的关系。

图像实体的属性和关系

在Richpedia中,图片是作为一个单独的实体的,主要构建如下类型的三元组:

  • 图像实体是某一文本实体的图片:

    图片

  • 图像实体的属性(如图像大小)是什么:

    图片

  • 图像实体之间的关系:

    图片

图像筛选

Richpedia希望知识图谱中的理想图像实体不仅和对应文本实体高度相关,而且多样。

Richpedia从Wikipedia和搜索引擎上收集图像后,用vgg16提取图像的特征向量,再用PCA进行降维,以得到图像的特征。在特征上应用k-means滤除噪声图像:把簇内图像少于5个的簇过滤掉,用两个特征向量夹角的余弦值代表相似度,对于每个图像簇:选择视觉得分最高的图像作为第一张图像,选与第一张图像相似度最低的作为第二张图像,以此类推。

图像关系发现

依据维基百科相关的超链接和文本发现图像相关的语义关系:在图像描述中,认为维基百科超链接可以代表链接词条中的图像,把发现的超链接之间的关系视作图像实体之间的关系。

评估

为了图像筛选后的质量,文章标注了10000张图像,并将其与模型的结果进行比较。精确度为94%,召回率为86%。。

参考文献

[1]Zhu, X., Li, Z., Wang, X., Jiang, X., Sun, P., Wang, X., ... & Yuan, N. J. (2022). Multi-modal knowledge graph construction and application: A survey. IEEE Transactions on Knowledge and Data Engineering.

[2]Li, M., Zareian, A., Lin, Y., Pan, X., Whitehead, S., Chen, B., ... & Freedman, M. (2020, July). Gaia: A fine-grained multimedia knowledge extraction system. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations (pp. 77-86).

[3]Wen, H., Lin, Y., Lai, T., Pan, X., Li, S., Lin, X., ... & Ji, H. (2021, June). Resin: A dockerized schema-guided cross-document cross-lingual cross-media information extraction and event tracking system. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations (pp. 133-143).

[4]Liu, Y., Li, H., Garcia-Duran, A., Niepert, M., Onoro-Rubio, D., & Rosenblum, D. S. (2019). MMKG: multi-modal knowledge graphs. In The Semantic Web: 16th International Conference, ESWC 2019, Portorož, Slovenia, June 2–6, 2019, Proceedings 16 (pp. 459-474). Springer International Publishing.

[5]Wang, M., Wang, H., Qi, G., & Zheng, Q. (2020). Richpedia: a large-scale, comprehensive multi-modal knowledge graph. Big Data Research, 22, 100159.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1114969.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp接入萤石微信小程序插件

萤石官方提供了一些适用于uniapp / 小程序的方案 如 小程序半屏 hls rtmp 等 都TM有坑 文档写的依托答辩 本文参考了uniapp小程序插件 以及 萤石微信小程序插件接入文档 效果如下 1. 插件申请 登录您的小程序微信公众平台,点击左侧菜单栏,进入设置页…

QTday04(事件)

今日任务 代码&#xff1a; 头文件&#xff1a; #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QTimerEvent> #include <QTime> #include <QTimer> #include <QMessageBox> #include <QTextToSpeech> #include <QD…

利用特殊反序列化组件攻击原生反序列化入口

目录 前言 本文所述攻击的本质是将上述组件中的类拼接到反序列化利用利用链中&#xff0c;打的是Serilizable入口&#xff0c;而不是特殊反序列化入口 攻击原理 利用链分析 readObject()->任意类toString() HotSwappableTargetSource & XString BadAttributeValue…

数据防泄密软件排行榜

数字化时代&#xff0c;数据已成为企业的重要资产。然而&#xff0c;数据泄露事件却时常发生&#xff0c;给企业带来巨大的经济损失和声誉风险。因此&#xff0c;数据防泄密软件的重要性日益凸显。 数据防泄密软件是什么 它是一种专门用于防止敏感数据泄露的软件工具。它通过对…

Java虚拟机常见面试题总结

梳理Java虚拟机相关的面试题&#xff0c;主要参考《深入理解Java虚拟机 JVM高级特性与最佳实践》(第2版, 周志明 著)一书&#xff0c;其余部分整合网络相关内容。注意&#xff0c;关于Java并发编程的面试题因为内容较多&#xff0c;单独整理。Java基础相关的面试题可以参考Java…

“懒宅经济”崛起,智能家电品牌快收好这份软文推广指南

目前&#xff0c;国内智能家电呈迅猛发展之势&#xff0c;"懒宅经济"崛起使智能小家电市场不断扩展&#xff0c;根据数据显示&#xff0c;目前购买智能家电的消费者大部分目的是为了节省时间&#xff0c;以及对新鲜事物有着强烈的好奇心&#xff0c;由此来看&#xf…

Pytorch从零开始实战06

Pytorch从零开始实战——明星识别 本系列来源于365天深度学习训练营 原作者K同学 文章目录 Pytorch从零开始实战——明星识别环境准备数据集模型选择开始训练模型可视化模型预测总结 环境准备 本文基于Jupyter notebook&#xff0c;使用Python3.8&#xff0c;Pytorch2.0.1c…

订水商城H5实战教程-01需求分析

目录 1 用户分析2 模块分析3 原型设计3.1 首页3.2 商城3.3 一键订购3.4 我的3.5 确认订单3.6 地址管理3.7 编辑地址3.8 搜索3.9 搜索结果3.10 充值3.11 我的订单3.12 开票信息3.13 优惠券3.14 我的空桶3.15 商品详情3.16 购物车3.17 门店信息3.18 订单详情 总结 生活中&#xf…

2023柏鹭杯 express fs

进去看看&#xff0c;发现有个file的参数 查看源码有个?filecheck.html&#xff0c;我们尝试?file/etc/passwd&#xff0c;发现可以直接访问任意文件&#xff0c;但是访问不到flag,可能被waf禁掉了 实际上node不能像php有伪协议可以绕&#xff0c;也没办法用什么编码绕过等&…

Android前台服务和通知

前台服务 Android 13及以上系统需要动态获取通知权限。 //android 13及以上系统动态获取通知权限 if (Build.VERSION.SDK_INT > Build.VERSION_CODES.Q) {checkPostNotificationPermission(); } private void checkPostNotificationPermission() {if (ActivityCompat.chec…

xhadmin多应用Saas框架如何下载安装?

xhadmin是什么&#xff1f; xhadmin 是一套基于最新技术的研发的多应用 Saas 框架&#xff0c;支持在线升级和安装模块及模板&#xff0c;拥有良好的开发框架、成熟稳定的技术解决方案、提供丰富的扩展功能。为开发者赋能&#xff0c;助力企业发展、国家富强&#xff0c;致力于…

小白学java--垃圾回收机制(Garbage Collection)

压测过程中&#xff0c;作为测试会时不时听到研发说命中gc了&#xff0c;如果一头雾水&#xff0c;来看看什么是gc。 1、什么是垃圾回收机制 垃圾回收的执行过程会导致一些额外的开销&#xff0c;例如扫描和标记对象、回收内存空间等操作。这些开销可能会导致一定的性能损失和…

云安全(2)--CAP_SYS_MODULE逃逸

文章目录 测试环境配置实际环境利用 测试环境配置 docker run -it --cap-addSYS_MODULE ubuntu:18.04实际环境利用 cat /proc/self/status|grep Cap然后使用capsh decode一下 capsh --decode00000000a80525fb发现有CAP_SYS_MODULE权限&#xff0c;那么直接往内核注入恶意mo…

Streamlit库开发python交互式Web应用程序

Streamlit是一个开源的Python库&#xff0c;旨在帮助开发人员轻松创建数据科学和机器学习的Web应用程序。它允许您只需几行Python代码即可构建交互式Web应用程序&#xff0c;因此常用于创建数据驱动的应用程序、仪表板和原型。Streamlit以其简单性而闻名&#xff0c;通常被数据…

光影之梦:影视动画渲染的魅力

在动画世界中&#xff0c;光影与色彩是赋予生命与灵魂的魔法。它们将虚无的想象变为具象的画面&#xff0c;让故事情感跃然于屏幕之上。影视动画渲染&#xff0c;正是这一魔法的精妙施展&#xff0c;它以光影为笔&#xff0c;色彩为墨&#xff0c;勾勒出一个个绚丽多姿的梦境。…

洗地机哪个好用?2023年洗地机推荐指南

说到提高家庭幸福生活的家电&#xff0c;洗地机肯定是少不了的&#xff0c;特别对于现在快节奏的生活来说&#xff0c;高效率的解决家务活&#xff0c;而且能够大幅度的提高生活质量。在市场上&#xff0c;消费者面临着选择合适洗地机的难题&#xff0c;因为有各种型号、功能和…

德国大陆博世 ars 548 4D 毫米波雷达 window 系统或者 Ubuntu 系统通讯以及数据解析和显示程序

德国大陆博世 ars 548 4D 毫米波雷达 window 系统或者 Ubuntu ROS 系统通讯以及数据解析和显示程序

这件事,准备考PMP的都必须知道

大家好&#xff0c;我是老原。 新的一月&#xff0c;新的困惑。最近接到的咨询很多&#xff0c;但的确出现了差异化的特质。 以前的粉丝朋友上来就问&#xff0c;我现在是项目经理&#xff0c;主要负责产品研发&#xff0c;我是考PMP还是NPDP好&#xff1f; 现在的粉丝朋友会…

AGC电路,模拟乘法器

文章目录 AGC电路乘法器 AGC电路 注&#xff1a;下面三个没试过 乘法器 TI只有这一种乘法器&#xff0c;跟ADI的AD534一模一样 这个报告里有很多错误 做乘法器最厉害的是ADI