【目标检测】目标检测遇上知识图谱:Object detection meets knowledge graphs论文解读与复现

news2024/10/6 20:28:28

前言

常规的目标检测往往是根据图像的特征来捕捉出目标信息,那么是否有办法加入一些先验信息来提升目标检测的精准度?

一种可行的思路是在目标检测的输出加入目标之间的关联信息,从而对目标进行干涉。

2017年8月,新加波管理大学的Yuan Fang等人发表了一篇文章《Object Detection Meets Knowledge Graphs》,就按照这个思路做了一些工作。

论文地址:https://www.ijcai.org/proceedings/2017/0230.pdf

文章写得非常通俗易懂,因此本文进行思路解读和代码复现。

工作架构

这篇文章作者提出的是一个通用的知识引入架构,因此对于任何目标检测模型都可以适用。

知识引入的流程图如下图所示:

在这里插入图片描述

原论文作者采用的是Faster R-CNN算法进行检测,正常检测输出结果会是一个P矩阵(即图中的Existing model output),这里的列表示总共的目标数,行表示类别。

图中的这个矩阵意义是:第一个检测目标属于类别1的置信度为0.6,属于类别2的置信度为0.4;第二个检测目标属于类别1的置信度为0.2,属于类别2的置信度为0.8;

在这个输出结果基础上,从先验知识(Knowledge)中提取出类别之间的语义一致性(semantic consistency),从而对输出结果进行干涉,得到最终的输出结果(Knowledge-aware output)。

语义一致性提取

那么这套架构的关键就是如何提取语义一致性,这一点作者给出了两种思路。

思路一:基于频率的知识(Frequency-based knowledge)

基于频率应该是最容易想到的知识关联方式,比如两个目标同时出现的频率高(比如键盘和鼠标经常一起出现),那么检测出其中一个目标时,自然可以考虑增加另一个目标的置信度。

因此,作者提出了一个对阵矩阵S,作为目标类别之间的语义一致性矩阵,计算公式如下:

在这里插入图片描述

  • n(l,l’):类别l和类别l‘一起出现的次数
  • n(l):类别l出现的次数
  • n(l’):类别l’出现的次数
  • N:所有类别出现的总次数

思路二:基于知识图谱的知识(Graph-based knowledge)

思路一的方式比较直观,不过存在的缺陷是无法表征两个没有同时出现过的类别之间的关系。比如,车和游艇没有在一个场景中同时出现,但不能“粗暴”的认为这两者毫无关联吧,肯定需要一个微弱的权值来表示两者之间的关系。

因此,作者想到了用知识图谱的方式来提取语义一致性。

首先,通过对一些公开的大型知识图谱进行过滤,提取出需要检测的类别信息和关系。

在这里插入图片描述

之后,通过重启随机游走算法(random walk with restart)来得到该关系图的收敛状态。重启随机游走算法是经典的随机游走算法的一个变种,相当于在随机游走算法的基础上,添加了一个重启概率,触发重启后会回到原点。

在这里插入图片描述
收敛之后,会得到一个R矩阵,这个矩阵表征了当算子处于某个状态类别时,向另一状态类别转移的概率。由于语义一致性矩阵是对称矩阵,因此作者采用了一个状态相乘再开方的操作。

在这里插入图片描述

干涉检测输出

有了语义一致性矩阵S之后,就可以对输出结果进行干涉。论文中,对于如何进行干涉并没有说明。
通过后面阅读源码可知,干涉的思路主要是选取某目标类别最邻近的5个类别,然后对其一致性矩阵数值求和得到关联性特征向量。再将该向量和原始检测结果进行加权相加。

核心代码:

num = torch.sum(torch.mm(S_highest, torch.transpose(p_hat_temp[box_nearest[b]], 0, 1)), 1)
denom = torch.sum(S_highest, dim=1) * bk
p_hat[b] = (1 - epsilon) * torch.squeeze(torch.div(num, denom)) + epsilon * p

这里的epsilon代表权重,复现时取0.75,表示75%保留原始结果,25%进行知识干涉。

后面一部分就是损失函数以及网络更新部分了。
下面是损失函数的计算公式,相当于将知识嵌入的结果纳入到网络的更新之中。
在这里插入图片描述

实验结果

作者在Coco和VOC数据集上进行了实验,下表是coco的实验结果:

在这里插入图片描述

  • FRCNN:原始检测网络输出结果
  • KF-500:通过思路一来获得一致性矩阵,选择500张训练集图片
  • KF-All:通过思路一来获得一致性矩阵,选择所有训练集图片
  • KG-CNet:通过思路二来获得一致性矩阵

从表中数据可知,该思路的改进对检测输出的mAP并没有起到提升作用,不过有效提升了召回率。相当于降低了网络的误检率。

结果可视化

最后是结果的可视化,作者选取了一幅图来演示:左图是直接检测结果,右图是添加知识图谱之后的检测结果。

紫框表示模型的检测输出,红框表示实际的标签。
在这里插入图片描述

由图可知,原始的FRCNN没有检测出键盘(keyboard),添加知识图谱后,通过鼠标、笔记本等目标的关联信息,成功将键盘检测出来。

实验复现

原论文发布时间较早,使用Caffe框架进行实验,目前已无法找到。
后面有人使用Pytorch对其进行复现。
代码地址:https://github.com/tue-mps/rescience-ijcai2017-230

复现结论

复现作者提到:

对于所描述的任何一种方法,作者的主张都无法得到证实。结果要么显示以 mAP 降低为代价的召回率增加,要么显示 mAP 保持不变,召回率没有改善。三种不同的骨干模型在重新优化后表现出相似的行为,结论是知识感知的重新优化对目标检测算法没有好处。

不清楚是否是超参数的影响,总之论文的效果无法实现。

代码运行

该代码写得比较清晰,并且作者提供了处理好的数据集和语义一致性矩阵。
下载好之后,放置路径如下即可:
在这里插入图片描述

之后修改Utils/testing.py里面这三行内容,我测试的时候遇到的小bug:

# 原始
# boxes_temp = prediction[1][0]['boxes']
# labels_temp = prediction[1][0]['labels']
# scores_temp = prediction[1][0]['scores']
# 修改为
boxes_temp = prediction[0]['boxes']
labels_temp = prediction[0]['labels']
scores_temp = prediction[0]['scores']

最后运行Results/results_coco.py即可进行单轮测试。

实验结果

由于原论文作者使用的是VGG16作为backbone,因此这里model_type我设置为coco-FRCNN-vgg16,下面是在我RTX2060下用Coco数据集的实验结果:

模型mAP @ 100Recall @ 100 all classes
FRCNN0.2470.477
KF-All-COCO0.2450.432
KG-CNet-55-COCO0.2430.436
KG-CNet-57-COCO0.2430.437
  • FRCNN:Fast-RCNN直接检测
  • KF-ALL-COCO:思路一获取语义一致性矩阵
  • KG-CNet-55-COCO:思路二通过大型常识知识库ConceptNet-assertions55提取一致性矩阵
  • KG-CNet-57-COCO:思路二通过大型常识知识库ConceptNet-assertions57提取一致性矩阵

从结果来看,的确没什么卵用,mAP和Recall均下降了。。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/418180.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue——插槽

目录 插槽内容与出口​ 渲染作用域​ 默认内容​ 具名插槽​ 动态插槽名​ 作用域插槽​ 具名作用域插槽​ 高级列表组件示例​ 无渲染组件​ 插槽内容与出口​ 在之前的章节中,我们已经了解到组件能够接收任意类型的 JavaScript 值作为 props,…

微信小程序 | 基于ChatGPT实现电影推荐小程序

文章目录** 效果预览 **1、根据电影明星推荐2、根据兴趣标签推荐3、根据电影名推荐一、需求背景二、项目原理及架构2.1 实现原理(1)根据用户的兴趣标签(2)根据关联类似主题的题材(3)根据特定的电影明星2.2 …

IK集成ElasticSearch,IK分词器的下载及使用

IK集成ElasticSearch,IK分词器的下载及使用 下载ElasticSearch 8.7.0网址:Download Elasticsearch | Elastic 历史版本地址:Past Releases of Elastic Stack Software | Elastic 解压ElasticSearch 什么是IK分词器 分词∶即把一段中文或…

IO流基础

目录 1.FileOutPutStream字节输入流 1.1FileOutPutStream使用 1.1.1创建对象 FileOutPutStream fos new FileOutPutStream("路径或者File对象"); 1.1.2.写数据 调用write方法,参数是int类型,但传入文件中是asci…

【LeetCode: 剑指 Offer II 112. 最长递增路径 | 递归 | DFS | 深度优先遍历 | 记忆化缓存表】

🍎作者简介:硕风和炜,CSDN-Java领域新星创作者🏆,保研|国家奖学金|高中学习JAVA|大学完善JAVA开发技术栈|面试刷题|面经八股文|经验分享|好用的网站工具分享💎💎💎 🍎座右…

海康工业相机网口相机丢包问题解决方法

​1.1 系统环境设置 1.1.1 网卡设置 网卡推荐使 Intel 芯片的独立千兆网口,例如 intel I350、I210 等芯片组网卡 设置网卡巨型帧为选择 9KB 或 9014 字节 *不同网卡类型,网卡属性有差异,需灵活参考 设置网卡接收与传输缓存区到最大(intel 网卡一般为 2048,realtek 一般…

Program tuning - Druid和Linux配合优化数据库连接池配置

Program tuning - Druid和Linux配合优化数据库连接池配置配置步骤1. 添加依赖2. 添加配置3. 启动监控界面常见问题输入地址之后,浏览器直接打印html代码,而不是登录框刷新页面不能重新加载数据调优步骤1. 开始压测2. 监控线程池状态3. 查看服务器状态结论…

算法 贪心5 || 435. 无重叠区间 763.划分字母区间 56. 合并区间 738.单调递增的数字 968.监控二叉树

435. 无重叠区间 和452. 用最少数量的箭引爆气球 思路是很相似的。本题按照左边排序或者按照右边排序都是可以的,最终目的都是为了让区间尽可能重叠。 1、按右边排序,排序完第一个元素的右边界一定是最小右边界。往下找第一个不与其重合的左边界&#x…

亚马逊云科技为全球的可持续发展进程做出贡献

可持续发展是一个涉及经济、环境和社会三个方面的复杂问题。经济发展必须在保护环境和社会公正的前提下进行,这样才能实现真正的可持续发展。为了实现这一目标,人们需要借助技术手段,更好地理解和解决环境和社会问题。 亚马逊云科技是全球领…

nssctf web入门(2)

目录 [SWPUCTF 2021 新生赛]easy_md5 [SWPUCTF 2021 新生赛]include [SWPUCTF 2021 新生赛]PseudoProtocols 这里通过nssctf的题单web安全入门来写,会按照题单详细解释每题。题单在NSSCTF中。 想入门ctfweb的可以看这个系列,之后会一直出这个题单的解…

到了这个年纪,就应该阅读Spring源码了,源码阅读指南-编译加运行

文章目录到了那个年纪,就应该阅读Spring源码了😄第一步,clone😆第二步,使用idea打开项目😊gradle介绍(插叙手法)😃第三步,修改gradle的远程仓库地址&#x1f…

Day932.5个步骤,高效推动组件化架构重构 -系统重构实战

5个步骤,高效推动组件化架构重构 Hi,我是阿昌,今天学习记录都是关于5个步骤,高效推动组件化架构重构的内容。 项目的架构设计是一回事,代码落地又是另外一回事,很多架构设计最终都只是落在了 PPT 上。 一…

QT Graphics View坐标系转换

背景 在做绘图处理时,Scence作为场景,大小是无限的,而View作为一个观察镜头,观察范围是有限的。 那么有限的View观察无限的Scence区域,必然要选定一个观测锚点。 所以View具有一个centerOn(QPointF pos)函数&#xff…

Linux-初学者系列——篇幅1_文件管理命令(持续更新中)

Linux-初学者系列_篇幅1 文件管理命令-目录Linux-初学者系列_篇幅11.创建文件语法:示例:2.创建目录语法:示例:注意:常见错误:3.复制语法:示例:补充:4.移动语法&#xff1…

Vue|数据渲染

Vue 是如何将编译器中的代码转换为页面真实元素的?在Vue 中,自带了模板渲染,而模板的语法也非常简洁易懂。 精彩专栏持续更新↓↓↓ 微信小程序实战开发专栏 一. 数据渲染1.1 条件渲染v-ifv-show1.2 列表渲染v-for1.3 小结一. 数据渲染 1.1 条件渲染 vue条件渲染指…

3. 500 服务器异常 html

目录 1.效果图 2.code 1.效果图 2.code <!DOCTYPE html> <html><head><meta charset="utf-8"><title>500</title><style type="text/css">html,body {margin: 0;padding: 0;height: 100%;min-height: 450px;…

Git --- 常用命令、分支操作、团队协作机制

一、Git 概述 Git 是一个免费的、开源的分布式版本控制系统&#xff0c;可以快速高效地处理从小型到大型的各种项目 Git 易于学习&#xff0c;占地面积小&#xff0c;性能极快。它具有廉价的本地库&#xff0c;方便的暂存区域和多个工作流分支等特性 其性能优于 Subversion、…

多通道振弦传感器无线采集仪与参数配置工具连接

多通道振弦传感器无线采集仪与参数配置工具连接 VS101~VS432 设备配备了专门的参数配置工具 SETP 来完成设备工作参数的查看和修改工作。 连接前的准备工作 &#xff08; 1&#xff09;数据接口与计算机连接 使用标配的通讯线与计算机 RS232 接口连接。 若需基于手机网络发送数…

Java-异常机制

异常机制 正常情况下&#xff0c;程序按照我们希望的样子和步骤去执行&#xff0c;但是&#xff0c;代码就像人生&#xff0c;要是一帆风顺了&#xff0c;就要想想是不是哪里出事了。程序若是有报错还好&#xff0c;就怕没有报错。 实例 public class Test {public static vo…

如何用 YonBuilder 构建线索管理应用

加速企业数智营销&#xff1a;如何用 YonBuilder 构建线索管理应用 如何用 YonBuilder 低代码开发线索管理应用&#xff1f; 线索管理是指通过各种渠道收集、筛选、打分、分配、跟进和培育潜在客户的信息&#xff0c;以便将其转化为成交客户的过程。 通过数智化手段实现良好…