【2023工业3D异常检测文献】基于混合融合的多模态工业异常检测方法Multi-3D-Memory (M3DM)

news2025/1/16 19:03:42

Multimodal Industrial Anomaly Detection via Hybrid Fusion

1、Background

随着3D传感器的发展,最近发布了具有2D图像和3D点云数据的MVTec-3D AD数据集,促进了多模态工业异常检测的研究。

无监督异常检测的核心思想是找出正常表示与异常之间的差异。当前的2D工业异常检测方法可以分为两类:

(1)基于重建的方法。图像重建任务在异常检测方法中被广泛使用,以学习正常表示。对于单一模态输入(2D图像或3D点云),重建方法易于实现。但对于多模态输入,很难找到重建目标。

(2)基于预训练特征提取器的方法。直观的方法是将提取的特征映射到正常分布,并找到分布之外的一个作为异常。基于归一化流的方法使用可逆变换直接构建正常分布,记忆库方法存储一些代表性特征以隐式构建特征分布。

与基于重建的方法相比,直接使用预训练特征提取器不涉及设计多模态重建目标,对于多模态任务是更好的选择。此外,当前的多模态工业异常检测方法直接连接两种模态的特征。然而,当特征维度很高时,多模态特征之间的干扰将非常激烈,并导致性能下降。

为了解决上述问题,提出了一种基于RGB图像和3D点云的新型多模态异常检测方案Multi-3D-Memory (M3DM)。与现有方法直接连接两种模态的特征不同,提出了一种混合融合方案,以减少多模态特征之间的干扰并鼓励特征交互。

提出了无监督特征融合(UFF)来融合多模态特征,它使用分块对比损失进行训练,以学习相同位置的多模态特征块之间的固有关系。为了鼓励异常检测模型保持单一域推理能力,分别为RGB、3D和融合特征构建了三个记忆库。

对于最终决策,构建了决策层融合(DLF),以考虑所有记忆库进行异常检测和分割。异常检测需要包含全局和局部信息的特征,其中局部信息有助于检测小缺陷,全局信息关注所有部分之间的关系。基于这一观察,使用Point Transformer进行3D特征和Vision Transformer进行RGB特征。进一步提出了点特征对齐(PFA)操作,以更好地将3D和2D特征对齐。

2、Method

Multi-3D-Memory (M3DM)方法采用3D点云和RGB图像作为输入,进行3D异常检测和分割。

采用特征混合融合方案,以促进跨域信息交互,同时保持每个单一域的原始信息。

利用两个预训练的特征提取器,DINO用于RGB和PointMAE用于点云,分别提取颜色和3D表示。

M3DM由三个重要部分组成:

(1)点特征对齐(PFA):为了解决颜色特征和3D特征之间的位置信息不匹配问题,提出了点特征对齐,将3D特征对齐到2D空间,这有助于简化多模态交互并提高检测性能。

(2)无监督特征融合(UFF):由于多模态特征之间的交互可以产生对异常检测有帮助的新表示,提出了一个无监督特征融合模块,以帮助统一多模态特征的分布并学习它们之间的内在联系。

(3)决策层融合(DLF):尽管UFF有助于提高检测性能,但发现信息丢失是不可避免的,并提出使用多个记忆库进行最终决策。

在这里插入图片描述

算法流程:

  • 输入数据
    • 3D点云
    • RGB图像
  • 特征提取
    • 使用Point Transformer处理3D点云,提取每个点的特征(形状)
    • 使用Vision Transformer处理RGB图像,提取图像中每个块的特征(纹理和颜色)
  • 特征融合
    • 点特征对齐(PFA):因为3D点云和彩色图片的空间对应关系可能不一致,所以需要一个对齐过程,让3D形状信息和2D颜色信息能在同一个坐标系下比较。将3D点云特征投影到2D平面上,以便与RGB图像特征对齐。
    • 无监督特征融合(UFF):将对齐后的3D和2D特征进行融合,使用一种特殊的学习方法(分块对比学习),让两种特征互相学习,增强彼此的信息。
  • 决策层融合(DLF)
    • 首先,使用多个记忆库(Memory Bank)分别存储RGB特征、3D特征和融合后的特征。
    • 然后,对于每个记忆库,系统都会计算出一个异常分数和一个分割图,这些分数和图基于学习到的正常产品特征。
    • 最后,通过一个叫做One-Class SVM的模型,综合这些分数和图,给出最终的异常检测结果和异常区域的定位。

pseudo-code

# 定义函数进行特征提取
def extract_features(data):
    if isinstance(data, RGB_image):
        features = vision_transformer(data)
    elif isinstance(data, PointCloud):
        features = point_transformer(data)
    return features

# 定义函数进行无监督特征融合
def unsupervised_feature_fusion(rgb_features, point_features):
    fused_features = some_fusion_method(rgb_features, point_features)
    return fused_features

# 定义函数进行异常检测
def anomaly_detection(features, memory_bank):
    distances = calculate_distances(features, memory_bank)
    anomaly_score = sum(distances)  # 简化的异常评分计算
    return anomaly_score

# 主流程
def main(new_rgb_image, new_point_cloud, memory_bank_rgb, memory_bank_point, memory_bank_fused):
    # 特征提取
    rgb_features = extract_features(new_rgb_image)
    point_features = extract_features(new_point_cloud)
    
    # 特征融合
    fused_features = unsupervised_feature_fusion(rgb_features, point_features)
    
    # 异常检测
    score_rgb = anomaly_detection(rgb_features, memory_bank_rgb)
    score_point = anomaly_detection(point_features, memory_bank_point)
    score_fused = anomaly_detection(fused_features, memory_bank_fused)
    
    # 综合决策
    final_score = (score_rgb + score_point + score_fused) / 3
    if final_score > threshold:
        return "异常"
    else:
        return "正常"

# 假设的记忆库数据
memory_bank_rgb = ...
memory_bank_point = ...
memory_bank_fused = ...

# 新样本数据
new_rgb_image = ...
new_point_cloud = ...

# 调用主函数进行异常检测
result = main(new_rgb_image, new_point_cloud, memory_bank_rgb, memory_bank_point, memory_bank_fused)
print("检测结果:", result)

3、Experiments

🐂。。。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4、Conclusion

提出了一种基于点云和 RGB 图像的 多模态混合特征融合 工业异常检测方法 Multi-3D-Memory 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2176401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爵士编曲:walking bass写法

写法 经常会出现在爵士、布鲁斯或者相关的衍生以及融合风格。 特征 1.基础形态是一拍一下顺着和弦音上行或者下行 2.和弦连接处可尝试凑级进” 3.注意和弦起始的第一拍要落在根音 4.音符可以八度跳进 5.加入半音经过音 6.加入Swing律动 还可以在一拍一下的基础上 7.加入音阶进一…

新160个crackme - 068-figugegl.3

运行分析 需破解Name和Serial有指定Name或Serial长度 PE分析 LCC-Win32编写的C语言程序,32位,无壳 静态分析&动态调试 ida找到可以字符串,双击进入 程序比较简单,直接静态分析,注释如上,逻辑如下&#…

FPGA实现PCIE视频采集转HDMI输出,基于XDMA中断架构,提供3套工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐我已有的PCIE方案 3、PCIE基础知识扫描4、工程详细设计方案工程设计原理框图电脑端视频QT上位机XDMA配置及使用XDMA中断模块FDMA图像缓存Native视频时序生成RGB转HDMI输出模块Windows版本XDMA驱动安装Linux版本XDMA驱动安装工程源…

【Python】Mininet:网络虚拟化的利器

在当今网络技术迅速发展的背景下,网络虚拟化技术得到了广泛应用。Mininet 是一个轻量级的网络虚拟化工具,它使得用户能够在一台物理主机上创建一个完整的网络环境。这对于网络研究、教学、原型设计等场景都具有重要意义。Mininet 提供了简单的命令行接口…

【Python】bilibili实现批量发送弹幕功能

首先在直播间拿到发送弹幕的请求信息: 填写这里的信息: 在这里: 输入房间号,进行爆破: 效果如下: 代码如下: import random import time import requests from tkinter import *# 弹幕…

MySQL --事务

文章目录 1.什么是事务1.1为什么会出现事务1.2 事务的版本支持1.3 事务提交方式1.4事务常见操作方式1.4.1正常演示 - 证明事务的开始与回滚1.4.2非正常演示1 - 证明未commit,客户端崩溃,MySQL自动会回滚(隔离级别设置为读未提交)1…

grafana加载缓慢解决方案

背景 目前随着数据和图表的逐渐增多,Grafana 页面加载速度明显变慢,严重影响了用户体验,几次都有骂娘的冲动.,因此我们需要对 Grafana 进行优化,以提升加载性能。 对于速度优化,我们可以从以下方面进行入…

小程序-使用npm包

小程序对 npm 的支持与限制 目前,小程序中已经支持使用 npm 安装第三方包,从而来提高小程序的开发效率。但是,在小程序中使用 npm 包有如下 3 个限制: 不支持依赖于 Node.js 内置库的包不支持依赖于浏览器内置对象的包不支持依赖…

2015年国赛高教杯数学建模B题互联网+时代的出租车资源配置解题全过程文档及程序

2015年国赛高教杯数学建模 B题 互联网时代的出租车资源配置 出租车是市民出行的重要交通工具之一,“打车难”是人们关注的一个社会热点问题。随着“互联网”时代的到来,有多家公司依托移动互联网建立了打车软件服务平台,实现了乘客与出租车司…

在VM虚拟机上进行磁盘扩容

将/dev/mapper/ol-root从100G扩容到105G 初始状态的/dev/mapper/ol-root分配了100G 在VM上新增一个5G的物理硬盘 创建PV并纳入VG 对原本的LV扩容 扩大文件系统 完成。

vue框架学习 -- 日历控件 FullCalendar 使用总结

最近在项目中要实现日期排班的功能,正好要用到日历视图的控件,经过对比发现,vue 中 使用 FullCalendar 可以实现相关需求,下面对使用过程做一个总结。 一. 引入 FullCalendar 控件 package.json 中添加相关依赖 "dependen…

无人机专业实操重要性凸显,组装、调试、改装技术详解

无人机专业的实操性在当今技术飞速发展的背景下显得尤为重要,这不仅体现在无人机的日常应用上,还贯穿于无人机的组装、调试及改装等关键环节中。以下是对这些技术环节的详细解析: 一、无人机组装技术 无人机的组装是无人机技术的基础&#x…

828华为云征文|使用sysbench对Flexus X实例对mysql进行性能测评

目录 一、Flexus X实例概述 1.1 Flexus X实例 1.2 在mysql方面的优势 二、在服务器上安装MySQL 2.1 在宝塔上安装docker 2.2 使用宝塔安装mysql 2.3 准备测试数据库和数据库表 三、安装sysbench并进行性能测试 3.1 使用yum命令sysbench 3.2 运行 sysbench 并进行性能测…

Jumpserver堡垒机应用部署案例

本案例主要讲述了如何安装Jumpserver堡垒机应用,以及使用Jumpserver堡垒机对接OpenStack平台进行管理 一、OpenStack平台对接堡垒机 案例准备 1.规划节点 IP 主机名 节点 192.168.20.21 controller OpenStack Controller节点 192.168.20.22 jumpserver O…

0基础跟德姆(dom)一起学AI 机器学习02-KNN算法

【理解】KNN算法思想 K-近邻算法(K Nearest Neighbor,简称KNN)。比如:根据你的“邻居”来推断出你的类别 KNN算法思想:如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别,则该样本也属…

从事人工智能学习Python还是学习C++?

人工智能(Artificial Intelligence,简称AI)是当今科技领域最热门的研究方向之一。AI 涉及多个学科和技术,特别是机器学习、神经网络、深度学习等技术的应用。在AI的开发过程中,编程语言的选择对于开发效率和项目实现至…

戴尔电脑怎么开启vt虚拟化_戴尔电脑新旧机型开启vt虚拟化教程

最近使用戴尔电脑的小伙伴们问我,戴尔电脑怎么开启vt虚拟。大多数可以在Bios中开启vt虚拟化技术,当CPU支持VT-x虚拟化技术,有些电脑会自动开启VT-x虚拟化技术功能。而大部分的电脑则需要在Bios Setup界面中,手动进行设置&#xff…

C++ | Leetcode C++题解之第443题压缩字符串

题目&#xff1a; 题解&#xff1a; class Solution { public:int compress(vector<char>& chars) {int n chars.size();int write 0, left 0;for (int read 0; read < n; read) {if (read n - 1 || chars[read] ! chars[read 1]) {chars[write] chars[re…

QT九月28日

1.实现登录界面 头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget>class Widget : public QWidget {Q_OBJECTpublic:Widget(QWidget *parent nullptr);~Widget(); }; #endif // WIDGET_H源文件 #include "widget.h" #include <QIcon> #in…

服务器分类极简理解

塔式服务器 塔式服务器外形类似于电脑主机机箱&#xff0c;它的特点有易于维护、灵活性高、噪音低、无需专门的机架 塔式服务器适用于中小型企业或办公室等环境 刀片服务器 刀片服务器是在标准高度的机架式机箱内可插装多个卡式的服务器单元&#xff0c;它的特点是高可用性、…