【变化检测】基于IFN建筑物(LEVIR-CD)变化检测实战及ONNX推理

news2025/1/14 1:13:30

主要内容如下:

1、LEVIR-CD数据集介绍及下载
2、运行环境安装
3、IFN模型训练与预测
4、Onnx运行及可视化

运行环境:Python=3.8,torch1.12.0+cu113
likyoo变化检测源码:https://github.com/likyoo/open-cd
使用情况:代码风格属于openmmlab那套,通过修改配置文件config进行模型选择和训练、环境配置简单、训练速度一般。
训练资源消耗:默认参数配置,且batch_size为8时,显存占用7G左右,RTX4080迭代40000大概2.5小时。
ONNX推理:显存占用5G左右,RTX4080推理耗时约140ms

1 LEVIR-CD数据集介绍

1.1 简介

LEVIR-CD 由 637 个超高分辨率(VHR,0.5m/像素)谷歌地球(GE)图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时态图像具有显着的土地利用变化,尤其是建筑增长。LEVIR-CD涵盖别墅住宅、高层公寓、小型车库、大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新的建筑区域的变化)和建筑衰退。这些双时态图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释者进行注释,然后由另一个进行双重检查以生成高质量的注释。
数据来源:https://justchenhao.github.io/LEVIR/
论文地址:https://www.mdpi.com/2072-4292/12/10/1662
快速下载链接:https://aistudio.baidu.com/datasetdetail/104390/1

1.2 示例

在这里插入图片描述

2 运行环境安装

2.1 基础环境安装

【超详细】跑通YOLOv8之深度学习环境配置1-Anaconda安装
【超详细】跑通YOLOv8之深度学习环境配置2-CUDA安装

创建Python环境及换源可借鉴如下:
【超详细】跑通YOLOv8之深度学习环境配置3-YOLOv8安装

2.2 likyoo变化检测代码环境安装

2.2.1 代码下载

Git:git clone https://github.com/likyoo/open-cd.git
在这里插入图片描述

2.2.2 环境安装
# 1 创建环境
conda create -n likyoo python=3.8
conda activate likyoo

# 2 安装torch
# 方式1:
conda install pytorch==1.12.0 torchvision==0.13.0 torchaudio==0.12.0 cudatoolkit=11.3 -c pytorch
# 方式2:
pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 torchaudio==0.12.0 --extra-index-url https://download.pytorch.org/whl/cu113

# 3 验证torch安装是否为gpu版
import torch
print(torch.__version__)  # 打印torch版本
print(torch.cuda.is_available())  # True即为成功
print(torch.version.cuda)
print(torch.backends.cudnn.version())

# 4 安装其他依赖库
cd ./open-cd-main

# 4.1 安装 OpenMMLab 相关工具
pip install -U openmim
mim install mmengine
mim install "mmcv==2.0.0"
mim install "mmpretrain>=1.0.0rc7"  # (本地安装版本为1.2.0)
pip install "mmsegmentation==1.2.2"
pip install "mmdet==3.0.0"

# 4.2 编译安装open-cd
pip install -v -e .

# 5 可能缺少的库
pip install ftfy

3 IFN模型训练与预测

3.1 IFN模型介绍

3.1.1 简介

摘要:高分辨率遥感图像中的变化检测对于理解地表变化至关重要。考虑到高分辨率图像中传达的精细图像细节和复杂纹理特征带来的挑战,传统的变化检测方法不适合这项任务,因此提出了许多基于深度学习的变化检测技术来提高变化检测性能。尽管最先进的基于深度特征的方法优于所有其他基于深度学习的变化检测方法,但现有基于深度特征方法中的网络大多是从最初为单图像语义分割提出的架构修改而来的。将这些网络转移到变化检测任务仍然存在一些关键问题。本文提出了一种用于高分辨率多时相遥感图像变化检测的深度监督图像融合网络(IFN)。具体来说,首先通过全卷积双流架构提取双时间图像的高度代表性的深度特征。然后,将提取的深度特征馈入深度监督差分判别网络(DDN)进行变化检测。为了提高输出变化图中对象的边界完整性和内部紧凑性,通过注意力模块将原始图像的多级深度特征与图像差异特征融合,用于变化图重建。通过直接将变化图损失引入网络中的中间层,DDN得到了进一步的增强,整个网络以端到端的方式进行训练。IFN被应用于一个公开可用的数据集,以及一个由谷歌地球覆盖中国不同城市的多源多时相图像组成的具有挑战性的数据集。视觉解释和定量评估都证实,与最先进的方法相比,IFN通过返回具有完整边界和高内部紧凑性的变化区域,优于文献中的四种基准方法。
论文地址:https://www.sciencedirect.com/science/article/pii/S0924271620301532

3.1.2 模型结构

在这里插入图片描述

3.2 模型训练与预测

3.2.1 修改训练配置文件

(1)选择训练配置
在这里插入图片描述

(2)修改configs\common\standard_256x256_40k_levircd.py
关键修改:输入数据集路径data_root一定要对!!!
batch_size和迭代数量等按自己需要调整,预测为1024大小。
在这里插入图片描述

3.2.2 模型训练与测试
# 训练,--config配置文件+保存文件夹名
python tools/train.py configs/ifn/ifn_256x256_40k_levircd.py --work-dir ./work_dirs/ifn

# 测试==》得到评价指标
python tools/test.py configs/ifn/ifn_256x256_40k_levircd.py  ./work_dirs/ifn/iter_40000.pth

在这里插入图片描述

3.2.3 结果显示
# 测试==》得到结果图
python tools/test.py configs/ifn/ifn_256x256_40k_levircd.py  ./work_dirs/ifn/iter_40000.pth --show-dir tmp_infer

在这里插入图片描述

4 Onnx运行及可视化

4.1 Onnx导出静态和动态文件

(1)修改tools/export.py脚本,导出onnx,复制如下内容【修改了输入尺寸和增加一个动态onnx导出】:

# Copyright (c) Open-CD. All rights reserved.
import argparse
import logging

import torch
from mmengine import Config
from mmengine.registry import MODELS, init_default_scope

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger('opencd')


def main(args):
    # must be called before using opencd
    init_default_scope('opencd')

    config_path = args.config
    checkpoint_path = args.checkpoint
    inputs = args.inputs
    model_name = args.model_name
    model_name_dy = args.model_name_dy

    config = Config.fromfile(config_path, import_custom_modules=True)
    model = MODELS.build(config.model)

    ckpt = torch.load(checkpoint_path)
    state_dict = ckpt['state_dict']
    model.load_state_dict(state_dict, strict=True)
    model.eval()

    input_shape0 = tuple(map(int, inputs[0].split(',')))
    input_shape1 = tuple(map(int, inputs[1].split(',')))
    input0 = torch.rand(input_shape0)
    input1 = torch.rand(input_shape1)
    images = torch.concat((input0, input1), dim=1).to(args.device)
    model.to(args.device)

    # 导出静态onnx
    torch.onnx.export(
        model,
        (images),
        model_name,
        input_names=['images'],
        output_names=['output'],
        verbose=False,
        opset_version=11,
    )

    # 导出动态onnx
    torch.onnx.export(
        model,
        (images),
        model_name_dy,
        input_names=['images'],
        output_names=['output'],
        verbose=False,
        opset_version=11,
        dynamic_axes={
                       "images": {0 :"batch_size", 2: "input_height", 3: "input_width"},
                       "output": {0 :"batch_size", 2: "output_height", 3: "output_width"}
                   }
    )


if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--config', '-c', type=str, default='')
    parser.add_argument('--checkpoint', '-m', type=str, default='')
    parser.add_argument('--device', type=str, default='cpu')
    parser.add_argument(
        '--inputs',
        '-i',
        type=str,
        nargs='+',
        default=['1,3,1024,1024', '1,3,1024,1024'])
    parser.add_argument('--model-name', '-mn', type=str, default='model.onnx')
    parser.add_argument('--model-name_dy', '-mndy', type=str, default='model_dy.onnx')
    args = parser.parse_args()
    logger.info(args)
    main(args)

运行命令如下【结果生成两个onnx文件】:

python tools/export.py --config configs/ifn/ifn_256x256_40k_levircd.py --checkpoint ./work_dirs/ifn/iter_40000.pth

(2)查看模型结构
https://netron.app/
静态onnx
在这里插入图片描述
动态onnx
在这里插入图片描述
注意:其中的[1,6,1024,1024]表示两个[1,3,1024,1024]堆叠一起输入。

4.2 Onnx运行及可视化

4.2.1 Onnx推理运行

注意:由于LEVIR-CD图像为1024*1024大小,输入改成1024输入。

import os
import cv2
import time
import argparse
import numpy as np
import onnxruntime as ort  # 使用onnxruntime推理用上,pip install onnxruntime-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple
 

class CD(object):
    def __init__(self, onnx_model, in_shape=1024):
        self.in_shape = in_shape  # 图像输入尺度
        self.mean = [0.485, 0.456, 0.406]  # 定义均值和标准差(确保它们与图像数据的范围相匹配)  
        self.std = [0.229, 0.224, 0.225]  # 基于0-1范围的

        # 构建onnxruntime推理引擎
        self.ort_session = ort.InferenceSession(onnx_model,
                                providers=['CUDAExecutionProvider', 'CPUExecutionProvider']
                                if ort.get_device() == 'GPU' else ['CPUExecutionProvider'])

    # 归一化 
    def normalize(self, image, mean, std):  
        # 如果均值和标准差是基于0-255范围的图像计算的,那么需要先将图像转换为0-1范围  
        image = image / 255.0  
        image = image.astype(np.float32)  
        image_normalized = np.zeros_like(image)  

        for i in range(3):  # 对于 RGB 的每个通道  
            image_normalized[:, :, i] = (image[:, :, i] - mean[i]) / std[i]  
        return image_normalized
    

    def preprocess(self, img_a, img_b):
        # resize为1024大小
        
        if img_a.shape[0] != self.in_shape and img_a.shape[1] != self.in_shape:
            img_a = cv2.resize(img_a, (self.in_shape, self.in_shape), interpolation=cv2.INTER_LINEAR)
        if img_b.shape[0] != self.in_shape and img_b.shape[1] != self.in_shape:
            img_b = cv2.resize(img_b, (self.in_shape, self.in_shape), interpolation=cv2.INTER_LINEAR)

        # 应用归一化  
        img_a = self.normalize(img_a, self.mean, self.std)
        img_b = self.normalize(img_b, self.mean, self.std)

        img_a = np.ascontiguousarray(np.einsum('HWC->CHW', img_a)[::-1], dtype=np.single)  # (1024, 1024, 3)-->(3, 1024, 1024), BGR-->RGB
        img_b = np.ascontiguousarray(np.einsum('HWC->CHW', img_b)[::-1], dtype=np.single)  # np.single 和 np.float32 是等价的
        img_a = img_a[None] if len(img_a.shape) == 3 else img_a  # (1, 3, 1024, 1024)
        img_b = img_b[None] if len(img_b.shape) == 3 else img_b
      
        concat_img = np.concatenate((img_a, img_b), axis=1) 
        return  concat_img
    
    # 推理
    def infer(self, img_a, img_b):
        concat_img = self.preprocess(img_a, img_b)  # (1024, 1024, 3)+(1024, 1024, 3) --> (1, 6, 1024, 1024)
        preds = self.ort_session.run(None, {self.ort_session.get_inputs()[0].name: concat_img})[0]  # (1, n, 1024, 1024) 
        if preds.shape[1] == 1:
            out_img = (np.clip(preds[0][0], 0, 1) * 255).astype("uint8") 
        else:
            out_img = (np.argmax(preds, axis=1)[0] * 255).astype("uint8")
        return out_img
    

if __name__ == '__main__':
    # Create an argument parser to handle command-line arguments
    parser = argparse.ArgumentParser()
    parser.add_argument('--model', type=str, default='weights/model_dy.onnx', help='Path to ONNX model')
    parser.add_argument('--source_A', type=str, default=str('E:/datasets/LEVIR-CD/test/A/test_7.png'), help='A期图像')
    parser.add_argument('--source_B', type=str, default=str('E:/datasets/LEVIR-CD/test/B/test_7.png'), help='B期图像')
    parser.add_argument('--in_shape', type=int, default=1024, help='输入模型图像尺度')
    args = parser.parse_args()

    # 实例化变化检测模型
    cd= CD(args.model, args.in_shape)
    
    # Read image by OpenCV
    img_a = cv2.imread(args.source_A)
    img_b = cv2.imread(args.source_B)

    # 推理+输出
    t1 = time.time()
    out = cd.infer(img_a, img_b)
    print('推理耗时:{}'.format(time.time() - t1))
    
    # 保存结果
    cv2.imwrite('./result/test_7_res.png', out)
    
4.2.2 结果可视化

在这里插入图片描述

4.2.3 进一步处理:

(1)可加入腐蚀膨胀处理,消除一些小白点等区域;
(2)将变化区域绘制在第二期图上,便于观察;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2117165.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

00Mac 安装配置Python3虚拟环境(VirtualEnv、virtualenvwrapper扩展包)

文章目录 前言一、安装二、mac需要配置环境变量三、报错:workon: command not found 前言 本文主要记录,Mac 安装配置Python3虚拟环境(VirtualEnv、virtualenvwrapper扩展包),windows直接执行命令即可,mac…

Arch - 演进中的架构

文章目录 Pre原始分布式时代1. 背景与起源2. 分布式系统的初步探索3. 分布式计算环境(DCE)4. 技术挑战与困境5. 原始分布式时代的失败与教训6. 未来展望 单体时代优势缺陷单体架构与微服务架构的关系总结 SOA时代1. SOA架构及其背景1. 烟囱式架构&#x…

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs&…

C#/.NET/.NET Core优质学习资料

前言 今天大姚给大家分享一些C#/.NET/.NET Core优质学习资料,希望可以帮助到有需要的小伙伴。 什么是 .NET? .NET 是一个免费的、跨平台的、开源开发人员平台,用于构建许多不同类型的应用程序。 使用 .NET,可以使用多种语言、编辑器和库来…

Java中Date类型上的注解

在日常开发中,涉及到日期时间类型Date和常用的注解DateTimeFormat和JsonFormat java.util.Date; org.springframework.format.annotation.DateTimeFormat; com.fasterxml.jackson.annotation.JsonFormat; 一 Date类型字段不使用注解 Data AllArgsConstructor N…

C语言程序设计——数组(一)

一、一维数组的定义和引用 数组:是一组具有相同数据类型的数据的有序集合。 1.1一维数组的定义 定义格式为: 类型说明符 数组名[常量表达式]; eg: int a[10]; 表示定义了一个整形数组,数组名为a,此数组有10个元素。 注:①数组名定名规则和变量名相同,遵循标识符…

【C++】STL学习——list模拟实现

目录 list介绍list结构介绍节点类的实现迭代器的实现构造函数运算符重载--运算符重载运算符重载!运算符重载*运算符重载->运算符重载 const迭代器的实现多参数模板迭代器list函数接口总览默认成员函数构造函数1构造函数2构造函数3 析构函数拷贝构造函数赋值重载函数 迭代器b…

八,SpringBoot Web 开发访问静态资源(附+详细源码剖析)

八,SpringBoot Web 开发访问静态资源(附详细源码剖析) 文章目录 八,SpringBoot Web 开发访问静态资源(附详细源码剖析)1. 基本介绍2. 快速入门2.1 准备工作 3. 改变静态资源访问前缀,定义为我们自己想要的4. 改变Spring Boot当中的默认的静态…

Spring框架5 - 容器的扩展功能 (ApplicationContext)

private static ApplicationContext applicationContext;static {applicationContext new ClassPathXmlApplicationContext("bean.xml"); } BeanFactory的功能扩展类ApplicationContext进行深度的分析。ApplicationConext与 BeanFactory的功能相似,都是…

2024下学期学习总结加今日学习总结

Vue router Vue Router 是一个为 Vue.js 应用程序设计的官方路由管理器。它使你能够轻松地在 Vue 应用中实现页面导航,处理 URL 和视图的映射。 安装router 在运行框内输入 npm install vue-router4 //vue2专用 npm install vue-router3 //vue3专用 对router进…

uniapp数据缓存和发起网络请求

数据缓存 uni.onStorageSync同步的方式将数据存储到本地缓存 <template><button click"onStorageSync()">存储数据</button> </template><script setup>const onStorageSync () > {// 存储数据uni.setStorageSync(username, 张三)…

【验收交付体系文档】系统验收计划书,软件交付验收成套文档体系

软件系统验收计划书是确保新开发的软件系统符合预期要求并稳定运行的关键步骤。本计划书概述了验收过程的主要环节&#xff0c;包括系统功能的详细测试、性能评估、用户接受度测试以及文档完整性的核查。验收团队将依据项目需求规格说明书和合同要求&#xff0c;对系统进行全面…

axure判断

在auxre中我们也可以实现判断的功能&#xff0c;当目标等于什么内容时则执行下方的功能。 一、判断输入框中是否有值 画布添加一个输入框、一个文本标签删除其中内容&#xff0c;添加一个按钮&#xff0c;输入框命名为【文本显示】文本标签命名为【提示】 给按钮新增一个交互…

多个索引干扰导致索引失效如何解决

视频讲解&#xff1a;索引干扰导致索引失效如何解决_哔哩哔哩_bilibili 1 场景说明 表tb_order有订单状态order_status和创建时间create_time的索引。 现在业务的需求是&#xff0c;查询半年内&#xff0c;已支付订单状态的总数。SQL语句如下&#xff1a; SELECTCOUNT(1) FRO…

韦季李输入法_输入法和鼠标的深度融合

在数字化输入的新纪元&#xff0c;传统键盘输入方式正悄然进化。以往&#xff0c;面对实体键盘&#xff0c;我们常需目光游离于屏幕与键盘之间&#xff0c;以确认指尖下的精准位置。而屏幕键盘虽直观可见&#xff0c;却常因占据屏幕空间&#xff0c;迫使我们在操作与视野间做出…

Windows系统下安装JMeter

目录 一、官网下载JMeter 二、运行 JMeter 一、官网下载JMeter JMeter 官网安装地址 Apache JMeter - Apache JMeter™https://jmeter.apache.org/ 下载Windows版本 下载完成后 解压 二、运行 JMeter 打开bin目录 下面两个文件其中一个均可运行双击jmeter.bat 或者使用…

支持黑神话悟空的超长视频理解,Qwen2-VL多模态大模型分享

Qwen2-VL是由阿里巴巴达摩院开发并开源的第二代视觉与语言多模态人工智能模型。 Qwen2-VL结合了视觉理解和自然语言处理的能力&#xff0c;使得它能够处理和理解图像、视频以及文本数据。 Qwen2-VL支持多种语言&#xff0c;包括但不限于英语、中文、大多数欧洲语言、日语、韩…

【分支-快速排序】

【分支-快速排序】 1. 颜色分类1.1 题目来源1.2 题目描述1.3 题目解析 2. 排序数组2.1 题目来源2.2 题目描述2.3 题目解析 3. 数组中的第K个最大元素3.1 题目来源3.2 题目描述3.3 题目解析 4. 库存管理 III4.1 题目来源4.2 题目描述4 .3 题目解析 1. 颜色分类 1.1 题目来源 7…

JS基础学习笔记

1.引入方式 内部脚本 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> <…

为什么要使用大模型RAG一体机

使用大模型RAG&#xff08;Retrieval-Augmented Generation&#xff09;一体机&#xff0c;如AntSKPro AI 离线知识库一体机&#xff0c;有以下几个原因和优势&#xff1a; 提高效率&#xff1a;RAG模型结合了检索&#xff08;Retrieval&#xff09;和生成&#xff08;Generati…