SAD法(附python实现)和Siamese神经网络计算图像的视差图

news2025/1/16 8:19:50

1 视差图

视差图:以左视图视差图为例,在像素位置p的视差值等于该像素在右图上的匹配点的列坐标减去其在左图上的列坐标

视差图和深度图:
z = f b d z = \frac{fb}{d} z=dfb
其中 d d d 是视差, f f f 是焦距, b b b 是基线长度

image-20240322211454831

所以,视差越大 ——> 深度越小

2 传统方法

原理:是在给定窗口大小的情况下,对左图像和右图像的对应窗口进行比较,计算它们之间的绝对差的总和,从而确定最佳匹配的视差

SAD:Sum of Absolute Differences 即差的绝对值和
S A D ( x , y , d ) = ∣ w L ( x , y ) − w R ( x − d , y ) ∣ SAD(x,y,d) = |w_L(x, y) - w_R(x-d, y)| SAD(x,y,d)=wL(x,y)wR(xd,y)
大致流程:

  1. 对左图像和右图像分别进行零填充以适应窗口的边界

    为在计算这些像素的视差时,窗口可能会超出图像的范围

  2. 对于左图像的每个像素,依次遍历整个图像

  3. 对于每个像素,以其为中心取窗口大小的区域,并在右图像中搜索匹配窗口

    # 一定是减去d,因为右边图像是左边图像向右平移d个像素
    window_right = image_right[y:y + window_size, x - d:x - d + window_size]
    

    设置一个 max_disparity 来限制搜索范围

  4. 计算左图像窗口和右图像匹配窗口的绝对差的总和,即SAD值

    now_sad = np.sum(np.abs(window_left - window_right))
    
  5. 找到最小的SAD值,将对应的视差 d 保存到该像素位置

代码实现:

def sad(image_left, image_right, window_size=3, max_disparity=50):
    D = np.zeros_like(image_left)
    height = image_left.shape[0]
    width = image_left.shape[1]
    # 零填充
    padding = window_size // 2
    image_left = add_padding(image_left, padding).astype(np.float32)
    image_right = add_padding(image_right, padding).astype(np.float32)

    for y in range(height):
        for x in range(width):
            # 左边图像的窗口
            window_left = image_left[y:y + window_size, x:x + window_size]
            best_disparity = 0
            min_sad = float('inf')
            for d in range(max_disparity):
                if x - d < 0:
                    continue
                # 一定是减去d,因为右边图像是左边图像向右平移d个像素
                window_right = image_right[y:y + window_size, x - d:x - d + window_size]
                now_sad = np.sum(np.abs(window_left - window_right))

                if now_sad < min_sad:
                    min_sad = now_sad
                    best_disparity = d

            # 保存SAD
            D[y, x] = best_disparity

    return D # 返回视差图

3 卷积方法

传统方法很慢,卷积方法避免了的嵌套循环,效率比起传统方法高了很多

利用图像卷积的思想,通过对每个候选视差值计算绝对差图像,并将其与一个均值滤波器进行卷积操作来实现视差图的计算

具体步骤如下:

  1. 对于每个候选的视差值,计算两幅图像在水平方向上的绝对差

    img_diff = np.abs(image_left - right_shifted)
    
  2. 将计算得到的绝对差图像与一个均值滤波器进行卷积操作。均值滤波器的大小应与窗口大小相匹配,用于平滑绝对差图像,从而减少噪声和不稳定性

    # 平滑均值滤波卷积核
    kernel = np.ones((window_size, window_size)) / (window_size ** 2)
    # 通过卷积运算,可以计算出每个像素邻域的总差异,也就是SAD值
    img_sad = convolve(img_diff, kernel, mode='same')  
    

    卷积的作用:

    1. 平滑处理:卷积可以用来对图像进行平滑处理,也就是降噪。当卷积核是一个均值滤波器,就可以用于计算图像中每个像素的邻域的平均值。这样可以减少图像中的随机噪声,使图像变得更加平滑
    2. 计算局部差异:在计算左图和右图之间的 SAD 值时,需要对每个像素的邻域进行操作。这可以通过卷积来实现。卷积结果中的每个像素值表示了对应的像素邻域在左图和右图之间的差异程度
  3. 对于每个像素,选择具有最小卷积结果的视差值作为最终的视差值

代码实现:

def sad_convolve(image_left, image_right, window_size=3, max_disparity=50):
    # 零填充
    padding = window_size // 2
    image_left = add_padding(image_left, padding).astype(np.float32)
    image_right = add_padding(image_right, padding).astype(np.float32)
    SAD = np.zeros((image_left.shape[0], image_left.shape[1], max_disparity + 1))
	# 卷积核
    kernel = np.ones((window_size, window_size)) / (window_size ** 2)
	# 范围很重要,要覆盖0和max_disparity才行
    for d in range(0, max_disparity才行 + 1):
        if d == 0:
            right_shifted = image_right
        else:
            right_shifted = np.zeros_like(image_right)
            right_shifted[:, d:] = image_right[:, :-d]

        img_diff = np.abs(image_left - right_shifted)
        # 通过卷积运算,可以计算出每个像素邻域的总差异,也就是SAD值
        img_sad = convolve(img_diff, kernel, mode='same')
        SAD[:, :, d] = img_sad

    D = np.argmin(SAD, axis=2) # 选出算出最小SAD的视差值
    return D

4 问题

块匹配方法在处理时存在一些限制,主要包括以下几点:

  1. 局部窗口匹配:块匹配方法通常只考虑局部窗口内的像素信息进行匹配,而对于同质区域,局部窗口内的像素可能非常相似,导致匹配困难

  2. 窗口大小选择:选择合适的窗口大小对于块匹配的性能至关重要。

    • 小窗口:在纹理丰富的区域,可以选择较小的窗口;但对于同质区域可能无法捕捉到同质区域的整体特征
    • 大窗口:在纹理稀疏的区域,应选择较大的窗口大小;但可能会将不同物体的特征混合在一起,导致误匹配,但较大的窗口大小会增加计算量
    窗口大小结果
    3image-20240323095500779
    7image-20240323095545339
    15image-20240323095611812

5 Siamese神经网络

Siamese神经网络由两个相同的子网络组成,这两个子网络共享相同的参数(权重和偏置)。无论输入是什么,它们都会通过相同的网络结构进行处理

  1. 特征提取:给定两个输入,它们分别通过两个子网络进行前向传播,从而得到它们的特征表示。这些特征表示捕捉了输入的关键信息
  2. 相似性评估:得到特征表示后,Siamese神经网络通过某种方式比较这两个特征表示,以确定它们之间的相似性。我们使用余弦相似度来操作

其有两种结构:

  1. 余弦相似度 (Cosine Similarity)

    • 原理:计算两个特征向量之间的夹角余弦值,范围在-1到1之间。值越接近1,表示两个向量越相似;值越接近-1,表示两个向量越不相似;值接近0表示两个向量之间没有线性关系
    • 应用:通过计算特征向量之间的余弦相似度,可以衡量它们在特征空间中的方向是否相似,其没有MLP,卷积层后直接标准化进行点乘,速度非常快,且效果也较好
  2. 学习相似性 (Learned Similarity)

    image-20240323152802625
    • 原理:需要训练一个神经网络,该网络将输入的特征向量映射到一个标量值,表示它们之间的相似性得分
    • 应用:神经网络可以学习到更复杂的特征表示,并且可以捕捉输入之间的非线性关系。但是,由于MLP的计算成本较高,会较于前者较慢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1565223.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

redis数据类型介绍

字符串string&#xff1a; 字符串类型是Redis中最为基础的数据存储类型&#xff0c;是一个由字节组成的序列&#xff0c;他在Redis中是二进制安全的&#xff0c;这便意味着该类型可以接受任何格式的数据&#xff0c;如JPEG图像数据货Json对象描述信息等&#xff0c;是标准的key…

每日五道java面试题之消息中间件MQ篇(二)

目录&#xff1a; 第一题. RabbitMQ的工作模式第二题. 如何保证RabbitMQ消息的顺序性&#xff1f;第三题. 消息如何分发&#xff1f;第四题. 消息怎么路由&#xff1f;第五题. 如何保证消息不被重复消费&#xff1f;或者说&#xff0c;如何保证消息消费时的幂等性&#xff1f; …

触想四代ARM架构工业一体机助力手功能康复机器人应用

一、行业发展背景 手功能康复机器人是医疗机器人的一个分支&#xff0c;设计用于帮助肢体障碍患者进行手部运动和力量训练&#xff0c;在医疗健康领域有着巨大的成长空间。 手功能康复机器人融合了传感、控制、计算、AI视觉等智能科技与医学技术&#xff0c;能够帮助患者改善康…

Vue的学习之旅-part1

Vue的学习之旅-part1 vue介绍vue读音编程范式ES6中不用var声明变量vue的声明、初始化传参使用data中数据时要用this指向 vue中的语法糖MVVM在Vue中&#xff0c; MVVM的各层的对应位置 方法、函数的不同之处 vue介绍 vue读音 Vue 读作 /vju:/ 不要读成v u e Vuex 的x读作叉 不…

scratch买蛋糕 2024年3月中国电子学会图形化编程 少儿编程 scratch编程等级考试一级真题和答案解析

目录 scratch买蛋糕 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 1、思路分析 2、详细过程 四、程序编写 五、考点分析 六、 推荐资料 1、入门基础 2、蓝桥杯比赛 3、考级资料 4、视频课程 5、py…

Predict the Next “X” ,第四范式发布先知AIOS 5.0

今天&#xff0c;第四范式发布了先知AIOS 5.0&#xff0c;一款全新的行业大模型平台。 大语言模型的原理是根据历史单词去不断预测下一个单词&#xff0c;换一句常见的话&#xff1a;Predict the Next “Word”。 当前对于行业大模型的普遍认知就是沿用这种逻辑&#xff0c;用大…

蓝桥杯刷题第八天(dp专题)

这道题有点像小学奥数题&#xff0c;解题的关键主要是&#xff1a; 有2种走法固走到第i级阶梯&#xff0c;可以通过计算走到第i-1级和第i-2级的走法和&#xff0c;可以初始化走到第1级楼梯和走到第2级楼梯。分别为f[1]1;f[2]1(11)1(2)2.然后就可以循环遍历到后面的状态。 f[i…

obsidian常用插件,实现高效知识管理,打造最强第二大脑(更新中)

obsidian的精髓就在于其强大的社区插件。但是其插件市场太过于庞大&#xff0c;各式插件五花八门。 我们应该把核心放在知识的管理上&#xff0c;插件只是为知识管理服务的。而不是花费大量的时间去研究插件怎么用&#xff0c;做事情不能本末倒置&#xff01; 下面笔者结合自己…

界面控件DevExtreme JS ASP.NET Core 2024年度产品规划预览(一)

在本文中我们将介绍今年即将发布的v24.1附带的主要特性&#xff0c;这些特性既适用于DevExtreme JavaScript (Angular、React、Vue、jQuery)&#xff0c;也适用于基于DevExtreme的ASP.NET MVC/Core控件。 注意&#xff1a;本文中列出的功能和特性说明官方当前/预计的发展计划&a…

C++的并发世界(三)——线程对象生命周期

0.案例代码 先看下面一个例子&#xff1a; #include <iostream> #include <thread>void ThreadMain() {std::cout << "begin sub thread:" << std::this_thread::get_id()<<std::endl;for (int i 0; i < 10; i){std::cout <&…

对 NGINX、Kong 和 Amazon 的 API 管理解决方案进行基准测试:它们能否交付实时 API?

原文作者&#xff1a;Alessandro Fael Garcia of F5 原文链接&#xff1a;对 NGINX、Kong 和 Amazon 的 API 管理解决方案进行基准测试&#xff1a;它们能否交付实时 API&#xff1f; 转载来源&#xff1a;NGINX 开源社区 NGINX 唯一中文官方社区 &#xff0c;尽在 nginx.org.c…

JavaScript 对象管家 Proxy

JavaScript 在 ES6 中&#xff0c;引入了一个新的对象类型 Proxy&#xff0c;它可以用来代理另一个对象&#xff0c;并可以在代理过程中拦截、覆盖和定制对象的操作。Proxy 对象封装另一个对象并充当中间人&#xff0c;其提供了一个捕捉器函数&#xff0c;可以在代理对象上拦截…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《考虑灵活性供需平衡的新型电力系统长短期储能联合规划》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

Linux_进程的优先级环境变量上下文切换

文章目录 一、进程的优先级二、进程的四个重要概念三、上下文切换四、环境变量4.1 查看当前shell环境下的环境变量与内容 一、进程的优先级 什么是优先级&#xff1f; 指定一个进程获取某种资源的先后顺序本质是进程获取cpu资源的优先顺序 为什么要有优先级 进程访问的资源&am…

基于java+springboot+vue实现的医院门诊在线挂号系统(文末源码+Lw)23-222

摘 要 伴随着信息技术与互联网技术的不断发展&#xff0c;校园也进到了一个新的信息化时代&#xff0c;传统管理技术性没法高效率、容易地管理医院门诊在线挂号信息内容。为了实现时代的发展必须&#xff0c;提升医院门诊在线挂号高效率&#xff0c;各种各样医院门诊在线挂号…

2-PS修改图片颜色

【问题介绍】PS 快速改变图片颜色&#xff0c;可以生成一个系列的可爱作品 如下图&#xff0c;一个可爱的白色云朵蓝色背景 蓝白色冰淇淋 如果我们想要改一改颜色&#xff0c;做出一个系列的绿色冰淇淋、粉色冰淇淋呢&#xff1f; 方法1 【最简单】图像→替换颜色 调整后效果…

武汉星起航:跨境电商全球贸易新引擎,展现无限商机与优势

在全球经济一体化的浪潮下&#xff0c;跨境电商行业以其迅猛的发展势头和独特的优势&#xff0c;成为了推动国际贸易增长的重要引擎。跨境电商不仅为企业提供了更广阔的市场空间&#xff0c;也为消费者带来了更多选择和便利。武汉星起航将深入探讨跨境电商在强势发展中所展现出…

百度语音识别

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一、建号—获取试用KEY二、测试代码三、运行四、运行结果五、验证五、总结 一、建号—获取试用KEY https://console.bce.baidu.com/ai/#/ai/speech/overview/index…

TCP网络协议栈和Posix网络部分API总结

文章目录 Posix网络部分API综述TCP协议栈通信过程TCP三次握手和四次挥手&#xff08;看下图&#xff09;三次握手常见问题&#xff1f;为什么是三次握手而不是两次&#xff1f;三次握手和哪些函数有关&#xff1f;TCP的生命周期是从什么时候开始的&#xff1f; 四次挥手通信状态…

LabVIEW挖坑指南

一、挖坑指南 1.1、输出变量放在条件框内 错误写法&#xff1a; 现象&#xff1a;如果没进入对应的分支&#xff0c;输出为默认值 正常写法&#xff1a; 让每个分支输出的值都在预料之内。 1.2、统计耗时不准 错误写法 现象&#xff1a;统计出来的耗时是2000ms 正常写法&a…