ELFNet: Evidential Local-global Fusion for Stereo Matching

news2025/1/8 15:21:48

论文地址:https://arxiv.org/pdf/2308.00728.pdf
源码地址:https://github.com/jimmy19991222/ELFNet


概述

  针对现有立体匹配模型面临可靠性和跨域泛化的问题,本文提出了Evidential Local-global Fusion(ELF)框架,该框架包含了不确信估计和置信度感知融合模块,并基于模糊不确定性和认知不确定性来预测视差图。此外,该模型还使用逆伽马分布来引导多层级融合与基于成本代价体和transformer结构的立体匹配信息融合。实验结果表明该框架在准确度和跨域泛化性能上达到了最先进的水平。


模型架构

在这里插入图片描述

Evidential Deep Learning

Uncertainty Loss

  对于立体匹配任务中的视差 d d d 可以视为一个正态分布 ( μ , σ 2 ) (\mu, \sigma^2) (μ,σ2),要对分布进行建模,我们假设 µ µ µ σ 2 σ^2 σ2 分别来自正态分布和逆伽马分布:
d ∼ N ( μ , σ 2 ) , μ ∼ N ( δ , σ 2 γ − 1 ) , σ 2 ∼ Γ − 1 ( α , β ) (1) d\sim\mathcal{N}(\mu,\sigma^2),\mu\sim\mathcal{N}(\delta,\sigma^2\gamma^{-1}),\sigma^2\sim\Gamma^{-1}(\alpha,\beta) \tag{1} dN(μ,σ2),μN(δ,σ2γ1),σ2Γ1(α,β)(1)
其中 Γ \Gamma Γ 是伽马函数, δ ∈ R , γ   >   0 , α > 1 , β > 0 \delta\in\mathbb{R},\gamma~>~0, \alpha>1, \beta>0 δR,γ > 0,α>1,β>0. 不妨设均值和方差是相互独立的,后验分布 q ( μ , σ 2 ) = p ( μ , σ 2 ∣ d 1 , . . . , d N ) q(\mu,\sigma^2)\quad=p(\mu,\sigma^2|d_1,...,d_N) q(μ,σ2)=p(μ,σ2d1,...,dN) 可以表示为一个逆正态伽马分布 N I G ( δ , γ , α , β ) \mathrm{NIG}(\delta,\gamma,\alpha,\beta) NIG(δ,γ,α,β). 继而使用全局证据 Φ = 2 γ + α \Phi=2\gamma+\alpha Φ=2γ+α 来衡量预测结果的置信度,从而视差的模糊不确定性 a l al al 和认知不确定性 e p ep ep 可以表示为:
d = E ( μ ) = σ , a l = E ( σ 2 ) = β α − 1 , e p = Var ⁡ ( μ ) = β γ ( α − 1 ) , (2) \begin{aligned}d=\mathbb{E}(\mu)&=\sigma,al=\mathbb{E}(\sigma^2)=\frac{\beta}{\alpha-1},\\ep&=\operatorname{Var}(\mu)=\frac{\beta}{\gamma(\alpha-1)},\end{aligned}\tag{2} d=E(μ)ep=σ,al=E(σ2)=α1β,=Var(μ)=γ(α1)β,(2)
在训练过程中,使用 L N \mathcal{L}^{N} LN作为模型的负对数证据损失:
L N ( w ) = 1 2 log ⁡ ( π γ ) − α log ⁡ ( Ω ) + ( α + 1 2 ) log ⁡ ( ( y − δ ) 2 γ + Ω ) + log ⁡ ( Γ ( α ) Γ ( α + 1 2 ) ) (3) \begin{aligned} &\mathcal{L}^{N}(w)=\frac{1}{2}\log(\frac{\pi}{\gamma})-\alpha\log(\Omega) + (\alpha+\frac12)\log((y-\delta)^2\gamma+\Omega)+\log\left(\frac{\Gamma(\alpha)}{\Gamma(\alpha+\frac12)}\right) \end{aligned}\tag{3} LN(w)=21log(γπ)αlog(Ω)+(α+21)log((yδ)2γ+Ω)+log(Γ(α+21)Γ(α))(3)
其中 Ω = 2 β ( 1 + γ ) , w \Omega=2\beta(1+\gamma),w Ω=2β(1+γ),w 是一系列待估计的参数,为了抑制错误预测区域的证据,在损失函数中增加一项正则项:
L R ( w ) = ∣ d g t − E ( μ i ) ∣ ⋅ Φ = ∣ d g t − δ ∣ ⋅ ( 2 γ + α ) , (4) \mathcal{L}^R(w)=|d^{gt}-\mathbb{E}(\mu_i)|\cdot\Phi=|d^{gt}-\delta|\cdot(2\gamma+\alpha),\tag{4} LR(w)=dgtE(μi)Φ=dgtδ(2γ+α),(4)
为了将证实深度学习扩展到立体匹配领域中,我们将不确定损失函数 L U \mathcal{L}^U LU 扩展为所有像素的期望:
L U ( w ) = 1 N ∑ 0 N − 1 ( L i N ( w ) + τ L i R ( w ) ) , (5) \mathcal{L}^U(w)=\frac1N\sum_0^{N-1}\left(\mathcal{L}_i^N(w)+\tau\mathcal{L}_i^R(w)\right),\tag{5} LU(w)=N10N1(LiN(w)+τLiR(w)),(5)
其中 τ > 0 \tau>0 τ>0 控制着正则化的程度, N N N 代表所有像素的数量。

Uncertainty Estimation

Uncertainty estimation in cost-volume-based stereo
matching
基于代价体的立体匹配网络包含5个典型的结构:权值共享特征提取、代价体构建、代价体聚合、视差回归、视差细化。为了估计 N I G ( δ , γ , α , β ) \mathrm{NIG}(\delta,\gamma,\alpha,\beta) NIG(δ,γ,α,β) 的参数,将视差回归模块改进为具有多通道输出的可信回归模块,其余模块保持不变。利用两个3D卷积分支和一个Mish激活模块来得到分布参数,如图所示:
在这里插入图片描述
V δ , V γ , V α , V β = Split ⁡ ( V o u t , d i m = − 1 ) (6) V_\delta,V_\gamma,V_\alpha,V_\beta=\operatorname{Split}(V_{out},dim=-1)\tag{6} Vδ,Vγ,Vα,Vβ=Split(Vout,dim=1)(6)
p = Softmax ⁡ ( V δ ) (7) p=\operatorname{Softmax}(V_\delta)\tag{7} p=Softmax(Vδ)(7)
δ = ∑ k = 0 D k ⋅ p k ,  logit i = ∑ k = 0 D V i ⋅ p k (8) \delta=\sum_{k=0}^Dk\cdot p_k,\text{ logit}_i=\sum_{k=0}^DV_i\cdot p_k\tag{8} δ=k=0Dkpk, logiti=k=0DVipk(8)

Uncertainty estimation in transformer-based stereo
matching
在transformer-based的立体匹配模型中,采用自注意力与交叉注意力机制,通过最优传输模块来计算视差,并通过一个不确定head来生成参数。

Fusion Strategy based on Evidence

  文中采用了正态-逆伽马分布(MoNIG)的混合策略,可以同时进行内部证据融合和外部证据融合。具体而言,给定M组NIG分布的参数,MoNIG分布可以通过以下操作进行计算:
MoNIG ( δ , γ , α , β ) = NIG ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ NIG ( δ 2 , γ 2 , α 2 , β 2 ) ⊕ ⋯ ⊕ NIG ( δ M , γ M , α M , β M ) , (9) \begin{aligned}&\text{MoNIG}(\delta,\gamma,\alpha,\beta)=\text{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\\&\text{NIG}(\delta_2,\gamma_2,\alpha_2,\beta_2)\oplus\cdots\oplus\text{NIG}(\delta_M,\gamma_M,\alpha_M,\beta_M),\end{aligned}\tag{9} MoNIG(δ,γ,α,β)=NIG(δ1,γ1,α1,β1)NIG(δ2,γ2,α2,β2)NIG(δM,γM,αM,βM),(9)
其中 ⊕ \oplus 表示两个分布的和,表示为: N I G ( δ , γ , α , β ) ≜ N I G ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ N I G ( δ 2 , γ 2 , α 2 , β 2 ) , \mathrm{NIG}(\delta,\gamma,\alpha,\beta)\triangleq\mathrm{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\mathrm{NIG}(\delta_2,\gamma_2,\alpha_2,\beta_2), NIG(δ,γ,α,β)NIG(δ1,γ1,α1,β1)NIG(δ2,γ2,α2,β2),其中
δ = ( γ 1 + γ 2 ) − 1 ( γ 1 δ 1 + γ 2 δ 2 ) , 7 v = γ 1 + γ 2 , α = α 1 + α 2 + 1 2 , β = β 1 + β 2 + 1 2 γ 1 ( δ 1 − δ ) 2 + 1 2 γ 2 ( δ 2 − δ ) 2 . (10) \begin{aligned} &\begin{aligned}\delta=(\gamma_1+\gamma_2)^{-1}(\gamma_1\delta_1+\gamma_2\delta_2),\end{aligned} \\ &\text{7} v=\gamma_{1}+\gamma_{2},\alpha=\alpha_{1}+\alpha_{2}+\frac{1}{2}, \\ &\beta=\beta_{1}+\beta_{2}+\frac12\gamma_{1}(\delta_{1}-\delta)^{2}+\frac12\gamma_{2}(\delta_{2}-\delta)^{2}. \end{aligned}\tag{10} δ=(γ1+γ2)1(γ1δ1+γ2δ2),7v=γ1+γ2,α=α1+α2+21,β=β1+β2+21γ1(δ1δ)2+21γ2(δ2δ)2.(10)
组合分布的参数 δ δ δ是由 γ γ γ加权的 δ 1 δ_1 δ1 δ 2 δ_2 δ2的总和,这衡量了期望的置信水平。最终的β不仅是 β 1 β_1 β1 β 2 β_2 β2的总和,还包括组合分布和每个单独分布之间的方差,因为它同时提供了关于偶然不确定性和认知不确定性的联系。

Intra Evidential Fusion of Cost-volume-based Stereo Matching

  首先构建了3个level的代价体,并使用三个代价聚合模块和可信度回归模块来得到三个level的NIG分布的参数,继而使用内部证据融合模块来将三个分布整合成一个最终的分布。 M o N I G ( δ l o c a l , γ l o c a l , α l o c a l , β l o c a l ) = N I G ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ ⋯ ⊕ N I G ( δ 3 , γ 3 , α 3 , β 3 ) . (11) \begin{aligned}\mathsf{MoNIG}(\delta_{local},\gamma_{local},\alpha_{local},\beta_{local})&=\mathsf{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\cdots\oplus\mathsf{NIG}(\delta_3,\gamma_3,\alpha_3,\beta_3).\end{aligned}\tag{11} MoNIG(δlocal,γlocal,αlocal,βlocal)=NIG(δ1,γ1,α1,β1)NIG(δ3,γ3,α3,β3).(11)
不确定性感知的融合策略使该框架具有整合多尺度特征可靠输出的能力。

Inter Evidential Fusion between Cost-volume based and Transformer-based Stereo Matching

  卷积的局部归纳偏置使基于成本体积的立体匹配模型易于建模局部特征,而基于transformer的模型则利用注意力机制的长距离依赖性来捕获全局信息。这两种方法的不同侧重点导致了它们在预测差异方面的差异,可能在某些情况下互补。文中使用基于不确定性的融合策略,通过MoNIG分布提供了一种计算效率高的机制来将两个预测合并为一个。
M o N I G ( δ , γ , α , β ) = M o N I G ( δ l o c a l , γ l o c a l , α l o c a l , β l o c a l ) ⊕ N I G ( δ g l o b a l , γ g l o b a l , α g l o b a l , β g l o b a l ) . \begin{aligned}\mathsf{MoNIG}(\delta,\gamma,\alpha,\beta)&=\mathsf{MoNIG}(\delta_{local},\gamma_{local},\alpha_{local},\beta_{local})\oplus\mathsf{NIG}(\delta_{global},\gamma_{global},\alpha_{global},\beta_{global}).\end{aligned} MoNIG(δ,γ,α,β)=MoNIG(δlocal,γlocal,αlocal,βlocal)NIG(δglobal,γglobal,αglobal,βglobal).


损失函数

  文中计算了局部输出、全局输出和最终组合输出的不确定性损失,分别表示为 L U ( w l o c a l ) L^U (wlocal) LU(wlocal) L U ( w g l o b a l ) L^U (wglobal) LU(wglobal) L U ( w ) L^U (w) LU(w)。在基于transformer的立体匹配模块中,还获得了注意力权重和遮挡概率 p o c c p_{occ} pocc。除了不确定性损失,文中还采用了与STTR 相同的损失函数,即相对响应损失 L R R ( w a t t n ) L^{RR}(wattn) LRR(wattn),以最大化对真实目标位置的注意力,并使用二元熵损失 L B E ( p o c c ) L^{BE}(pocc) LBE(pocc)来监督遮挡图。总体损失函数如下:
L = L U ( w l o c a l ) + λ 1 L U ( w g l o b a l ) + λ 2 L U ( w ) + λ 3 L R R ( w a t t n ) + λ 4 L B E ( p o c c ) , (13) \begin{aligned}&\mathcal{L}=\mathcal{L}^U(w_{local})+\lambda_1\mathcal{L}^U(w_{global})\\&+\lambda_2\mathcal{L}^U(w)+\lambda_3\mathcal{L}^{RR}(w_{attn})+\lambda_4\mathcal{L}^{BE}(p_{occ}),\end{aligned}\tag{13} L=LU(wlocal)+λ1LU(wglobal)+λ2LU(w)+λ3LRR(wattn)+λ4LBE(pocc),(13)


实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/923580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

十一、内部类(2)

本章概要 为什么需要内部类 闭包与回调内部类与控制框架 继承内部类内部类可以被重写么?局部内部类内部类标识符 为什么需要内部类 至此,我们已经看到了许多描述内部类的语法和语义,但是这并不能同答“为什么需要内部类”这个问题。那么&a…

几个nlp的小项目(文本分类)

几个nlp的小项目(文本分类) 导入加载数据类、评测类查看数据集精确展示数据测评方法设置参数tokenizer,token化的解释对数据集进行预处理加载预训练模型进行训练设置训练模型的参数一个根据任务名获取,测评方法的函数创建预训练模型开始训练本项目的工作完成了什么任务?导…

(AcWing) 任务安排(I,II,III)

任务安排I: 有 N 个任务排成一个序列在一台机器上等待执行,它们的顺序不得改变。 机器会把这 N 个任务分成若干批,每一批包含连续的若干个任务。 从时刻 0 开始,任务被分批加工,执行第 i 个任务所需的时间是 Ti。 另外&#x…

前端基础之滚动显示

marquee滚动标签 注&#xff1a;该标签已经过时&#xff0c;被w3c弃用!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 使用样例&#xff1a; <marquee>这是个默认的marquee标签</marquee> 多条数据上下滚动&#xff1a; 代码如下&#xff1a; <body><mar…

MySQL每日一练--销售管理系统

一&#xff0c;创建数据库SaleSys 二&#xff0c;在数据库SaleSys中创建3张表 品牌信息表&#xff08;brand&#xff09; BrandId --品牌编号&#xff0c;整型&#xff0c;自动增长&#xff0c;主键BrandName --品牌名称&#xff0c;字符型&#xff0c; 唯一约束 商品表…

DBi Tech Studio Controls for .NET Crack

DBi Tech Studio Controls for .NET Crack Studio Controls for.NET为企业开发人员提供了一套全面的Windows布局和信息表示软件元素&#xff0c;面向搜索业务分析商业调度和UI表示控制器的程序员。Studio Controls for.NET包含17个免版税的.NET Windows窗体控件&#xff0c;用于…

【谷粒商城】开发篇:微服务架构搭建

项目架构搭建 创建代码仓库 步骤一&#xff1a;在gitee中创建代码仓库 步骤二&#xff1a;在IDEA中 clone 项目 clone 结果展示 项目微服务创建 商品服务、仓储服务、订单服务、优惠券服务、用户服务 商品微服务创建 商品微服务创建 使用 Spring Initializr 创建微服务 通过…

Linux:ansible自动化运维工具

环境介绍 当前所有执行权限我是在root下执行的&#xff0c;如果提示权限之类的&#xff0c;可以在每句命令前 加上 sudo ansible主服务器 192.168.0.194 另外两个客户端分别为 192.168.0.193 192.168.0.192 软件只需要在主服务器上安装&#xff0c;客户端不需…

重注微电子产业,“三大齿轮”能否带起香港经济的“第三轮”

文 | 智能相对论 作者 | 佘凯文 众所周知&#xff0c;微电子产业早已成为现代科技领域的关键钥匙&#xff0c;谁能掌握微电子产业&#xff0c;谁就能拥有全球科技领域的话语权。 从上世纪开始&#xff0c;微电子产业曾经历过几次重大转移&#xff0c;如70年代从美国转向日本…

键入网址到网页显示,期间发生了什么?

目录 1.DNS2.可靠传输 —— TCP3.远程定位 —— IP4.两点传输 —— MAC5.出口 —— 网卡6.送别者 —— 交换机&#xff08;可省略&#xff09;7.出境大门 —— 路由器8.数据包抵达服务器后9.响应过程&#xff1a;带有MAC、IP、TCP头部的完整HTTP报文&#xff1a; 1.DNS 客户端…

阿里云故障洞察提效50%,全栈可观测建设有哪些技术要点?

一分钟精华速览 全栈可观测是一种更全面、更综合和更深入的观测能力&#xff0c;能协助全面了解和监测系统的各个层面和组件&#xff0c;它不仅仅是一个技术上的概念&#xff0c;更多地是技术与业务的结合。在“以业务为导向”的大前提下&#xff0c;全栈可观测正在成为趋势。…

【项目 计网6】 4.17 TCP三次握手 4.18滑动窗口 4.19TCP四次挥手

文章目录 4.17 TCP三次握手4.18滑动窗口4.19TCP四次挥手 4.17 TCP三次握手 TCP 是一种面向连接的单播协议&#xff0c;在发送数据前&#xff0c;通信双方必须在彼此间建立一条连接。所谓的“连接”&#xff0c;其实是客户端和服务器的内存里保存的一份关于对方的信息&#xff…

数据结构入门 — 链表详解_单链表

前言 数据结构入门 — 单链表详解* 博客主页链接&#xff1a;https://blog.csdn.net/m0_74014525 关注博主&#xff0c;后期持续更新系列文章 文章末尾有源码 *****感谢观看&#xff0c;希望对你有所帮助***** 系列文章 第一篇&#xff1a;数据结构入门 — 链表详解_单链表 第…

OS 用户级线程

这个程序执行到D&#xff0c;Yield&#xff08;&#xff09;跳到204&#xff0c;然后出栈404出错

2023 ccpc 网络赛 L 题解

Problem L. Partially Free Meal 题面 官方题解 官方题解解读 w(k,x)计算部分 主席树常规做法&#xff0c;在一般主席树中多维护一个这个区间的总和就ok了 根据单调性分治求解部分 接下来我们来推导一下单调性&#xff0c;也就是题解中的 f ( 1 ) < f ( 2 ) < f ( …

六、pikachu之目录遍历

文章目录 一、目录遍历概述二、目录遍历实战 一、目录遍历概述 在web功能设计中&#xff0c;很多时候我们会要将需要访问的文件定义成变量&#xff0c;从而让前端的功能便的更加灵活。 当用户发起一个前端的请求时&#xff0c;便会将请求的这个文件的值&#xff08;比如文件名…

鸡肋的RDP反制

更新时间&#xff1a;2023年07月19日09:18:29 为什么叫鸡肋&#xff1a; 鸡肋者&#xff0c;食之无肉&#xff0c;弃之有味。 你说不能成吧&#xff0c;但是有成功案例&#xff0c;你说成了吧&#xff0c;要求太高&#xff0c;还要看运气的。 一句话&#xff1a;对方需要开启…

如何通过PreMaint状态监测系统发现设备故障?

在现代工业领域&#xff0c;设备故障可能导致严重的生产中断和高额维修成本。然而&#xff0c;通过新兴的技术&#xff0c;如基于状态的维修&#xff0c;我们可以更早地发现故障并采取预防措施&#xff0c;从而实现生产的连续性和成本的降低。其中&#xff0c;PreMaint状态监测…

老板电器:劲草式企业才能穿越周期

材料力学上有两个概念&#xff1a;一个是韧性&#xff0c;用来形容材料在塑性变形和破裂过程中吸收能量的能力&#xff0c;韧性越好&#xff0c;发生脆性断裂的可能性越小&#xff1b;一个是塑性&#xff0c;是材料所受外力超过其弹性限度后具有的能永久保留形变的性质。 这两…

X2000 Linux UVC

参考文档&#xff1a;\doc\开发使用说明\USB使用说明文档\设备\USB_UVC\xburst2\USB_UVC.pdf 一、内核添加USB UVC功能 1、确定所用dts文件 进入到/tools/iconfigtool/IConfigToolApp/路径下&#xff0c;执行./IConfigTool 选择config文件&#xff0c;查看kernel默认配置 配…