【TPAMI 2024】一种用于混合事件-帧摄像机的异步线性滤波器架构

news2024/11/22 23:12:18

题目:An Asynchronous Linear Filter Architecture for Hybrid Event-Frame Cameras

一种用于混合事件-帧摄像机的异步线性滤波器架构

作者:Ziwei Wang; Yonhon Ng; Cedric Scheerlinck; Robert Mahony


摘要

事件相机非常适合捕捉高动态范围(HDR)视觉信息而不模糊,但在静态或缓慢变化场景的成像能力较差。相反,传统图像传感器能有效测量静态或缓慢变化场景的绝对强度,但在HDR或快速变化场景中表现不佳。在本文中,我们提出了一种异步线性滤波器架构,融合事件和帧相机数据,用于HDR视频重建和空间卷积,利用了两种传感器模式的优势。关键思想是引入一种状态,它直接编码集成或卷积图像信息,并在每个事件或每帧从相机到达时异步更新。该状态可以被读取,无论何时需要,都可以馈入后续的视觉模块,用于实时机器人系统。我们在具有挑战性的照明条件和快速运动的公开可用数据集上评估了我们的实验结果,并提供了一个新的具有HDR参考的数据集。我们提出的AKF管线在绝对强度误差(减少69.4%)和图像相似性指数(平均提高35.5%)方面超越了其他最先进的方法。我们还演示了将图像卷积与线性空间核高斯、Sobel和拉普拉斯作为我们架构应用的集成。

关键词

  • 异步滤波器
  • 高动态范围
  • 混合事件相机
  • 空间卷积
  • 视频重建

I. 引言

事件相机提供了比传统基于帧的相机更多的独特优势:高时间分辨率(HTR)、高动态范围(HDR)和最小的运动模糊[1]。然而,事件相机在缓慢变化或静态场景的成像能力较差,尽管一些工作致力于开发测量绝对强度的“灰度级”事件相机[2]、[3],大多数传感器主要测量相对强度变化。相反,传统成像技术非常适合成像静态场景和测量绝对强度。混合传感器,例如动态和主动像素视觉传感器(DAVIS)[4]或定制构建的系统[5]、[6]、[7]、[8],结合了事件和基于帧的相机,并且在视频重建方面已有大量文献,融合了传统和事件相机数据[6]、[7]、[9]、[10],本文将在此基础上进行构建。这些算法增强传统视频以克服运动模糊和增加动态范围的潜力,其应用范围从机器人视觉系统(例如自动驾驶)、电影制作到日常使用的智能手机应用。

事件相机响应亮度的局部变化而非绝对亮度水平。它们在场景内部天生具有高动态范围,因为相对强度变化是逐像素测量的,以比率形式呈现,产生对数灵敏度。亮度变化触发的“事件”以微秒精度异步测量。触发事件所需的最小亮度变化称为对比度阈值,这作为事件相机测量的相对强度的对数量化[12]。由于没有曝光时间,传统相机传感器的曝光时间引起的运动模糊几乎被消除了,尽管光感受器的有限响应时间会导致一些模糊效应,特别是在低光条件下[12]。

当前最先进的基于事件的HDR视频重建方法基于深度学习方法[6]、[13]、[14]、[15]、[16]。这些算法依赖于在预处理步骤中积累和批处理事件,并且没有真正异步算法的低延迟。宣传低延迟和高帧率视频的学习算法通过多次重新处理事件来为每帧重建提供输入[13]、[14]、[16]。最近,开发了使用事件和帧进行图像重建的深度学习方法。它们使用从事件重建的强度图来指导基于帧的HDR重建[6],对齐不同曝光下的括号LDR图像[17]或在帧之间进行插值[7]、[18]。这些深度学习方法需要大量的训练数据,模型的质量在很大程度上取决于数据来源。使用大量合成数据进行训练往往会降低泛化能力[14],增加了从仿真到现实的差距。这对于事件相机尤其重要,因为相机中的参数显著改变了事件数据的特征。

与基于学习的方法相比,显式的基于事件的图像重建算法利用了经典视觉和信号处理技术[6]、[7]、[9]、[10]、[19]、[20]、[21]、[22]。由于这类算法是基于模型的,它们的性能与数据的质量(而不是训练数据)相关联。改进的事件传感器目前正在开发中,将为显式算法带来直接的性能提升。随着事件传感器质量的不断提高,随机融合算法在芯片层面实现,并与混合事件-帧传感器集成,有潜力在广泛的成像应用中显著提高图像质量。

在本文中,我们提出了一种异步线性滤波器架构,用于重建连续时间视频和空间卷积。我们架构的核心是基于互补滤波器(CF)[20],实时在像素级融合帧和事件数据。该方法不依赖于运动模型,在高度动态、复杂的环境下表现良好。我们的方法保留了事件数据中的高时间分辨率(HTR)和高动态范围(HDR)信息,生成了具有比输入帧更高时间分辨率和动态范围的图像状态。结果是一种连续时间强度估计,可以在任何时间局部或全局查询,有效地在无限的时间分辨率下,尽管状态仅在新事件或帧数据可用时更新,引入了一定程度的时间量化。为了获得更好的HDR重建性能,我们引入了一个统一的噪声模型,结合了事件和帧数据。该噪声模型提供了一个随机框架,其中像素强度估计可以使用扩展卡尔曼滤波器(EKF)算法[23]、[24]来解决。通过利用事件流的时间量化,我们提出了EKF方程的精确离散化,从而导致了一个完全异步的实现,该实现在事件或帧数据可用时更新。我们称这种结果算法为异步卡尔曼滤波器(AKF)[22],并指出它可以被视为基于随机数据融合原理动态更新CF[20]的增益。此外,我们提出了一种新的时序插值方案,并将已建立的去模糊算法[10]应用于预处理帧数据的一个步骤,称为帧增强,以提高时间分辨率。我们提出的架构还可以直接从事件相机输出计算异步图像空间卷积,而无需生成伪图像。利用线性性,空间卷积通过线性滤波器架构分解,并直接应用于输入事件和帧数据。每个事件都与线性核进行空间卷积,以生成具有相同时间戳的相邻事件集合。卷积事件流被输入到像素级AKF,并与卷积帧数据融合,生成线性卷积输入场景的高质量HTR和HDR估计。我们展示了我们的方法使用各种常见核,包括高斯、Sobel和拉普拉斯核,绕过了生成重建图像的中间步骤。这些卷积图像原语是许多通用计算机视觉和机器人应用的核心输入,例如检测、跟踪、场景理解等。由于我们的异步架构适用于前端硬件实现(例如,FPGA和ASIC),它对于高性能嵌入式系统(如虚拟现实系统)具有巨大潜力。

尽管最近对基于事件的HDR图像重建[5]、[16]感兴趣,但据作者所知,没有针对HDR参考的开源目标事件-帧数据集,可以在这些数据集上定量评估HDR重建。我们通过构建一个立体混合事件帧传感器系统来解决这个问题,该系统由一个RGB帧基相机和并置的事件相机组成,用于收集事件、帧和HDR真实情况。我们的系统提供的数据具有更高的分辨率、更高的动态范围、更高的帧率,并且立体配置克服了流行的现有数据集的“快门噪声”,这些数据集是通过混合单目事件-帧相机获得的。

总之,我们的贡献是:

  • 一种用于事件相机的异步线性滤波器架构,用于重建连续HDR视频和空间卷积,由四个独立的模块组成:(i) 互补滤波器(CF)或异步卡尔曼滤波器(AKF)用于异步混合事件-帧视频重建,(ii) 一个异步卡尔曼增益求解器,动态调整滤波器增益以产生更好的HDR视频,(iii) 一个帧增强模块,用于视频去模糊和时间插值,(iv) 一个为混合事件-帧相机设计的实时空间卷积模块,展示了高斯、Sobel和拉普拉斯核的示例。
  • 将三个异步线性滤波器[20]、[22]、[25]纳入统一框架,并提供详细的实证分析。
  • 一个统一的事件-帧不确定性模型。
  • 一个新的HDR混合事件-帧数据集,带有参考HDR图像,用于定性性能评估。

我们提出的算法展示了混合事件-帧HDR视频重建和空间卷积的最新技术,如图1所示。

III. 传感器模型与不确定性

A. 事件相机模型

事件相机测量像素的相对对数强度变化。当对数强度变化超过预设的对比度阈值 c c c 时,会触发新的事件 e p ( t ) e_p(t) ep(t) 。在这项工作中,我们将事件流建模为狄拉克δ函数 δ \delta δ ,以便我们能够应用连续时间系统分析来设计滤波器。即,

e p ( t ) = ∑ s = 1 ∞ ( c σ s , p + η s , p ) δ ( t − t s , p ) , e_p(t) = \sum_{s=1}^{\infty} \left( c \sigma_{s,p} + \eta_{s,p} \right) \delta(t - t_{s,p}), ep(t)=s=1(cσs,p+ηs,p)δ(tts,p),

其中 t s , p t_{s,p} ts,p 是像素坐标 p = ( p x , p y ) T p = (px, py)^T p=(px,py)T 上第 s s s 个事件的时间,极性 σ s , p ∈ { − 1 , + 1 } \sigma_{s,p} \in \{-1, +1\} σs,p{1,+1} 表示对数强度变化的方向,噪声 η s , p \eta_{s,p} ηs,p 是事件发生时的高斯不确定性。我们将噪声协方差 Q p ( t ) Q_p(t) Qp(t) 建模为三个贡献噪声过程的和:过程噪声、孤立像素噪声和恢复期噪声。即

Q p ( t ) = ∑ s = 1 ∞ ( Q proc. , p ( t ) + Q iso. , p ( t ) + Q ref. , p ( t ) ) δ ( t − t s , p ) 。 Q_p(t) = \sum_{s=1}^{\infty} \left( Q_{\text{proc.},p}(t) + Q_{\text{iso.},p}(t) + Q_{\text{ref.},p}(t) \right) \delta(t - t_{s,p})。 Qp(t)=s=1(Qproc.,p(t)+Qiso.,p(t)+Qref.,p(t))δ(tts,p)

更多细节请参考在线提供的补充材料第I节。注意,事件时间戳的噪声或抖动在实验中发现与其他噪声相比可以忽略不计,因此在这项工作中没有被建模。

B. 传统相机模型

CCD或CMOS电路中的传统相机的光感受器将入射光子转换为电荷,然后由模数转换器(ADC)转换为像素强度。在典型的相机中,相机响应与像素辐照度线性相关,对于正确的曝光选择,但当像素过曝或欠曝时,响应会变得高度非线性[63]。特别是,暗电流噪声、CCD饱和和泛光等效应在极端强度下破坏了相机响应的线性[64]。在实践中,这些极端值通常会被截断,因为数据被传感器噪声和量化误差破坏。然而,从这些数据中可以获得的信息对于HDR重建至关重要[65]、[66]。将缩放的传感器辐照度(场景辐射度和曝光时间的函数)映射到相机响应的称为相机响应函数(CRF)。从相应的原始相机响应 I F , p ( τ k ) I_{F,p}(\tau_k) IF,p(τk) 重建像素 p p p 在时间 τ k \tau_k τk 的缩放辐照度 I p ( τ k ) I_p(\tau_k) Ip(τk) 通过应用逆CRF:

I p ( τ k ) = CRF − 1 ( I F , p ( τ k ) ) + μ ˉ k , p , I_p(\tau_k) = \text{CRF}^{-1}(I_{F,p}(\tau_k)) + \bar{\mu}_{k,p}, Ip(τk)=CRF1(IF,p(τk))+μˉk,p,

其中 μ ˉ k , p \bar{\mu}_{k,p} μˉk,p 是一个噪声过程,模拟了 I p ( τ k ) I_p(\tau_k) Ip(τk) 中的噪声,对应于通过逆CRF映射回的 I F , p ( τ k ) I_{F,p}(\tau_k) IF,p(τk) 中的噪声。这种噪声的逆映射对于正确建模相机响应的极端值的不确定性至关重要。有关噪声协方差 R ˉ p \bar{R}_p Rˉp 的更多细节,请参考在线提供的补充材料第II节。

我们通过取 I p ( τ k ) I_p(\tau_k) Ip(τk) 的对数来定义连续对数图像强度函数。然而,对数函数不是对称的,从 I p I_p Ip 映射噪声会偏向对数强度。使用泰勒级数展开,有偏对数强度近似为:

LF p ( τ k ) ≈ log ⁡ ( I p ( τ k ) + I 0 ) − R ˉ p ( τ k ) 2 ( I p ( τ k ) + I 0 ) 2 + μ k , p , \text{LF}_p(\tau_k) \approx \log(I_p(\tau_k) + I_0) - \frac{\bar{R}_p(\tau_k)}{2(I_p(\tau_k) + I_0)^2} + \mu_{k,p}, LFp(τk)log(Ip(τk)+I0)2(Ip(τk)+I0)2Rˉp(τk)+μk,p,

其中 I 0 I_0 I0 是一个固定的偏移量,以确保强度值保持正值, R p ( τ k ) R_p(\tau_k) Rp(τk) 是与对数强度相关的噪声协方差。协方差由下式给出:

R p ( t ) = R ˉ p ( t ) ( I p ( τ k ) + I 0 ) 2 。 R_p(t) = \frac{\bar{R}_p(t)}{(I_p(\tau_k) + I_0)^2}。 Rp(t)=(Ip(τk)+I0)2Rˉp(t)

通常情况下,当 I p ( τ k ) I_p(\tau_k) Ip(τk) 不是极端值时, R ˉ p ( t ) 2 ( I p ( τ k ) + I 0 ) 2 ≪ log ⁡ ( I p ( τ k ) + I 0 ) \frac{\bar{R}_p(t)}{2(I_p(\tau_k)+I_0)^2} \ll \log(I_p(\tau_k) + I_0) 2(Ip(τk)+I0)2Rˉp(t)log(Ip(τk)+I0) 并且 LF p ( τ k ) ≈ log ⁡ ( I p ( τ k ) + I 0 ) \text{LF}_p(\tau_k) \approx \log(I_p(\tau_k) + I_0) LFp(τk)log(Ip(τk)+I0)

IV. 方法

我们的图像处理架构由四个模块组成。图2展示了操作的顺序和模块之间的数据流。在本节中,我们将介绍每个模块的方法论:

  • 互补滤波器(CF)模块实时融合增强后的帧与事件数据,生成连续时间视频;
  • 异步卡尔曼增益模块根据统一的噪声模型动态估计滤波器增益;
  • 帧增强模块预处理原始帧数据,以消除模糊并提高输入信号的时间分辨率;
  • 异步空间卷积模块是可选的,用于在不重建伪图像的情况下计算图像的空间卷积。

经典的互补滤波器(CF)[20]是所提出的视频重建架构的支柱。仅使用CF,滤波器增益是用户定义的常数,而帧图像不被增强,输出图像不被卷积。

异步卡尔曼滤波器(AKF)[22]是通过将异步卡尔曼增益模块添加到经典CF中获得的。在所有事件上异步地计算卡尔曼增益允许滤波器根据所提出的统一事件帧噪声模型在事件和帧数据之间动态地权衡。因此,AKF以额外的复杂性为代价提供了上级HDR和清晰的视频重建。

CF和AKF架构都依赖于输入帧数据。当输入帧模糊并且具有低帧速率时,有利的是首先利用帧增强模块来增强帧以最小化模糊并且将时间分辨率增加到所需的输出帧速率。

最后一个模块,基于事件的空间卷积是可选的。我们表明,它允许输出的Sobel,高斯和拉普拉斯滤波图像的一般计算机视觉和机器人应用程序,而无需计算中间伪帧。

A. 事件-帧互补滤波器

在本节中,我们介绍了一个互补滤波器结构[67][68][69],用于融合事件流 e p ( t ) e_p(t) ep(t) 与增强后的对数强度帧 L A p ( t ) L_A^p(t) LAp(t) (见图2)。

互补滤波非常适合融合具有互补频率噪声特性的信号;例如,一个信号主要由高频噪声主导,而另一个信号则受低频干扰影响。事件是时间导数测量,不包含参考强度 L A p ( 0 ) L_A^p(0) LAp(0) 信息。通过对事件进行积分以获得 L A p ( t ) L_A^p(t) LAp(t) 会放大低频干扰(漂移),导致低频信息质量差。但由于其高时间分辨率,事件提供了可靠的高频信息。传统图像帧源自离散、时间稀疏的测量,具有较差的高频保真度。然而,帧通常提供可靠的低频参考强度信息。所提出的互补滤波器结合了 L A p ( t ) L_A^p(t) LAp(t) 的时间低通版本和 ∫ 0 t e p ( γ ) d γ \int_{0}^{t} e_p(\gamma) d\gamma 0tep(γ)dγ 的时间高通版本,使用恒定增益 α \alpha α 为所有像素分别计算,以重建 L ^ p ( t ) \hat{L}^p(t) L^p(t) 的(近似)全通版本。

所提出的滤波器被写成连续时间常微分方程(ODE)的形式:

L ^ ˙ p ( t ) = e p ( t ) − α ( L ^ p ( t ) − L A p ( t ) ) , \dot{\hat{L}}^p(t) = e_p(t) - \alpha \left( \hat{L}^p(t) - L_A^p(t) \right), L^˙p(t)=ep(t)α(L^p(t)LAp(t)),

其中 L ^ p ( t ) \hat{L}^p(t) L^p(t) 是连续时间对数强度状态估计,而 α \alpha α 是互补滤波器增益或交叉频率[68]。滤波器可以被理解为事件场的积分,带有一个创新项 − α ( L ^ p ( t ) − L A p ( t ) ) -\alpha(\hat{L}^p(t) - L_A^p(t)) α(L^p(t)LAp(t)) ,它的作用是减少 L ^ p ( t ) \hat{L}^p(t) L^p(t) L A p ( t ) L_A^p(t) LAp(t) 之间的误差。

所提出的互补滤波器(CF)的关键属性是,尽管它被表述为连续时间ODE,但可以将其解表示为一组异步更新方程。该算法是完全解耦的,每个像素 p p p 的强度状态分别计算。

考虑通过交错事件数据 { t s , p } \{t_{s,p}\} {ts,p} (1)的时间戳和帧数据 { τ k } \{\tau_k\} {τk} 的时间戳(3),并重新标记得到的单调递增的唯一时间戳序列 t i , p t_{i,p} ti,p 。在时间间隔 t ∈ [ t i , p , t i + 1 , p ] t \in [t_{i,p}, t_{i+1,p}] t[ti,p,ti+1,p] 内(根据定义),没有新的事件或帧,ODE(7)是具有恒定系数的线性常微分方程:

L ^ ˙ p ( t ) = − α ( L ^ p ( t ) − L A p ( t ) ) , t ∈ [ t i , p , t i + 1 , p ) . \dot{\hat{L}}^p(t) = -\alpha \left( \hat{L}^p(t) - L_A^p(t) \right), \quad t \in [t_{i,p}, t_{i+1,p}). L^˙p(t)=α(L^p(t)LAp(t)),t[ti,p,ti+1,p).

这个ODE的解由下式给出:

L ^ p ( t ) = e − α ( t − t i , p ) L ^ p ( t i , p ) + ( 1 − e − α ( t − t i , p ) ) L A p ( t ) , t ∈ [ t i , p , t i + 1 , p ) . \hat{L}^p(t) = e^{-\alpha(t-t_{i,p})}\hat{L}^p(t_{i,p}) + (1 - e^{-\alpha(t-t_{i,p})})L_A^p(t), \quad t \in [t_{i,p}, t_{i+1,p}). L^p(t)=eα(tti,p)L^p(ti,p)+(1eα(tti,p))LAp(t),t[ti,p,ti+1,p).

接下来,我们将在半开区间 [ t i , p , t i + 1 , p ) [t_{i,p}, t_{i+1,p}) [ti,p,ti+1,p) 上通过考虑边界条件来粘贴这些分段平滑解。设

( t i + 1 , p ) − : = lim ⁡ t → ( t i + 1 , p ) − t , 对于 t < t i + 1 , p , (t_{i+1,p})^- := \lim_{t \to (t_{i+1,p})^-} t, \quad \text{对于} \quad t < t_{i+1,p}, (ti+1,p):=t(ti+1,p)limt,对于t<ti+1,p,

( t i + 1 , p ) + : = lim ⁡ t → ( t i + 1 , p ) + t , 对于 t > t i + 1 , p , (t_{i+1,p})^+ := \lim_{t \to (t_{i+1,p})^+} t, \quad \text{对于} \quad t > t_{i+1,p}, (ti+1,p)+:=t(ti+1,p)+limt,对于t>ti+1,p,

分别表示从下方和上方的极限。有两种情况需要考虑:

  • 新帧:当索引 t i + 1 , p t_{i+1,p} ti+1,p 对应于新图像帧时,方程(7)的右侧有界。这意味着解在 t i + 1 , p t_{i+1,p} ti+1,p 处连续,并且

L ^ p ( t i + 1 , p ) = L ^ p ( t i + 1 , p ) − . \hat{L}^p(t_{i+1,p}) = \hat{L}^p(t_{i+1,p})^-. L^p(ti+1,p)=L^p(ti+1,p).

  • 事件:当索引 t i + 1 , p t_{i+1,p} ti+1,p 对应于事件时,方程(7)的解在 t i + 1 , p t_{i+1,p} ti+1,p 处不连续,必须积分事件的狄拉克δ函数。对方程(7)的右侧和左侧从 ( t i + 1 , p ) − (t_{i+1,p})^- (ti+1,p) ( t i + 1 , p ) + (t_{i+1,p})^+ (ti+1,p)+ 进行积分,得到

∫ ( t i + 1 , p ) − ( t i + 1 , p ) + d γ d t L ^ p ( γ ) d γ = ∫ ( t i + 1 , p ) − ( t i + 1 , p ) + e p ( γ ) − α ( L ^ p ( γ ) − L A p ( γ ) ) d γ , \int_{(t_{i+1,p})^-}^{(t_{i+1,p})^+} \frac{d\gamma}{dt} \hat{L}^p(\gamma) d\gamma = \int_{(t_{i+1,p})^-}^{(t_{i+1,p})^+} e_p(\gamma) - \alpha \left( \hat{L}^p(\gamma) - L_A^p(\gamma) \right) d\gamma, (ti+1,p)(ti+1,p)+dtdγL^p(γ)dγ=(ti+1,p)(ti+1,p)+ep(γ)α(L^p(γ)LAp(γ))dγ,

这导致一个单位步长,由事件的对比度阈值和符号缩放:

L ^ p ( t i + 1 , p ) + − L ^ p ( t i + 1 , p ) − = c σ i + 1 , p . \hat{L}^p(t_{i+1,p})^+ - \hat{L}^p(t_{i+1,p})^- = c \sigma_{i+1,p}. L^p(ti+1,p)+L^p(ti+1,p)=cσi+1,p.

我们使用解

L ^ p ( t i + 1 , p ) = L ^ p ( t i + 1 , p ) − + c σ i + 1 , p , \hat{L}^p(t_{i+1,p}) = \hat{L}^p(t_{i+1,p})^- + c \sigma_{i+1,p}, L^p(ti+1,p)=L^p(ti+1,p)+cσi+1,p,

作为下一个时间间隔的初始条件。(9)、(12)和(16)描述了滤波器(7)的完整解。

注 IV.1:滤波器也可以仅使用事件而不使用图像帧运行,通过在(7)中将 L A p ( t ) L_A^p(t) LAp(t) 设置为0,结果是高通滤波器,角频率为 α \alpha α

L ^ ˙ p ( t ) = e p ( t ) − α L ^ p ( t ) . \dot{\hat{L}}^p(t) = e_p(t) - \alpha \hat{L}^p(t). L^˙p(t)=ep(t)αL^p(t).

这种方法可以有效地从纯事件生成合理的图像状态估计,适用于一系列应用,其中高图像质量并非关键。

B. 异步卡尔曼滤波器

在本节中,我们引入了卡尔曼增益模块,它整合了事件和帧数据的不确定性模型,动态计算滤波器增益。我们提出了一个连续时间随机模型来模拟对数强度状态

d L p = e p ( t ) d t + d W p , dL_p = e_p(t)dt + dW_p, dLp=ep(t)dt+dWp,

L A p ( t i p ) = L p ( t i p ) + μ i p , L_A^p(t_i^p) = L_p(t_i^p) + \mu_i^p, LAp(tip)=Lp(tip)+μip,

其中 d W p dW_p dWp 是维纳过程(连续时间随机过程), μ i p \mu_i^p μip 是与第III节和补充材料第I、II节中介绍的模型相关的连续时间对数强度帧噪声。这里 L A ( t ) L_A(t) LA(t) 是增强后的图像(见图2),符号也作为测量方程,其中 L p ( t i p ) L_p(t_i^p) Lp(tip) 是真实的(对数)图像强度。所采取的方法是实现一个卡尔曼-布西滤波器来生成真实状态 L p ( t ) L_p(t) Lp(t) 的估计 L ^ p ( t ) \hat{L}^p(t) L^p(t) 。与所有卡尔曼-布西滤波器一样,生成算法包括系统模型的一个副本和计算估计 L ^ p ( t ) \hat{L}^p(t) L^p(t) 的校正,这取决于通过Riccati方程并行计算的卡尔曼增益 K p ( t ) K_p(t) Kp(t) 其中 K p ( t ) K_p(t) Kp(t) 是卡尔曼增益,如下所定义(公式20)。与互补滤波器类似,我们通过一系列时间间隔 t ∈ [ t i , p , t i + 1 , p ] t \in [t_{i,p}, t_{i+1,p}] t[ti,p,ti+1,p] 解决这个常微分方程。

将卡尔曼增益 K p ( t ) K_p(t) Kp(t) 从公式(20)和(22)代入, t t t 在帧或事件之间的解析解为:

L ^ p ( t ) = [ L ^ p ( t i , p ) − L A p ( t i , p ) ] ⋅ P p − 1 ( t i , p ) + R p − 1 ( t ) ⋅ ( t − t i , p ) + L A p ( t ) . \hat{L}^p(t) = \left[ \hat{L}^p(t_{i,p}) - L_A^p(t_{i,p}) \right] \cdot P_p^{-1}(t_{i,p}) + R_p^{-1}(t) \cdot (t - t_{i,p}) + L_A^p(t). L^p(t)=[L^p(ti,p)LAp(ti,p)]Pp1(ti,p)+Rp1(t)(tti,p)+LAp(t).

L ^ p ( t ) \hat{L}^p(t) L^p(t) 的详细推导过程请参考在线提供的补充材料第VI节。离散更新在事件和帧时间 t i , p t_{i,p} ti,p 与互补滤波器相同;对于帧数据是公式(12),对于事件数据是公式(16)。

  1. 异步卡尔曼增益:异步卡尔曼滤波器计算基于像素的增益 K p ( t ) K_p(t) Kp(t) ,该增益源自状态和传感器不确定性的估计。卡尔曼增益由下式给出[23][24]:

K p ( t ) = P p ( t ) R p − 1 ( t ) , K_p(t) = P_p(t) R_p^{-1}(t), Kp(t)=Pp(t)Rp1(t),

其中 P p ( t ) > 0 P_p(t) > 0 Pp(t)>0 表示滤波器中状态估计的协方差, R p ( t ) R_p(t) Rp(t) (公式6)是像素 p p p 的对数强度帧协方差。标准的Riccati方程[70][71]控制着滤波器状态协方差的演变,由下式给出:

P ˙ p = − P p 2 R p − 1 ( t ) + Q p ( t ) , \dot{P}_p = -P_p^2 R_p^{-1}(t) + Q_p(t), P˙p=Pp2Rp1(t)+Qp(t),

其中 Q p ( t ) Q_p(t) Qp(t) (公式2)是事件噪声协方差。这里,事件噪声模型(公式2)的选择是当信息更新发生时作为离散噪声,意味着Riccati方程也可以在时间间隔 t ∈ [ t i , p , t i + 1 , p ] t \in [t_{i,p}, t_{i+1,p}] t[ti,p,ti+1,p] 内以及在新事件时间戳 t i + 1 , p t_{i+1,p} ti+1,p 分别求解。

在时间间隔 t ∈ [ t i , p , t i + 1 , p ) t \in [t_{i,p}, t_{i+1,p}) t[ti,p,ti+1,p) (没有新的事件或帧发生)内,状态协方差 P p ( t ) P_p(t) Pp(t) 通过常微分方程异步更新:

P ˙ p ( t ) = − P p 2 ( t ) ⋅ R p − 1 ( t ) . \dot{P}_p(t) = -P_p^2(t) \cdot R_p^{-1}(t). P˙p(t)=Pp2(t)Rp1(t).

由于 R p ( t ) R_p(t) Rp(t) 在这个时间间隔内是常数,那么(21)的解为:

P p ( t ) = 1 P p − 1 ( t i , p ) + R p − 1 ( t ) ⋅ ( t − t i , p ) , P_p(t) = \frac{1}{P_p^{-1}(t_{i,p}) + R_p^{-1}(t) \cdot (t - t_{i,p})}, Pp(t)=Pp1(ti,p)+Rp1(t)(tti,p)1,

对于 t ∈ [ t i , p , t i + 1 , p ) t \in [t_{i,p}, t_{i+1,p}) t[ti,p,ti+1,p) 。在新事件时间戳 t i + 1 , p t_{i+1,p} ti+1,p ,状态协方差 P p ( t ) P_p(t) Pp(t) 由下式给出:

P p ( t i + 1 , p ) = P p ( t ( i + 1 ) − , p ) + Q p ( t i + 1 , p ) . P_p(t_{i+1,p}) = P_p(t_{(i+1)^-,p}) + Q_p(t_{i+1,p}). Pp(ti+1,p)=Pp(t(i+1),p)+Qp(ti+1,p).

通过将(22)和(23)代入(20),可以得到卡尔曼滤波增益的显式解。有关 P p ( t ) P_p(t) Pp(t) 的推导,请参考在线提供的补充材料第VII节。解被代入(18)以获得(19)。

C. 帧增强

  1. 去模糊:由于长时间曝光或快速运动,强度图像 L F L_F LF 可能会受到严重的运动模糊影响。我们使用[10]中的双积分模型(EDI)来锐化模糊的低频图像,以获得两个去模糊图像,分别在曝光周期 τ k \tau_k τk τ k + 1 \tau_{k+1} τk+1 的中点。它可以扩展到 L D p ( τ k + T / 2 ) L_D^p(\tau_k + T/2) LDp(τk+T/2) τ k \tau_k τk 的曝光结束时,以及 L D p ( τ k + 1 − T / 2 ) L_D^p(\tau_{k+1} - T/2) LDp(τk+1T/2) τ k + 1 \tau_{k+1} τk+1 的曝光开始时,通过事件直接积分(见图3)。

  1. 时间插值:插值模块的目标是提高帧数据的时间分辨率。这对于克服在先前工作中观察到的重影效应非常重要,其中图像帧使用零阶保持假设[20][25]进行插值。

插值 L A p ( t ) L_A^p(t) LAp(t) 在曝光期间的计算通过事件直接积分去模糊图像 L D p ( τ k ) L_D^p(\tau_k) LDp(τk) 来完成:

L A p ( t ) = { L D p ( τ k ) − ∫ t τ k e p ( γ ) d γ , 如果 t ∈ [ τ k − T / 2 , τ k ) , L D p ( τ k ) + ∫ τ k t e p ( γ ) d γ , 如果 t ∈ [ τ k , τ k + T / 2 ) . L_A^p(t) = \begin{cases} L_D^p(\tau_k) - \int_{t}^{\tau_k} e_p(\gamma) d\gamma, & \text{如果} t \in [\tau_k - T/2, \tau_k), \\ L_D^p(\tau_k) + \int_{\tau_k}^{t} e_p(\gamma) d\gamma, & \text{如果} t \in [\tau_k, \tau_k + T/2). \end{cases} LAp(t)={LDp(τk)tτkep(γ)dγ,LDp(τk)+τktep(γ)dγ,如果t[τkT/2,τk),如果t[τk,τk+T/2).

要在两个帧曝光周期之间,从 ( τ k + T / 2 ) (\tau_k + T/2) (τk+T/2) ( τ k + 1 − T / 2 ) (\tau_{k+1} - T/2) (τk+1T/2) 的第 i i i 个事件时间戳估计像素 p p p 的强度,我们从曝光结束时的去模糊图像 L D p ( τ k + T / 2 ) L_D^p(\tau_k + T/2) LDp(τk+T/2) 开始向前积分。

即前向插值为:

L A p − ( t ) = L D p ( τ k + T / 2 ) + ∫ τ k + T / 2 t e p ( γ ) d γ . {L_A}^-_p(t) = L_D^p(\tau_k + T/2) + \int_{\tau_k + T/2}^{t} e_p(\gamma) d\gamma. LAp(t)=LDp(τk+T/2)+τk+T/2tep(γ)dγ.

其中 KaTeX parse error: Double subscript at position 6: L_A^-_̲p 表示前向插值图像。类似地,我们从曝光开始 ( τ k + 1 − T / 2 ) (\tau_{k+1} - T/2) (τk+1T/2) 向后插值以获得:

L A p + ( t ) = L D p ( τ k + 1 − T / 2 ) − ∫ t τ k + 1 − T / 2 e p ( γ ) d γ . {L_A}^+_p(t) = L_D^p(\tau_{k+1} - T/2) - \int_{t}^{\tau_{k+1} - T/2} e_p(\gamma) d\gamma. LAp+(t)=LDp(τk+1T/2)tτk+1T/2ep(γ)dγ.

理想情况下,如果没有缺失或有偏的事件,并且帧数据没有噪声,那么由真实对比度阈值计算得到的前向和后向插值结果 L A p − ( t i , p ) {L_A}^-_p(t_{i,p}) LAp(ti,p) L A p + ( t i , p ) {L_A}^+_p(t_{i,p}) LAp+(ti,p) 应该是相等的。然而,事件流或帧数据中的噪声会导致两种插值结果不同。我们通过每个插值周期中每个像素的对比度阈值的校准来协调这两个估计值。定义对比度阈值的缩放因子为:

c k , p : = L D p ( τ k + 1 − T / 2 ) − L D p ( τ k + T / 2 ) ∫ τ k + T / 2 τ k + 1 − T / 2 e p ( γ ) d γ . c_{k,p} := \frac{L_D^p(\tau_{k+1} - T/2) - L_D^p(\tau_k + T/2)}{\int_{\tau_k + T/2}^{\tau_{k+1} - T/2} e_p(\gamma) d\gamma}. ck,p:=τk+T/2τk+1T/2ep(γ)dγLDp(τk+1T/2)LDp(τk+T/2).

这种校准可以看作是使用事件积分在去模糊帧之间提供的形状,并通过改变对比度阈值来垂直拉伸或压缩插值以适应去模糊的帧数据(见图3)。这在补偿恢复期噪声特别有效,其中缺失事件在时间上与剩余事件相关联。

帧间插值 L A p ( t ) L_A^p(t) LAp(t) 定义为前向和后向插值的加权平均:

L A p ( t ) = ( 1 − w ) L A p + ( t ) + w L A p − ( t ) , t ∈ [ τ k + T / 2 , τ k + 1 − T / 2 ) , {L_A}^p(t) = (1 - w) {L_A}^+_p(t) + w {L_A}^-_p(t), \quad t \in [\tau_k + T/2, \tau_{k+1} - T/2), LAp(t)=(1w)LAp+(t)+wLAp(t),t[τk+T/2,τk+1T/2),

其中 w w w 是前向和后向插值之间的权重,定义为:

w = t − ( τ k + T / 2 ) τ k + 1 − τ k − T . w = \frac{t - (\tau_k + T/2)}{\tau_{k+1} - \tau_k - T}. w=τk+1τkTt(τk+T/2).

注 IV.2:为了降低计算成本,可以跳过帧增强过程,并在原始对数强度帧上运行滤波器,使用零阶保持(ZOH),类似于互补滤波器[20]:

L A p ( t ) : = L F p ( τ ) , τ ≤ t < τ + 1. L_A^p(t) := L_F^p(\tau),\quad \tau \leq t < \tau + 1. LAp(t):=LFp(τ),τt<τ+1.

结果算法是具有像素级卡尔曼增益调整的互补滤波器。我们在第V节中评估了这种简化,并证明帧增强对于克服重影效应非常重要。

D. 基于事件的空间卷积

空间事件卷积需要考虑像素局部邻域中的事件以及在该像素上发生的事件。考虑所有像素上的所有事件的全局索引

event j = ( t j , p j , σ j ) , j ∈ { 1 , 2 , 3 , . . . } . \text{event}_j = (t_j, p_j, \sigma_j), \quad j \in \{1, 2, 3, ...\}. eventj=(tj,pj,σj),j{1,2,3,...}.

类似于公式(1),全局连续事件场表示为

E ( p , t ) = ∑ j = 1 ∞ ( c σ j + η j ) δ ( t − t j ) δ p p j , E(p, t) = \sum_{j=1}^{\infty} (c \sigma_j + \eta_j) \delta(t - t_j) \delta_{p p_j}, E(p,t)=j=1(cσj+ηj)δ(ttj)δppj,

其中 δ ( t ) \delta(t) δ(t) 是狄拉克δ函数, δ p p j \delta_{p p_j} δppj 是克罗内克δ函数;当 p = p j p = p_j p=pj δ p p j = 1 \delta_{p p_j} = 1 δppj=1 ,否则为零[62]。事件的积分是

∫ 0 t E ( p , γ ) d γ ≈ L ( p , t ) − L ( p , 0 ) , \int_{0}^{t} E(p, \gamma) d\gamma \approx L(p, t) - L(p, 0), 0tE(p,γ)dγL(p,t)L(p,0),

其中 L ( p , t ) L(p, t) L(p,t) 是相机看到的对数强度,初始条件为 L ( p , 0 ) L(p, 0) L(p,0) 。设 K K K 表示具有有限支持的线性空间核。考虑 K K K L ( p , t ) L(p, t) L(p,t) 的卷积。定义

L K ( p , t ) : = K ∗ L ( p , t ) . L_K(p, t) := K * L(p, t). LK(p,t):=KL(p,t).

注意,核 K K K 的卷积仅在空间上的第一个维度 p p p 上应用。使用(32)和(33),推导出卷积为

L K ( p , t ) ≈ K ∗ L ( p , 0 ) + ∫ 0 t K ∗ E ( p , γ ) d γ , L_K(p, t) \approx K * L(p, 0) + \int_{0}^{t} K * E(p, \gamma) d\gamma, LK(p,t)KL(p,0)+0tKE(p,γ)dγ,

≈ K ∗ L ( p , 0 ) + ∫ 0 t ∑ j = 1 ∞ c σ j δ ( γ − t j ) K ∗ δ p p j d γ , \approx K * L(p, 0) + \int_{0}^{t} \sum_{j=1}^{\infty} c \sigma_j \delta(\gamma - t_j) K * \delta_{p p_j} d\gamma, KL(p,0)+0tj=1cσjδ(γtj)Kδppjdγ,

≈ K ∗ L ( p , 0 ) + ∫ 0 t E K ( p , γ ) d γ , \approx K * L(p, 0) + \int_{0}^{t} E_K(p, \gamma) d\gamma, KL(p,0)+0tEK(p,γ)dγ,

其中

E K ( p , t ) : = ∑ j = 1 ∞ c σ j δ ( t − t j ) K ∗ δ p p j . E_K(p, t) := \sum_{j=1}^{\infty} c \sigma_j \delta(t - t_j) K * \delta_{p p_j}. EK(p,t):=j=1cσjδ(ttj)Kδppj.

这里 K ∗ δ p p j K * \delta_{p p_j} Kδppj 是有限支持核 K K K 与具有单个非零像素 p = p j p = p_j p=pj 的图像 δ p p j \delta_{p p_j} δppj 的空间卷积,其值为1。这样卷积的结果是,除了以 p j p_j pj 为中心的补丁(与 K K K 的大小相同)中的值来自 K K K 的系数外,其他地方的像素值都为零。事件场 E K ( p , t ) E_K(p, t) EK(p,t) 的卷积可以被看作是在像素 p j p_j pj 上以相同时间戳 t j t_j tj 发生的有限(局部)集合的空间分离事件。

E. 用于卷积事件的连续时间滤波器

为了通过融合事件和帧来计算图像的空间卷积,我们遵循上述步骤。事件流被卷积事件流(35)替换,图像帧被对数强度帧的卷积版本(34)替换,如图2所示。

可以并行运行多个不同的滤波器。例如,如果需要梯度估计,则可以使用适当的方向核(Sobel、中心差分等)同时运行两个滤波器状态( G ^ x , G ^ y \hat{G}_x, \hat{G}_y G^x,G^y )来获得x和y分量。卷积事件场增加了必须在任何给定像素处处理的事件数量,输入图像的卷积也增加了算法的计算复杂性。然而,该算法非常适合嵌入式实现,并且随着越来越多的处理能力在像素级别上变得可用,它在未来可能非常有效。

V. 实验

概述:本节旨在评估我们提出的方法的性能。我们比较了视频重建方法CF和AKF与现有的最先进方法,并提供了计算复杂性分析和CF、AKF以及帧增强步骤的消融研究,以展示每个步骤的有效性和成本。此外,我们讨论了我们视频重建方法的局限性,并展示了事件卷积的性能。

比较:有两种可用的开源事件基础HDR图像重建方法:E2VID [13]和ECNN [14]。这两种方法都是神经网络,使用时空事件窗口,在两个视频帧时间戳之间生成输入张量,处理后生成视频序列中的单个HDR图像。这两种神经网络是在使用模拟和DAVIS事件相机数据集的组合上训练的。我们还比较了最近的一种HDR图像重建方法,Han等人[6],它使用事件和帧作为输入。此外,EDI算法[10]结合事件和帧提供高质量的图像重建,然后在每个曝光周期内使用直接积分进行帧间异步重建。这种算法去模糊并增强了LDR输入数据,与我们提出的帧间异步重建特别相关。我们没有比较TimeLens[7]、[18],因为这些算法将LDR输入数据视为关键帧,并不改善HDR或进行图像去模糊。

为了评估我们算法的HDR性能,我们在三个立体混合事件帧数据集(帧和事件数据来自不同传感器)中提取的序列上比较了我们提出的互补滤波器(CF)和异步卡尔曼滤波器(AKF)与E2VID [13]、ECNN [14]和Han等人[6]算法:最新的开源混合事件帧相机驾驶数据集DSEC [11]和我们收集的两个针对HDR数据集(HDR和AHDR)的立体混合事件帧系统(在补充材料中讨论,可在线获取)。

图4显示了DSEC数据集[11]的比较结果,而图5和表I展示了我们提出的HDR和AHDR数据集的定性和定量结果。我们还定性分析了来自流行的开源DAVIS事件摄像机数据集ACD [20]、CED [72]和IJRR [73](图6)的一些具有挑战性的序列,并对IJRR [73]中的一些基准图像重建序列进行了定性评估(表二.执行情况。为了评估所提出算法的异步视频重建,我们分析了从Mueggler等人[73]中提取的具有快速摄像机运动的数据集。我们比较了EDI [10]、CF和AKF方法,如图7所示。我们的AKF管道消融研究如图8和图9所示。






实现细节:CF算法只有一个参数,即截止频率。对于所示的例子,这在15-30 rad/s之间选择,细节在下面的讨论中指出。对于AKF算法:将事件噪声协方差Qp(2)初始化为0.01。事件噪声协方差调整参数(2)设置为: σ r e f . 2 = 0.05 σ^{2}_{ref.}=0.05 σref.2=0.05 σ p r o c 2 = 0.0005 σ^{2}_{proc} =0.0005 σproc2=0.0005 σ i s o . 2 = 0.03 σ^{2}_{iso.}=0.03 σiso.2=0.03的整数。

A. 主要结果

DSEC立体混合事件帧数据集:在图4中,比较了五种方法在城市夜间驾驶、高对比度隧道和其他一些户外具有挑战性场景的DSEC数据集[11]中的驾驶序列。

E2VID[13] 产生平滑的结果,但大多数夜间驾驶场景太暗。可能是因为E2VID[13]网络是在使用DAVIS数据集的模拟数据上训练的,学习到的事件噪声模型可能不适用于DSEC数据集[11]中使用的Prophesee事件相机。ECNN[14]在这个数据集上比E2VID[13]表现更好。可能是因为ECNN[14]使用了一个训练数据集,该数据集具有更高的变化性和更大的对比阈值范围。该算法仍然在有噪声或事件数据不足的区域(例如夜间驾驶序列中缺乏纹理的道路和暗背景)产生“雾状”伪影。Han等人[6]融合了成对的E2VID[13]重建和LDR输入图像。该网络能够结合两种图像和事件中的有用信息。例如,明亮的隧道出口和来自事件的反射性道路,以及来自LDR帧的充分曝光区域的密集强度信息。然而,他们使用的HDR引导基于一个纯事件网络[13]重建的强度图像,该网络已经丢失了场景的真实亮度变化。因此,原始输出图像的绝对强度水平不准确。该网络也没有补偿LDR输入数据中的模糊,所以重建图像受到运动模糊的影响;例如隧道中的路边草地和汽车。我们的CF和AKF随机滤波器比基于深度学习的方法有更好的结果。CF能够很好地重建夜间场景中的暗物体,但与AKF相比,重建仍然模糊且有噪声。例如,AKF提供了更清晰的路边建筑、树木、草地、汽车、围栏和人物的重建。AKF的视频重建也比CF有更少的“阴影效应”,例如在所有驾驶数据集中白色分隔线后面的黑色阴影。

HDR/AHDR立体混合事件帧数据集:图5展示了我们提出的HDR和AHDR数据集的LDR输入、重建和参考图像的典型样本。HDR数据集“树木”包括一些曝光不足的树木(左侧)和两棵曝光过度的树木(右侧)。第二行,我们的AHDR序列“山脉”被人为地饱和了(8位图像的像素值高于175或低于80,去除了大部分细节)。原始图像用作HDR参考。E2VID[13]正确地重建了右侧的两棵树,尽管树的相对强度太暗。但是E2VID[13]在“树木”左下角的黑暗区域和“山脉”中的路面/天空表现不佳,因为它缺乏事件。ECNN[14]因为对这个数据集中的嘈杂事件很敏感而表现不佳,例如“树木”中相机旋转中心附近事件较少,以及AHDR序列“山脉”中天空中的热点像素。Han等人[6]能够重建“树木”中的过曝和欠曝区域,但“山脉”中的路面不清晰,重建结果受到不准确的强度水平和图像边缘附近出现的伪影的影响。我们的CF正确地融合了事件数据和低动态范围帧,但在对象边缘(树木和山路)仍然存在“阴影效应”。我们的AKF通过动态调整每个像素的卡尔曼增益,根据我们提出的事件和帧不确定性模型,显著减少了伪影。此外,与CF在“树木”左侧的明显旋转运动相比,AKF中的去模糊模型还生成了更清晰的树干。

我们还使用以下指标对我们提出的HDR和AHDR数据集中的图像重建质量进行了定量评估:均方误差(MSE)、结构相似性指数度量(SSIM)[74]和Q分数[75]。SSIM测量重建和参考之间的结构相似性。Q分数是针对HDR全参考评估量身定制的指标。所有指标都是在未修改的重建和原始HDR强度上计算的。

表I显示,我们的AKF在HDR/AHDR数据集上的MSE、SSIM和Q分数方面都优于其他方法。不足为奇的是,我们的AKF优于E2VID[13]和ECNN[14],因为它除了事件之外还利用了帧信息。AKF在绝对强度误差MSE方面分别比E2VID[13]和Han等人[6]有71.5%和69.4%的显著降低。图像相似性指标SSIM和Q分数分别提高了55.6%和28.0%对于E2VID[13],以及46.1%和24.8%对于Han等人[6]。

DAVIS数据集:图6展示了在DAVIS数据集ACD[20]、CED[72]和IJRR[73]中的具有挑战性的HDR场景中,基于事件的重建方法的定性评估。夜驾调查了极低光照、高速、夜间驾驶场景,DAVIS帧模糊且曝光不足/过度。户外跑步评估了过度曝光的户外场景和事件相机噪声。Box_6dof评估了高速相机运动下的高纹理、HDR室内环境。E2VID[13]和ECNN[14]能够捕捉HDR对象(例如夜驾中的右转标志,Box_6dof中的盒子纹理),但E2VID[13]的洗涤效果失去了整体场景强度,ECNN[14]在静态背景上引入了伪影。在户外跑步中,E2VID[13]和ECNN[14]无法在黑暗的道路和明亮的左侧建筑物和天空背景之间再现正确的高动态范围强度。ECNN[14]在户外跑步中间区域的事件噪声在重建中也很明显。Han等人[6]使用帧和事件数据,但性能受到模糊的LDR输入图像的影响。例如,“右转”标志在E2VID[13]重建中很清楚,但在与模糊的LDR图像融合后,"右转"标志信息丢失了。输出重建失去了LDR图像的绝对亮度信息,生成了带有不准确强度的“洗涤”图像。我们的CF也因快速相机运动而出现模糊,并且对热点像素和事件噪声很敏感。同样,CF在对象边缘(路标和建筑物)上表现出“阴影效应”,这是由于使用所有像素的恒定截止频率造成的。我们的AKF算法通过动态调整每个像素的卡尔曼增益,根据我们提出的事件和帧不确定性模型,能够清晰地解析街道标志上的右转箭头,并且没有像CF中看到的那样的“阴影效应”。AKF能够解析出远处的建筑物,尽管它们在DAVIS帧中太亮并且被洗掉了。此外,它还能够补偿所有序列中存在的热点像素。框架增强使DAVIS帧去模糊并减少了高数据率事件和低数据率帧之间的时间不匹配。AKF在所有具有挑战性的场景中重建了最清晰、最详细的HDR对象。

IJRR数据集[73]作为流行的事件相机数据集,通常用于视频重建。尽管该数据集不是针对HDR数据的,并且不提供HDR参考以进行定量评估,但仍然可以通过对帧数据进行子采样来评估算法重建未知真实图像的能力。为了在DAVIS数据集上进行定量评估,我们使用每隔一个图像帧作为算法的输入,然后使用中间图像帧作为真实图像来评估重建质量,使用定量指标。由于Han等人[6]的算法只在LDR输入数据的时间戳上重建图像,我们无法将其评估在表II中,这将需要连续时间视频重建。除了MSE和SSIM,我们还评估了学习感知图像块相似性(LPIPS)[76]。表II显示,对于MSE和SSIM,AKF总是最好的,尽管CF在LPIPS上大致相等。我们认为,CF和AKF之间性能差距的减少是由于“更干净”的帧数据不像我们的HDR数据那样处于曝光不足/过度状态。E2VID[13]/ECNN[14]与AKF之间的MSE之间的大差距在SSIM和LPIPS上不太明显,这与纯事件重建方法相对于绝对强度更忠实于场景结构的直觉一致。有关每个序列的评估,请参见在线提供的补充材料表II。

AKF和CF在立体混合事件帧数据集DESC[11]和HDR/AHDR中的表现明显优于比较算法。这是因为这些序列中的数据质量更好,事件和帧数据来自具有改进的噪声特性、分辨率和帧率的不同传感器。显式算法(如CF和AKF)的一个明显优势是它们能够直接利用高质量的数据,而基于学习的方法(如E2VID[13]、ECNN[14])必须重新训练。此外,作者认为,随着数据质量的提高,学习方法的优势,在信息不足的情况下使用先验知识重建图像的能力将会降低。结果表明,CF和AKF在高质量数据集上优于基于学习的方法的潜力。

异步重建方法评估:除了在具有挑战性的照明条件下使用HDR方法E2VID[13]和ECNN[14]评估图像重建外,本节中,我们展示了EDI[10]、CF和AKF在具有快速相机运动的公开可用事件相机数据集IJRR[73]上的帧间重建性能。

我们使用的数据显示了事件相机中的两个连续的强度图像帧。当前帧以红色显示,前一帧以蓝色显示。图像之间的相对较大的间隔是由于快速的相机运动,使得帧间重建变得具有挑战性。图7(b)-(d)展示了由EDI[10]、我们的CF和AKF方法在两帧之间的图像重建。EDI[10]、我们的CF和AKF方法能够持续生成视频,并且性能是在两个帧之间的中间时间戳处进行评估的。图7(b)展示了EDI[10]的帧间重建。它将前一个原始图像去模糊成锐利图像,然后累积事件直到中间帧时间戳。简单的直接事件积分模型导致前一个图像的边界阴影明显。这是因为在直接积分过程中,EDI[10]使用相同的对比度阈值累积所有像素的事件,遗漏或嘈杂的事件,以及不准确的事件对比度阈值导致帧和事件数据之间的不匹配。因此,直接积分未能完全更新边界像素。

我们的基于滤波器的图像重建方法CF在图7©中“忘记”了先前的信息,具有恒定的滤波增益。它的零阶保持假设要求帧之间的运动很小。在快速运动场景中,它将高时间分辨率的事件与最新的低时间分辨率帧结合起来。不匹配的强度变化导致移动对象方向上出现拖影。我们的完整AKF管线通过增加帧时间分辨率和动态匹配帧和事件数据之间的强度变化,克服了其他两种方法的局限性。图7(d)显示,我们的AKF实现了最佳的帧间重建。

B. 计算复杂性

异步滤波方法AKF和CF的时间复杂性都是事件智能操作,它们执行几个O(1)操作的线性组合,总体上对于N个事件是O(N)复杂度。在帧增强步骤中,去模糊的复杂性是O§,对比度阈值校准的复杂性是O(N + M),其中P是在曝光期间到达的事件数量,N是两个图像之间的事件数量(不包括曝光时间),每个图像包含M个像素。值得注意的是,去模糊和对比度阈值校准只针对每个图像计算一次。因此,帧增强步骤的计算复杂度可以认为是O(P + N + M)。该框架是用MATLAB实现的。在我们的完整AKF管线中,处理10张图像和超过400万事件,分辨率为480×640,在单个Intel Core i7-7700 K CPU上以4.20 GHz运行,平均每个图像大约需要1秒。值得注意的是,我们的AKF算法非常适合并行像素级嵌入式实现,例如在FPGA或传感器芯片硬件中。目前的代码完全旨在展示方法的潜力,实时实现的问题超出了当前工作的范围。

C. 消融研究

AKF的HDR图像重建性能得益于流水线的三个关键贡献:帧增强过程、互补滤波器和异步卡尔曼增益。为了验证每个模块的有效性,我们提供了以下消融研究。

帧增强:帧增强包括EDI[10]的去模糊方案和复杂的时间插值。对于在帧时间戳上的重建(不是帧间),帧增强直接基于EDI[10]的既定性能。为了分析AKF在帧增强步骤之外的性能,EDI[10]和完整AKF管线在图8中进行了比较。在我们的帧增强步骤中,EDI[10]通过将帧与在曝光时间内到达的事件关联起来,生成了锐利的图像。由于EDI[10]不是为HDR设计的[10],并且每个帧的曝光时间相对较短,因此只有在短曝光时间内发生事件的像素才能正确恢复,如图8(b)中的网格边缘。此外,在图8(e)中的Interlake_01a数据集中,由于强烈的阳光反射,帧相机设置为自动曝光模式,因此在如此强烈的阳光反射场景中,曝光时间非常短,没有足够的事件在短曝光时间内到达。另外,在图8(d)中的高反射区域,强度变化可能非常快,因此这些区域的像素可能达到恢复期,导致大量跳过的事件。没有利用历史事件帧信息或像我们的完整AKF管线那样动态调整HDR区域的对比度阈值,EDI[10]只模拟了曝光时间内的帧辐照度累积和发生事件。作为一种去模糊方法,它出人意料地很好地恢复了一些HDR区域,尽管整体重建仍然明显曝光过度。图8©和(f)在强阳光反射区域包含了更多的网格和道路纹理。AKF通过利用滤波器状态的固有“记忆”,恢复了过曝光区域的详细强度。此外,反射区域像素的不确定性远高于图像的其余部分,因此AKF在很大程度上依赖历史滤波器状态和事件数据,生成了在具有挑战性的HDR场景中清晰的物体纹理。

卡尔曼增益:为了研究帧增强和卡尔曼增益模块在不同条件下的相对贡献,我们对快速运动的Shapes_6dof数据集和HDR数据集Tree_rotation进行了消融研究。

类似于图7©,CF的零阶保持假设在图9(a)中的快速运动场景中失败了。帧和事件数据之间的不匹配导致了帧间滤波器状态更新时的重建误差。与图9(b)相比,时间强度插值为CF提供了准确的参考图像,用于帧之间的数据融合。因此,大部分由于延迟参考图像而引起的“双边缘”被移除了。对于AKF来说也是一样。如果没有帧增强,AKF使用每个像素的卡尔曼增益将事件数据和最新帧融合起来。图9(e)中的结果也显示出与CF在图9(a)中相似的由于不匹配的参考帧而引起的明显阴影。因为在这个数据集中DAVIS帧是可靠的(没有过曝或欠曝的区域),动态计算卡尔曼增益并没有明显的区别。然而,添加帧增强在具有快速相机运动的数据集中起到了作用。完整的AKF管线在图9(f)中实现了清晰的重建。

HDR场景Tree_rotation在图9©-(d)和(g)-(h)中展示。将帧增强从图9©添加到(d)对CF的重建性能影响很小,但是根据我们的帧和事件数据不确定性模型计算卡尔曼增益显著改进了从©到(g)的HDR重建。这是因为在极端照明条件下帧不可靠;例如,在Tree_rotation中大部分天空像素太亮并且饱和了。利用卡尔曼增益可以通过识别在帧中不确定性较大的像素,并更多地依赖事件数据和历史滤波器状态,逐像素平衡数据融合。但是在CF中,对所有像素使用了一个恒定的指数衰减率,导致了图9©和(d)中树木后面的白色拖影。从图9(d)到(h),用卡尔曼增益替换恒定的互补增益也改进了HDR重建性能。与没有帧增强的AKF(g)相比,我们的完整AKF管线(h)通过去模糊和提高帧时间分辨率略微改进了性能。尽管Tree_rotation不是一个高速数据集,但(h)中完整AKF管线的重建比(g)清晰得多。我们的消融研究表明,帧增强在快速运动场景中提高了性能,而卡尔曼增益估计在HDR图像重建中很重要。

D. 局限性

作为一个初步模型,我们的CF使用恒定增益将零阶保持帧和高时间分辨率的事件数据融合。零阶保持假设的低频帧在快速运动场景中导致了帧和事件数据之间的时间延迟,从而在重建中产生了“双边缘”。恒定滤波增益也限制了CF的HDR属性。我们的完整AKF管线通过基于事件的帧间时间插值克服了帧数据低时间分辨率的限制。AKF通过使用根据我们提出的帧-事件噪声模型动态调整的滤波增益,实现了比CF更好的HDR重建。AKF的优越性能是以比CF更高的复杂性为代价的,并且对事件数据中的非高斯噪声更敏感。

作为一个显式算法,AKF基于相机的统计噪声模型直接从事件-帧数据重建视频。由于AKF不需要训练过程,所以它不能像其他基于机器学习的方法那样从数据中学习复杂的图像先验。即使有我们提出的噪声模型,AKF的噪声容忍度通常也低于基于学习的方法。然而,作者认为,随着事件传感器技术的进步,这种局限性可能变得越来越不重要。

E. 事件卷积

实验使用了多个具有挑战性的开源数据集[11]、[20]、[73]。系统的内部滤波器状态是异步的,为了可视化,我们在样本时间拍摄了瞬时快照。算法的复杂性与核中非零元素的数量线性相关。我们将对比度阈值c设置为常数,除了在帧增强中(27)。

图10显示了输入序列(night_drive[20]、boxes_6dof[73]和city09d[11])的不同滤波版本。图10的第一行显示了单位核的应用。这个核返回的结果与我们之前展示的完整AKF管线相同。接下来的序列,对于不同的核,是使用我们提出的算法生成的,并且令人信服地看起来就像是如果核已经被应用到了顶行的图像重建上一样。所提出方法的关键优势是,它不需要首先重建图像然后再计算所需的卷积,从而避免了延迟或额外的计算。例如,如果只需要高通滤波输出,计算复杂性O(n)与在重建图像上应用卷积的O(qwh)相比,要小得多,其中n是事件的数量,q是所需的输出频率,(w, h)是图像的宽度和高度。

图10中的序列是:

  • night_drive(左):在没有路灯或环境照明的乡村道路上的夜晚,只有前灯。汽车以80公里/小时的速度行驶,导致场景中相当大的运动。这个序列专注于在高速、低光条件下的性能。
  • boxes_6dof(第二左):DAVIS 240C相机在正常照明条件下的杂乱室内环境中以六个自由度移动。
  • city09d(第二右):使用更高分辨率的Prophesee事件相机和普通RGB相机的新夜间驾驶数据集。汽车在通常照明的夜间驾驶场景中行驶,展示了在高动态范围环境中的性能。
  • interlaken_01a(右):使用更高分辨率的Prophesee事件相机和普通RGB相机的新白天驾驶数据集。汽车在明亮的白天沿着道路行驶,有反光的路面、路边被雪覆盖的斜坡和许多树木的阴影。它展示了我们的卷积结果在非常高的动态范围环境中的性能。

尽管事件流中有噪声,我们的方法还是重现了场景的高保真表示。特别有趣的是注意night_drive、city09d和interlaken_01a这两个具有挑战性的序列的响应。在这两种情况下,图像清晰且细节丰富,尽管场景的动态范围很高。

第二行计算了序列的(空间)低通高斯滤波器。图像中响应的低通特性很明显。请注意,如果需要计算图像金字塔,那么通过线性组合像素值来减少图像金字塔特定级别的状态维度是一个直接的推广。得到的滤波器仍然是线性的,并且相同的滤波器方程适用。

第三行和第四行显示了Sobel核的垂直和水平方向的内部滤波器状态。第五行显示了使用图10所示的颜色轮的颜色编码梯度的图像。结果表明,即使在非常低的光线和高动态范围条件下,导数滤波器也有效。

第六行显示了图像的拉普拉斯算子。拉普拉斯核计算了梯度向量场的散度的近似值。它可以用于边缘检测:拉普拉斯响应中的零交叉对应于梯度中的弯曲,表示边缘像素。也可以使用泊松求解器从拉普拉斯图像重建原始(对数)强度图像[77][78]。

重要的是要记住,滤波器的内部状态在所有这些情况下都是直接从事件和图像流计算的。例如,如果只需要拉普拉斯算子,那么就没有必要先计算灰度图像或梯度图像。

VI. 结论

在本文中,我们介绍了一种异步线性滤波器架构,该架构可以异步地将帧与事件数据融合。估计的强度和空间卷积可以以与事件相同的时间分辨率检索,允许任意高帧率输出。所提出的滤波器还通过根据统一的事件帧不确定性模型动态调整卡尔曼滤波增益,从LDR帧和事件数据重建HDR视频。我们的方法在公开可用的数据集和我们提出的HDR混合事件帧数据集上,超越了现有的基于事件的HDR视频重建方法。此外,我们的架构与不同线性核的基于事件的空间卷积集成,并具有异步更新功能。我们相信,我们的异步线性滤波器架构对于使用事件相机以及传统基于帧的相机,在HDR场景下进行视频采集具有实际应用。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2123316.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

运维保障高效化的智慧能源开源了

一、简介 AI视频监控平台, 是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;减少企业级应用约 95%的开发成本&#xff0c;在强大视频算…

【python因果推断库13】使用 PyMC 模型进行回归断点分析

目录 线性模型、主效应模型和交互作用模型 使用bandwidth 使用基样条 import causalpy as cp %load_ext autoreload %autoreload 2 %config InlineBackend.figure_format retina seed 42 df cp.load_data("rd") 线性模型、主效应模型和交互作用模型 PyMC 采样…

教学辅助微信小程序|基于SSM+vue的高校教学微信小程序系统(源码+数据库+文档)

高校教学 目录 基于SSM教学辅助微信小程序 一、前言 二、系统设计 三、系统功能设计 小程序端 后台功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大厂码农|毕设布道师&#x…

【Python】01.Python 介绍及其环境配置

一、计算机的基础概念 1.1 什么是计算机 所谓计算机&#xff0c;不光能进行算术运算&#xff0c;还能进行逻辑判断、数据存储、网络通信等等功能&#xff0c;以至于可以自动的完成非常复杂的工作。以下这些都可以称为 “计算机” &#xff1a; 1.2 冯诺依曼体系结构 而一台…

媒体服务器软件BUG说明及改进方案

媒体服务器软件BUG说明及改进方案 一、BUG描述二、问题分析三、改进方案四、实施计划五、预期效果六、总结一、BUG描述 在当前版本的媒体服务器中,存在一个关于静音媒体流处理的问题。具体表现为:当主叫连续发送静音帧到媒体服务器时,媒体服务器并未将这些静音帧转发给被叫…

闯关leetcode——13. Roman to Integer

大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/roman-to-integer/description/ 内容 Roman numerals are represented by seven different symbols: I, V, X, L, C, D and M. SymbolValueI1V5X10L50C100D500M1000 For example, 2 is written …

CVE-2024-37032-Ollama漏洞

简介 Ollama是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单高效的接口&#xff0c;用于创建、运行和管理这些模型&#xff0c;同时还提供了一个丰富的预构建模型库&#xff0c;可以轻松集成到各种应用程序中。Ollama的目标是使大型语言模型的部…

Redis——初识Redis

初识Redis Redis认识Redis 分布式系统单机架构为什么要引入分布式理解负载均衡数据库的读写分离引入主从数据库 引入缓存数据库分库分表业务拆分——微服务常见概念了解 Redis背景介绍特性应用场景Redis不能做的事情Redis客户端redis客户端的多种形态 Redis 认识Redis 存储数…

flow model

https://www.youtube.com/watch?vuXY18nzdSsMcomponent by component(auto regresive)的生成模型存在的问题(生成的顺序&#xff0c;生成的速度慢)&#xff1b;variational auto-encoder存在的问题(optimize a maxihood lower bound&#xff0c;是一个近似)&#xff1b;genera…

【机器学习】隐马尔可夫模型的基本概念和应用领域以及在NLP中如何实现(含python代码)

引言 隐马尔可夫模型&#xff08;Hidden Markov Model&#xff0c;HMM&#xff09;是一种统计模型&#xff0c;用于描述一个含有隐含状态的马尔可夫过程 文章目录 引言一、隐马尔可夫模型的基本概念1.1 HMM的基本组成1.2 HMM的三个基本问题1.3 解决HMM问题的算法1.4 在python中…

Linux 安装神州通用数据库 ShenTong7.0.8_342.92_linux64

Linux 安装神州通用数据库 ShenTong7.0.8_342.92_linux64 1、准备工作2、安装数据库3、启停数据库4、后续步骤 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在Linux环境下安装神州通用数据库&#xff08;ShenTong&#xff09;是一个相对直…

如何通过 Apache Camel 将数据导入 Elasticsearch

作者&#xff1a;来自 Elastic Andre Luiz 使用 Apache Camel 将数据提取到 Elasticsearch 的过程将搜索引擎的稳健性与集成框架的灵活性相结合。在本文中&#xff0c;我们将探讨 Apache Camel 如何简化和优化将数据提取到 Elasticsearch。为了说明此功能&#xff0c;我们将实…

5G网络建设

题目描述 现需要在基城市进行5G网络建设&#xff0c;已经选取N个地点设置5G基站&#xff0c;编号固定为1到N&#xff0c;接下来需要各个基站之间使用光纤进行连接以确保基 站能互联互通&#xff0c;不同基站之间假设光纤的成本各不相同&#xff0c;且有些节点之间已经存在光纤…

8个动态着陆页案例及最佳实践

动态着陆页是一种让市场营销人员在不必因成百上千变量而抓狂的情况下&#xff0c;利用个性化力量的绝佳方式&#xff0c;从而让他们能够扩大努力并增长业务。使用像光年AI这样的平台&#xff0c;可以更方便地实现这一目标。 在这篇文章中&#xff0c;您将了解到&#xff1a; …

非监督式机器学习:群集

聚类分析是一种非监督式机器学习形式&#xff0c;在此形式下&#xff0c;基于观察值的数据值或特征的相似性&#xff0c;将观察值分组到群集中。 这种就是非监督式机器学习&#xff0c;因为它不使用先前已知的标签值来训练模型。 在聚类分析模型中&#xff0c;标签是群集&#…

【Nacos】健康检查与环境隔离

1. 健康检测 1.1 两种健康检查机制 Nacos作为注册中心,需要感知服务的健康状态,才能为服务调用方提供良好的服务 Nacos 中提供了两种健康检查机制: 1. 客户端主动上报机制 客户端通过心跳上报方式告知服务端(nacos注册中心)健康状态,默认心跳间隔5秒:nacos会在超过15秒未收…

内网穿透之EW使用、判断服务器是否出网

环境搭建 使用的是下面文章的环境 记一次学习--内网穿透-CSDN博客 ew代理 然后同样通过thinkphp漏洞写入文件&#xff0c;然后通过蚁剑连接 然后上传ew的Linux版本&#xff0c;然后加权执行 一层代理 正向代理 设置正向代理&#xff08;在ubuntu上&#xff09;&#xff0…

React 发现无webpack相关的配置的目录,使用eject进行创建, 安装插件需要进行配置

React 发现无webpack相关的配置的目录&#xff0c;进行创建&#xff0c; 安装插件需要进行配置 react脚手架将webpack相关的配置隐藏起来了&#xff0c;如果想要看到webpack的配置可以执行package.json文件中的一个脚本&#xff1a;“eject”: “react-scripts eject”&#x…

流媒体之HLS协议(其三)

欢迎诸位来阅读在下的博文~ 在这里&#xff0c;在下会不定期发表一些浅薄的知识和经验&#xff0c;望诸位能与在下多多交流&#xff0c;共同努力&#xff01; 江山如画&#xff0c;客心如若&#xff0c;欢迎到访&#xff0c;一展风采 文章目录 前期博客参考书籍一、HLS协议简…

TwinCAT3 实时核中ADS实现C++ server、clinet数据传输

一、基本概念 ADS &#xff1a;Automation Device Specification&#xff0c;ADS设备间进行通信的协议规范。协议定义了ADS device之间如何寻址对方、ADS device之间可以执行哪些操作、执行这些操作需要哪些参数&#xff0c;以及操作完成后如何返回结果等。从编程角度看&#…