摘要
高反射表面的三维结构光 (SL) 测量是工业计量面临的挑战。 高动态范围(HDR)技术通过融合多重曝光下的图像提供了解决方案; 然而,这个过程非常耗时。 本文报告了一种基于 SL 的新方法,仅通过一次曝光即可测量具有高反射表面的零件。 定义了一种新的定量指标,以优化选择相机曝光以捕获输入的单次曝光图像。 与现有的图像梯度或基于熵的指标不同,新指标结合了强度调制和过度曝光。 提出了一种跳跃金字塔上下文聚合网络 (SP-CAN) 来增强单次曝光捕获的图像。 与现有的图像增强方法相比,SP-CAN在增强过程中有效地保留了边缘和角落附近的详细编码相位信息。 对各种工业部件的实验表明,该方法的平均时间成本为 0.6 秒,仅为 HDR 方法(十次曝光)的十分之一,并且两种方法实现了相似的覆盖率(97.6% 对 98.0%)和 测量精度(0.040 毫米与 0.038 毫米)。
1、介绍
光学测量三维(3D)表面几何在工业检测[1]、视觉伺服[2]和视觉引导自动化[3]中得到了广泛的应用。在三维光学测量方法中,基于结构光(SL)的方法以其高精度、非接触、全视野等特点受到广泛应用[4]。基于语言的方法包括将一系列编码模式投射到目标部件。零件的表面由投影图案唯一地编码。对捕获图像的信息进行解码,通过三角剖分得到三维点云/网格[5],[6]。
基于sl的方法的一个挑战是测量具有高反射表面的部件(例如金属和电镀表面)[7]。图1(a)显示了具有一系列反射率变化的工业部件的相位编码图像。
图1(b)为传统的基于sl的三维重建结果,只有在适当光照下的特征才能被识别并很好地重建,而过度曝光区域的特征会丢失。在实际应用中,解决这一问题的有效方法是在目标部位喷涂白色粉末,形成漫射表面[8]。然而,粉末喷涂费时且会改变目标部件的表面性能,这在常规工业应用中是不希望的。另一种解决方案是将光源或相机放置在不同的视点[9]。该策略的局限性在于视点选择是经验性的,不同视点的数据融合计算成本高,测量效率较低[10]。
图1所示。(a)在单次曝光下拍摄的反射率变化范围很大的汽车零件。(b)由(a)用传统SL方法重建的三维结果,在过度曝光区域特征丢失。©融合多次曝光图像的传统HDR方法。(d) ©的融合图像及相应的三维重建结果。(e)在低照度下拍摄的单次曝光图像。(f) (e)的增强图像及相应的三维重建结果。
为了使用基于sl的方法精确测量高反射表面,开发了高动态范围(high dynamic range, HDR)技术[11]-[13]。HDR方法包括在多次曝光下测量零件。在逐渐增加的曝光下,可以捕捉到不同反射率的特征。
然后进行图像融合,将这些特征结合起来,如图1©(d)所示。由于HDR方法需要在多次曝光(例如5-20次)下捕获和融合图像,因此采集和融合过程耗时(3-10秒)[13]。
本文报道了一种测量高反射表面的新方法,只需一次曝光即可实现快速测量,同时保持较高的覆盖率和精度。本文方法在较低的照度下拍摄单次曝光图像,避免过度曝光区域的信息丢失,如图1(e)所示。由于在低照度下拍摄的单次曝光图像信号较弱,因此对图像进行增强,用于后续的三维重建(见图1(f))。实现单曝光测量需要解决两个问题:(1)图像增强必须在增强过程中保持编码图像的相位信息;(2)曝光时间必须仔细选择,以最大限度地调节图像的强度,同时避免过度曝光。
传统的图像增强技术,如小波变换[14]和Retinex[15],增强图像是为了实现可视化。它们基于频域或像素强度的分布,而不考虑编码的相位信息。因此,增强后的图像无法在下一步进行解码和重构。
近年来,卷积神经网络(CNN)已被证明是解决图像处理问题的强大工具,如去噪[16]和恢复[17]。对于这样的像素级图像增强任务,最先进的cnn[18] -[20]使用了亚历斯卷积[19],[20],以避免传统的下采样上采样结构[21]造成高频内容的损失。然而,现有的基于阿特鲁卷积的cnn(例如,上下文聚合网络(CAN)[19])使用只有一个大接受域的级联结构。
在图像增强过程中,小接受野覆盖的细节特征(如边缘区域的编码条纹变形)往往会丢失[22]。虽然金字塔结构(如亚图斯空间金字塔池(ASPP)[20])已被开发用于探测来自不同大小的感受野的特征,但由于避免过拟合的网络深度的实际限制[23],它失去了用大感受野检测特征的优势。
对于图像增强来说,输入图像的质量至关重要。在SL测量中,强度调制是指捕获图像中编码图案的幅度,希望捕获的图像具有高强度调制[5]。增加曝光时间是实现增强强度调制的主要物理手段[5],但长时间曝光会导致过度曝光区域的信息不可逆丢失。因此,需要选择适当的曝光时间,以便在防止过度曝光和最大化输入图像的强度调制之间实现权衡。虽然可以根据图像的可视化效果手动选择曝光时间,但基于可视化的定性估计容易受到主观判断的影响[24]。已经有人尝试定量地选择曝光时间,以提高视觉感知任务(如视觉里程计和跟踪)中的特征检测性能[25];然而,这些方法中的度量都是基于图像梯度[26]或图像熵[27]的最大化,而没有考虑SL图像的两个关键方面:强度调制和区域过度曝光。
在这项工作中,我们设计了一个跳跃金字塔上下文聚合网络(SP-CAN)来增强单次曝光图像,同时准确地保持编码的相位信息。在SP-CAN的实现中,将被小接受场覆盖的中间层特征集成到一个串联层中,与级联[19]或金字塔结构[20]相比,它更好地保留了小特征(如边缘和角落附近的编码信息)和大特征(如零件轮廓)。此外,开发了一种最佳曝光选择技术,其中定义了一个新的度量来结合强度调制和过度曝光。具有高反射表面的工业零件的实验结果表明,我们的单次曝光技术以坐标测量机(CMM)为基准,平均表面覆盖率为97.6%(传统SL[6]为57.3%),测量误差为0.040 mm(传统SL[6]为0.070 mm)。与HDR方法[11]相比,该技术仅使用了其十分之一的时间,同时获得了相似的表面覆盖率和测量精度。
2、系统概述
A、系统设置
如图2(a)所示,系统由一台分辨率为1140 × 912像素的蓝色LED投影仪(DLP LightCrafter 4500, Texas Instruments)和两台Basler摄像机(acA1440-73gm,分辨率:1456×1088)组成。两个相机的焦距都是12mm。扫描仪的工作距离为700mm,投影仪的帧率设置为30fps。在每次测量中,将12个相位编码图像投影到目标部件上。
B、操作程序
图2(b)说明了采用所提出的单次曝光方法进行高反射表面测量的步骤。对于图像采集,通过最佳曝光选择技术(章节III-B)选择相机曝光,以最大限度地调节强度,同时防止过度曝光。由于防止过度曝光,采集图像中的信号较弱,因此采用SP-CAN (Section III-A)对采集图像中的信号进行放大。图像增强后,对图像内编码的相位信息进行解码,恢复相位图。最后,基于三角剖分重构点云。
C、图像数据集和训练过程
为了训练和评估SP-CAN的性能,在这项工作中,从十个不同的汽车零件(例如,前端冲压件,交叉汽车梁支架,加油门等)构建了一个数据集。高反射数据集可在https://github.com/chenwy960424/上下载,包含900张原始的单次曝光图像,每张图像都有相应的hdr计算参考图像。利用所提出的最优曝光选择技术选择单次曝光原始图像的曝光时间。采用慢速但高精度的HDR技术[11]计算参考图像。HDR方法中使用的开始曝光和结束曝光分别设置为30 ms和300 ms,间隔为30 ms。
从数据集中随机抽取20%的图像作为测试集,其余80%作为训练集。在训练过程中,使用原始的单次曝光图像作为输入,并将hdr计算图像与SP-CAN的输出图像进行比较,如图2©所示。网络的权值通过身份初始化技术初始化[19]。然后利用Adam优化器和反向传播算法对SP-CAN权值进行更新。同时,设定了提前停止规则,即如果训练误差在10次后仍未减小,则停止训练过程。
3、提出的方法
为了利用单次曝光实现高反射表面测量,在这项工作中开发了两项关键技术。SP-CAN设计用于增强输入的单曝光图像,同时保留编码的相位信息;提出了一种最佳曝光选择技术,以选择合适的相机曝光时间来捕获输入图像。
A、Skip Pyramid Context Aggregation Network (SP-CAN)
输入单曝光图像的增强本质上是一个逐像素恢复问题。传统的小波变换[14]和Retinex[15]等技术主要是为了增强可视化。它们在捕获的图像中不保持编码的相位信息。在基于学习的图像处理技术的最新进展中[19],卷积神经网络(CNN)通过建立统计模型来解决增强问题。为了在图像增强过程中保持相邻像素内的编码相位信息,每个像素值的计算应包括其周围像素。参与计算的周围像素的面积称为感受野,从不同大小的感受野中收集信息是建立统计模型所必需的。
在基于cnn的方法中,改变接受域大小的一种流行方法是对输入图像进行下采样和上采样[16],[17]。由于下采样和上采样过程中图像分辨率的变化,这种方法存在高频内容丢失的问题[21]。
因此,在不牺牲图像分辨率和高频内容的情况下,提出了亚光卷积[19],[20]来有效地改变感受野。在传统卷积中,通过在两个连续卷积核之间引入r−1个零来生成亚历斯卷积* r,其中r称为亚历斯率(见图3(b))。对于一个m × n的亚历子卷积核,相应的感受野大小为(mr + r−1)× (nr + r−1),并随亚历子速率r增长,因此,亚历子速率控制着感受野的大小。
如图3(a)所示,现有的基于亚历卷积的cnn,如CAN[19],以级联的方式增加亚历卷积率,堆叠亚历卷积层。层叠这些卷积层产生了一个大的接受场。例如,假设CAN中有L层,每层的属性率为ri,i = 1,2,…L.将这L个卷积层级联后,接收野(Rsum × Rsum)的核大小为
其中Ri为第i层接受场的大小,K为卷积核的大小(如图3(a)所示,K = 3)。因此,CAN中提取的所有特征共享相同的大接受场Rsum。CAN最初被设计用来检测大型物体,如马和人,在这些地方需要一个大的接受野。然而,在我们的工作中,还需要在小接受场覆盖的角落和边缘附近提供详细的相位信息。CAN中的单个大接受域忽略了这些信息并导致恢复错误,结果部分进一步说明了这一点。
为了克服这一限制,开发了具有金字塔结构的卷积网络[20]。在金字塔结构中,随着亚光率的增加,亚光卷积层以平行的方式组织(见图3©)。
该设计旨在探测具有不同大小的感受野的特征。然而,由于金字塔结构中网络深度为避免过拟合的实际限制,金字塔结构失去了检测接收野较大的特征(如物体轮廓)的优势。
为了保留级联结构和金字塔结构的优点,我们提出了一个跳跃金字塔上下文聚合网络(SP-CAN),通过添加跳跃连接来整合大小接受域所涵盖的特征。跳跃式连接直接将一层的输出作为另一非相邻层的输入,跳过中间的所有其他层[28]。由于中间层的吸收速率不同,这些中间层相应的感受野具有不同的大小,覆盖从小到大的特征。如图3(d)所示,跳跃连接将中间层提取的特征传递到一个连接层,在这个连接层中,来自不同大小的接受场的特征被融合。
在SP-CAN中,首先级联具有增量属性率的L个属性卷积层,根据
其中Flm表示第l层的第m个特征图,Fl−1n为前一层的第n个特征图,Klm,n为3×3卷积,blm为偏置项。Ψ是预处理数据的自适应归一化,其中BN是批归一化函数,λ和µ是训练过程中自动学习的系数。Φ(x)是一个点向非线性函数。
算子*rl表示以rl = 2l−1的速率进行的属性卷积。所提出的SP-CAN利用跳过连接S(F)来提取每层Flm的输出,并将它们组合在串联层中,根据
其中输出特征图Fo覆盖了大范围的接受域
最后,由于我们的SP-CAN是为图像增强而设计的,这是一个回归问题而不是分类问题,因此将广泛使用的softmax层[29]替换为均方误差(MSE)损失函数,以产生每个像素的连续值强度。MSE通过比较生成的图像和参考图像来计算。
其中W,H为图像宽度和高度,INTo(x,y)为输出图像中像素(x,y)的强度,INTg(x,y)为参考图像中的强度。SP-CAN有效增强图像,同时保持边缘和角落附近的详细编码相位信息。
图3所示。(a)传统的基于亚鲁斯卷积的CNN,上下文聚合网络(CAN)的结构[19]。CAN具有级联结构,经过一系列的亚历卷积后,在最后一层的输出中,输出特征只有一个大的接受野,小的接受野所覆盖的详细特征丢失。(b)亚特率r = 1,接受野r = 3 × 3的亚特卷积核(左)。亚特拉卷积核,亚特拉率r = 4(两个相邻核之间有3个零),接受野r = 15 × 15(右)。©具有亚rous空间金字塔池(ASPP)的亚rous卷积网络具有金字塔结构[20],用于探测具有不同大小接受野的特征。然而,它失去了用大的接受野来检测特征的优势。
(d)我们提出的跳跃金字塔上下文聚合网络(SP-CAN)。为了保留级联结构和金字塔结构的优点,SP-CAN利用跳过连接来提取每层的输出,并将它们组合在一个串联层中以生成最终的预测。
B、最佳曝光选择
图4所示。激活函数,根据像素的强度控制像素的权重。函数或权重受α和β的影响,其中α决定对过度曝光的敏感性,β决定过度曝光的阈值
在SL测量中,强度调制是指捕获图像中编码图案的幅度,需要具有高强度调制的图像[5]。增加曝光是改善光强调制的常用方法;然而,过度曝光会导致不可逆转的信息丢失。对于定量曝光选择,现有指标基于梯度最大化[26]或熵最大化[27],目的是改善视觉感知任务(如视觉里程计和跟踪)中的特征检测或视觉效果[25]。由于强度调制和过度曝光是表征SL图像质量的两个关键方面,而基于梯度的方法[26]和基于熵的方法[27]都没有考虑到强度调制和过度曝光,因此我们提出了一种结合强度调制和过度曝光的新度量,用于测量高反射表面。
基于梯度和熵的度量[26][27],用强度调制代替梯度和熵得到
将采集图像中每个像素的强度INT (x,y)分解为强度调制M(x,y)和环境光强度A(x,y)两部分,即
式中t为相机曝光,f为相机灵敏度系数,a为表面反射率,Lp为投射光强度,b为环境光强度。通过捕获图像,图像I1在没有投影光的情况下拍摄,图像I2在有投影均匀图案的情况下拍摄,则M(x,y) = I2(x,y)−I1(x,y)。
注意(5)中的度量忽略了过度曝光造成的信息损失。例如,在以均匀投影模式拍摄的图像I2中,一个面积O2∈I2,则在I1中对应的面积为O1∈I1。由于过度曝光,在O2中像素的强度在255处饱和,使得O2中的调制值虚高,编码信息在O2中不可逆地丢失。因此,为了抑制过度曝光,在(5)中加入激活函数F(k),k∈[0,255]构成度量,
同时:
激活函数F(k)是经典tanh函数的变体[30]。它通过为接近曝光过度的像素分配较小的权重来控制过度曝光。α∈(0,1)决定了光强调制与过度曝光之间的平衡。
如图4所示,α值越大,当被认为是过度曝光时,权重下降得越快。
由于过度曝光控制对于高反射表面测量任务至关重要,因此将α设置为1。β∈(0,255)的值决定了过度曝光的阈值。亮度值为(β,255)的像素在度量中被视为过度曝光和抑制(7)。在这项工作中,我们设置β = 248。
所提出的度量(7)用于度量输入图像的质量。为使度量值最大化,其对曝光时间的偏导数为
同时:
对于给定的SL测量系统,参数f、a、b、Lp是固定的[31]。算法1描述了整个工作流程。在梯度下降法中,初始曝光被设置为最大曝光的中间值。T H R表示所提出度量的梯度的阈值,|∂Qm|用于确定Qm的收敛性。MAX_ITER表示为避免算法陷入死循环而寻找Qm极值的最大迭代次数。它避免陷入死循环。thr和MAX IT ER的阈值经过实验调整,使用(12)中所示的相位平均绝对误差(PMAE)进行定量评估。梯度下降系数γ设为5 × 105。曝光时间从最近一次曝光调整为
4、实验结果
A、不同图像增强方法的性能
为了评估不同图像增强方法的性能,使用相位平均绝对误差(PMAE)[32]。
其中W,H为图像的宽度和高度,Po(x,y)为增强图像中像素(x,y)的相位值,Pb(x,y)为基准相位图中像素(x,y)的相位值。PMAE值越小,计算得到的相位图精度越高。
在实验中,在低曝光值(无过曝光区域)下捕获一系列相位编码图像,作为输入单曝光图像作为图像增强输入。同时,为了获得基准相位图,通过10次逐渐增加的曝光重复捕获相位编码图像,并通过传统的HDR方法获得基准Pb[11]。将我们提出的SP-CAN与传统增强方法(包括小波变换[14]和Retinex[15])以及基于cnn的方法(包括SegNet(下样本-上样本结构)[18]、CAN(级联结构)[19]和ASPP(金字塔结构)[20])的性能进行了比较。
利用这些方法对输入相同的单曝光图像i进行增强,然后使用传统的四步移相算法[6]计算相图Po。注意,所有基于cnn的方法都是通过使用与SP-CAN相同的数据集进行重新训练的。通过与基准Pb进行比较,量化各方法的PAME。
增强后的图像和相应的相位误差图如图5所示,各自的PMAE值汇总如表1所示。
如图5所示,虽然传统方法(小波变换[14]和Retinex[15])很好地增强了输入图像的可视化效果,但编码后的相位信息丢失了。相应的PMAE值分别高达75.5和21.2 rad(见表)。I),仅略好于无增强单曝光法(85.1 rad)。这是由于这些传统方法在图像增强过程中忽略了编码的相位信息。在所有基于cnn的方法中,SegNet的准确率最差,PMAE值为10.2 rad,这是由于下采样和上采样导致高频内容的损失[21]。相比之下,基于astro卷积的方法表现出更好的性能(CAN为7.1分,ASPP为5.8分)。然而,在CAN中丢失了边缘和角落附近的详细信息,而在ASPP中丢失了物体轮廓等大特征
这是因为CAN[19]中提取的所有特征都具有相同的大感受野,这是由级联结构引起的,而这些被大感受野覆盖的特征并没有被金字塔结构覆盖。与这两种网络不同的是,我们所提出的SP-CAN的跳过连接和连接层集成了从小到大的特征,并有效地保留了详细和轮廓的编码相位信息,从而使PAME值最低为0.85 rad。
图5所示。不同图像增强方法的比较:小波变换(Wavelet Transform, WT)[14]、Retinex[15]、SegNet(下样本-上样本结构)[18]、CAN(级联结构)[19]、ASPP(金字塔结构)[20]和我们提出的SP-CAN。对于每种方法,所示为增强后的图像以及相应的每像素相位误差图,以十曝光HDR为基准
B、最佳曝光选择的性能
输入的单次曝光图像的质量对图像增强效果和后续的三维重建影响很大。由于提高输入图像质量的目标是提高图像增强的性能,因此再次使用相位意味着绝对误差(PMAE)来评估曝光选择的结果。采用10次曝光的HDR方法作为基准。
我们实验比较了我们提出的方法、基于梯度的方法[26]、基于熵的方法[27]和手动选择。首先在每种方法选择的曝光下捕获一组相位编码图像,然后用SP-CAN进行增强。计算增强图像的相位图后,通过与hdr获得的基准数据进行比较,确定每种方法的PMAE值。每种方法所选择的曝光时间下捕获的输入图像及其对应的相位误差图如图6所示,所选择的曝光和PMAE值汇总于表2。其中,人工选择的PMAE值最低(12.48 rad),因为人工选择是基于可视化效果。相比之下,其他三种方法均基于定量选择,且PMAE值在12 rad以下时均获得较好的结果。特别是,所提出的方法优于基于梯度[26]和基于熵[27]的方法(0.91 rad vs 11.5 rad;0.91 rad vs 8.6 rad),因为该方法最大限度地实现了强度调制,并更好地保留了用于图像增强的编码相位信息。此外,基于梯度和基于熵的方法允许更高水平的过度曝光,以增加梯度或熵;因此,它们遭受了过度曝光造成的不可逆的信息损失(见图6)。相比之下,我们提出的方法中的激活函数有效地防止了过度曝光。
图6所示。不同曝光选择方法的比较:手动选择、基于梯度的方法、基于熵的方法和我们提出的方法。对于每种方法,所示为所选曝光下拍摄的图像以及相应的逐像素相位误差图(均通过SP-CAN增强)。
C、点云覆盖率的评价
为了评估测量高反射表面的性能,我们测量了三种不同反射率的工业部件(见图7,前三行)。用于定量评估的覆盖率γ定义为
式中,Sm为被测点云的表面积,Sb为基准数据计算的表面积。
在本实验中,使用HDR方法获得基准点云。对于每个部分,采用所提出的最优曝光选择技术选择相机曝光,然后对输入的单次曝光图像进行SP-CAN增强。利用增强后的图像计算点云,并通过与基准数据的比较量化覆盖率。将该方法与单次曝光不增强、三次曝光的HDR方法、十次曝光的HDR方法进行性能比较[11]。
如图7和图8 (a)所示,进行了定性和定量比较,证实了我们提出的方法减少过曝光的有效性。如图7所示,与不增强的单次曝光相比,该方法可以更好地恢复过曝光区域(平均表面覆盖率:97.6% vs. 57.3%)。虽然与单次曝光相比,三次曝光的HDR能够部分恢复丢失的特征,但其平均表面覆盖率远低于我们提出的方法(90.6% vs. 97.6%)。10次曝光(98.0%)的HDR平均表面覆盖率略优于我们提出的方法0.4%;然而,10次曝光的HDR时间成本是我们提出的方法的十倍以上(图8(b))。因此,我们提出的方法(SP-CAN +最佳曝光选择)能够获得与十曝光HDR相似的表面覆盖率,但成本为十分之一。
为了证明所提出的SP-CAN的泛化能力,将其用于恢复SP-CAN未看到的新工业部件(加油门)的三维信息。加油门的表面反射率与原始数据集中其他部件的表面反射率不同。采用提出的最优曝光选择方法选择相机曝光,并通过SP-CAN对输入图像进行增强。
定性(图7最后一行)和定量(图8(a))结果表明,我们提出的SP-CAN +最佳曝光选择方法对于新添加的样本实现了与原始训练样本相似(略低)的表面覆盖率(95.2%对97.6%)。
图7所示。工业零件的三维重建。对于每个部分,显示了不同方法测量的原始图像和3D重建结果:单次曝光(不增强),三次曝光的HDR,十次曝光的HDR,以及提出的SP-CAN +最佳曝光选择。第四行显示了SP-CAN从未见过的加油门的结果,以证明其泛化能力。
图8所示。比较(a)表面覆盖率和(b)测量不同工业零件的时间成本:单次曝光法(无增强)、三次曝光的HDR、十次曝光的HDR,以及我们提出的SP-CAN +最佳曝光选择。(a)中的第四列显示了SP-CAN未看到的燃料填充门的结果,以证明其泛化能力。
D、点云精度评价
为了评估所提出方法的测量精度,采用图9(a)所示的经三坐标测量机(CMM)验证的标准球棒作为测量部件。它由两个直径分别为38.1043 mm和38.1048 mm的陶瓷球组成,中心距离为100.2072 mm。以绝对测量误差ε = |Lm−Lb|作为评价指标,其中Lm为实测值,Lb为cmm测量数据。
在获取每个球体的三维点云后,使用最小二乘法计算最优拟合球体,如图9(b)所示。然后测量两个球体中心之间的距离。通过计算测量中心到中心距离的误差ε来评价测量精度。为了保证测量的重复性,在不同的位置和方向进行了10次测量。
将该方法与单次曝光不增强和10次曝光的HDR结果进行了比较。如图9©所示,不增强单次曝光的性能较差,由于过度曝光区域的信息丢失,测量到的中心到中心距离平均绝对误差ε = 0.070mm。相比之下,该方法与十曝光HDR方法均获得了更高的精度(ε = 0.040mm和ε = 0.038mm)。
图9所示。(a)用于评价测量精度的标准球棒。(b)捕获的三维点云。©单次曝光不增强、十次曝光的HDR和我们提出的方法在测量两个中心之间的距离和球的直径方面的绝对误差的比较。