RCNN-based foreign object detection for securing power transmission lines (RCNN4SPTL)
Abstract
-
本文提出了一种新的深度学习网络——RCNN4SPTL (RCNN -based Foreign Object Detection for Securing Power Transmission lines),该网络适用于检测输电线路上的异物。RCNN4SPTL使用RPN (Region Proposal Network)来生成区域提议的纵横比,以匹配外来物体的大小。RCNN4SPTL使用端到端训练来提高性能。实验结果表明,与原来的Faster RCNN相比,RCNN4SPTL显著提高了检测速度和识别精度。
-
论文地址:RCNN-based foreign object detection for securing power transmission lines (RCNN4SPTL) - ScienceDirect
Introduction
-
维护输电线路的安全至关重要。在输电线路上悬挂的风筝、气球、塑料薄膜等异物会损害高压电力的分配,对输电线路下的行人和车辆构成威胁。因此,为了及时清除异物,检测异物是至关重要的。
-
目前,检测异物的方法主要有两种:人工线路检测和无人机检测。由于输电线路通常要经过山川、公路、桥梁等复杂的地理环境,人工巡检存在很大的安全隐患。人工检测也存在效率低、效果差的问题。无人机巡检采用摄像机对高压输电线路进行巡检。尽管基于无人机的检测不受地理环境的影响,但仍然需要大量的人力来确定无人机返回的图像和视频上是否有异物。
-
已有图像形态学检测异物的研究,如图像中传输线的提取方法。基于图像形态学的检测的一般过程如下。首先,采用高斯滤波器、中值滤波器或双边滤波器去噪;然后应用Otsu(最大类间方差)对图像的背景和前景进行分割;最后利用霍夫变换提取输电线路,识别异物。由于地理背景的差异和各种天气条件的影响,很难对所有图像选择合适的灰度阈值。
-
近年来,深度学习技术发展迅速,将目标检测和分类技术提升到一个新的水平。该神经网络对几何变换和光照具有较强的适应性。它可以根据输入的图像自动生成特征描述。Ren等人提出了RCNN,它是深度学习中基于区域提议的目标检测的先驱。对于生成区域建议的算法,有:Li等提出的选择性搜索。出现了一系列的RCNN变体:SPP Net、Fast RCNN和Faster RCNN。RCNN的速度和性能都比其他网络好。然而,在现阶段,faster RCNN被用于检测行人、水果等常见物体,没有人试图将其应用于检测外来物体。由于这类物体没有固定的形状,Fast RCNN很难提取有用的特征,增加了训练和识别的难度。
-
本文提出了一种基于Faster RCNN的新型神经网络模型RCNN4SPTL,用于输电线路上的异物识别。RCNN4SPTL模型可以自动提取输电线路上异物的各种相关特征,进而进行异物检测。与其他方法相比,该模型大大减少了人为干扰,提高了工作效率。
RCNN4SPTL design and implementation
The RCNN4SPTL model
-
下图给出了RCNN4SPTL模型的整体视图。它由三部分组成。第一部分是共享卷积神经网络部分(SPTL-Net),提取图像特征生成图像特征映射;第二部分是区域提议生成网络(RPN)。它的输入是图像特征映射,输出是不同大小和比例的候选区域。最后是分类回归网络。它的输入是特征映射和目标区域建议。第三部分生成区域建议对应的固定维的特征向量,然后进行图像分类和定位。最后,RCNN4SPTL给出了目标的类别和位置。
-
The RCNN4SPTL model
SPTL-Net
-
RCNN4SPTL采用SPTL-Net,使用更小的卷积核来提高特征提取的质量,在不影响检测性能的情况下减少神经元数量,提高训练和检测速度。
-
SPTL-Net如下图所示。它有八层。前五层是卷积层,后三层是全连接层。第一个卷积层有96个大小为5 × 5 × 3的卷积核,以223 × 223 × 3过滤输入图像。卷积核的步长为两个像素。较小的卷积核有利于特征融合和精细特征提取。第二个卷积层有256个大小为5 x 5 x 96的卷积核,对第一层的池化结果进行卷积。第三个卷积层使用384个大小为3 x 3 x 256的卷积核进行相同的操作。第四层和第五层卷积层相互连接,它们之间没有池化层。第一个完全连接的层有4096个神经元。第二层完全连接层的神经元数量为1048个。
-
SPTL-Net model
-
卷积和池化操作分别使用公式(1)和(2)执行
-
o u t p u t s i z e = i m p u t s i z e − k e r n e l S i z e + 2 ∗ p a d d i n g s t r i d e + 1 o u t p u t s i z e = i n p u t s i z e − k e r n e l S i z e s t r i d e + 1 output_{size}=\frac{imput_{size}-kernelSize+2*padding}{stride}+1\\ output_{size}=\frac{input_{size}-kernelSize}{stride}+1 outputsize=strideimputsize−kernelSize+2∗padding+1outputsize=strideinputsize−kernelSize+1
-
其中outputsize为输出图像的大小,inputsize为输入图像的大小,kernel size为卷积核的大小,pad为填充像素的大小,stride为步长。
-
Adjust the size and proportion of region proposals
-
RPN是一种卷积神经网络,它使用SPTL-Net生成的特征图作为输入,生成不同大小和纵横比的矩形区域建议。RPN首先使用一个3 × 3的滑动窗口在特征图上滑动;它将穿过窗口的地图上的每个位置投影到一个256维的特征向量上,然后将每个向量输入到接下来的两个完全连接的层中。带分类函数的全连接层产生2 x 9 = 18个分数,每个候选框对应两个分数,分别表示候选框中包含和不包含给定对象的可能性。带回归函数的全连通层产生4 x 9 = 36个校正参数。RPN使用这些参数对区域建议进行校正,每个候选区域对应四个校正参数。锚点(当前滑动窗口的中心)以原始图像为中心,产生具有三种尺度和三种纵横比的区域建议。RPN利用九个候选矩形区域来适应目标。三种尺寸分别为 12 8 2 、 25 6 2 、 51 2 2 128^2、256^2、512^2 1282、2562、5122,宽高比分别为1:1、1:2、2:1。
-
RPN为每个候选区域生成4个校正参数tx、ty、tw和th,并使用这4个参数对区域建议进行校正。式(3)~(6)为修正公式:
-
x = w a t x + x a , ( 3 ) y = h a t y + y a , ( 4 ) w = w a t w , ( 5 ) h = h a t h , ( 6 ) x=w_at_x+x_a,(3)\\ y=h_at_y+y_a,(4)\\ w=w_a^{t_w},(5)\\ h=h_a^{t_h},(6) x=watx+xa,(3)y=haty+ya,(4)w=watw,(5)h=hath,(6)
-
其中,x、y为中心点的x、y坐标,w、h为校正后的候选区域的宽度、高度。Xa和ya表示候选区域中心点的横坐标和纵坐标,wa和ha表示校正前候选区域的宽度和高度。
-
-
RCNN4SPTL针对输电线路上异物的形状特征,调整区域建议的宽高比。因此RCNN4SPTL将1:1,1:2,2:1的纵横比改为1:1,2:1,3:1,因为在图像中,挂在传输线上的气球大多又细又长。RPN损失函数将候选框的分类分数与校正参数相结合。式(7)定义了损失函数。
-
L ( { p i } , { t i } ) = 1 N c l s ∑ i L c l s ( p i , p i ∗ ) + λ 1 N r e g ∑ i p i ∗ L r e g ( t i , t i ∗ ) L(\{p_i\},\{t_i\})=\frac{1}{N_{cls}}\sum_iL_{cls}(p_i,p_i^*) +\lambda\frac1{N_{reg}}\sum_ip^*_iL_{reg}(t_i,t_i^*) L({pi},{ti})=Ncls1i∑Lcls(pi,pi∗)+λNreg1i∑pi∗Lreg(ti,ti∗)
-
其中I为区域建议的序列号, p i p_i pi为目标在第i个候选区域的预测置信度。 p i ∗ = 1 p^∗_i = 1 pi∗=1 表示第 i 个候选区域包含该对象, p i ∗ = 0 p^∗_i = 0 pi∗=0 表示第i个候选框不包含该对象。 t i t_i ti 是候选区域的预测校正参数, t i ∗ t ^*_ i ti∗ 是对应于实区域的区域建议的校正参数。 N c l s N_{cls} Ncls 和 N r e g N_{reg} Nreg 对公式(7)中的两个子项进行了规范化。用于控制两个子项的相对重要性。Lcls()为预测置信度的损失函数,如下式所示:
-
L c l s ( p i , p i ∗ ) = − l o g ( p i p i ∗ ) L_{cls}(p_i,p^*_i)=-log(p_ip^*_i) Lcls(pi,pi∗)=−log(pipi∗)
-
Lreg()是修改后参数的损失函数:
-
L r e g ( t i , t i ∗ ) = ∑ i ∈ { x , y , w , h } s m o o t h L 1 ( t i − t i ∗ ) L_{reg}(t_i,t^*_i)=\sum_{i\in\{x,y,w,h\}}smooth_{L_1}(t_i-t^*_i) Lreg(ti,ti∗)=i∈{x,y,w,h}∑smoothL1(ti−ti∗)
-
其中smoothL1()如式:
-
s m o o t h L 1 ( x ) = 0.5 x 2 , ∣ x ∣ ≤ 1 ; ∣ x ∣ − 0.5 , ∣ x ∣ > 1 smooth_{L_1}(x)=0.5x^2,|x|\leq1;~~|x|-0.5,|x|>1 smoothL1(x)=0.5x2,∣x∣≤1; ∣x∣−0.5,∣x∣>1
-
计算 t x ∗ , t y ∗ , t w ∗ t^∗_x, t^∗_y, t^∗_w tx∗,ty∗,tw∗和 t h ∗ t^∗_h th∗ 的公式分别为:
-
t x ∗ = x 8 − x a w a t y ∗ = y ∗ − y a h a t w ∗ = l o g ( w 8 w a ) t h ∗ = l o g ( h ∗ h a ) t^*_x=\frac{x^8-x_a}{w_a}\\ t^*_y=\frac{y^*-y_a}{h_a}\\ t^*_w=log(\frac{w^8}{w_a})\\ t^*_h=log(\frac{h^*}{h_a}) tx∗=wax8−xaty∗=hay∗−yatw∗=log(waw8)th∗=log(hah∗)
-
其中x *和y *表示实区域中心点的横坐标和纵坐标,w *和h *表示实区域的宽度和高度。 x a , y a , w a , h a x_a, y_a, w_a, h_a xa,ya,wa,ha 分别表示候选区域对应的坐标。
-
End-to-end joint training
-
Fast RCNN采用交替训练。首先在ImageNet上对模型进行预训练,初始化共享卷积网络,然后训练RPN。接下来,在ImageNet上使用预训练模型初始化共享卷积网络,并训练分类回归网络。然后确定训练好的共享卷积网络和分类回归网络部分参数,开始训练RPN网络。最后,Faster RCNN使用前一步训练的参数初始化整个网络,共享卷积网络和RPNs参数保持不变,并训练分类回归网络。
-
我们可以看到,交替训练意味着特征共享实际上是一种伪共享,这降低了网络的性能。因此RCNN4SPTL采用端到端联合训练,将RPN和分类回归网络作为一个整体,同时进行训练。
-
首先,利用ImageNet预训练模型初始化分类回归网络和共享卷积神经网络的前两层全连接层;RCNN4SPTL使用均值为0,标准差为0.01的高斯分布随机初始化其他层,并执行端到端微调。在本次训练中,RPN与分类回归网络共同训练共享卷积神经网络,使RCNN4SPTL能够同时学习所需的特征。这种训练可以提高性能,得到更好的模型。
Image Preprocessing
-
训练集的规模影响模型的性能。训练集越大,深度学习模型的检测效果越好。因此我们需要增加训练样本的大小。RCNN4SPTL采用图像预处理步骤:图像翻转、缩放和旋转来扩展训练集。这项研究使用了左右翻转;将所有图像缩放到400*400像素。RCNN4SPTL分别逆时针旋转图像20度、100度和220度,使RCNN4SPTL不变性。下图显示了一些预处理图像的示例。下图 (a)为原始图像,下图 (b)为预处理图像,分别进行图像翻转翻转、20度旋转、缩放操作。
-
预处理图像
Evaluation
- 为了评估我们方法的有效性,我们使用以下硬件进行模型训练:NVIDIA GeForce GTX 1080TI with Intel i7 @2.40GHz x 6(6核)和16GB RAM。
Dataset
-
在这个实验中有5000个训练样本图像。其中,有2000部电影,1000个薄膜和2000个风筝。测试数据集有500个图像,包括200个薄膜、100个气球和200个风筝。示例数据集如下图所示。对训练集进行人工标记和处理。我们对RCNN4SPTL的超参数进行微调,然后将训练集输入到网络中进行有限次数的迭代训练。最后,我们利用测试集来测试训练模型的性能,并在下一节中展示结果。
-
数据集示例
Experimental results and analysis
-
下表显示了测试结果的准确率和召回率。实验结果表明,RCNN4SPTL在检测速度、准确率和查全率方面具有较好的检测性能。
-
性能比较
-
在检测传输线上的异物的情况下,RCNN4SPTL比原来的Faster RCNN更适合检测异物。下图显示了RCNN4SPTL和Faster RCNN在检测气球、风筝和电影方面的结果。测试图片均来自真实场景(怀疑)。
-
下图 (a)列出了使用RCNN4SPTL的检测结果,下图 (b)给出了使用Faster RCNN的检测结果。结果表明,RCNN4SPTL识别外来物体具有较高的置信度。
-
RCNN4SPTL和Faster RCNN的目标检测结果
Conclusion
- 及时检测和清除输电线路上的异物具有重要意义。在本研究中,我们首先使用特定的图像增强技术:图像翻转、缩放和旋转来扩展数据集。然后,根据输电线路异物的形状特征,提出了RCNN4SPTL网络,该网络对共享卷积网络和区域大小比例建议进行了优化。最后,我们使用20000次迭代的端到端联合训练来训练RCNN4SPTL。实验结果表明,RCNN4SPTL比传统的Faster RCNN更适合于对传输线上异物的准确识别。该cnn4sptl具有更快的检测速度,更好的识别性能。