目录
- 3.7 边缘检测
- 目标
- 理论
- OpenCV中的Canny边缘检测
- 其他资源
- 练习
- 3.8 图像金字塔
- 目标
- 理论
- 使用金字塔进行图像混合
- 其他资源
翻译及二次校对:cvtutorials.com
编辑者:廿瓶鲸(和鲸社区Siby团队成员)
3.7 边缘检测
目标
在本章中,我们将了解到:
- Canny边缘检测的概念
- 用于检测的OpenCV函数:cv.Canny()
理论
Canny边缘检测是一种流行的边缘检测算法。它是由John F. Canny在2006年开发的。
1.它是一个多阶段的算法,我们将对每个阶段进行分析。
2.减少噪音
由于边缘检测容易受到图像中噪音的影响,第一步是用5x5高斯滤波器去除图像中的噪音。我们已经在前几章中看到了这一点。
3.寻找图像的灰度梯度
然后用Sobel核对水平和垂直方向的平滑图像进行过滤,得到水平方向(Gx)和垂直方向(Gy)的第一导数。从这两幅图像中,我们可以找到每个像素的边缘梯度和方向,如下所示。
E
d
g
e
_
G
r
a
d
i
e
n
t
(
G
)
=
G
x
2
+
G
y
2
A
n
g
l
e
(
θ
)
=
tan
−
1
(
G
y
G
x
)
Edge\_Gradient \; (G) = \sqrt{G_x^2 + G_y^2} \\ Angle \; (\theta) = \tan^{-1} \bigg(\frac{G_y}{G_x}\bigg)
Edge_Gradient(G)=Gx2+Gy2Angle(θ)=tan−1(GxGy)
E d g e _ G r a d i e n t ( G ) = G x 2 + G y 2 A n g l e ( θ ) = tan − 1 ( G y G x ) Edge\_Gradient \; (G) = \sqrt{G_x^2 + G_y^2} \\ Angle \; (\theta) = \tan^{-1} \bigg(\frac{G_y}{G_x}\bigg) Edge_Gradient(G)=Gx2+Gy2Angle(θ)=tan−1(GxGy)
梯度方向总是垂直于边缘。它被圆整为四个角度之一,代表垂直、水平和两个对角线方向。
4.非极大值抑制
在得到梯度大小和方向后,对图像进行全面扫描,以去除任何可能不构成边缘的不必要的像素。为此,在每一个像素点上,检查该像素点是否是梯度方向上其附近的局部最大值。请看下面的图片。
A点在边缘上(垂直方向)。梯度方向是对边缘的法线。B点和C点在梯度方向上。因此,A点与B点和C点一起被检查,看它是否形成一个局部最大值。如果是,它将被考虑到下一阶段,否则,它将被抑制(归为零)。
简而言之,你得到的结果是一个具有 "薄边缘 "的二进制图像。
5.滞后阈值处理
这个阶段决定哪些是真正的边缘,哪些不是。为此,我们需要两个阈值,minVal和maxVal。任何灰度梯度大于maxVal的边缘都肯定是边缘,而那些低于minVal的边缘肯定是非边缘,所以被丢弃。那些位于这两个阈值之间的边,根据它们的连接性被分为边和非边。如果它们与 "确定的边缘 "像素相连,它们就被认为是边缘的一部分。否则,它们也会被丢弃。请看下面的图片。
边缘A高于maxVal,所以被认为是 “确定边缘”。虽然边C低于maxVal,但它与边A相连,所以也被认为是有效的边,我们得到了那个完整的曲线。但是边B,尽管它高于minVal,并且与边C在同一区域,但它没有与任何 "确定的边 "相连,所以它被丢弃了。因此,我们必须相应地选择minVal和maxVal以获得正确的结果,这一点非常重要。
这个阶段还在假设边缘是长线的基础上去除小像素的噪音。
所以我们最终得到的是图像中的强边缘。
OpenCV中的Canny边缘检测
OpenCV把上述所有的东西都放在一个函数中,即cv.Canny()。我们将看到如何使用它。第一个参数是我们的输入图像。第二个和第三个参数分别是我们的minVal和maxVal。第三个参数是aperture_size。它是用于寻找图像梯度的Sobel核的大小。最后一个参数是L2gradient,它指定了用于寻找梯度大小的方程式。如果它是True,它使用上面提到的更精确的方程,否则它使用这个函数。Edge_Gradient(G)=|Gx|+|Gy|。默认情况下,它是False。
import numpy as np
import cv2 as cv
from matplotlib import pyplot as plt
img = cv.imread('messi5.jpg',0)
edges = cv.Canny(img,100,200)
plt.subplot(121),plt.imshow(img,cmap = 'gray')
plt.title('Original Image'), plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(edges,cmap = 'gray')
plt.title('Edge Image'), plt.xticks([]), plt.yticks([])
plt.show()
结果如下:
其他资源
1.维基百科上的Canny边缘检测器
2.《Canny边缘检测教程》,作者Bill Green,2002年。
练习
写一个小程序来寻找Canny边缘检测,其阈值可以用两个trackbar来改变。这样,你就可以了解阈值的影响。
3.8 图像金字塔
目标
在本章中:
- 我们将学习图像金字塔的知识
- 我们将使用图像金字塔来创建一个新的水果,“Orapple”。
- 我们将看到这些函数:cv.pyrUp(), cv.pyrDown()
理论
通常情况下,我们习惯于使用一个恒定大小的图像。但在某些情况下,我们需要处理不同分辨率的(相同)图像。例如,当我们在图像中搜索某个东西时,比如人脸,我们不确定该物体会以何种尺寸出现在所述图像中。在这种情况下,我们需要创建一组具有不同分辨率的相同图像,并在所有这些图像中搜索物体。这些具有不同分辨率的图像集被称为图像金字塔(因为当它们被保存在一个堆栈中,最高分辨率的图像在底部,最低分辨率的图像在顶部,它看起来像一个金字塔)。
有两种图像金字塔。1)高斯金字塔和2)拉普拉斯金字塔
高斯金字塔中的高层次(低分辨率)是通过去除低层次(高分辨率)图像中的连续行和列而形成的。然后,高层的每个像素由底层的5个像素贡献高斯权重形成。通过这样做,M×N的图像变成了M/2×N/2的图像。因此,面积减少到原始面积的四分之一。这就是所谓的Octave。当我们在金字塔中往上走时,同样的模式会继续下去(即,分辨率下降)。同样地,在扩展时,每一级的面积都会变成4倍。我们可以使用cv.pyrDown()和cv.pyrUp()函数找到高斯金字塔。
img = cv.imread('messi5.jpg')
lower_reso = cv.pyrDown(higher_reso)
下面是图像金字塔中的4个层次。
现在你可以用cv.pyrUp()函数往下看图像金字塔。
higher_reso2 = cv.pyrUp(lower_reso)
记住,higher_reso2不等于higher_reso,因为一旦你降低分辨率,你就失去了信息。下面的图片是在前面的情况下从最小的图片创建的金字塔的3级。将其与原始图像进行比较。
拉普拉斯金字塔是由高斯金字塔形成的。这方面没有专属函数。拉普拉斯金字塔图像只像边缘图像。它的大部分元素都是零。它们被用于图像压缩。拉普拉斯金字塔中的一个层次是由高斯金字塔中该层次与高斯金字塔中其上层的扩展版本之间的差异形成的。一个拉普拉斯金字塔的三个层次看起来如下(对比度被调整以增强内容)。
使用金字塔进行图像混合
金字塔的一个应用是图像混合。例如,在图像拼接中,你需要将两幅图像堆叠在一起,但由于图像之间的不连续性,可能看起来不好看。在这种情况下,用Pyramids进行图像混合,可以让你实现无缝混合,而不会在图像中留下很多数据。一个经典的例子是两个水果的混合,橙子和苹果的混合。请看现在的结果本身,以理解我所说的内容。
请查看附加资源中的第一个参考资料,它有关于图像混合、拉普拉斯金字塔等的完整图示细节。简单地说,它是这样做的:
1.加载苹果和橙子的两张图片
2.找到苹果和橙子的高斯金字塔(在这个特定的例子中,级别数为6)。
3.从高斯金字塔中,找到它们的拉普拉斯金字塔
4.现在将苹果的左半边和橙子的右半边分别加入到拉普拉斯金字塔的各个层次中。
5.最后从这个联合图像金字塔中,重建原始图像。
下面是完整的代码。(为了简单起见,每个步骤都是单独完成的,这可能会占用更多的内存。如果你愿意的话,你可以优化它)
import cv2 as cv
import numpy as np,sys
A = cv.imread('apple.jpg')
B = cv.imread('orange.jpg')
# 为A生成高斯金字塔
G = A.copy()
gpA = [G]
for i in range(6):
G = cv.pyrDown(G)
gpA.append(G)
# 为B生成高斯金字塔
G = B.copy()
gpB = [G]
for i in range(6):
G = cv.pyrDown(G)
gpB.append(G)
# 为A生成拉普拉斯金字塔
lpA = [gpA[5]] 。
for i in range(5,0,-1):
GE = cv.pyrUp(gpA[i])
L = cv.subtract(gpA[i-1],GE)
lpA.append(L)
# 为B生成拉普拉斯金字塔
lpB = [gpB[5]]
for i in range(5,0,-1):
GE = cv.pyrUp(gpB[i])
L = cv.subtract(gpB[i-1],GE)
lpB.append(L)
# 现在在每个层次中添加左右两半的图像
LS = []
for la,lb in zip(lpA,lpB):
rows,cols,dpt = la.shape
ls = np.hstack((la[:,0:cols/2], lb[:,cols/2:])
LS.append(ls)
# 现在重构
ls_ = LS[0]
for i in range(1,6):
ls_ = cv.pyrUp(ls_)
ls_ = cv.add(ls_, LS[i])
# 将图像的两半拼接在一起
real = np.hstack((A[:,:cols/2],B[:, cols/2:])
cv.imwrite('Pyramid_blending2.jpg',ls_)
cv.imwrite('Direct_blending.jpg',real)
其他资源
- 图像混合