1. 3DCNN理解
2D卷积仅仅考虑2D图片的空间信息,所以只适用于单张2D图片的视觉理解任务。在处理3D图像或视频时,网络的输入多了一个维度,输入由
(
c
,
h
e
i
g
h
t
,
w
i
d
t
h
)
(c,height,width)
(c,height,width)变为了
(
c
,
d
e
p
t
h
,
h
e
i
g
h
t
,
w
i
d
t
h
)
(c,depth,height,width)
(c,depth,height,width),其中
c
c
c是通道数,
d
e
p
t
h
depth
depth为输入数据的宽度。因此,对该数据进行处理时,就需要卷积也做出相应的变换,由2D卷积变为3D卷积。
在2D卷积的基础上,3D卷积被提出。3D卷积在结构上较2D卷积多了一个维度,2D卷积的尺寸可以表示为
k
h
×
k
w
k_h \times k_w
kh×kw,而3D卷积的尺寸可以表示为
k
h
×
k
w
×
k
d
k_h \times k_w \times k_d
kh×kw×kd。3D卷积的具体计算公式与2D卷积类似,即每次滑动时与
c
c
c个通道、尺寸大小为
(
d
e
p
t
h
,
h
e
i
g
h
t
,
w
i
d
t
h
)
(depth, height, width)
(depth,height,width)的图像做乘加运算,从而得到输出特征图中的一个值,如图所示。
视频输入的维度:
i
n
p
u
t
C
×
i
n
p
u
t
T
×
i
n
p
u
t
W
×
i
n
p
u
t
H
input_C \times input_T \times input_W \times input_H
inputC×inputT×inputW×inputH;
3D卷积核的维度:
i
n
p
u
t
C
input_C
inputC 个并列的维度为
k
e
r
n
e
l
T
×
k
e
r
n
e
l
W
×
k
e
r
n
e
l
H
kernel_T \times kernel_W \times kernel_H
kernelT×kernelW×kernelH 的卷积核;
3D卷积核在
T
,
W
,
H
T, W, H
T,W,H三个方向上移动。
参考:
3D CNN