LSTM
视频分解成图片帧分别进行特征提取,最后把提取到的特征放到LSTM网络里提取时序信息。
3D-ConvNet
把一组图片帧作为一个整体输入到3D卷积网络中,由于多了一个维度,参数变得多,模型变深,但当时没有大量的视频数据训练该模型,所以导致该模型的表现并不好。
Two stream
顾名思义,双流即把视频分成两个数据流来处理。一个空间流:单纯的单张图片或多张图片组成的序列,一个时间流从视频中提取出来的光流信息。
前者负责提取场景信息,后者负责提取视频中的时序信息。二者都用2D卷积网络来提取特征,之后对于结果进行加权平均。
需要注意的是:由于视频处理成光流信息之后,光流信息本身就相当于是一种对于视频中运动序列的特征表示,所以在该网络中就没有专门用来处理时序信息的部分。
3D-Fused Two stream
在Two stream的基础上把加权平均的部分换成一个较简单的3D-CNN来处理。不同的是Two stream是把分类结果进行加权,而3D-CNN是将提取出来的特征作为输入,直接预测分类结果。
Two stream 3D-ConvNet
在Two stream的基础上把2D-CNN替换成3D-CNN,前提是有足够多的数据来训练模型。