近年来,Facebook 人工智能研究(FAIR)一直在为视频理解研究做出重大贡献。在2019年10月的ICCV上,该团队推出了一个基于Python的代码库PySlowFast。FAIR现在是开源的PySlowFast,还有一个预先训练的模型库,并承诺继续为项目添加尖端资源。
“PySlowFast”这个名字来源于一种新颖的二元性——该模型既有一条以低帧速率运行以捕获空间语义的慢速路径,也有一条以高帧速率运行的轻量级快速路径,以精细的时间分辨率捕获运动,并且可以学习有用的时间信息用于视频识别。
PySlowFast的引入解决了ML研究人员的一些需求。首先,开源社区中没有简洁、高效、易于修改的视频理解代码库。其次,重建当今最先进的深度学习模型可能令人头疼,因为此类模型通常需要数十个GFlops,几天的训练和反复的实验调整才能使每个细节都正确。对于许多研究人员来说,这可能是非常耗时和资源的。
PySlowFast将使研究人员能够轻松重现视频分类和动作检测算法,无论它们是基本的还是尖端的。FAIR还开源了一些预训练模型,为研究人员省去了重复培训课程的麻烦。
PySlowFast在视频分类数据库Kinetics 400上的性能
PySlowFast还包括一个专用接口,通过简单的编辑支持多模态视频理解、视频自监督学习等任务。FAIR表示,PySlowFast将积极实时更新尖端算法,以确保它仍然是视频理解领域最新和可靠的基准。
安装完成后,用户可以下载model_ZOO提供的预训练模型和相应的配置文件,并运行以下代码,在不同的视频数据库上测试性能:
python tools/run_net.py \
--cfg configs/Kinetics/C2D_8x8_R50.yaml \
DATA.PATH_TO_DATA_DIR path_to_your_dataset \
NUM_GPUS 2 \
PySlowFast代码库位于GitHub上。相关论文有arXiv:用于视频识别的慢速快速网络和非局部神经网络。