第一课计算机视觉与 OpenMMLab 开源算法体系张子豪

计算机视觉基础

计算机视觉：让计算机理解图像、视频。
计算机视觉的三大基础任务：图像分类(图像识别)、目标检测、图像分割任务。
根据目标数量，计算机视觉任务也分为：单目标、多目标任务；
图像分割又分为语义分割、实例分割: 语义分割不需要处理重合的情况，但实例分割需要。
大规模视觉识别挑战赛 ILSVRC SOTA 模型：AlexNet(2012) -> ZFNet(2013) -> GoogLeNet(2014) -> ResNet(2016) -> SENet(2017) -> …
计算机视觉具体应用场景举例：图像识别(识别照片中的物体是什么)、人脸检测与定位(特殊的识别和检测对象，用于支付、身份认证、换脸、虚拟主播)、姿态检测、自动驾驶、图像生成(GAN)与图像风格迁移、视频理解(自动剪辑、视频搜索)、文本生成图片、视觉大模型、神经渲染(NeRF 神经辐射场)…

OpenMMLab 是基于 PyTorch 搭建的算法库，是深度学习用在计算机视觉方向的主流开源算法库（下图是1.0版本的架构图，目前正在迁移到2.0，2022年发布）。
MMDetection：目标检测、实例分割、全景分割(在实例分割基础上也对环境做感知)；
MMDetection3D: MMDetection 用于 2D 数据，MMDetection3D 处理 3D 点云数据；
MMClassification：
MMSegmentation：无人驾驶、遥感、医疗影像分析
MMPose & MMHuman3D：人体姿态估计
MMTracking：视频目标检测、单目标跟踪、多目标跟踪
MMAction2：行为识别、时序动作检测、时空动作检测
MMOCR：文本检测、文本识别、关键信息提取
MMEditing：图像修复、抠图、超分辨率、图像生成