- 相关资源: github
第一课 计算机视觉与 OpenMMLab 开源算法体系 张子豪
计算机视觉基础
-
计算机视觉:让计算机理解图像、视频。
-
计算机视觉的三大基础任务:图像分类(图像识别)、目标检测、图像分割任务。
-
根据目标数量,计算机视觉任务也分为:单目标、多目标任务;
-
图像分割又分为语义分割、实例分割: 语义分割不需要处理重合的情况,但实例分割需要。
-
大规模视觉识别挑战赛 ILSVRC SOTA 模型:AlexNet(2012) -> ZFNet(2013) -> GoogLeNet(2014) -> ResNet(2016) -> SENet(2017) -> …
-
计算机视觉具体应用场景举例:图像识别(识别照片中的物体是什么)、人脸检测与定位(特殊的识别和检测对象,用于支付、身份认证、换脸、虚拟主播)、姿态检测、自动驾驶、图像生成(GAN)与图像风格迁移、视频理解(自动剪辑、视频搜索)、文本生成图片、视觉大模型、神经渲染(NeRF 神经辐射场)…
OpenMMLab 基础
-
OpenMMLab 是基于 PyTorch 搭建的算法库,是深度学习用在计算机视觉方向的主流开源算法库(下图是1.0版本的架构图,目前正在迁移到2.0,2022年发布)。
-
MMDetection:目标检测、实例分割、全景分割(在实例分割基础上也对环境做感知);
-
MMDetection3D: MMDetection 用于 2D 数据,MMDetection3D 处理 3D 点云数据;
-
MMClassification:
-
MMSegmentation:无人驾驶、遥感、医疗影像分析
-
MMPose & MMHuman3D:人体姿态估计
-
MMTracking:视频目标检测、单目标跟踪、多目标跟踪
-
MMAction2:行为识别、时序动作检测、时空动作检测
-
MMOCR:文本检测、文本识别、关键信息提取
-
MMEditing:图像修复、抠图、超分辨率、图像生成
OpenMMLab 2.0
更细节内容请看官方介绍或者repo中的pdf原文件。
机器学习和神经网络简介
这部分内容与计算机视觉无关,这里略掉,笔记默认读者有机器学习、深度学习基础概念,但没有系统学习计算机视觉。