OpenMMLab-AI实战营第二期-课程笔记-Class 1：开营仪式OpenMMLab概述

news2026/2/11 13:59:42

Class 1：开营仪式&OpenMMLab概述

文章目录

Class 1：开营仪式&OpenMMLab概述
- 开营仪式
- - OpenMMLab 简介
  - - why？
    - when？
    - what？
    - for who？
    - OpenMMLab 总体框架
- 二十分钟入门计算机视觉开源神器OpenMMLab
- - OpenMMLab概述
  - OpenMMLab各开源算法库详细介绍
  - - 明星算法库：MMDetection
    - MMYOLO
  - MMOCR
  - - MMDetection3D
    - MMRotate
    - MMSegmentation
    - MMpretrain
    - MMpose
    - MMHuman3D
    - MMAction2
    - MMagic
    - MMDeploy
    - Playground
  - OpenMMLab开源生态

开营仪式

OpenMMLab 简介

why？

随着深度学习、计算机视觉等学科的发展，各大研究机构和公司陆续开源自己的深度学习框架，论文发表同时开源代码也成了行业内的习惯。

when？

OpenMMLab诞生于2018年，是一个由中国开发者主导，有国际影响力的人工智能·计算机视觉开源算法体系。

相比之下，OpenMMLab是开源社区的后起之秀。

官网：https://openmmlab.com

Github：https://github.com/open-mmlab

公众号：OpenMMLab

what？

那么OpenMMLab中都有些什么呢？

OpenMMLab累计开源超过30个算法库、2400个预训练模型，涵盖图像识别分类、目标检测、图像分割、姿态估计、视频理解、OCR、3D目标检测、3D人体姿态估计、模型轻量化、自监督、少样本、光流、预训练、多模态、AIGC、推理部署等等计算机视觉任务，在Github上累计获得十万颗star，超过了Pytorch。

for who？

无论是巨头公司做商业产品，研究机构发顶会论文，各行各业做AI应用，大学生做毕业设计，中小学生参加科创竞赛，都可以站在OpenMMLab巨人肩膀上，开箱即用，开发自己的人工智能项目。也许大家的下一个课程作业，下一场kaggle竞赛，下一篇毕业论文，下一家入职的公司，就能用到OpenMMLab。

OpenMMLab 总体框架

万丈高楼平地起

OpenMMLab所有算法库都在Github上免费开源，并且有专人维护，我们可以进入每个算法库的Github主页，点star或者提issue、提PR，下载所有的源代码和模型文件。

二十分钟入门计算机视觉开源神器OpenMMLab

课程回放链接：二十分钟入门计算机视觉开源神器OpenMMLab

By：同济子豪兄

OpenMMLab概述

无论身处什么领域，都可以站在OpenMMLab巨人肩膀上，使用开箱即用的模型开发自己的人工智能项目~

OpenMMLab各开源算法库详细介绍

明星算法库：MMDetection

首推的就是目标检测算法库MMDetection，它可以解决目标检测实例分割全景分割和目标追踪任务
这是OpenMMLab在业界最有影响力的算法库，在github上有2万多star~

OpenMMLab是开源算法体系，它已经提供了各个计算机视觉方向的大量开箱即用的预训练模型和算法。也就是说
OpenMMLab的算法研究员已经帮我们把这些cv任务的常见算法都现好了！

MMDetection被广泛用于学术界和工业界，很多顶会论文，很多比赛的冠军，很多商业落地的产品都是基于MMDetection实现的！

MMYOLO

还有一个做目标检测的算法库叫做MMYOLO，它是专门用来解决YOLO目标检测问题的，它的特点就是特别快！！！

很多同学做毕业设计，其实就是标注一个自己的目标检测数据集，然后用MMYOLO去跑一下，训练一个模型，然后实时的去预测！

MMOCR

OpenMMLab还有一个文字检测识别的算法库，叫做MMOCR，那这也是计算机视觉很古老的一个经典问题了，它主要解决三类问题，文本检测就是把图像上的文本区域抠出来，或者说画出来，文本识别呢是把文字的内容识别出来，关键信息提取呢是对一些结构化的票据，证件牌照来进行信息的提取。

MMDetection3D

MMDetection3D是专门做3D目标检测的算法库，这个在无人驾驶中用的特别多，要通过激光雷达和毫米波雷达，感知无人驾驶车周围的3d点云数据，来进行3d目标检测，很多无人驾驶的初创公司都使用MMDetection3D来实现自己的无人驾驶算法。

MMRotate

MMRotate是专门做旋转目标检测算法库，在传统的目标检测框是横平竖直的，但是在旋转目标检测框有方向，比如说不同方向的车，不同方向的船，那这是一个比较小众的研究领域，如果你的研究领域恰恰是旋转框目标检测，那MMRotate将是你最佳的学习资料！

MMSegmentation

MMSegmentation是专门做图像分割，特别是语义分割的算法库，在街景，在无人驾驶遥感图像医疗领域，语义分割都是非常重要的算法，任务本质上就是给每一个像素进行分类。可以用它来识别医疗影像中的病灶区域，肿瘤的区域，遥感图像中河流山地农田的面积，街景数据里边的马路牙，交通标志和其他车的位置以及车道线，所以语义分割是一个非常常用的计算机视觉任务，MMSegmentation提供了600多个预训练模型，复现了40多篇的经典和前沿的语义分割的论文，那如果你想入门语义分割领域，MMSegmentation将是你最佳的学习资料！

MMpretrain

MMpretrain呢是做图像分类，预训练和多模态的算法库，那图像分类也是计算机视觉解决的，基础任务之一，用MMpretrain可以实现图像分类，图像描述，视觉问答，视觉定位和视觉检索。

MMpose

MMPose 是一款基于 PyTorch 的姿态分析的开源工具箱，所谓的姿态估计其实就是关键点检测，比如说把这么一个人各个的关节骨架的点识别出来，然后串成一个火柴人，那这就叫做姿态估计，通过姿态估计，我们就能定量的去衡量这个人的行为动作，比如说健身的打分~

MMHuman3D

MMHuman3D 是一款基于 PyTorch 的人体参数化模型的开源工具箱。

所谓的三维人体姿态估计就是要用一个3d的模型去包络出人体，我们就可以用一个3d的数字人去拟合一个真人，特别是在动作捕捉领域和虚拟现实领域，有了一个3d的人，就能跟真实世界的人进行对应了，比如说在足球运动里，在交通事故的模拟中，甚至在很多的竞技类运动中，都可以用到这个算法。

MMAction2

MMAction2 是一款基于 PyTorch 的视频理解开源工具箱，MMAction2 支持多种视频理解任务，包括动作识别，时序动作检测，时空动作检测以及基于人体姿态的动作识别。

MMagic

MMagic 是基于 PyTorch 的图像&视频编辑和生成开源工具箱，MMagic 支持了流行的图像修复、图文生成、3D生成、图像修补、抠图、超分辨率和生成等任务的应用。特别是 MMagic 支持了 Stable Diffusion 的微调和许多激动人心的 diffusion 应用，例如 ControlNet 动画生成。MMagic 也支持了 GANs 的插值，投影，编辑和其他流行的应用。