斯坦福CS231n学习笔记：DL与CV教程 (1)

在这里插入图片描述

前言

📚 笔记专栏：斯坦福CS231N：面向视觉识别的卷积神经网络（23）
🔗 课程链接：https://www.bilibili.com/video/BV1xV411R7i5
💻 CS231n: 深度学习计算机视觉（2017）中文笔记：https://zhuxiaoxia.blog.csdn.net/article/details/80155166
🔥 2023最新课程PPT：https://download.csdn.net/download/Julialove102123/88734395

1.课程简介

CS231n 是顶级院校斯坦福出品的深度学习与计算机视觉方向专业课程，核心内容覆盖神经网络、CNN、图像识别、RNN、神经网络训练、注意力机制、生成模型、目标检测、图像分割等内容。

课程最后一版公开课视频为2017版，但是课程PPT最新的已经更新到2023版，见「2023最新CS231NPPT」，此外，需要关注进阶技术内容的同学可以看一下「密歇根EECS498：深度学习与计算机视觉课程（2019）」

2. 课程内容

第1部分 Lecture1-3 深度学习背景知识简单介绍

课程引入与介绍
KNN 和线性分类器
Softmax 和 SVM 两种损失函数
优化算法（SGD等）

第2部分 Lecture4-9 卷积神经网络

CNN及各种层次结构（卷积、池化、全连接）
反向传播及计算方法
优化的训练方法（Adam、Momentum、Dropout、Batch-Normalization）
训练 CNN 的注意事项（参数初始化与调优）
深度学习框架（TensorFlow、Caffe、Pytorch）
线性CNN结构（AlexNet、VGGNet、GoogLeNet、ResNet）

第3部分 Lecture10-16 计算机视觉应用

RNN（语言模型，image captioning等）
目标检测（R-CNN、Fast / Faster R-CNN、YOLO、SSD等）
语义分割（FCN、Unet、SegNet、deeplab等）
神经网络可视化与可解释性
生成模型与 GAN
深度强化学习

3. 课程学习目标

实用技能：理解如何从头开始编写、调试和训练卷积神经网络。
工具技术：集中于大规模训练这些网络的实用技术，以及 GPU（例如，将涉及分布式优化、CPU 与 GPU 之间的差异等），还可以查看诸如 Caffe、TensorFlow 和 (Py)Torch 等最先进的软件工具的现状。
应用创作：一些有趣的主题，如「看图说话」（结合 CNN + RNN），再如下图左边的 DeepDream，右边的神经风格迁移 NeuralStyle 等。

4. 课程先修条件

1）熟悉 Python（并了解 numpy 的使用），本课都用 Python 编写，如果要阅读理解软件包的源代码 C++ 会有帮助。

2）大学微积分（如求导），线性代数（了解矩阵）。

3）有机器学习的背景，大概 CS229 水平，非常重要核心的机器学习概念会再介绍的，如果事先熟悉这些会对课程有帮助的，我们将制定成本函数，利用导数和梯度下降进行优化。可前往文末获取 ShowMeAI 原创的CS229课程速查表。

4）有计算机图像基础会更好，但不是非常严格。

5. 计算机视觉简介

5.1 计算视觉历史

在这里插入图片描述

16世纪最早的相机：暗箱
1963年第一篇计算机视觉博士论文「Block world-Larry Roberts」，视觉世界简化为简单的几何形状，识别它们，重建这些形状。
1996年MIT暑期项目「The Summer Vision Project」目的是构建视觉系统的重要组成部分。
1970s 的 MIT 视觉科学家 David Marr 编写了《VISION》，内容有计算机视觉的理解、处理开发、识别算法，他提出了视觉表现的阶段，如原始草图的零交叉点，圆点，边缘，条形，末端，虚拟线，组，曲线边界等概念：
1973年后对于如何识别和表示对象，斯坦福科学家提出「广义圆柱体」和「圆形结构」，每个对象都是由简单的几何图形单位组成。
1987年 David Lowe 尝试用线和边缘来构建识别。
1997年 Shi & Malik 提出，若识别太难了，就先做目标分割，就是把一张图片的像素点归类到有意义的区域。
2001年此时的机器学习也快速发展了（尤其是统计学习方法），出现了SVM（支持向量机模型）、boosting、图模型等方法。Viola & Jones 发表了使用 AdaBoost 算法进行实时面部检测的论文「Face Detection」，而后2006年富士推出可以实时面部检测的数码相机
1999 年 David Lowe 发表 “SIFT” & Object Recognition，提出 SIFT 特征匹配，思路是先在目标上确认关键特征，再把这些特征与相似的目标进行匹配，来完成目标识别。从90年代到2000年的思想就是基于特征的目标识别。
2006年 Lazebnik, Schmid & Ponce 发表「Spatial Pyramid Matching」，图片里的各种特征描述了不同场景，空间金字塔匹配算法的思想就是从图片的各部分各像素抽取特征，并把他们放在一起作为一个特征描述符，然后在特征描述符上做一个支持向量机。
2005年后来的研究方向梯度直方图和可变形部件模型，目的是将特征放在一起后，如何辨认人体姿态。
21世纪早期，数码相机快速发展，图片质量提高，也真正有了标注的数据集，它能够衡量目标识别的成果。数据集 PASCAL Visual Object Challenge 有 20 个类别，每个种类有成千上万张图片，供团队开发算法来和数据测试集做对抗训练，来看检测效果有没有优化。
而后普林斯顿和斯坦福提出怎么识别大部分物体，这个问题也是由机器学习中的一个现象驱动的，机器学习算法在训练过程中很可能会过拟合（只对现有的这些数据完美拟合，但对未知数据不一定完美）。部分原因是可视化的数据非常复杂（像是记住了每道题），从而模型维数比较高，输入是高维的模型，并且还有一堆参数要调优，当我们的训练数据量不够时很快就会产生过拟合现象，这样就无法很好的泛化。

因此有了两方面动力：① 识别万物；② 克服机器学习的瓶颈-过拟合问题。

针对上述问题开展了 ImageNet 项目，在网络上收集了上亿张图片，用 WordNet 字典来排序，这个字典有上万个物体类别，不得不用 Amazon Mechanical Turk 平台来排序、清洗数据、给每张图片打上标签，最终得到的 ImageNet 有 1500 万甚至 4000 万图片分成了 22000 多类的物体或场景。它将目标检测算法的发展推到了新高度。
2009年为了推动基准测试的进展，ImageNet 开始组织了 ImageNet 大规模视觉识别竞赛，筛选了更严格的测试集，140万目标图像，有1000种目标类别，分类识别来测试计算机视觉算法。
下图为图像分类结果，纵轴为比赛结果的错误率，2012年的错误率下降的非常显著，这一年获头奖的算法是一种卷积神经网络模型。