什么是计算机视觉?
- 一、什么是计算机视觉
- 二、二个研究维度
- 三、研究挑战
- 3.1 像素与语义之间的GAP
- 3.2 视觉变化
- 3.3 光照变化
- 3.4 尺度变化
- 3.5 形态变化
- 3.6 背景复杂
- 3.7 遮挡
- 3.8 内外
- 四、计算机视觉框架
- 4.1 计算机视觉基础
- 4.2 深度学习算法理论基础
- 4.3 深度学习算法
- 五、计算机视觉基础内容
- 5.1 图像预处理
- 5.2 图像特征和描述
- 5.3 深度学习之前的方法
- 六 神经网络与深度学习基础
- 七 主要研究问题
- 7.1 图片分类
- 7.2 目标检测
- 7.3 图片分割
- 7.4 图像描述
- 7.5 图像生成 GAN
一、什么是计算机视觉
- 研究如何使机器看的科学
- 让计算机具有人类视觉的所有功能
- 从图像数据中,提取到有用的信息和知识
- 模拟人类视觉的优越能力
a. 识别人、物体、场景
b. 估计立体空间、距离
c. 躲避障碍物进行导航
d. 想象并描述故事
e. 理解并讲解图片- 弥补人类视觉的缺陷
a. 容易忽视很多细节
b. 不擅长精细感知,容易受幻觉干扰
c. 主观,不擅长长时间稳定的执行同一任务
二、二个研究维度
- 语义感知
- 几何属性
三、研究挑战
3.1 像素与语义之间的GAP
3.2 视觉变化
3.3 光照变化
3.4 尺度变化
3.5 形态变化
3.6 背景复杂
3.7 遮挡
3.8 内外
四、计算机视觉框架
4.1 计算机视觉基础
- 图像预处理
- 图像特征及描述
- 传统算法
4.2 深度学习算法理论基础
- BP神经网络
- 深度学习基础
4.3 深度学习算法
- 图像分类:CNN => 卷积神经网络
- 图像检测:R-CNN => 区域卷积神经网络
- 图像分割:FCN => 全卷积神经网络
- 图像描述:RNN => 迭代神经网络
- 图像生成:GAN => 生成对抗网络
五、计算机视觉基础内容
5.1 图像预处理
- 图像显示与存储
- 图像增强目标
- 点运算
- 形态学处理
- 空间域处理:卷积
- 卷机的应用:【平滑、模糊、边缘检测、锐化】
- 频域处理:傅立叶变换,小波变换
5.2 图像特征和描述
- 颜色
a. 量化颜色直方图
b. 聚类颜色直方图- 几何特征
a. Edge
b. Corner
c. Blob- 基于关键点的特征描述子
a. SIFT
b. SURF
c. ORB- 其他特征
a. LBP
b. Gabor
5.3 深度学习之前的方法
- 图像分割
a. 基于阈值、基于边缘
b. 基于区域、基于图论- 人脸检测
a. Haar-like 特征+ 级联分类器- 行人检测
a. HOG+SVM
b. DPM
六 神经网络与深度学习基础
- 神经网络
a. 神经元
b. 前馈网络
c. 梯度下降
d. 误差反向传播- 深度学习
a. 与传统神经网络的区别
b. 目标函数
c. 该进的梯度下降
d. 避免过拟合
七 主要研究问题
7.1 图片分类
一、问题:求解有没有某一个Object
二、卷积神经网络CNN
- 基础网络
- 有监督深度模型时代的起点
- AlexNet-> VGG -> GoogleNet -> ResNet -> ResNeXt
三、GoogleNet
- nception V1->V2->V3->V4
- Inception ResNet V1->V2
四、结构趋势
- 更深 8 -> 1000+
- 更广 1分支 -> 4分支
- 更多基数 1-> 32
7.2 目标检测
一、检测对象
- 物体检测
- 人脸检测
- 姿态检测
二、检测方法R-CNN
- 让基础网络具备区域输出能力
- 第一阶段:R-CNN -> SPP-Net -> Fast/Faster R-CNN
- 第二阶段:YOLO-> SSD -> R-FCN
三、目的
检测更快、更准确四、工业应用
- 智能监控
- 辅助驾驶
7.3 图片分割
一、处理问题
- 前景分割
- 语义分割
二、检测方法FCN
- 让基础网络做像素输出
- FCN-> SegNet/ DeconvNet -> DeepLab
三、目的
语义推断、分割更精确四、工业应用
辅助驾驶
7.4 图像描述
一、处理问题
- 图片描述
- 图片问答
二、检测方法FCN
- 让网络具有记忆功能,构建不定长序列数据的模型
- Vanilla RNN -> LSTM -> GRU
三、应用
文本序列、区域序列、视频序列
7.5 图像生成 GAN
一、网络结构
- 生成器网络:Generator
- 判别器网络:Discriminator
二、网络改进
GAN -> CGAN -> DCGAN -> wGAN
SRGAN三、应用
样本数据分布学习