如何学习计算机视觉？

AI的专业领域知识是指AI与具体应用领域相结合时所需要的该应用领域的知识。AI的应用领域非常广泛，例如计算机视觉、智能交通、智能制造、智慧金融、智慧教育、智慧农业、智慧能源、智能通信、智能芯片等。本文主要介绍计算机视觉的基本概念、发展历程、主要研究内容、常用教材、学习路线等方面的内容。

1. 基本概念

计算机视觉（Computer Vision）是指用计算机和摄像头实现人的视觉功能，即实现对客观世界的三维场景的感知、识别和理解等。计算机视觉是AI中非常热门的一个研究领域，已经有一些比较成熟的应用，例如人脸识别、车牌识别、装配机器人等。计算机视觉仍然是一个朝气蓬勃的学科，还有大量的问题没有解决，需要广大的人员进行研究，例如人眼底层视觉信号的传感和作用机制深度解析、图像的高级语义识别及理解等。

一个计算机视觉系统的组成部分通常包括：光源、摄像头、数据传输线、计算机、执行机构等。光源的作用是为物体打光，提高成像质量；摄像头实现现场图像的采集；数据传输线将采集到的图像或视频传送给计算机；计算机对图像或视频进行分析和处理，根据计算的结果进行决策；执行机构负责执行计算机的决策。图 5‑1显示了一个对特种砖表面缺陷进行检测的计算机视觉系统的示意图，该系统由光源、摄像头、数据传输线、计算机、机械手、传送带等几部分组成。摄像头会对传送带上的特种砖进行拍照，如果计算机检测出特种砖有缺陷，则会启动机械手将特种砖从传送带上取下来。

图 5‑1 对特种砖进行检测的计算机视觉系统示意图

2. 发展历程

计算机视觉的发展大致经历了如下几个阶段。

(1) 学科领域的开创

1977年David Marr在MIT人工智能实验室提出了计算机视觉理论，这是与 Lawrence Roberts当初引领的积木世界分析方法截然不同的理论。计算机视觉理论成为80年代计算机视觉重要理论框架，使计算机视觉有了明确的理论体系，极大地促进了计算机视觉的发展。1982年David Marr的《Vision》一书的问世，标志着计算机视觉成为了一门独立学科。该书在心理学基础上，建立了图像图形特征的数学模型，提出了图像边沿特征与边沿检测算法、光流与纹理特征的概念、图像特征匹配和立体视觉的概念、运动理解和目标表面三维重建的设想，引入了目标识别的理念。

(2) 先驱研究

以傅京孙（King Sun Fu）、黄煦涛（Thomas S. Huang）、Azriel Rosenfeld、Olivier Faugeras、J. K. Aggarwal、N. Ahuja为代表的先驱们在图像特征提取、图像特征匹配、三维重建、三维定位、三维运动分析等计算机视觉的新领域进行了开创性的研究，极大地促进了计算机视觉学科的发展壮大。这一时期的研究主要采用视觉几何的方法进行研究，其理论基础包括射影几何、多视图几何等。

(3) 发展成熟

这一时期计算机视觉在图像标注、图像检索、人脸识别、人体三维运动分析、动作识别、场景语义理解、虚拟现实、增强现实等多个研究方向取得突破性进展，部分计算机视觉成果开始进行实际应用的尝试，如人脸识别、场景目标分析、工业部件检测等，但是在错检率、漏检率、测量精度等方面还需要做进一步改进。这一时期主要采用视觉学习的方法进行研究，即机器学习技术被广泛应用于解决计算机视觉中的问题。

(4) 部分技术取得大范围的应用

这一时期深度学习框架TensorFlow、Pytorch、Keras、Caffe等得以发布和不断完善，深度学习的使用门槛越来越低，使用深度学习框架越来越方便。深度学习技术极大地提升了计算机视觉算法的性能，特别是基于无监督学习的算法。基于深度学习的计算机视觉技术使得某些领域的应用开始大范围的落地，创造了重大的经济价值，受到了政府部门的高度重视，例如人脸识别技术的广泛应用等。近些年来，计算机视觉技术的成功应用案例越来越多。这一时期主要采用视觉计算的方法进行研究，即基于深度学习的框架对大量的视觉数据进行计算，从而实现算法性能的提升。

3. 主要研究内容

计算机视觉的研究内容庞杂，要清晰明了地说清楚其研究内容是非常困难的。根据个人的理解，做一下简明扼要的阐述，以便读者对整个计算机视觉的研究领域有更清晰的了解。

根据所使用的摄像机的数目，可以将整个计算机视觉领域分为：单目视觉、双目视觉、结构光视觉、多目视觉。下面分别加以介绍。

单目视觉只使用一个摄像机或摄像头进行图像采集。单目视觉的研究内容包括：图像滤波、图像增强、二值图像处理、边缘检测、轮廓分析、图像分割、目标检测、物体识别等。图 5‑2显示了一个用于啤酒瓶瓶口缺陷检测的单目视觉系统的示意图，啤酒瓶被摆放在传送带上运输，当定位器检测到啤酒瓶到达摄像机正下方时会启动摄像机对啤酒瓶进行拍照，并将拍摄的照片传送给计算机进行分析。如果啤酒瓶没有检测出缺陷，则通过传送带；否则，则会被机械装置从传送带上取下。

图 5‑2 单目视觉系统示例

双目视觉使用两个摄像机或摄像头对场景中的物体进行拍摄，所采集的数据主要用于三维视觉的分析。双目视觉的研究内容主要包括：基于双目视觉的物体定位、尺寸检测、三维匹配、三维重建、运动分析、目标跟踪等。大部分情形下，单目视觉系统只能获得物体的二维信息，也就是只能计算出物体的平面坐标；双目视觉系统、多目视觉系统、结构光视觉系统则能够获得物体的三维信息，即可以计算出物体的三维空间坐标。简单点说，在通常情形下，要获得物体的三维信息至少要两个摄像机，或者用一个摄像机再加上结构光。如果你只用一个眼睛看世界就无法感觉到物体离你的距离，这就是单目视觉在通常情形下无法获得三维信息的最好例证。人之所以有两只眼睛，就是为了获得物体的三维信息。图 5‑3显示了两个双目视觉系统的实例，该系统为一个手术机器人系统，通过两个摄像头对人手持的石膏仿制的腿骨进行三维空间的跟踪和定位。

图 5‑3 双目视觉系统实例:手术机器人

结构光视觉基于光学三角法测量原理，一般使用一个摄像机或摄像头，再加上一个结构光投射器。如图 5‑4所示，结构光投射器将一定模式的结构光投射于物体表面，同时由处于另一位置的摄像机或摄像头对物体和结构光的图像进行采集,采集的信息被传送给计算机进行处理，可以获得物体的三维信息。结构光视觉也是一种3D视觉的分析模式，其主要研究内容包括：基于结构光视觉的物体定位、尺寸检测、三维重建等。

图 5‑4 结构光视觉系统示例

多目视觉由多个摄像机或摄像头（数目通常多于2个）对场景中的物体进行拍摄，所采集的图像数据被用于3D视觉的分析。其主要研究内容包括：基于多目视觉的物体定位、尺寸检测、三维匹配、三维重建、运动分析、目标跟踪等。图 5‑5显示了一个运用多目视觉技术进行人体运动分析的例子。通过在人体周围布置一圈摄像头，对场景中的人进行拍摄，运用计算机视觉技术构建出人体的三维模型，对人体的运动姿态和模式进行分析。

图 5‑5 多目视觉系统示例

对前文进行总结，将计算机视觉各领域的主要研究内容总结于图 5‑6中，方便读者理解。

图 5‑6 计算机视觉的主要研究内容

4. 常用教材推荐

计算机视觉的教材较多，推荐的著名教材如书籍 35所示。

书籍 35 计算机视觉教材推荐: (a) 数字图像处理 (Rafael C. Gonzalez 等著, 阮秋琦等译); (b) 计算机视觉: 一种现代方法 (David A.Forsyth 等著, 高永强等译); (c) An Invitation to 3-D Vision (马毅等); (d) 深度学习与计算机视觉:算法原理、框架应用与代码实现 (叶韵); (e) 计算机视觉中的多视图几何 (Richard Hartley 等著, 韦穗等译); (f) 计算机视觉中的数学方法 (吴福朝)

Rafael C. Gonzalez等编著、阮秋琦等翻译的《数字图像处理》[2]是图像处理领域里面的经典著作之一。全书共12章，即绪论、数字图像基础、灰度变换与空间滤波、频域滤波、图像复原与重构、小波变换和其它图像变换、彩色图像处理、图像压缩和水印、形态学图像处理、图像分割、特征提取、图像模式分类。数字图像处理是计算机视觉的先修核心课程之一，数字图像处理的大部分内容包含于单目视觉之中，需要认真学习。

David A. Forsyth等编著、高永强翻等译的《计算机视觉：一种现代方法》[3]是计算机视觉领域的经典教材，内容涉及摄像机的几何模型、光照及阴影、颜色、线性滤波、局部图像特征、纹理、立体视觉、运动结构、聚类分割、分组与模型拟合、跟踪、配准、平滑表面及其轮廓、深度数据、图像分类、物体检测与识别、基于图像的建模与渲染、图像搜索与检索、优化技术等。

《An Invitation to 3-D Vision: From Images to Geometric Models》[4]是加州大学伯克利分校的著名教授马毅等人编写的一本关于3D技术的教材，该书理论功底深厚，推导严谨，系统全面地介绍了3D技术的方方面面。全书分为五部分：基础知识、双视图几何、多视图几何、3D技术应用、附录。

叶韵编著的《深度学习与计算机视觉:算法原理、框架应用与代码实现》[5]是一本介绍如何将当前热门的深度学习技术应用于计算机视觉领域的教材。全书共13章，分为2篇。第1篇基础知识，介绍了人工智能发展历程、计算机视觉概要、深度学习和计算机视觉中的基础数学知识、神经网络及其相关的机器学习基础、卷积神经网络及其一些常见结构，最后对最前沿的趋势进行了简单探讨。第2篇实例精讲，介绍了Python基础、OpneCV基础、最简单的分类神经网络、图像识别、利用Caffe做回归、迁移学习和模型微调、目标检测、度量学习和图像风格迁移等常见的计算机视觉应用场景。从第5章开始包含了很多有趣和实用的代码示例。从第7章开始的所有实例都基于深度学习框架Caffe和MXNet，其中包含了作者原创的大量代码和搜集的数据，这些代码和作者训练好的部分模型已分享到本书GitHub页面上供读者自行下载。

Richard Hartley等编著、韦穗等翻译的《计算机视觉中的多视图几何》[6]是一本介绍3D视觉理论基础的著名教材，是从事3D视觉的研究人员必读书籍。从基础的摄影几何、变换、估计讲起，到摄像机几何和单视图几何，接着到双视图几何，再到三视图几何，最后讲解多视图几何。全书理论严谨，论述清晰，被公认为视觉几何方面的经典著作。

吴福朝编著的《计算机视觉中的数学方法》[7]包含了射影几何、矩阵与张量、模型估计等3个部分，共同组成了三维计算机视觉的基本数学理论和方法。第一部分射影几何学是三维计算机视觉的数学基础，该教材着重介绍射影几何学及其在计算机视觉中的应用，主要内容包括：平面与空间射影几何，摄像机几何，两视点几何，自标定技术和三维重构理论。第二部分矩阵与张量是描述和解决三维计算机视觉问题的必要数学工具，该教材着重介绍与计算机视觉有关的矩阵和张量理论及其应用，主要内容包括：矩阵分解，矩阵分析，张量代数，运动与结构，多视点张量。第三部分模型估计是三维计算机视觉的基本问题，通常涉及变换或某种数学量的估计，该教材着重介绍与视觉估计有关的数学理论与方法，主要内容包括：迭代优化理论，参数估计理论，视觉估计的代数方法、几何方法、鲁棒方法和贝叶斯方法。

5. 学习路线

计算机视觉的学习路线如图 5‑7所示。在初级入门阶段，需要学习入门教材1～2：入门教材1可以为计算机视觉的学习打下数字图像处理的基础，数字图像处理是计算机视觉的先修课程；入门教材2可以帮助解计算机视觉的全貌和知识点，快速入门计算机视觉。在中级提高阶段，需要学习提高教材1～2，重点学习3D视觉的基础理论，3D视觉是当前计算机视觉的热门研究领域之一，是未来发展的重点方向，同时掌握深度学习方法在计算机视觉中的应用，会应用深度学习这一最流行的方法解决计算机视觉中的具体问题。在高级进阶阶段，学习进阶教材1，重点掌握计算机视觉中的多视图几何方法，这是3D视觉的数学理论基础；同时通过学习进阶教材2，掌握计算机视觉中的数学理论。对于有志于计算机视觉基础研究的人来说，进阶教材1～2值得认真深入学习；如果只是从事计算机视觉的应用和项目开发工作，可以不学进阶教材1～2。

图 5‑7 计算机视觉的学习路线图

读者朋友们可以通过在线课程非常方便地自学计算机视觉。关于计算机视觉在线课程的详细介绍，请查阅图书《人工智能怎么学》。

如果想了解学习智能交通的方法，敬请关注本公众号的下一篇文章《如何学习智能交通？》。

关于人工智能的专业领域知识体系构建的更多介绍，可以购买《人工智能怎么学》进一步阅读。

图书购买方式

京东：https://item.jd.com/13395339.html

当当：http://product.dangdang.com/29469230.html

天猫：https://detail.tmall.com/item_o.htm?id=687374654836

为了让图书惠及更多的读者，为更多想学习人工智能的人提供帮助，经过向出版社申请，对图书《人工智能怎么学》的部分内容进行改编和连载。图书《人工智能怎么学》的全部内容包含了初级入门、中阶提高以及高级进阶三个级别的内容。连载的内容主要是初级入门级别，适合想对人工智能进行快速和高效入门的读者，对于已有一定的人工智能学习基础，希望进一步进阶或提高的读者，则需要购买图书《人工智能怎么学》，学习中阶提高以及高级进阶的内容。此外，对于学习人工智能感兴趣的读者，也可以加入知识星球《人工智能怎么学》，知识星球是一个构建学习社群的平台，通过加入《人工智能怎么学》的社群，你将获得更多的学习资料和课程信息。

与作者互动和了解更多信息

想跟作者一起学习人工智能和互动，你可以加入如下社群：

知识星球：https://t.zsxq.com/0aLkVg0os

QQ群：600587177

想了解更多关于人工智能学习及实践的内容，请关注如下媒体：

官方网站：https://bigdatamininglab.github.io

官方微信公众号：人工智能怎么学(可扫描下方二维码或者微信搜索“人工智能怎么学”添加关注)

CSDN：https://blog.csdn.net/audyxiao001

参考文献