如何学习计算机视觉?

news2024/11/16 11:35:19

AI的专业领域知识是指AI与具体应用领域相结合时所需要的该应用领域的知识。AI的应用领域非常广泛,例如计算机视觉、智能交通、智能制造、智慧金融、智慧教育、智慧农业、智慧能源、智能通信、智能芯片等。本文主要介绍计算机视觉的基本概念、发展历程、主要研究内容、常用教材、学习路线等方面的内容。

1. 基本概念

计算机视觉(Computer Vision)是指用计算机和摄像头实现人的视觉功能,即实现对客观世界的三维场景的感知、识别和理解等。计算机视觉是AI中非常热门的一个研究领域,已经有一些比较成熟的应用,例如人脸识别、车牌识别、装配机器人等。计算机视觉仍然是一个朝气蓬勃的学科,还有大量的问题没有解决,需要广大的人员进行研究,例如人眼底层视觉信号的传感和作用机制深度解析、图像的高级语义识别及理解等。

一个计算机视觉系统的组成部分通常包括:光源、摄像头、数据传输线、计算机、执行机构等。光源的作用是为物体打光,提高成像质量;摄像头实现现场图像的采集;数据传输线将采集到的图像或视频传送给计算机;计算机对图像或视频进行分析和处理,根据计算的结果进行决策;执行机构负责执行计算机的决策。图 5‑1显示了一个对特种砖表面缺陷进行检测的计算机视觉系统的示意图,该系统由光源、摄像头、数据传输线、计算机、机械手、传送带等几部分组成。摄像头会对传送带上的特种砖进行拍照,如果计算机检测出特种砖有缺陷,则会启动机械手将特种砖从传送带上取下来。

51 对特种砖进行检测的计算机视觉系统示意图

2. 发展历程

计算机视觉的发展大致经历了如下几个阶段。

(1) 学科领域的开创

1977年David Marr在MIT人工智能实验室提出了计算机视觉理论,这是与 Lawrence Roberts当初引领的积木世界分析方法截然不同的理论。计算机视觉理论成为80年代计算机视觉重要理论框架,使计算机视觉有了明确的理论体系,极大地促进了计算机视觉的发展。1982年David Marr的《Vision》一书的问世,标志着计算机视觉成为了一门独立学科。该书在心理学基础上,建立了图像图形特征的数学模型,提出了图像边沿特征与边沿检测算法、光流与纹理特征的概念、图像特征匹配和立体视觉的概念、运动理解和目标表面三维重建的设想,引入了目标识别的理念。

(2) 先驱研究

以傅京孙(King Sun Fu)、黄煦涛(Thomas S. Huang)、Azriel Rosenfeld、Olivier Faugeras、J. K. Aggarwal、N. Ahuja为代表的先驱们在图像特征提取、图像特征匹配、三维重建、三维定位、三维运动分析等计算机视觉的新领域进行了开创性的研究,极大地促进了计算机视觉学科的发展壮大。这一时期的研究主要采用视觉几何的方法进行研究,其理论基础包括射影几何、多视图几何等。

(3) 发展成熟

这一时期计算机视觉在图像标注、图像检索、人脸识别、人体三维运动分析、动作识别、场景语义理解、虚拟现实、增强现实等多个研究方向取得突破性进展,部分计算机视觉成果开始进行实际应用的尝试,如人脸识别、场景目标分析、工业部件检测等,但是在错检率、漏检率、测量精度等方面还需要做进一步改进。这一时期主要采用视觉学习的方法进行研究,即机器学习技术被广泛应用于解决计算机视觉中的问题。

(4) 部分技术取得大范围的应用

这一时期深度学习框架TensorFlow、Pytorch、Keras、Caffe等得以发布和不断完善,深度学习的使用门槛越来越低,使用深度学习框架越来越方便。深度学习技术极大地提升了计算机视觉算法的性能,特别是基于无监督学习的算法。基于深度学习的计算机视觉技术使得某些领域的应用开始大范围的落地,创造了重大的经济价值,受到了政府部门的高度重视,例如人脸识别技术的广泛应用等。近些年来,计算机视觉技术的成功应用案例越来越多。这一时期主要采用视觉计算的方法进行研究,即基于深度学习的框架对大量的视觉数据进行计算,从而实现算法性能的提升。

3. 主要研究内容

计算机视觉的研究内容庞杂,要清晰明了地说清楚其研究内容是非常困难的。根据个人的理解,做一下简明扼要的阐述,以便读者对整个计算机视觉的研究领域有更清晰的了解。

根据所使用的摄像机的数目,可以将整个计算机视觉领域分为:单目视觉、双目视觉、结构光视觉、多目视觉。下面分别加以介绍。

单目视觉只使用一个摄像机或摄像头进行图像采集。单目视觉的研究内容包括:图像滤波、图像增强、二值图像处理、边缘检测、轮廓分析、图像分割、目标检测、物体识别等。图 5‑2显示了一个用于啤酒瓶瓶口缺陷检测的单目视觉系统的示意图,啤酒瓶被摆放在传送带上运输,当定位器检测到啤酒瓶到达摄像机正下方时会启动摄像机对啤酒瓶进行拍照,并将拍摄的照片传送给计算机进行分析。如果啤酒瓶没有检测出缺陷,则通过传送带;否则,则会被机械装置从传送带上取下。

52 单目视觉系统示例

双目视觉使用两个摄像机或摄像头对场景中的物体进行拍摄,所采集的数据主要用于三维视觉的分析。双目视觉的研究内容主要包括:基于双目视觉的物体定位、尺寸检测、三维匹配、三维重建、运动分析、目标跟踪等。大部分情形下,单目视觉系统只能获得物体的二维信息,也就是只能计算出物体的平面坐标;双目视觉系统、多目视觉系统、结构光视觉系统则能够获得物体的三维信息,即可以计算出物体的三维空间坐标。简单点说,在通常情形下,要获得物体的三维信息至少要两个摄像机,或者用一个摄像机再加上结构光。如果你只用一个眼睛看世界就无法感觉到物体离你的距离,这就是单目视觉在通常情形下无法获得三维信息的最好例证。人之所以有两只眼睛,就是为了获得物体的三维信息。图 5‑3显示了两个双目视觉系统的实例,该系统为一个手术机器人系统,通过两个摄像头对人手持的石膏仿制的腿骨进行三维空间的跟踪和定位。

53 双目视觉系统实例:手术机器人

结构光视觉基于光学三角法测量原理,一般使用一个摄像机或摄像头,再加上一个结构光投射器。如图 5‑4所示,结构光投射器将一定模式的结构光投射于物体表面,同时由处于另一位置的摄像机或摄像头对物体和结构光的图像进行采集,采集的信息被传送给计算机进行处理,可以获得物体的三维信息。结构光视觉也是一种3D视觉的分析模式,其主要研究内容包括:基于结构光视觉的物体定位、尺寸检测、三维重建等。

54 结构光视觉系统示例

多目视觉由多个摄像机或摄像头(数目通常多于2个)对场景中的物体进行拍摄,所采集的图像数据被用于3D视觉的分析。其主要研究内容包括:基于多目视觉的物体定位、尺寸检测、三维匹配、三维重建、运动分析、目标跟踪等。图 5‑5显示了一个运用多目视觉技术进行人体运动分析的例子。通过在人体周围布置一圈摄像头,对场景中的人进行拍摄,运用计算机视觉技术构建出人体的三维模型,对人体的运动姿态和模式进行分析。

55 多目视觉系统示例

对前文进行总结,将计算机视觉各领域的主要研究内容总结于图 5‑6中,方便读者理解。

56 计算机视觉的主要研究内容

4. 常用教材推荐

计算机视觉的教材较多,推荐的著名教材如书籍 35所示。

书籍 35 计算机视觉教材推荐: (a) 数字图像处理 (Rafael C. Gonzalez 等著, 阮秋琦 等译); (b) 计算机视觉: 一种现代方法 (David A.Forsyth 等著, 高永强 等译); (c) An Invitation to 3-D Vision (马毅 等); (d) 深度学习与计算机视觉:算法原理、框架应用与代码实现 (叶韵); (e) 计算机视觉中的多视图几何 (Richard Hartley 等著, 韦穗 等译); (f) 计算机视觉中的数学方法 (吴福朝)

Rafael C. Gonzalez等编著、阮秋琦等翻译的《数字图像处理》[2]是图像处理领域里面的经典著作之一。全书共12章,即绪论、数字图像基础、灰度变换与空间滤波、频域滤波、图像复原与重构、小波变换和其它图像变换、彩色图像处理、图像压缩和水印、形态学图像处理、图像分割、特征提取、图像模式分类。数字图像处理是计算机视觉的先修核心课程之一,数字图像处理的大部分内容包含于单目视觉之中,需要认真学习。

David A. Forsyth等编著、高永强翻等译的《计算机视觉:一种现代方法》[3]是计算机视觉领域的经典教材,内容涉及摄像机的几何模型、光照及阴影、颜色、线性滤波、局部图像特征、纹理、立体视觉、运动结构、聚类分割、分组与模型拟合、跟踪、配准、平滑表面及其轮廓、深度数据、图像分类、物体检测与识别、基于图像的建模与渲染、图像搜索与检索、优化技术等。

《An Invitation to 3-D Vision: From Images to Geometric Models[4]是加州大学伯克利分校的著名教授马毅等人编写的一本关于3D技术的教材,该书理论功底深厚,推导严谨,系统全面地介绍了3D技术的方方面面。全书分为五部分:基础知识、双视图几何、多视图几何、3D技术应用、附录。

叶韵编著的《深度学习与计算机视觉:算法原理、框架应用与代码实现》[5]是一本介绍如何将当前热门的深度学习技术应用于计算机视觉领域的教材。全书共13章,分为2篇。第1篇基础知识,介绍了人工智能发展历程、计算机视觉概要、深度学习和计算机视觉中的基础数学知识、神经网络及其相关的机器学习基础、卷积神经网络及其一些常见结构,最后对最前沿的趋势进行了简单探讨。第2篇实例精讲,介绍了Python基础、OpneCV基础、最简单的分类神经网络、图像识别、利用Caffe做回归、迁移学习和模型微调、目标检测、度量学习和图像风格迁移等常见的计算机视觉应用场景。从第5章开始包含了很多有趣和实用的代码示例。从第7章开始的所有实例都基于深度学习框架Caffe和MXNet,其中包含了作者原创的大量代码和搜集的数据,这些代码和作者训练好的部分模型已分享到本书GitHub页面上供读者自行下载。

Richard Hartley等编著、韦穗等翻译的《计算机视觉中的多视图几何》[6]是一本介绍3D视觉理论基础的著名教材,是从事3D视觉的研究人员必读书籍。从基础的摄影几何、变换、估计讲起,到摄像机几何和单视图几何,接着到双视图几何,再到三视图几何,最后讲解多视图几何。全书理论严谨,论述清晰,被公认为视觉几何方面的经典著作。

吴福朝编著的《计算机视觉中的数学方法》[7]包含了射影几何、矩阵与张量、模型估计等3个部分,共同组成了三维计算机视觉的基本数学理论和方法。第一部分射影几何学是三维计算机视觉的数学基础,该教材着重介绍射影几何学及其在计算机视觉中的应用,主要内容包括:平面与空间射影几何,摄像机几何,两视点几何,自标定技术和三维重构理论。第二部分矩阵与张量是描述和解决三维计算机视觉问题的必要数学工具,该教材着重介绍与计算机视觉有关的矩阵和张量理论及其应用,主要内容包括:矩阵分解,矩阵分析,张量代数,运动与结构,多视点张量。第三部分模型估计是三维计算机视觉的基本问题,通常涉及变换或某种数学量的估计,该教材着重介绍与视觉估计有关的数学理论与方法,主要内容包括:迭代优化理论,参数估计理论,视觉估计的代数方法、几何方法、鲁棒方法和贝叶斯方法。

5. 学习路线

计算机视觉的学习路线如图 5‑7所示。在初级入门阶段,需要学习入门教材1~2:入门教材1可以为计算机视觉的学习打下数字图像处理的基础,数字图像处理是计算机视觉的先修课程;入门教材2可以帮助解计算机视觉的全貌和知识点,快速入门计算机视觉。在中级提高阶段,需要学习提高教材1~2,重点学习3D视觉的基础理论,3D视觉是当前计算机视觉的热门研究领域之一,是未来发展的重点方向,同时掌握深度学习方法在计算机视觉中的应用,会应用深度学习这一最流行的方法解决计算机视觉中的具体问题。在高级进阶阶段,学习进阶教材1,重点掌握计算机视觉中的多视图几何方法,这是3D视觉的数学理论基础;同时通过学习进阶教材2,掌握计算机视觉中的数学理论。对于有志于计算机视觉基础研究的人来说,进阶教材1~2值得认真深入学习;如果只是从事计算机视觉的应用和项目开发工作,可以不学进阶教材1~2。

57 计算机视觉的学习路线图

读者朋友们可以通过在线课程非常方便地自学计算机视觉。关于计算机视觉在线课程的详细介绍,请查阅图书《人工智能怎么学》。

如果想了解学习智能交通的方法,敬请关注本公众号的下一篇文章《如何学习智能交通?》。

关于人工智能的专业领域知识体系构建的更多介绍,可以购买《人工智能怎么学》进一步阅读。

图书购买方式

京东:https://item.jd.com/13395339.html

当当:http://product.dangdang.com/29469230.html

天猫:https://detail.tmall.com/item_o.htm?id=687374654836

为了让图书惠及更多的读者,为更多想学习人工智能的人提供帮助,经过向出版社申请,对图书《人工智能怎么学》的部分内容进行改编和连载。图书《人工智能怎么学》的全部内容包含了初级入门、中阶提高以及高级进阶三个级别的内容。连载的内容主要是初级入门级别,适合想对人工智能进行快速和高效入门的读者,对于已有一定的人工智能学习基础,希望进一步进阶或提高的读者,则需要购买图书《人工智能怎么学》,学习中阶提高以及高级进阶的内容。此外,对于学习人工智能感兴趣的读者,也可以加入知识星球《人工智能怎么学》,知识星球是一个构建学习社群的平台,通过加入《人工智能怎么学》的社群,你将获得更多的学习资料和课程信息。

与作者互动和了解更多信息

想跟作者一起学习人工智能和互动,你可以加入如下社群:

知识星球:https://t.zsxq.com/0aLkVg0os

QQ群:600587177

想了解更多关于人工智能学习及实践的内容,请关注如下媒体:

官方网站:https://bigdatamininglab.github.io

官方微信公众号:人工智能怎么学(可扫描下方二维码或者微信搜索“人工智能怎么学”添加关注)

CSDN:https://blog.csdn.net/audyxiao001

参考文献

  1. Annie. 计算机视觉发展史[EB/OL]. https://zhuanlan.zhihu.com/p/142927311?utm_source=wechat_session2020528日。
  2. Rafael C. Gonzalez . 数字图像处理(第4版)[M]. 阮秋琦 , . 北京: 电子工业出版社, 2020.
  3. David A. Forsyth, Jean Ponce. 计算机视觉:一种现代方法(第2版)[M]. 高永强 , . 北京: 电子工业出版社, 2017.
  4. Yi Ma. An Invitation to 3-D Vision: From Images to Geometric Models [M]. New York: Springer, 2004.
  5. 叶韵. 深度学习与计算机视觉:算法原理、框架应用与代码实现[M]. 北京: 机械工业出版社, 2017.
  6. Richard Hartley, Andrew Zisserman. 计算机视觉中的多视图几何(第2版)[M]. 韦穗 , . 北京: 机械工业出版社, 2020.
  7. 吴福朝. 计算机视觉中的数学方法[M]. 北京: 科学出版社, 2008.
  8. 肖建力. 智能交通中的多核支持向量机与分类器集成方法研究[D]. 上海: 上海交通大学, 2013.
  9. 王昊, 金诚杰. 交通流理论及应用[M]. 北京: 人民交通出版社, 2020.
  10. 程琳. 城市交通网络流理论[M]. 南京: 东南大学出版社, 2010.
  11. 曲大义,陈秀锋,魏金丽,邴其春. 智能交通系统及其技术应用(第2版)[M]. 北京: 机械工业出版社, 2017.
  12. Yu Zheng. Urban Computing [M]. Cambridge: The MIT Press, 2018.
  13. 王建徐, 国艳, 陈竞凯, 冯宗宝. 自动驾驶技术概论[M]. 北京: 清华大学版社, 2019.
  14. 钟伟雄, 韦凤, 邹仁, 张富建 . 无人机概论[M]. 北京: 清华大学出版社, 2019.

注:本文版权归作者个人所有,如需转载请联系作者,未经授权不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410595.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HMM-读书笔记

信息提取基础 MM 马卡洛夫链(Markov chain)是处理一类随机过程,这些过程包含最少量的内存,但实际上并不是无记忆的。下面,我们将处理离散随机变量和有限马尔可夫链。令 X1, X2, … , Xn, … 为随机变量序列,它们的值为同样有限字…

LeetCode 654 最大二叉树

题目: 给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建: 创建一个根节点,其值为nums中的最大值。 递归地在最大值左边的子数组前缀上构建左子树。 递归地在最大值右边的子数组后缀上构建右子树。 返回 nums 构建的最大…

VMware ESXi 8.0c Unlocker OEM BIOS 集成网卡驱动和 NVMe 驱动 (集成驱动版)

发布 ESXi 8.0 集成驱动版,在个人电脑上运行企业级工作负载 请访问原文链接:https://sysin.org/blog/vmware-esxi-8-sysin/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org 发布 ESXi 8.0 集成驱动版&am…

在 Python 中计算两个数字之间的百分比

要计算两个数字之间的百分比,请将一个数字除以另一个数字,然后将结果乘以 100,例如 (30 / 75) * 100。这显示第一个数字占第二个数字的百分比。 在示例中,30 是 75 的 40%。 def is_what_percent_of(num_a, num_b):return (num_a…

论Sort()方法在 Python 和 Javascript 中应用的区别

Sort()方法相信大家都熟悉,用于排序,那就是数字从低到高(默认) 和 从高到低。以下对这个排序方法在Python 和 Java Script 中应用的区别作详细的举例说明。 在 Python中,例如有 lst1 : [1,5,8,6,2] ,要对这…

html制作好看的个人简历(附源码)

文章目录1.设计来源1.1 主界面1.2 基本资料页面1.3 个人名言页面1.4 教育经历页面1.5 联系方式页面1.6 自我评价页面1.7 工作经历页面1.8 兴趣爱好页面1.9 沟通交流页面2.效果和源码2.1 动态效果2.2 源代码2.3 相关个人简历源码源码下载作者:xcLeigh 文章地址&#…

java课程设计(学生信息管理系统设计)+数据库

🔍 🔎 本期带领大家一起来学习java课程设计(学生信息管理系统设计)数据库的实现思路 🔍 🔎 文章目录题目要求数据库🌍一 、环境搭建🌍二 、功能实现 🌎 🌍1.学…

重磅!阿里版本【ChatGPT】开放测评!

前两天突然爆出惊人消息:阿里版ChatGPT开放测评了! 在本月初,已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。 数日前,首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”,凭借其出色的表现吸…

2023-4-11-chrono库用法学习

🍿*★,*:.☆( ̄▽ ̄)/$:*.★* 🍿💥💥💥欢迎来到🤞汤姆🤞的csdn博文💥💥💥💟💟喜欢的朋友可以关注一下&#xff0…

4.9、字节序

4.9、字节序1.简介2.字节序举例3.判断电脑存储方式代码1.简介 现代 CPU 的累加器一次都能装载(至少)4 字节(这里考虑 32 位机),即一个整数。那么这 4字节在内存中排列的顺序将影响它被累加器装载成的整数的值&#xff…

vue element-ui 暗黑主题应用到若依框架

问题描述 基于若依框架的element-ui,将主题更换为暗黑主题。 问题分析 现有的element-ui框架提供的主题不满足自定义需求,大多数框架,包括若依提供了更换主题色的功能,但也只是更换的primary-color,其他组件的主题还…

算法小课堂(五)贪心算法

一、概述 贪心算法是一种常见的算法思想,用于解决优化问题。其基本思想是在每一步选择中都采取当前状态下最优的选择,从而希望能够获得全局最优解。 具体来说,贪心算法通常分为以下步骤: 定义问题的最优解,通常需要将…

【人生历程】我的创作纪念日

目录 与编程不得不说的爱恨情仇 在csdn的收获: 与csdn的日常 在平凡的日子偶然的成就感: 对未来的憧憬: 今天是2023.4.8号,早上的刚刚参加完蓝桥杯,下午看到csdn官方的活动,心血来潮写下以下内容&…

家政服务小程序实战开发教程018-用户注册

我们在教程的一开始的时候就讲解了用户注册的功能。当初的规划是一进来就让用户自主的选择角色,然后提交用户信息,如果未注册就跳转到注册界面。 随着教程的深入,又参考了很多线上的小程序,发现这种模式也有一定的缺点。因为作为…

Linux网络虚拟化2

Linux网络虚拟化2 今天我们接着上节课介绍的 Linux 网络知识,继续来学习它们在虚拟化网络方面的应用,从而为后续学习容器编排系统、理解各个容器是如何通过虚拟化网络来协同工作打好基础。 这一篇内容较多,可以重点看标红部分和标粗部分​。…

Ubuntu环境下minicom使用

1、minicom的安装 sudo apt-get install minicom2、minicom的配置 sudo minicom -s # 打开minicom配置界面3、配置serial port setup串口信息 使用上下箭头选择,enter进入。 按A修改Serial Device,修改之前可以用命令ls -la /dev/ttyUSB或者ls -la …

java 一文讲透集合框架(10万字博文)

目录 一、前言 二、集合简介 1.定义 : 2.集合与数组的区别 : 3.集合的好处 : 三、集合框架 1.单列集合 2.双列集合 Δ体系图(重要) 四、List集合详解(三万余字) 五、Set集合详解(三万余字) 六、增…

学习实践-Whisper语音识别模型实战(部署+运行)

1、Whisper内容简单介绍 OpenAI的语音识别模型Whisper,Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务…

论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

论文地址:https://arxiv.org/pdf/2303.14123.pdf 这是一篇2023年发表在CVPR上的论文,论文题目是Semantic Prompt for Few-Shot Image Recognitio,即用于小样本图像识别的语义提示。 1 Motivation 第一,最近几项研究利用 语义信…

< Linux >:进程地址空间

目录 一、验证进程地址空间 二、感知进程地址空间的存在 一、验证进程地址空间 我们之前学的 C/C 程序地址空间是物理内存吗? 答:不是物理内存,甚至叫做程序地址空间都不太准确,应该叫做进程地址空间,因此根本就不是…