到这里基本AI需要准备的一些基础内容都已经ready了,我本人是视觉出身,所以还是想走老路子,不花费大量时间去往别的方向走了,所以针对视觉部分的内容我自己会单独拓展补充一些内容,选择性享用即可,欢迎交流!(关于视觉,读研期间也沉淀了很多文章,可以直接在专栏查看)这部分我会陆续补充,不在AI产品学习周期范围内。
特别说明:计算机视觉其实还是技术层的内容,最终落脚点都是在应用层,只不过是偏视觉的应用,如果有机会(大趋势)直接入坑多模态的应用层也可。
一、简介
计算机视觉是人工智能的一个重要分支,其目标是使机器具备类似于人类视觉的能力,使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。计算机视觉系统的主要功能有图像获取、预处理、特征提取、检测/分割和高级处理,这一领域涵盖了图像识别、目标检测、图像生成等多个方面,已经在各行各业取得了显著的成果。
人工智能是一门涵盖多个领域的科学,它旨在使计算机能够模拟人类智能,完成类似于人类的学习、推理和决策等任务。在人工智能基础架构中,计算机视觉是一个关组成部分,起到了数据输入、感知层、决策支持、交互接口等作用,它不仅扩展了机器的能力,也极大地丰富了人工智能的应用场景,为人工智能技术的发展和应用提供了强大的支撑。
计算机视觉是一个多学科交叉的领域,它与机器视觉、图像处理、人工智能、机器学习等领域都有着密切的联系,它的发展和应用依赖多个领域的进步和相互协作。
近年来,随着深度学习技术的发展,计算机视觉的性能得到了显著提高。通过深度学习技术,计算机视觉可以更准确地识别和跟踪对象,从而使许多现实世界中的应用成为可能。
二、发展现状
随着人工智能的迅速发展,计算机视觉技术逐渐成为引领创新的关键领域。本文将深入探讨人工智能在计算机视觉方面的最新进展、关键挑战以及未来可能的趋势。
2023年见证了计算机视觉领域的巨大突破。GAN(生成对抗网络)的进一步发展使得图像生成的质量大幅提高,逼真度达到了新的高度。图像识别和目标检测的模型也取得了显著的进步,在人脸识别、物体识别和医疗影像诊断等领域得到广泛应用。
三、相关技术
从技术路线发展来看,根据技术的复杂性和所涉及的领域,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
从技术支撑体系来看,中国计算机视觉创新单元主要包括智能技术与系统国家重点实验室、深度学习技术及应用国家工程实验室等国家重点实验室;深圳前海人工智能产业投资基金、G60科创走廊人工智能产业基金等产业投资基金。
-
图像处理:包括图像增强、滤波、几何变换、边缘检测等方法,用于对图像进行预处理和特征提取。
-
特征提取:包括局部特征和全局特征的提取方法,用于描述和表示图像中的对象和场景。
-
物体识别和分类:包括基于传统机器学习和深度学习的方法,用于识别和分类图像中的对象和场景。
-
目标检测和跟踪:包括基于区域提取和神经网络的方法,用于检测和跟踪图像或视频中的目标对象。
-
三维重建:包括立体匹配、结构从运动、激光扫描等方法,用于从多个图像或传感器数据中重建三维场景。
-
图像分割:包括基于边缘、区域和深度信息的方法,用于将图像分割成不同的区域或对象。
-
神经网络:包括卷积神经网络、循环神经网络和自编码器等深度学习模型,用于图像分类、目标检测、图像生成等任务。
-
光流分析:包括基于像素级和区域级的方法,用于分析图像序列中的运动和变化。
以上是计算机视觉中的一些主要技术,但这个领域发展迅速,新的方法和技术不断涌现,这些技术的发展也在不断推动着计算机视觉的进步和应用。
四、最新进展
深度学习驱动的视觉识别: 深度学习模型,特别是卷积神经网络(CNN),在图像识别任务上取得了巨大成功,例如ImageNet竞赛中的优异表现。
实时目标检测: 目标检测技术的发展使得计算机可以在实时视频流中准确地识别和跟踪多个目标,对于智能监控、自动驾驶等应用具有重要意义。
生成对抗网络(GAN)的应用: GAN技术推动了图像生成领域的创新,使计算机能够生成逼真的图像,如Deepfake技术的崛起。
五、应用场景
随着技术的进步,计算机视觉在各个领域的应用都在不断扩展,其准确性和效率也在不断提高。例如,深度学习技术的发展极大地增强了计算机视觉在图像识别、场景理解等方面的能力,推动了其在各个领域应用的深化和拓展
- 无人驾驶
无人驾驶又称自动驾驶,是目前人工智能领域一个比较重要的研究方向,让汽车可以进行自主驾驶,或者辅助驾驶员驾驶,提升驾驶操作的安全性。目前已经有一些公司研发出了自动泊车等辅助驾驶功能并得以应用。目前这方面做得比较好的是谷歌的无人驾驶汽车。国内也有一些比较好的公司,如百度无人驾驶车已经在一些园区得以应用,还有图森未来的货运车也完成了多次路测,并已经投入市场使用。
计算机视觉在无人驾驶中起到了非常关键的作用,比如道路的识别,路标的识别,红绿灯的识别,行人识别等等平常驾驶过程中需要注意的。另外还包括三维重建及自主导航,通过激光雷达或者视觉传感器可以重建三维模型,辅助汽车进行自主定位及导航,进行合理的路径规划和相关决策。
- 人脸识别
人脸识别技术目前已经研究得相对比较成熟,并在很多地方得到了应用,且人脸识别准确率目前已经高于人眼的识别准确率,很多高铁站及门禁的地方都用到了人脸识别,很多都有刷脸系统,有些城市甚至在银行取钱都可以直接刷脸。
- 无人安防
安防一直是我国比较重视的问题,也是人们特别重视的问题,在很多重要地点都安排有巡警巡查,在居民小区以及公司一般也都有保安巡查来确保安全。随着计算机视觉的发展,计算机视觉技术已经能够很好的应用到安防领域,目前很多智能摄像头都已经能够自动识别出异常行为以及可疑危险人物,及时提醒相关安防人员或者报警,加强安全防范。
- 车辆车牌识别
车辆车牌识别目前已经是一种非诚成熟的技术了,高速路上的违章检测,车流分析,安全带识别,智能红绿灯,还有停车场的车辆身份识别等都用到了车辆车牌识别,不仅能识别出车牌的号码,目前车辆识别技术已经能对道路上的车辆车型进行识别,通过识别摄像头获取的图像,能获取到车辆的型号及颜色等特征。
- 智能识图
智能识图是我们生活中比较常见的计算机视觉的应用了。看到一个纸质文档,想要把其转换成电子文档,直接把文档拍下来,用相关软件进行文字识别,就能把图像中的文字自动转换成电子文档,甚至还能自动翻译成其他语言。看到一件衣服或一个物品,想在网上找他的来源等其他相关信息,直接输入图片,以图搜图,很快就能找到很多该图片出现的地方以及很多类似的图片。甚至还有些能直接告诉你图片中的物体是个什么东西,或者大概判断图片中的人像的大概年龄等比较好玩的功能。
- 3D重构
3D重构之前在工业领域应用比较多,可以用于对三维物体进行建模,方便测量出物体的各种参数,或者对物体进行简单复制。最近也慢慢开始应用到民用领域了,比如新出的华为mate20系列手机,就已经可以对玩偶进行三维建模,并能够设置一些特定的动作,让玩偶“活”起来,甚至可以与人进行一些互动。当然这里与人互动还用到AR技术。
- VR/AR
VR/AR技术相信大家都已经比较熟悉了。VR眼睛在前两年卖得特别火爆,还有一些9D游戏机,就是利用VR技术让人能够有一种身临其境的感觉。而AR技术目前比较常见的可能是双十一时候淘宝的天猫,还有之前比较火爆的宠物捕获游戏,可以在现实场景中加入一些其他元素,目前这个领域还在快速发展中。很多方便人们生活的应用也在不断推出,比如智能翻译,用手机对着需要翻译的字,在这个界面上就自动显示出相关的翻译,或者后面可能实现的虚拟试衣间等,将大大的方便人们的生活。
- 智能拍照
这个相信是大家很熟悉的一个名词了,基本每个智能手机都开始配有这个功能。最基础的功能包括自动曝光,自动白平衡,自动对焦等,还有一些去燥算法,能很好的提高手机拍照的图像质量。随着计算机视觉技术的进步,一些自动美颜算法,自动挂件,自动滤镜,场景切换等越来越多有趣的功能都被开发出来。还有一些图像处理软件,像专业的Photoshop,还有比较民用化的美图秀秀,美颜相机等,基本也都是利用计算机视觉的技术。
- 医学图像处理
常见的医学成像,比如B超,核磁共振,X光拍片等。随着AI技术的发展,还开始有一些AI诊断的功能,AI根据图像的特征对相关疾病的可能性进行分析。
- 无人机
随着无人机技术的发展,计算机视觉技术在无人机上的应用必不可少,军用无人机中,可以对目标进行自动识别并自主导航,精确制导等,民用的无人机也类似,例如大疆的无人机,能够跟踪人进行实时的拍照,还有一些手势控制等。还有一些特殊场景的应用,例如电力巡检,农作物分析等。
- 工业检测
工业领域计算机视觉也得到了充分应用,例如产品缺陷检测,工业机器人姿态控制,利用立体视觉来获得工件和机器人之间的相对位置姿态。
六、关键挑战
- 数据隐私与伦理问题: 大规模的图像数据集引发了关于隐私和伦理问题的担忧,需要制定更严格的标准和法规来保护用户数据。
- 对抗性攻击: 针对深度学习模型的对抗性攻击成为一个挑战,研究人员正在寻找有效的防御机制。
- 模型的可解释性: 深度学习模型的黑盒性是一个问题,研究人员正在努力提高模型的可解释性,使其更容易被理解和信任。
七、未来趋势
7.1 行业重点
- 计算机视觉专利技术布局:图像理解技术为计算机视觉专利技术布局重点,申请热度和布局广度较高
从计算机视觉细分专利技术申请的热度来看,图像理解技术具备较高的专利申请热度;从技术跨度来看,有动态视觉跨技术专利申请量较多;从技术市场覆盖广度来看,三维视觉、动态视觉、视频编码均覆盖80个国家和地区,说明这些技术受到全球范围内的关注和研究。日本、中国和美国为计算机视觉主要技术来源
- 计算机视觉科技企业技术布局:图像理解、视频编解码和动态视觉为企业布局重点
目前,中国计算机视觉企业技术主要布局图像理解、视频编解码和动态视觉领域。图像理解包括人脸识别、物体检测、视频监控等;动态视觉包括视频分析、目标跟踪等;视频编解码包括视频编解码、视频检索等。 - 计算机视觉技术投资重点赛道:图像理解为重点关注领域
从我国计算机视觉投融资热门赛道来看,2023年,图像理解领域融资热度较高,投融资事件数量占比达37%,此外,三维视觉、动态视觉、视频编解码等细分领域企业也具备较高的融资热度。
7.2 政策和趋势
-
政策推动计算机视觉技术实现技术突破、应用落地和产业升级
近年来,我国相继出台了一系列政策文件和规划纲要,支持人工智能中计算机视觉技术的发展,推动产业实现技术突破、应用落地和产业升级,如《国家新一代人工智能标准体系建设指南》、《关于扩大战略性新兴产业投资 培育壮大新增长点增长极的指导意见》、《《关于加快推动制造服务业高质量发展的意见》》等。 -
计算机视觉技术发展趋势
计算机视觉技术的发展趋势是多方面的,涵盖了算法、应用、硬件等多个方面。随着技术的不断进步和应用需求的增加,计算机视觉将会在更多领域发挥重要作用。
-
深度学习模型的发展:深度学习模型已经成为计算机视觉领域的主流,未来其发展趋势将是更加复杂和高效的模型结构,以及更加优秀的训练算法和优化方法。
-
实时计算的需求:随着计算机视觉应用的不断扩展,实时处理已经成为了计算机视觉技术的一个关键需求。未来的发展趋势是更加高效和实时的计算算法和硬件,以满足对实时性的要求。
-
多模态计算的需求:计算机视觉技术通常与其他传感器和数据源结合使用,例如声音、光、雷达等,这导致了多模态计算的需求。未来的发展趋势是更加高效和精确的多模态计算算法和框架,将视觉与其他感知模态结合,如语音、文本,以提高系统的全面理解能力。
-
强化学习在视觉任务中的应用: 强化学习的发展为计算机视觉带来了新的可能性,特别是在自主导航、机器人技术等方面的应用。
-
计算机视觉和自然语言处理的结合:计算机视觉和自然语言处理是两个重要的人工智能领域,未来的发展趋势是将二者结合起来,形成更加强大和全面的人工智能系统。
-
计算机视觉在无人驾驶、智能家居、智能城市等领域的应用:计算机视觉技术已经在无人驾驶、智能家居、智能城市等领域得到了广泛应用,未来的发展趋势是进一步扩展和深化这些领域的应用。
-
对数据隐私和安全的关注:随着计算机视觉应用的不断扩展,对数据隐私和安全的关注也越来越高。未来的发展趋势是将数据隐私和安全作为计算机视觉技术发展的重要方向,提出更加完善和可靠的数据隐私和安全保护机制。
-
边缘计算与计算机视觉的融合: 将计算机视觉推向边缘设备,实现更低延迟、更高效的应用。
总之,计算机视觉技术未来的发展趋势是更加高效、精确、实时和安全,同时与其他人工智能领域的融合也将成为一个重要的方向。
八、主要公司
行业主要上市公司:奥比中光、格灵深瞳、虹软科技、云从科技等。
九、学习资料
研究报告:
- 前瞻研究院研究报告部分解读
书籍:
- 《数字图像处理》(冈萨雷斯)
- 《计算机视觉算法与应用》
- 《OpenCV3编程入门》
课程:
- CS131 Computer Vision: Foundations and Applications from Stanford University
- CS231n Convolutional Neural Networks for Visual Recognition from Stanford University
- 16-385 Computer Vision from Carnegie Mellon University
- IN2364 Advanced Deep Learning for Computer vision from Technical University of Munich
- CS231A Computer Vision, From 3D Reconstruction to Recognition from Stanford University Multiple View Geometry from Technical University of Munich
- EECS 498-007 / 598-005 Deep Learning for Computer Vision from University of Michigan