《计算机视觉:瓶颈之辩与未来之路》

news2024/12/17 13:58:39

一、计算机视觉的崛起

计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。它是一个多学科交叉的领域,与机器视觉、图像处理、人工智能、机器学习等领域密切相关。

计算机视觉行业可分为基础层、技术层和应用层。基础层主要包括芯片、算法、数据集、传感器、镜头等;技术层主要包括生物特征识别技术、物体与场景识别技术、光学字符识别技术、视频对象提取与分析技术等;应用层主要包括智慧安防、智能家居、智慧金融、智慧医疗、无人驾驶、手机等产业。

计算机视觉发展经历了四个阶段。第一阶段是马尔计算视觉,主要讨论计算理论和表达与算法,认为视觉的主要功能是从视网膜成像的二维图像来恢复空间物体的可见三维表面形状;第二阶段是主动和目的视觉;第三阶段是多视几何与分层三维重建;第四阶段是当代计算机视觉阶段。

从技术路线发展来看,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。

计算机视觉的核心技术主要包括视觉感知和视觉生成两大维度。视觉感知包含识别分类、目标检测、图像分割、表示学习等重要任务,视觉生成主要包括图像与视频的生成、视觉与文字结合等。

二、计算机视觉的发展现状

市场规模与政策支持

  1. 市场规模不断增长,2023 年中国计算机视觉行业市场规模约为 571.9 亿元,预计未来几年持续扩大。

近年来,我国计算机视觉行业市场规模呈现增长态势。数据显示,2023 年中国计算机视觉行业市场规模约为 571.9 亿元。随着人工智能市场需求的增长以及大数据、云计算等技术的进一步融合,计算机视觉市场规模有望持续扩大。

地方政府相继出台政策支持,如江苏省、吉林省推动计算机视觉在政务、数字地球等领域的应用。

2023 年 10 月,江苏省人民政府办公厅印发《江苏省政务 “一朵云” 建设总体方案》,提出人工智能服务提供自然语言处理、计算机视觉、自动程序设计、智能数据挖掘等服务,提升业务应用系统智能化水平。2024 年 2 月,吉林省科学技术厅印发《关于发布核心光电子器件和高端芯片等 3 个重大科技专项项目申报指南的通知》,提出要利用计算机视觉和机器学习技术,自动识别数字地球上的地物、地貌、水文等信息,并进行标注,提高数字地球中地物信息的自动化获取和处理效率,为数字地球的应用和发展提供更好的支持。

广泛的应用领域

  1. 自动驾驶,实现车道保持、自动刹车等功能。

计算机视觉在自动驾驶汽车中起着至关重要的作用。通过摄像头等设备进行图像采集,利用特征提取、目标检测等技术,识别道路上的物体、交通标志和行人等,实现车道检测、障碍物检测、交通信号识别和行为预测等功能,从而帮助车辆保持在正确的车道上,避免碰撞,遵守交通规则并提前做出反应。常用的目标检测算法包括 YOLO、Faster R-CNN 和 SSD 等,车道检测方法包括基于边缘检测和基于深度学习的方法。交通信号识别可采用基于模板匹配或基于深度学习的方法,行为预测则有基于规则和基于机器学习的方法。

  1. 安防监控,进行人脸识别、行为分析等。

在安防监控领域,计算机视觉技术凭借其高效、精准的特点展现出巨大的应用前景。可应用于人脸识别、行为分析、异常检测等多个关键功能。例如,通过对监控影像中的人员、车辆等目标进行检测、识别和跟踪,及时发现异常情况并进行处理。同时,随着 AI 人工智能技术的发展,安防监控系统正从传统安防时代转向注重数据采集、应用和管理的人工智能化安防时代。多特征识别技术可让电脑从大量监控影像中自动识别出嫌疑人,分析其个人特征并快速筛选。姿态识别技术作为一种非接触性、非侵入性的生物行为特征技术,可在远距离感知个体人物的走路姿势,用于门禁系统、安全监控等领域具有广泛的应用和经济价值。

  1. 医学图像分析,辅助诊断和治疗方案设计。

计算机视觉技术在医学影像分析领域取得了显著进展,为医疗诊断和治疗提供了强大的支持。在图像处理与分析方面,包括图像预处理(如噪声去除、对比度调整等)、图像增强(如直方图均衡化等)、图像分割(如阈值分割等)和图像分类(如基于特征的分类等)。在诊断支持方面,可通过病灶检测(如阈值检测等)和诊断预测(如支持向量机等)为医生提供诊断建议。在治疗监控方面,可通过目标跟踪实现心率监测、运动分析等功能。

  1. 零售、制造、农业、智能交通、智能制造等领域也有广泛应用。

在零售领域,计算机视觉可用于商品识别、库存管理等;在制造领域,可进行质量检测、产品分类等;在农业领域,可通过对农田图像的识别实现对植物生长状况、病虫害情况的监测;在智能交通领域,除了自动驾驶外,还可实现智能交通信号控制、车辆违规监测等功能;在智能制造领域,可与机器人等技术结合,提高生产效率和质量。

三、计算机视觉面临的挑战

技术层面的难题

  1. 复杂性,涉及大量图像数据和复杂算法。

计算机视觉任务通常涉及大量的图像数据和复杂的算法。一方面,大量的数据需要占用大量的存储空间,处理这些数据也耗费大量的计算资源,如计算机的 CPU 和 GPU 等,还会导致数据处理速度变慢,不利于实时处理。另一方面,复杂的算法需要不断优化和改进,以提高处理效率和准确性。

  1. 数据质量影响大,需解决采集、标注和清洗问题。

数据质量对计算机视觉的准确度和精度有很大影响。在实际应用中,图片数据可能会存在很多问题,如噪声、模糊、失真、曝光不足、图像遮挡等,这些问题会影响图片的质量,进而影响计算机视觉算法的准确性。提高数据集质量是一项持续的任务,常见的数据错误和质量问题包括标签不准确、图像标签错误、缺少标签以及数据和相应标签不平衡等。可以通过使用复杂的本体结构作为标签、人工智能辅助标签、识别标签错误的数据、改进注释者管理等方法提高标记数据质量。

  1. 对光照、角度等环境变化敏感。

计算机视觉技术对光照、角度等环境变化比较敏感。例如,多变和非均匀的光照场景,如逆光场景,会影响计算机视觉的效果;不同清晰度的相机拍出来的照片质量不同,成像质量差异也会对计算机视觉产生影响;复杂易混淆的背景,如雪地里的一只白猫,以及不同场景存在干扰和遮挡、失焦、透视变形等问题,都会给计算机视觉带来挑战。

  1. 存在一定误识别率,尤其在复杂情况下。

目标检测中误检率可能较高,在实际应用中,如果误检率太高,即系统错误地将背景区域或不相关的物体识别为目标,会严重影响系统的性能和可靠性。为降低误检率,可以尝试数据增强、使用更先进的深度学习模型、调整正负样本比重、优化网络结构、应用后处理过滤、采用集成学习、运用领域自适应技术等方法。

隐私和伦理问题

计算机视觉涉及大量个人和隐私数据,保护个人隐私和数据安全成为挑战。一些计算机视觉应用,如人脸识别、人体检测等,涉及到个人隐私的保护问题。如果这些技术被用于非法或不当用途,可能会侵犯个人隐私权。同时,计算机视觉技术的训练数据可能存在偏差,导致算法产生歧视性结果。例如,人脸识别算法可能无法正确识别不同肤色的人,从而导致不公平的结果。此外,人脸识别技术可以被用于欺诈、身份盗窃等犯罪活动中,存在安全问题。由于计算机视觉技术本身的局限性,对光线、姿态、遮挡等情况的敏感度较高,算法可能会对真实情况进行误判。因此,对于计算机视觉技术的应用,需要考虑伦理和安全问题,并采取相应的措施来减少潜在的风险和危害。

四、计算机视觉是否进入瓶颈期?

瓶颈期观点分析

  1. 以图像分类等基础技术精确度已达产业落地水平,但剩余问题难攻克,如细粒度分类、小目标检测等。

计算机视觉在图像分类、目标检测、图像分割等基础技术方面经过近几年的发展,精确度确实已经达到了产业落地的水平。然而,一些剩余的问题却较为棘手,难以攻克。例如细粒度分类,需要对非常相似的物体进行准确区分,这对算法的精度和鲁棒性提出了更高的要求。在小目标检测方面,由于目标尺寸小、特征不明显,很容易被背景干扰或漏检。此外,在复杂光照变化下,如何保证分割结果的稳定性也是一个难题。就像电子发烧友网报道中提到的,计算机视觉技术在试图攻克这些老难题上虽有一定进展,但不能算是有很大突破。

  1. 落地应用存在同质化问题,多数企业扎堆安防等少数场景。

计算机视觉在落地应用方面存在很大的同质化问题,很多公司扎堆在几个热门场景中,其中安防场景尤为突出。智能安防是计算机视觉最主要的应用场景,且已经持续很多年。众多知名的 AI 初创企业如商汤、旷视、依图、云从等都在这个领域有重要布局,同时安防企业和互联网企业如海康威视、大华、宇视、百度等也在这个领域投入巨大。此外,还有几百家中小计算机视觉企业也纷纷涌入安防领域。虽然除了安防,各企业也在其他领域进行探索并逐渐有所进展,如金融、手机、汽车、工业、医疗、零售等领域,但目前计算机视觉较为成熟的应用场景仍然是安防领域。

非瓶颈期观点分析

  1. 技术仍有新突破,如视觉语言模型、神经辐射场、扩散模型等。

计算机视觉领域不断涌现新的技术突破。例如视觉语言模型,如 LLaVA 和 Qwen-VL-Max 等,可以理解图像并生成描述或回答有关图像的问题,实现了计算机视觉和自然语言处理的交叉融合,为人工智能以更自然的方式与人类互动提供了可能。神经辐射场(NeRFs)仅使用一些 2D 图像,就可以生成照片般逼真的 3D 场景,为虚拟现实(VR)、增强现实(AR)、房地产解决方案以及文化保护等领域带来了重大突破。扩散模型受物理扩散过程启发,能够从看似随机的图案中生成生动的图像,在内容创作、医学成像等领域有广泛应用。

  1. 政策推动技术发展,未来发展趋势多方面,涵盖算法、应用、硬件等。

近年来,我国相继出台了一系列政策文件和规划纲要,支持人工智能中计算机视觉技术的发展,推动产业实现技术突破、应用落地和产业升级。计算机视觉技术的发展趋势是多方面的,涵盖了算法、应用、硬件等多个方面。随着技术的不断进步和应用需求的增加,计算机视觉将会在更多领域发挥重要作用。例如,在算法方面,深度学习、卷积神经网络等技术不断进步,图像理解技术为计算机视觉专利技术布局重点,申请热度和布局广度较高。在应用方面,计算机视觉技术已广泛应用于零售、医疗、安防、智能制造、自动驾驶等多个领域,未来还将在更多新兴领域拓展应用。在硬件方面,随着计算能力的提升和数据资源的丰富,计算机视觉工具的处理速度和处理能力也在不断提高。

五、计算机视觉的未来发展趋势

技术融合与创新

  1. 与深度学习等前沿技术加速融合,提升准确率和处理速度。

计算机视觉与深度学习的融合将持续深化。深度学习模型不断发展,其更加复杂和高效的模型结构以及优秀的训练算法和优化方法,将为计算机视觉带来更高的准确率。同时,随着计算硬件的提升,处理速度也将不断加快。例如,卷积神经网络在图像识别等任务中的应用,通过不断优化网络结构和参数,能够更准确地提取图像特征,从而提高计算机视觉系统的性能。

  1. 多模态计算需求增加,与自然语言处理结合形成更强大系统。

未来,多模态计算在计算机视觉中的需求将显著增加。正如腾讯优图指出,多模态融合是计算机视觉技术发展的重要趋势。计算机视觉将与自然语言处理等技术结合,实现从单模态智能向多模态融合发展。例如,视觉语言模型如 LLaVA 和 Qwen-VL-Max 等,可以理解图像并生成描述或回答有关图像的问题,为人工智能以更自然的方式与人类互动提供了可能。

应用领域拓展

在无人驾驶、智能家居、智能城市等领域进一步扩展和深化应用。

计算机视觉在无人驾驶领域的应用前景广阔。通过物体的识别与跟踪以及车辆本身的定位,无人车能够实现更高效、更安全的自主导航。例如,利用深度学习方法,无人车可以准确识别行人、道路标志、红绿灯等物体,实现对环境的感知和识别。同时,基于拓扑与地标的定位算法以及基于几何的视觉里程计算法,能够实时确定车辆位置。

在智能家居领域,计算机视觉技术也发挥着重要作用。通过场景理解与建模,智能家居系统可以实现人脸识别与认证、物体识别与跟踪、活动识别等功能。例如,通过对人脸图像进行预处理、分割、提取特征,得到的特征向量作为人脸的唯一标识,实现安全、便捷的家庭访问控制。

在智能城市领域,计算机视觉可以应用于交通管理、安防监控等方面。例如,在交通管理中,通过对道路图像的分析,可以实现智能交通信号控制、车辆违规监测等功能;在安防监控中,可应用于人脸识别、行为分析、异常检测等多个关键功能。

对数据隐私和安全的重视

成为技术发展重要方向,提出更完善可靠的数据保护机制。

随着计算机视觉应用的不断扩展,对数据隐私和安全的重视程度越来越高。在医疗诊断中,计算机视觉技术需要保护患者的敏感信息,如采取数据脱敏、加密技术、访问控制等措施。在图像识别领域,也需要考虑数据安全和隐私保护问题,如采用数据匿名化、聚合分析等方法。同时,法规监管也在加强,各国政府和监管机构制定法律法规,如欧盟的通用数据保护条例(GDPR),为个人信息

为进一步贯彻落实中共中央印发《关于深化人才发展体制机制改革的意见》和国务院印发《关于“十四五”数字经济发展规划》等有关工作的部署求,深入实施人才强国战略和创新驱动发展战略,加强全国数字化人才队伍建设,持续推进人工智能专业人员能力培养和评价,工业和信息化部电子工业标准化研究院牵头研制的SJ/T11805-2022《人工智能从业人员能力要求》已经于2022年7月1日发布实施。依据该标准,工业和信息化部电子工业标准化研究院联合业界企事业单位开发了人工智能专业人员培训项目,并将于昆明举办以下证书培训安排:

《计算机视觉设计开发工程师》证书,学习日期:2025年1月16日至20日 昆明

考试时间:1月20日17:00-19:00

2.证书颁发单位:

工业与信息化部电子工业标准化研究院

3.培训对象:

计算机视觉设计工程师:从事计算机视觉应用场景的需求分析,模型构建及验证,实现相应的计算机视觉产品设计、交付及运维,并对人工智能系统进行设计、优化、运维、管理和应用的专业人员。

三、授课方式:理论学习+实操

培训结束后由专业部门组织结业考试。

四、培训老师:

北京理工大学老师,博士,教授,博士生导师。目前主要从事机器学习、数据挖掘及分布式系统方面的研究。

五、培训证书:

本次培训通过结业考试的学员将获得工业和信息化部电子工业标准化研究院颁发的“人工智能专业人员”(中级)认证证书,证书可在官方网站进行查询。

证书样式:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2261103.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Airborne使用教程

1.安装环境 前提条件:系统已安装Ruby 打开终端输入如下命令 gem install airborne 或者在Gemfile添加 gem airborne 然后运行bundle install 2.编写脚本 在项目中新建api_tests_spec.rb文件 以GET接口"https://www.thunderclient.com/welcome"为…

Hadoop其一,介绍本地模式,伪分布模式和全分布搭建

目录 一、Hadoop介绍 二、HDFS的本地模式 三、伪分布模式 四、Hdfs中的shell命令 五、全分布搭建 六、使用Java代码操作HDFS 1、环境准备 2、单元测试(Junit)​编辑 一、Hadoop介绍 Hadoop 分为三部分 : Common、HDFS 、Yarn、MapRe…

【Tomcat】第五站:Servlet容器

Tomcat启动后,获取到项目当中所有的servlet的WebServlet中的配置信息。将配置信息和类对象都写入一个map集合当中。 map就是一个key-value类型的集合。 在MyTomcat中我们获取到了类对象和注解值。 Tomcat与请求连通 1. ServletConfigMapping 1. 创建一个config包…

猫眼浏览器v4.12.1重磅升级,极速、安全、保护全方位提升

猫眼浏览器(Catsxp)是一款经过深度优化的网页浏览器,凭借其创新性的设计理念和卓越的性能表现,正在重新定义现代浏览器的标准。这款基于Chrome内核精心打造的浏览器不仅为用户带来了全方位的网络体验提升,更在保护用户…

Axure原型设计技巧与经验分享

AxureRP作为一款强大的原型设计工具,凭借其丰富的交互设计能力和高保真度的模拟效果,赢得了众多UI/UX设计师、产品经理及开发人员的青睐。本文将分享一些Axure原型设计的实用技巧与设计经验,帮助读者提升工作效率,打造更加流畅、用…

梳理你的思路(从OOP到架构设计)_UML应用:业务内涵的分析抽象表达02

目录 1、举例(二) :西方童话 童话『青蛙王子』 的故事 故事中的概念 2、举例(三) :点餐服务 『 餐馆点餐服务』 的分析步骤: 1、举例(二) :西方童话 童话『青蛙王子』 的故事 从前有一位美丽的公主,喜欢玩金球。…

DevExpress WPF中文教程:Grid - 如何移动和调整列大小?(一)

DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…

OpenIPC开源FPV之Adaptive-Link天空端代码解析

OpenIPC开源FPV之Adaptive-Link天空端代码解析 1. 源由2. 框架代码3. 报文处理3.1 special报文3.2 普通报文 4. 工作流程4.1 Profile 竞选4.2 Profile 研判4.3 Profile 应用 5. 总结6. 参考资料7. 补充资料7.1 RSSI 和 SNR 的物理含义7.2 信号质量加权的理论依据7.3 实际应用中…

23.DDD与微服务

学习视频来源:DDD独家秘籍视频合集 https://space.bilibili.com/24690212/channel/collectiondetail?sid1940048&ctype0 文章目录 DDD与微服务的关系1. DDD可以用微服务实现,也可以不用微服务实现2. DDD是微服务拆分的必须参考项之一3. 微服务架构…

最新全开源IM即时通讯系统源码(PC+WEB+IOS+Android)部署指南

全开源IM(即时通讯)系统源码部署是一个复杂但系统的过程,涉及多个组件和步骤。以下是一个详细的部署指南,旨在帮助开发者或系统管理员成功部署一个全开源的IM系统,如OpenIM。      IM即时通讯系统源码准备工作   …

PVE系统下——OpenWRT一键扩容脚本(x86下EXT4SquashFS)

扩容了x86上的 OpenWrt 根分区和文件系统。 1.PVE 上增加硬盘大小 2.执行脚本 安装依赖 opkg update opkg install parted losetup resize2fs下载脚本并一键执行 wget -U "" -O expand-root.sh "https://openwrt.org/_export/code/docs/guide-user/advanced…

Midjourney教程之生成同一角色的不同姿势和服装

今天给大家介绍的是在 Midjourney 中如何创建同一个角色的不同姿势。这个功能是大家期待已久的,现在它已经正式可用了。 这个功能能够创建与原始图像相似的角色。"Character Reference" 功能类似于 "Style Reference",但侧重于角色…

gitlab仓库API操作

几年没接触gitlab了,新版本装完以后代码提交到默认的main分支,master不再是主分支 项目有几十个仓库,研发提交代码后仓库地址和之前的发生了变化 先修改Group的默认分支,不会影响已存在的项目 修改gitlab全局的默认分支 这就引…

aws(学习笔记第十七课) SQS Amazon Simple Queue Service服务

aws(学习笔记第十七课) SQS Amazon Simple Queue Service服务 学习内容: 使用SQS Amazon Simple Queue Service服务整体代码(nodejs的通常工程)代码动作 1. 使用SQS Amazon Simple Queue Service服务 利用应用程序来学习SQS 创建S3$ aws s…

Swin Transformer:用Transformer实现CNN多尺度操作

文本是关于Swin Transformer基础知识的了解 论文:https://arxiv.org/pdf/2103.14030 项目:https://github. com/microsoft/Swin-Transformer. 实现一个Swin Transformer:Swin Transformer模型具体代码实现-CSDN博客 Swin Transformer mlp…

linux学习笔记02 linux中的基础设置(修改主机名、ip、防火墙、网络配置管理)

目录 修改主机名 ​编辑 修改ip地址 防火墙 关闭networkmanage 修改主机名 查看主机名 hostnamectl status 修改主机名 vim /etc/hostname 修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-ens33 输入这个命令后对照以下文件修改 TYPE"Ethernet" PROXY_M…

Windows 系统中的组策略编辑器如何打开?

组策略是 Windows 操作系统中用于设置计算机和用户配置的重要工具。它允许管理员控制各种系统功能,从桌面背景到安全设置等。对于 Windows 专业版、企业版和教育版用户来说,可以通过组策略编辑器(Group Policy Editor)来管理这些设…

【Go】Linux、Windows、Mac 搭建Go开发环境

1、Linux 第一步,在 官网 下包,如 go1.23.4.linux-386.tar.gz(注意架构区分) 第二步,将包上传至服务器,假如上传到 tmp目录下第三步,安装# 解压 tar -C /app -xzvf go1.23.4.linux-386.tar.gz#…

那一抹暖色

上海这周都是阳光明媚的天气,趁着工作日人少,来到公园看🍁 圣诞临近,一到这个节日,上海几乎一个月前,街上就有🎅🏻出没。 就先发这些吧,视频明天再做,眼睛要睁…

计算机毕业设计Python+Django农产品推荐系统 农产品爬虫 农产品商城 农产品大数据 农产品数据分析可视化 PySpark Hadoop

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…