第十周:CV视觉内容深入(可选)

news2025/1/15 6:43:27

到这里基本AI需要准备的一些基础内容都已经ready了,我本人是视觉出身,所以还是想走老路子,不花费大量时间去往别的方向走了,所以针对视觉部分的内容我自己会单独拓展补充一些内容,选择性享用即可,欢迎交流!(关于视觉,读研期间也沉淀了很多文章,可以直接在专栏查看)这部分我会陆续补充,不在AI产品学习周期范围内。
特别说明:计算机视觉其实还是技术层的内容,最终落脚点都是在应用层,只不过是偏视觉的应用,如果有机会(大趋势)直接入坑多模态的应用层也可。

在这里插入图片描述

一、简介

计算机视觉是人工智能的一个重要分支,其目标是使机器具备类似于人类视觉的能力,使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。计算机视觉系统的主要功能有图像获取、预处理、特征提取、检测/分割和高级处理,这一领域涵盖了图像识别、目标检测、图像生成等多个方面,已经在各行各业取得了显著的成果。

人工智能是一门涵盖多个领域的科学,它旨在使计算机能够模拟人类智能,完成类似于人类的学习、推理和决策等任务。在人工智能基础架构中,计算机视觉是一个关组成部分,起到了数据输入、感知层、决策支持、交互接口等作用,它不仅扩展了机器的能力,也极大地丰富了人工智能的应用场景,为人工智能技术的发展和应用提供了强大的支撑。

在这里插入图片描述
计算机视觉是一个多学科交叉的领域,它与机器视觉、图像处理、人工智能、机器学习等领域都有着密切的联系,它的发展和应用依赖多个领域的进步和相互协作。
在这里插入图片描述

近年来,随着深度学习技术的发展,计算机视觉的性能得到了显著提高。通过深度学习技术,计算机视觉可以更准确地识别和跟踪对象,从而使许多现实世界中的应用成为可能。

二、发展现状

随着人工智能的迅速发展,计算机视觉技术逐渐成为引领创新的关键领域。本文将深入探讨人工智能在计算机视觉方面的最新进展、关键挑战以及未来可能的趋势。

2023年见证了计算机视觉领域的巨大突破。GAN(生成对抗网络)的进一步发展使得图像生成的质量大幅提高,逼真度达到了新的高度。图像识别和目标检测的模型也取得了显著的进步,在人脸识别、物体识别和医疗影像诊断等领域得到广泛应用。

三、相关技术

从技术路线发展来看,根据技术的复杂性和所涉及的领域,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。

从技术支撑体系来看,中国计算机视觉创新单元主要包括智能技术与系统国家重点实验室、深度学习技术及应用国家工程实验室等国家重点实验室;深圳前海人工智能产业投资基金、G60科创走廊人工智能产业基金等产业投资基金。
在这里插入图片描述

  1. 图像处理:包括图像增强、滤波、几何变换、边缘检测等方法,用于对图像进行预处理和特征提取。

  2. 特征提取:包括局部特征和全局特征的提取方法,用于描述和表示图像中的对象和场景。

  3. 物体识别和分类:包括基于传统机器学习和深度学习的方法,用于识别和分类图像中的对象和场景。

  4. 目标检测和跟踪:包括基于区域提取和神经网络的方法,用于检测和跟踪图像或视频中的目标对象。

  5. 三维重建:包括立体匹配、结构从运动、激光扫描等方法,用于从多个图像或传感器数据中重建三维场景。

  6. 图像分割:包括基于边缘、区域和深度信息的方法,用于将图像分割成不同的区域或对象。

  7. 神经网络:包括卷积神经网络、循环神经网络和自编码器等深度学习模型,用于图像分类、目标检测、图像生成等任务。

  8. 光流分析:包括基于像素级和区域级的方法,用于分析图像序列中的运动和变化。

以上是计算机视觉中的一些主要技术,但这个领域发展迅速,新的方法和技术不断涌现,这些技术的发展也在不断推动着计算机视觉的进步和应用。

四、最新进展

深度学习驱动的视觉识别: 深度学习模型,特别是卷积神经网络(CNN),在图像识别任务上取得了巨大成功,例如ImageNet竞赛中的优异表现。
实时目标检测: 目标检测技术的发展使得计算机可以在实时视频流中准确地识别和跟踪多个目标,对于智能监控、自动驾驶等应用具有重要意义。
生成对抗网络(GAN)的应用: GAN技术推动了图像生成领域的创新,使计算机能够生成逼真的图像,如Deepfake技术的崛起。

五、应用场景

随着技术的进步,计算机视觉在各个领域的应用都在不断扩展,其准确性和效率也在不断提高。例如,深度学习技术的发展极大地增强了计算机视觉在图像识别、场景理解等方面的能力,推动了其在各个领域应用的深化和拓展
在这里插入图片描述

  1. 无人驾驶

无人驾驶又称自动驾驶,是目前人工智能领域一个比较重要的研究方向,让汽车可以进行自主驾驶,或者辅助驾驶员驾驶,提升驾驶操作的安全性。目前已经有一些公司研发出了自动泊车等辅助驾驶功能并得以应用。目前这方面做得比较好的是谷歌的无人驾驶汽车。国内也有一些比较好的公司,如百度无人驾驶车已经在一些园区得以应用,还有图森未来的货运车也完成了多次路测,并已经投入市场使用。

计算机视觉在无人驾驶中起到了非常关键的作用,比如道路的识别,路标的识别,红绿灯的识别,行人识别等等平常驾驶过程中需要注意的。另外还包括三维重建及自主导航,通过激光雷达或者视觉传感器可以重建三维模型,辅助汽车进行自主定位及导航,进行合理的路径规划和相关决策。

  1. 人脸识别

人脸识别技术目前已经研究得相对比较成熟,并在很多地方得到了应用,且人脸识别准确率目前已经高于人眼的识别准确率,很多高铁站及门禁的地方都用到了人脸识别,很多都有刷脸系统,有些城市甚至在银行取钱都可以直接刷脸。

  1. 无人安防

安防一直是我国比较重视的问题,也是人们特别重视的问题,在很多重要地点都安排有巡警巡查,在居民小区以及公司一般也都有保安巡查来确保安全。随着计算机视觉的发展,计算机视觉技术已经能够很好的应用到安防领域,目前很多智能摄像头都已经能够自动识别出异常行为以及可疑危险人物,及时提醒相关安防人员或者报警,加强安全防范。

  1. 车辆车牌识别

车辆车牌识别目前已经是一种非诚成熟的技术了,高速路上的违章检测,车流分析,安全带识别,智能红绿灯,还有停车场的车辆身份识别等都用到了车辆车牌识别,不仅能识别出车牌的号码,目前车辆识别技术已经能对道路上的车辆车型进行识别,通过识别摄像头获取的图像,能获取到车辆的型号及颜色等特征。

  1. 智能识图

智能识图是我们生活中比较常见的计算机视觉的应用了。看到一个纸质文档,想要把其转换成电子文档,直接把文档拍下来,用相关软件进行文字识别,就能把图像中的文字自动转换成电子文档,甚至还能自动翻译成其他语言。看到一件衣服或一个物品,想在网上找他的来源等其他相关信息,直接输入图片,以图搜图,很快就能找到很多该图片出现的地方以及很多类似的图片。甚至还有些能直接告诉你图片中的物体是个什么东西,或者大概判断图片中的人像的大概年龄等比较好玩的功能。

  1. 3D重构

3D重构之前在工业领域应用比较多,可以用于对三维物体进行建模,方便测量出物体的各种参数,或者对物体进行简单复制。最近也慢慢开始应用到民用领域了,比如新出的华为mate20系列手机,就已经可以对玩偶进行三维建模,并能够设置一些特定的动作,让玩偶“活”起来,甚至可以与人进行一些互动。当然这里与人互动还用到AR技术。

  1. VR/AR

VR/AR技术相信大家都已经比较熟悉了。VR眼睛在前两年卖得特别火爆,还有一些9D游戏机,就是利用VR技术让人能够有一种身临其境的感觉。而AR技术目前比较常见的可能是双十一时候淘宝的天猫,还有之前比较火爆的宠物捕获游戏,可以在现实场景中加入一些其他元素,目前这个领域还在快速发展中。很多方便人们生活的应用也在不断推出,比如智能翻译,用手机对着需要翻译的字,在这个界面上就自动显示出相关的翻译,或者后面可能实现的虚拟试衣间等,将大大的方便人们的生活。

  1. 智能拍照

这个相信是大家很熟悉的一个名词了,基本每个智能手机都开始配有这个功能。最基础的功能包括自动曝光,自动白平衡,自动对焦等,还有一些去燥算法,能很好的提高手机拍照的图像质量。随着计算机视觉技术的进步,一些自动美颜算法,自动挂件,自动滤镜,场景切换等越来越多有趣的功能都被开发出来。还有一些图像处理软件,像专业的Photoshop,还有比较民用化的美图秀秀,美颜相机等,基本也都是利用计算机视觉的技术。

  1. 医学图像处理

常见的医学成像,比如B超,核磁共振,X光拍片等。随着AI技术的发展,还开始有一些AI诊断的功能,AI根据图像的特征对相关疾病的可能性进行分析。

  1. 无人机

随着无人机技术的发展,计算机视觉技术在无人机上的应用必不可少,军用无人机中,可以对目标进行自动识别并自主导航,精确制导等,民用的无人机也类似,例如大疆的无人机,能够跟踪人进行实时的拍照,还有一些手势控制等。还有一些特殊场景的应用,例如电力巡检,农作物分析等。

  1. 工业检测

工业领域计算机视觉也得到了充分应用,例如产品缺陷检测,工业机器人姿态控制,利用立体视觉来获得工件和机器人之间的相对位置姿态。

六、关键挑战

  1. 数据隐私与伦理问题: 大规模的图像数据集引发了关于隐私和伦理问题的担忧,需要制定更严格的标准和法规来保护用户数据。
  2. 对抗性攻击: 针对深度学习模型的对抗性攻击成为一个挑战,研究人员正在寻找有效的防御机制。
  3. 模型的可解释性: 深度学习模型的黑盒性是一个问题,研究人员正在努力提高模型的可解释性,使其更容易被理解和信任。

七、未来趋势

7.1 行业重点

  1. 计算机视觉专利技术布局:图像理解技术为计算机视觉专利技术布局重点,申请热度和布局广度较高
    在这里插入图片描述
    从计算机视觉细分专利技术申请的热度来看,图像理解技术具备较高的专利申请热度;从技术跨度来看,有动态视觉跨技术专利申请量较多;从技术市场覆盖广度来看,三维视觉、动态视觉、视频编码均覆盖80个国家和地区,说明这些技术受到全球范围内的关注和研究。日本、中国和美国为计算机视觉主要技术来源
    在这里插入图片描述
  2. 计算机视觉科技企业技术布局:图像理解、视频编解码和动态视觉为企业布局重点
    在这里插入图片描述
    目前,中国计算机视觉企业技术主要布局图像理解、视频编解码和动态视觉领域。图像理解包括人脸识别、物体检测、视频监控等;动态视觉包括视频分析、目标跟踪等;视频编解码包括视频编解码、视频检索等。
  3. 计算机视觉技术投资重点赛道:图像理解为重点关注领域
    在这里插入图片描述
    从我国计算机视觉投融资热门赛道来看,2023年,图像理解领域融资热度较高,投融资事件数量占比达37%,此外,三维视觉、动态视觉、视频编解码等细分领域企业也具备较高的融资热度。
    在这里插入图片描述

7.2 政策和趋势

  1. 政策推动计算机视觉技术实现技术突破、应用落地和产业升级
    在这里插入图片描述
    近年来,我国相继出台了一系列政策文件和规划纲要,支持人工智能中计算机视觉技术的发展,推动产业实现技术突破、应用落地和产业升级,如《国家新一代人工智能标准体系建设指南》、《关于扩大战略性新兴产业投资 培育壮大新增长点增长极的指导意见》、《《关于加快推动制造服务业高质量发展的意见》》等。

  2. 计算机视觉技术发展趋势
    计算机视觉技术的发展趋势是多方面的,涵盖了算法、应用、硬件等多个方面。随着技术的不断进步和应用需求的增加,计算机视觉将会在更多领域发挥重要作用。
    在这里插入图片描述

  3. 深度学习模型的发展:深度学习模型已经成为计算机视觉领域的主流,未来其发展趋势将是更加复杂和高效的模型结构,以及更加优秀的训练算法和优化方法。

  4. 实时计算的需求:随着计算机视觉应用的不断扩展,实时处理已经成为了计算机视觉技术的一个关键需求。未来的发展趋势是更加高效和实时的计算算法和硬件,以满足对实时性的要求。

  5. 多模态计算的需求:计算机视觉技术通常与其他传感器和数据源结合使用,例如声音、光、雷达等,这导致了多模态计算的需求。未来的发展趋势是更加高效和精确的多模态计算算法和框架,将视觉与其他感知模态结合,如语音、文本,以提高系统的全面理解能力。

  6. 强化学习在视觉任务中的应用: 强化学习的发展为计算机视觉带来了新的可能性,特别是在自主导航、机器人技术等方面的应用。

  7. 计算机视觉和自然语言处理的结合:计算机视觉和自然语言处理是两个重要的人工智能领域,未来的发展趋势是将二者结合起来,形成更加强大和全面的人工智能系统。

  8. 计算机视觉在无人驾驶、智能家居、智能城市等领域的应用:计算机视觉技术已经在无人驾驶、智能家居、智能城市等领域得到了广泛应用,未来的发展趋势是进一步扩展和深化这些领域的应用。

  9. 对数据隐私和安全的关注:随着计算机视觉应用的不断扩展,对数据隐私和安全的关注也越来越高。未来的发展趋势是将数据隐私和安全作为计算机视觉技术发展的重要方向,提出更加完善和可靠的数据隐私和安全保护机制。

  10. 边缘计算与计算机视觉的融合: 将计算机视觉推向边缘设备,实现更低延迟、更高效的应用。

总之,计算机视觉技术未来的发展趋势是更加高效、精确、实时和安全,同时与其他人工智能领域的融合也将成为一个重要的方向。

八、主要公司

行业主要上市公司:奥比中光、格灵深瞳、虹软科技、云从科技等。

九、学习资料

研究报告

  1. 前瞻研究院研究报告部分解读

书籍

  1. 《数字图像处理》(冈萨雷斯)
  2. 《计算机视觉算法与应用》
  3. 《OpenCV3编程入门》

课程

  1. CS131 Computer Vision: Foundations and Applications from Stanford University
  2. CS231n Convolutional Neural Networks for Visual Recognition from Stanford University
  3. 16-385 Computer Vision from Carnegie Mellon University
  4. IN2364 Advanced Deep Learning for Computer vision from Technical University of Munich
  5. CS231A Computer Vision, From 3D Reconstruction to Recognition from Stanford University Multiple View Geometry from Technical University of Munich
  6. EECS 498-007 / 598-005 Deep Learning for Computer Vision from University of Michigan

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1385568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用CLIP和LLM构建多模态RAG系统

在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。 什么是RAG 在人工智能领域,检索增强生成(re…

云端部署与本地部署:哪个最适合您的业务?

云端部署与本地部署:哪个最适合您的业务? 云的广泛采用导致许多供应商将重点从本地解决方案转移到云交付模型,从而引发了一个问题:“哪种方式最适合我的业务?”如果您想知道哪个选项更安全、更方便且更实惠,请探索我们方便的比较…

什么是WhatsApp Business?WhatsApp和WhatsApp Business区别?

什么是WhatsApp Business? WhatsApp Business账号是Meta专为企业设计的WhatsApp账号。不同于消费者层次的应用,WhatsApp Business旨在为企业提供更好的服务支持,方便企业与消费者建立更好的双向沟通渠道。 WhatsApp和WhatsApp Business有什…

CLion、IDEA设置编码为utf-8,防乱码

其实只要是JetBrains的软件都是通用的,下面以IDEA为例 1.设置项目文件编码 2.设置控制台的字符编码

保姆级Arduino开发环境搭建

Arduino,一个易于上手且功能丰富的开源平台,不仅包含了各种型号的Arduino开发板等硬件部分,还囊括了Arduino IDE等软件部分。更重要的是,它还拥有由广大爱好者和专业人员共同搭建和维护的互联网社区和资源,为创客们提供…

C语言经典算法之冒泡排序算法

目录 前言 建议: 简介: 一、代码实现 二、时空复杂度 时间复杂度: 空间复杂度: 总结: 前言 建议: 1.学习算法最重要的是理解算法的每一步,而不是记住算法。 2.建议读者学习算法的时候…

微调您的Embedding模型以最大限度地提高RAG管道中的相关性检索

英文原文地址:https://betterprogramming.pub/fine-tuning-your-embedding-model-to-maximize-relevance-retrieval-in-rag-pipeline-2ea3fa231149 微调您的Embedding模型以最大限度地提高RAG管道中的相关性检索 微调嵌入前后的 NVIDIA SEC 10-K 文件分析 2023 年…

C#灵活控制多线程的状态(开始暂停继续取消)

ManualResetEvent类 ManualResetEvent是一个同步基元,用于在多线程环境中协调线程的执行。它提供了两种状态:终止状态和非终止状态。 在终止状态下,ManualResetEvent允许线程继续执行。而在非终止状态下,ManualResetEvent会阻塞线…

智能助手的巅峰对决:ChatGPT对阵文心一言

在人工智能的世界里,ChatGPT与文心一言都是备受瞩目的明星产品。它们凭借先进的技术和强大的性能,吸引了大量用户的关注。但究竟哪一个在智能回复、语言准确性、知识库丰富度等方面更胜一筹呢?下面就让我们一探究竟。 首先来谈谈智能回复能力…

SwiftUI之深入解析高级布局的实战教程

一、自定义动画 首先实现一个圆形布局的视图容器 WheelLayout: struct ContentView: View {let colors: [Color] [.yellow, .orange, .red, .pink, .purple, .blue, .cyan, .green]var body: some View {WheelLayout(radius: 130.0, rotation: .zero) {ForEach(0.…

强化学习应用(三):基于Q-learning的物流配送路径规划研究(提供Python代码)

一、Q-learning算法简介 Q-learning是一种强化学习算法,用于解决基于马尔可夫决策过程(MDP)的问题。它通过学习一个值函数来指导智能体在环境中做出决策,以最大化累积奖励。 Q-learning算法的核心思想是使用一个Q值函数来估计每…

纳米量级晶圆表面微观检测技术

持续更新 背景:晶圆表面形状偏差分为:宏观几何误差,中间几何误差,微观几何误差,跟别用表面形状误差,表面波纹度,表面粗度来描述。 主要技术:微分剪切干涩显微技术,五步…

Dubbo分层设计之Transport层

前言 Dubbo 框架采用分层设计,最底下的 Serialize 层负责把对象序列化为字节序列,再经过 Transport 层网络传输到对端。一次 RPC 调用,在 Dubbo 看来其实就是一段请求报文和一段响应报文的传输过程。 理解Transport Transport 层即网络传输…

计算机毕业设计----SSH在线水果商城平台含管理系统

项目介绍 本项目分为前后台,分为普通用户与管理员两个角色,前台为普通用户登录,后台为管理员登录; 管理员角色包含以下功能: 管理员登录,修改密码,类别管理,水果管理,订单管理,网站论坛管理,网站公告管理等功能。 …

抖音小店2024年创业新趋势,新手找项目,不要再错过这次的机会了

大家好,我是电商花花。 现在的抖音小店完全是电商创业中的一个优秀代名词和最轻便的创业项目,更是以独特的直播达人带货的优势将店铺激发出来。 今天给大家介绍下抖音小店的运作方式,并分析互联网创业的机遇,并提供相关的再做点…

Unity中URP下 SimpleLit框架

文章目录 前言一、整体框架1、该Shader是用于低端设备的2、包含一个Properties3、只有一个SubShader4、如果SubShader错误,返回洋葱紫5、调用自定义ShaderGUI面板 二、SubShader中1、Tags2、Pass 三、我们看一下ForwardLit的Pass1、混合模式、深度写入、面皮剔除、透…

ZooKeeper 简介

1、概念介绍 ZooKeeper 是一个开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件,由雅虎创建,是 Google Chubby 的开源实现,是 Apache 的子项目,之前是 Hadoop 项目的一部分,使用 Java …

提高执行力,关键在于管理者做到这四个字

执行力,对于个人而言,它就是办事的效能;而对于领导来说,它是管理的能力。 老板命令员工去买复印纸,员工第一次买回了一沓复印纸,第二次买了三摞复印纸,却仍然没有得到老板的满意。员工之所以跑…

Halcon滤波器 laplace 算子

Halcon滤波器 laplace 算子 使用laplace 算子对图像进行二次求导,会在边缘产生零点,因此该算子常常与zero_crossing算子配合使用。求出这些零点,也就得到了图像的边缘。同时,由于laplace算子对孤立像素的响应要比对边缘或线的响应…

element upload 自定义上传 报错Cannot set properties of null (setting ‘status‘)

element upload 自定义上传 报错Cannot set properties of null (setting ‘status’) 问题展示 原因分析 自定义上传方式 fileList 显示一切正常&#xff0c;状态也是成功 文件url通过URL.createObjectURL(file.raw) 进行添加 以下为配置代码 <el-uploadclass"uplo…