【计算机视觉】回顾2022年计算机视觉领域最激动人心的进展

news2025/2/3 7:13:06

目录:回顾2022年计算机视觉

  • 一、前言
  • 二、计算机视觉趋势
    • 2.1 Transformer统治计算机视觉
    • 2.2 以数据为中心的计算机视觉获得牵引力
    • 2.3 AI 生成的艺术作品
    • 2.4 多模态人工智能成熟
  • 三、计算机视觉的新应用
    • 3.1 运动领域
    • 3.2 环境保护
    • 3.3 自动驾驶
    • 3.4 健康与医药
  • 四、总结

一、前言

过去 12 个月见证了计算机视觉的快速发展,从支持基础设施到跨行业的新应用,再到研究中的算法突破,再到 AI 生成艺术的爆炸式增长。本篇文章带大家一起回顾一下这些令人兴奋的发展。本文将通过五个部分来回顾计算机视觉领域在2022年的发展。

二、计算机视觉趋势

2.1 Transformer统治计算机视觉

Transformer 模型在 2017 年在Attention is All You Need论文中被提出,之后广泛用于深度学习领域,为各种 NLP 任务设定了标准,并开创了大型语言模型 (LLM) 的时代。Vision Transformer (ViT) 于 2020 年底推出,标志着这些基于自我注意的模型在计算机视觉环境中的首次应用。

今年,研究将 Transformer 模型推向了计算机视觉的前沿,在各种任务上实现了最先进的性能。例如:DETR、SegFormer、Swin Transformer和ViT。

这个GitHub总结了相当于的基于Transformer的网络。感兴趣的小伙伴可以关注一下。

https://github.com/Yangzhangcst/Transformer-in-Computer-Vision

2.2 以数据为中心的计算机视觉获得牵引力

随着计算机视觉的成熟,越来越多的机器学习开发工作专注于整理、清理和扩充数据。数据质量正在成为性能的瓶颈,行业正朝着数据模型协同设计的方向发展。以数据为中心的机器学习会越来越受欢迎。

这一努力的掌舵者是新一波的初创公司——合成数据生成公司(gretel、Datagen、Tonic)和评估、可观察性和实验跟踪工具(Voxel51、Weights & Biases 、CleanLab)——加入现有的标签和注释服务(Labelbox、Label Studio、CVAT、Scale、V7 ) 的努力。

2.3 AI 生成的艺术作品

在生成对抗网络 (GAN) 的改进和传播模型的快速发展和迭代之间,AI生成的艺术正在经历只能被描述为复兴的过程。借助Stable Diffusion、Nightcafe、Midjourney和 OpenAI的DALL-E2等工具,现在可以根据用户输入的文本提示生成令人难以置信的细微图像。Artbreeder允许用户将多个图像“培育”成新作品,Meta的Make-A-Video从文本生成视频,而RunwayML在创建动画和编辑视频方面改变了游戏规则。其中许多工具还支持修复和outpainting,可用于编辑和扩展图像范围。

随着所有这些工具彻底改变 AI 艺术能力,争议几乎是不可避免的,而且已经有很多。9 月,一张AI 生成的图像赢得了一场美术比赛,引发了关于什么才算是艺术,以及所有权、归属和版权如何适用于这类新内容的激烈讨论。估计这个讨论会越来约激烈。

2.4 多模态人工智能成熟

除了 AI 生成的艺术作品,2022 年还见证了多种模式交叉领域的大量研究和应用。处理多种类型数据(包括语言、音频和视觉)的模型和管道正变得越来越流行。这些学科之间的界限从未如此模糊,异花授粉也从未如此富有成果。

这种上下文冲突的核心是对比学习,它改进了将多种类型的数据嵌入同一空间的方法,开创性的例子是 Open AI 的对比语言-图像预训练 ( CLIP ) 模型。
这样做的一个结果是能够根据文本或其他图像的输入对图像集进行语义搜索。这刺激了矢量搜索引擎的繁荣,Qdrant、Pinecone、Weaviate、Milvus和其他引擎引领潮流。同样,模态之间的系统连接正在加强视觉问答和零镜头和少镜头图像分类。

三、计算机视觉的新应用

计算机视觉现在在从体育和娱乐到建筑、安全、农业等各个领域都发挥着重要作用,在这些行业中的每一个行业中,都有太多的公司采用计算机视觉来计算。本节重点介绍计算机视觉正在深入嵌入的一些行业中的一些关键发展。

国际足联在 2022 年卡塔尔世界杯上使用的半自动越位检测功能的图示:

在这里插入图片描述

3.1 运动领域

当国际足联在卡塔尔世界杯上使用半自动系统检测越位时,计算机视觉就出现在了最大的舞台上。他们还使用计算机视觉来防止体育场发生踩踏事件。

其他值得注意的发展包括Sportsbox AI 筹集了由 EP Golf Ventures 牵头的 550 万美元 A 系列,将运动跟踪引入高尔夫(和其他运动),以及新公司Jabbr 为格斗运动定制计算机视觉,从 DeepStrike 开始,这是一种自动计算出拳次数的模型并编辑拳击视频。

3.2 环境保护

循环经济初创公司Greyparrot为其计算机视觉驱动的废物监测系统筹集了 1100 万美元的 A 轮融资。Carbon marketplace NCX 使用尖端的计算机视觉模型和卫星图像来提供木材和碳潜力的精确评估,筹集了 5000 万美元的 B 轮融资。Microsoft宣布了 Microsoft Climate Research Initiative (MCRI),它将把他们的计算机视觉用于可再生能源测绘、土地覆盖测绘和冰川测绘方面的气候努力。

3.3 自动驾驶

2022 年对整个自动驾驶汽车行业来说有点喜忧参半,自动驾驶汽车公司Argo AI 在 10 月关闭运营,福特和Rivian将他们的重点从 L4(高度自动化)转移到 L2(部分)和L3(条件)自动化。Apple 最近还宣布缩减其自动驾驶项目“Project Titan”,并将发布时间推迟到 2026 年。

尽管如此,计算机视觉还是取得了一些显着的胜利。麻省理工学院的研究人员发布了第一个用于自动驾驶的开源逼真模拟器。在从英特尔分拆出来后,驾驶辅助部门Mobileye 筹集了 8.61 亿美元的 IPO 。谷歌收购了空间人工智能和移动创业公司 Phiar。Waymo在凤凰城市中心推出了自动驾驶汽车服务。

3.4 健康与医药

在澳大利亚,工程师们设计了一种很有前途的基于计算机视觉的非接触式血压检测方法,它可以替代传统的充气袖带。此外,谷歌开始将其基于计算机视觉的乳腺癌检测工具授权给癌症检测和治疗提供商iCAD

四、总结

2022 年对于机器学习来说非常活跃,对于计算机视觉来说尤其如此。疯狂的是,研究的快速发展、从业者人数的增长和行业的采用似乎都在加速。让我们看看 2023 年会发生什么!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/103822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据类型隐式转换导致的阻塞

背景 不合适的数据类型隐式转换会导致性能下降和并发下降,而且大多数技术人员对隐式转换的概念是陌生的,因此在生产环境中非常常见,通过本文做一个系统的梳理。 现象 收到SQL专家云阻塞告警邮件,登录SQL专家云,进入实…

推荐系统学习笔记-冷启动

简介 推荐系统的主要目标是将大量的标的物推荐给可能喜欢的海量用户, 这里涉及到标的物和用户两类对象。任何互联网推荐产品, 标的物和用户都是不断增长变化的,所以一定会频繁面对新标的物和新用户, 推荐系统冷启动问题指的就是对于新注册的用户或者新入库的标的物…

CDGA|2022年内有超20家银行因数据治理模块受罚,原因都在这里

今年,银保监会对银行数据治理的监管趋严,对银行机构在监管数据质量和数据报送中存在的违法违规行为,不断加大处罚与整治力度。 近日,北京农商银行收到的一张630万元罚单显示,该行主要存在的违法违规事实具体为&#xf…

NVMe解读

看NVMe协议(1.0e)过程中,参考了SSDFans的很多文章内容, 目录 1. 综述 3 1.1 名词解释 3 1.1.1 Namespace 3 1.1.2 Fused Operations 4 1.1.3 指令执行顺序 4 1.1.4 写单元的原子性 4 1.1.5 元数据 4 1.1.6 仲裁机制 4 1…

图数据库知识点3:图数据库解决了什么问题?

在前面的两个知识点中我们先后介绍了: 知识点1:图数据库与关系型数据库的区别 知识点2:图思维方式 现在,我们可以更进一步来通过具体的例子来了解图数据库、图计算到底解决了什么问题。我们先来剖析下面这个问题: 图数据库查询…

【Vue实用功能】elementUI 自定义表单模板组件

elementUI 实现一个自定义的表单模板组件 注&#xff1a;该功能基于elementUI 背景&#xff1a;在项目开发中&#xff0c;我们会遇到这种需求&#xff0c;在管理后台添加自定义表单&#xff0c;在指定的页面使用定义好的表单 直接上代码&#xff1a; <template><di…

DBCO-PEG-NHS, 可溶于水,有多种分子量供选择

凯新生物DBCO-PEG-NHS衍生物可以点击化学反应不需要任何金属催化剂。反应促进1,3-偶极环加成反应&#xff0c;环辛炔和叠氮化合物&#xff0c;也被称为铜自由点击反应&#xff0c;是一种生物正交反应使溶液中的两个分子的共轭。DBCO PEG衍生物具有缓冲溶液中快速的动力学和稳定…

C语言基础【程序=算法+数据结构】——(数据结构——基础篇)

欢迎小伙伴的点评✨✨ 本篇章系列是对C语言的深度思考和总结、关于C语言内容会持续更新。 文章目录✨前言✨数据的表现形式✨数据类型一、基本类型1.1、整型类型1.1.1、基本整型(int)1.1.2、短整型(short int)1.1.3、长整型(long int)1.1.4、*双长整型(long long int)1.1.5、字…

1556:Dis——Tarjan求LCA、倍增求LCA

【题目描述】 给出 n 个点的一棵树&#xff0c;多次询问两点之间的最短距离。 注意&#xff1a;边是双向的。 【输入】 第一行为两个整数 n 和 m。n 表示点数&#xff0c;m 表示询问次数&#xff1b; 下来 n−1 行&#xff0c;每行三个整数 x,y,k&#xff0c;表示点 x 和点 …

英文计算机论文写作,需要注意哪些细节? - 易智编译EaseEditing

&#xff08;1&#xff09;尽量用动词少用名词化 那些大篇名词的文章真的很难读懂&#xff0c;而有强大动词的句子更容易理解。 我们注意到客户在论文中经常使用的名词有“agreement”, “disagreement”, “investigation”, “analysis”, “examination”, “comparison”…

Qt 中的多项目管理

背景&#xff1a; 在Visual Studio中使用 “Solution” 来组织多个 Projects。 在Qt中&#xff0c;使用 "Subdirs Project"来组成多个projects &#xff0c;实现VS中的Solution功能。 项目类型 首先是先新建一个子目录项目&#xff0c;再根据需要在子目录项目中添…

漏洞深度分析|CVE-2022-1471 SnakeYaml 命令执行漏洞

项目介绍 YAML是一种数据序列化格式&#xff0c;设计用于人类的可读性和与脚本语言的交互。 SnakeYaml是一个完整的YAML1.1规范Processor&#xff0c;支持UTF-8/UTF-16&#xff0c;支持Java对象的序列化/反序列化&#xff0c;支持所有YAML定义的类型。 项目地址 https://gi…

javaee之MyBatis框架3

mybatis中编写dao实现类的使用方式 简单说一下实现原理&#xff1a; 下面来说一下UserDaoImpl的实现原理 mybatis主配置文件中properties标签的使用 第一种&#xff1a; <property name"driver" value"com.mysql.jdbc.Driver"></property> &…

软件加密保护:Mirage License Protector v5 注册版

Mirage License Protector v5.1.0 适用于许多编译器 License Protector 是一个 DLL / COM exe&#xff0c;几乎可以与 所有编译器一起使用&#xff1a;C、C#、.NET、Delphi、VB6 和 VB.NET&#xff0c; 32 位和 64 位的 Java 哪种产品适合我&#xff1f; 选择许可证保护器 应…

智能无障碍轮椅——PID算法控制

文章目录一、PID算法二、控制方法对比棒棒控制&#xff08;启停控制器&#xff09;比例控制PI控制PID控制三、PID的手动整定四、PID衰减曲线整定五、PID调节器各校正环节的作用是&#xff1a;六、PID算法的一般表达式是&#xff1a;七、计算注意事项一、PID算法 PID控制是最早…

图像语义分割网络FCN(32s、16s、8s)原理及MindSpore实现

一、FCN网络结构 全卷积网络(Fully Convolutional Networks)&#xff0c;是较早用于图像语义分割的神经网络。根据名称可知&#xff0c;FCN主要网络结构全部由卷积层组成&#xff0c;在图像领域&#xff0c;卷积是一种非常好的特征提取方式。本质上&#xff0c;图像分割是一个分…

DBCO-PEG-NH2/Amine二苯基环辛炔-聚乙二醇-氨基 简介。用于以高特异性和反应性标记叠氮化物修饰的生物分子。

中文名称&#xff1a; 二苯基环辛炔-聚乙二醇-氨基 氨基-聚乙二醇-二苯基环辛炔 英文简称&#xff1a; DBCO-PEG-NH2/Amine Amine/H2N-PEG-DBCO 外观&#xff1a; 灰白色固体或半固体&#xff0c;取决于PEG的分子量 溶剂&#xff1a; 部分常规有机溶剂 存储…

day20-django

文件上传 批量上传数据 案例&#xff1a;混合数据(Form) 提交页面&#xff1a;用户输入数据文件&#xff08;输入不能为空&#xff0c;报错&#xff09; django开发过程中两个特殊的文件夹 static&#xff1a;存放静态文件的路径&#xff0c;包括css、js、项目图片 media&…

【问题记录】Git问题记录

文章目录问题1Failed to connect to github.com port 443 after 21085 ms: Timed outOpenSSL SSL_read: Connection问题2unable to access https://github.com//: OpenSSL SSL_read: Connection was reset, errno 10054网速慢问题clone太慢&#xff0c;pull太慢怎么办问题1 Fa…

记录C,C++关键字的位置,直接跳过注释和字符串文本。

依据第二版本&#xff0c;可以写一个跳过注释的查找函数 C_IndexOfWord Java_IndexOfWord CSharp_IndexOfWord 还有一种方法&#xff0c;可以先把所有注释用空格代替&#xff0c;查出的字符位置也不变。 以前版本&#xff1a; DList<TextColor> Syntax::GetTextColor…