适用于计算机视觉的机器学习

news2025/1/1 11:05:20

使用筛选器将效果应用于图像的功能在图像处理任务中非常有用,例如可能使用图像编辑软件执行的任务。 但是,计算机视觉的目标通常是从图像中提取含义或至少是可操作的见解,这需要创建经过训练以基于大量现有图像识别特征的机器学习模型。

卷积神经网络 (CNN)

计算机视觉最常见的机器学习模型体系结构之一是卷积神经网络 (CNN),这是一种深度学习体系结构。 CNN 使用筛选器从图像中提取数值特征图,然后将特征值馈送到深度学习模型中以生成标签预测。 例如,在图像分类方案中,标签表示图像的主要主题(换句话说,这是一张关于什么的图像?)。 你可以使用不同种类的水果(如苹果、香蕉和橙子)的图像训练一个 CNN 模型,使预测的标签是给定图像中的水果类型。

在 CNN 的训练过程中,筛选器内核最初是使用随机生成的权重值定义的。 然后,随着训练过程的进行,根据已知标签值评估模型预测,并调整筛选器权重以提高准确性。 最终,经过训练的水果图像分类模型使用能够最好地提取有助于识别不同种类水果特征的筛选器权重。

下图演示了图像分类模型的 CNN 的工作原理:

  1. 具有已知标签的图像(例如,0:苹果、1:香蕉或 2:橙子)将馈送到网络中以训练模型。
  2. 当每个图像通过网络馈送时,使用一个或多个筛选器从图像中提取特征。 筛选器内核最初是随机分配的权重,并生成称为特征图的数值数组。
  3. 特征图平展为特征值的一维数组。
  4. 特征值馈送到完全连接的神经网络中。
  5. 神经网络的输出层使用 softmax 或类似函数生成包含每个可能类的概率值的结果,例如 [0.2, 0.5, 0.3]。

在训练期间,将输出概率与实际类标签进行比较,例如,香蕉(类 1)的图像应具有值 [0.0, 1.0, 0.0]。 预测类分数与实际类分数之间的差异用于计算模型中的损失,并修改完全连接的神经网络中的权重和特征提取层中的筛选器内核,以减少损失。

训练过程会重复多个时期,直到学习到一组最优的权重。 然后,保存权重,模型可用于预测标签未知的新图像的标签。

CNN 体系结构通常包含多个卷积筛选器层和附加层,以减小特征图的大小、约束提取值,或者操作特征值。 在此简化的示例中省略了这些层,重点介绍关键概念,即筛选器用于从图像中提取数字特征,然后在神经网络中使用这些特征来预测图像标签。

转换器和多模态模型

CNN 多年来一直是计算机视觉解决方案的核心。 它们不仅通常用于解决前面所述的图像分类问题,也是更复杂的计算机视觉模型的基础。 例如,物体检测模型将 CNN 特征提取层与图像中兴趣区域的识别相结合,在同一图像中查找多个类的物体。

Transformers

几十年来,计算机视觉的大多进步都是由基于 CNN 的模型的改进推动的。 然而,在另一个 AI 学科 - 自然语言处理 (NLP) 中,另一种类型的神经网络体系结构(称为转换器)使得复杂语言模型的开发成为可能。 转换器的工作原理是处理大量数据,并将语言标记(表示单个单词或短语)编码为基于向量的嵌入(数值数组)。 可以将嵌入视为表示一组维度,每个维度表示标记的某些语义属性。 创建嵌入,使得在相同上下文中常用的标记在维度上比不相关的单词更接近。

下图是一个简单的示例,显示了编码为三维向量并在三维空间中绘制的一些单词:

语义相似的标记在类似的位置进行编码,创建语义语言模型,从而可以为文本分析、翻译、语言生成和其他任务构建复杂的 NLP 解决方案。

我们只使用了三个维度,因为这很容易可视化。 实际上,转换器网络中的编码器会创建具有更多维度的向量,基于线性代数计算定义标记之间的复杂语义关系。 其中涉及的数学很复杂,转换器模型的体系结构也是如此。 在本文中,我们目标只是提供对编码如何创建封装实体之间关系的模型的概念性理解。

多模态模型

转换器成功作为构建语言模型的一种方法,促使 AI 研究人员考虑同样的方法是否对图像数据也有效。 研究结果是开发多模态模型,其中模型使用大量带有描述文字的图像进行训练,没有固定的标签。 图像编码器基于像素值从图像中提取特征,并将其与语言编码器创建的文本嵌入相结合。 整体模型封装了自然语言标记嵌入和图像特征之间的关系,如下所示:

Microsoft Florence 模型就是这样的模型。 此模型使用来自互联网的大量带有描述文字的图像进行训练,包括语言编码器和图像编码器。 Florence 是基础模型的一个例子。 换句话说,它是一个预先训练的通用模型,你可以基于此模型为专业任务构建多个自适应模型。 例如,可以将 Florence 用作执行以下操作的自适应模型的基础模型:

  • 图像分类:标识图像所属的类别。
  • 物体检测:查找图像中的单个物体。
  • 字幕:生成图像的相应说明。
  • 标记:编译图像的相关文本标记列表。

Florence 等多模态模型普遍处于计算机视觉和 AI 的前沿,并有望推动 AI 使各种解决方案成为可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2120008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unet改进30:添加CAA(2024最新改进方法)|上下文锚定注意模块来捕获远程上下文信息。

本文内容:在不同位置添加CAA注意力机制 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 遥感图像中的目标检测经常面临一些日益严峻的挑战,包括目标尺度的巨大变化和不同的测距环境。先前的方法试图通过大核卷积或扩展卷积来扩展主干的空间感受野来解决这…

cfs三层靶机——内网渗透

目录 1、环境地址 2、安装教程 3、配置虚拟机网卡 4、网络拓扑 5、安装宝塔 6、渗透测试 7、CentOS7 8、ubuntu 1、生成木马并上传 2、在kali上开启监听 3、回到蚁剑,运行木马 4、制作跳板 1、添加路由 2、查看路由 3、配置代理 4、配置kali的代理&…

第九届“创客中国”生成式人工智能(AIGC)中小企业创新创业大赛圆满落幕

9月5日,第九届“创客中国”生成式人工智能(AIGC)中小企业创新创业大赛在南昌降下了帷幕。工业和信息化部网络安全产业发展中心(工业和信息化部信息中心)主任付京波;江西省工业和信息化厅党组成员、副厅长郭启东;南昌市委常委、市委秘书长、办公室主任赵捷;市中小企业局党组书记…

MFC工控项目实例之十二板卡测试信号输出界面

承接专栏《MFC工控项目实例之十一板卡测试信号输入界面》 1、在BoardTest.h文件中添加代码 CButtonST m_btnStart[16],m_btnStart_O[16];2、在BoardTest.cpp文件中添加代码 UINT No_IDC_CHECK_O[16] {IDC_CHECK16,IDC_CHECK17,IDC_CHECK18,IDC_CHECK19,IDC_CHECK20,IDC_CH…

Idea 创建 Maven项目的时候卡死

文章目录 一、Archetype 和 Catalog1.1 Archetype(原型)1.2 Catalog(目录) 二、可能遇到的问题2.1 问题描述2.2 原因分析2.3 解决方案 参考资料 一、Archetype 和 Catalog 1.1 Archetype(原型) Archetype…

vue3+ant design vue实现文件上传(阿里云oss)~

1、效果图 2、自定义上传 <a-upload v-model:file-list"fileList" name"导入员工" action"" :customRequest"upDown" :beforeUpload"beforeUpload" :onChange"handleChange" remove"removeFile" ac…

【自然语言处理】实验一:基于NLP工具的中文分词

目录 前言 1. 导入jieba分词器 2. 用精确模式进行中文分词 3. 用全模式进行中文分词 4. 用搜索引擎进行中文分词 5. 利用 lcut返回结果列表(list) 总结 &#x1f308;嗨&#xff01;我是Filotimo__&#x1f308;。很高兴与大家相识&#xff0c;希望我的博客能对你有所帮助。 &a…

Typora调整图片大小的两种方式:zoom或width/height

目录 01 zoom方式02 width/height方式2.1 width方式 2.2 height方式 01 zoom方式 语法: <img src"your-image-url" style"zoom:your-zoom-integer"/> 示例&#xff1a;将图片(./image/market.jpg)调整为原图减少50%大小的命令为&#xff1a; …

解决 Ubuntu 20.04 上 Fail2Ban 启动失败问题:指定 systemd 后端

问题描述 服务器Ubuntu 20.04开启fail2ban失败&#xff0c;通过journactltl -f查看日志发现错误ERROR Failed during configuration: Have not found any log file for sshd jail。大致的原因就是fail2ban找不到sshd的日志文件。 Sep 09 09:52:17 test systemd[1]: Starting …

时间控制器

前言&#xff1a; 在web自动化测试中未免会遇到时间控制器&#xff0c;下面介绍三种实现方式&#xff1b;亲测成功&#xff1b; 时间控件&#xff1a; 第一种&#xff1a;通过点击和if语句联合使用 self.base_click(start_date_out) time.sleep(2) self.base_click(start_da…

【Java 输入流详解:局部与全局定义及资源管理】

Java 输入流详解&#xff1a;局部与全局定义及资源管理 在Java编程中&#xff0c;输入流&#xff08;如Scanner类&#xff09;是读取用户输入的常用方式。通过Scanner&#xff0c;可以方便地读取不同类型的数据&#xff0c;比如整数、字符串等。作为基于输入流的工具&#xff0…

【python】数据结构与算法简介及单链表实现

数据结构和算法 简介: ​ 数据结构是存储和组织数据的一种方式,算法是位实现业务目的的各种方法和思路,作用是大大提升程序性能 1.算法的特性: ​ 1.独立性: 算法是独立存在的一种解决问题的方法和思想对于算法而言;实现的语言并不重要&#xff0c;重要的是思想;算法可以有…

【中间件】-容器编排平台Kubernetes简介

目录 什么是K8s 为什么需要K8s 什么是容器(Contianer) K8s能做什么&#xff1f; K8s的架构原理 控制平面(Control plane) kube-apiserver etcd kube-scheduler kube-controller-manager cloud-controller-manager 小结 节点组件(Node) container runtime Pod kubelet ku…

视频加密软件哪个最好用?怎么对视频文件设置加密?公司视频文件加密的最佳选择!

视频文件是企业信息传递与存储的重要载体&#xff0c;这些视频文件不仅涵盖了员工培训资料、产品演示视频、客户沟通记录等关键业务内容&#xff0c;还可能包含商业秘密、技术专利等敏感信息。 因此&#xff0c;确保视频文件的安全性&#xff0c;防止未经授权的访问、篡改或泄…

7.1图像平移

目录 实验原理 示例代码&#xff11; 运行结果&#xff11; 示例代码&#xff12; 运行结果&#xff12; 实验原理 OpenCV中&#xff0c;图像平移是一种基本的几何变换&#xff0c;指的是将图像中的每一个像素点沿着水平方向或垂直方向移动一定的距离。图像平移不改变图像…

C++位图的实现与详解

1.位图概念 在讲解位图之前我们先来看一道很经典的面试题。 给40亿个不重复的无符号整数&#xff0c;没排过序。给一个无符号整数&#xff0c;如何快速判断一个数是否在这40亿个数中。 我们有以下两种种解决方法&#xff1a; 1. 遍历&#xff0c;时间复杂度O(N)。&#xff0…

如何在红米手机中恢复已删除的照片?(6 种方式可供选择)

凭借出色的相机和实惠的价格&#xff0c;小米红米系列已成为全球知名品牌。但是&#xff0c;最近有些人抱怨他们在 红米设备上丢失了许多珍贵的图片或视频&#xff0c;并希望弄清楚如何从小米手机恢复已删除的照片。好吧&#xff0c;在小米设备上恢复已删除的视频/照片并不难。…

RK3576芯片在智能家居里中型智慧屏产品的应用方案分析

智能家居在近年来得到了快速发展&#xff0c;AI技术不断发展&#xff0c;人机交互十分成熟&#xff0c;各种家电也都迎来了智能化浪潮&#xff0c;智能家居为人们提供了优秀的产品体验&#xff0c;受到主流消费者的青睐&#xff0c;智能家居里的中型智慧屏产品也随之兴起。 瑞芯…

HTTrack

--不破不立 HTTrack 是一个免费开源的网站离线浏览器。通过它可以将整个网站下载到本地的某个目录&#xff0c;包括 html、图片和脚本以及样式文件&#xff0c;并对其中的链接进行重构以便于在本地进行浏览。 1.官网下载地址&#xff1a;https://www.httrack.com/page/2/en/in…

通信工程学习:什么是FMC固定移动融合

FMC&#xff1a;固定移动融合 FMC固定移动融合&#xff0c;即Fixed Mobile Convergence&#xff08;固定移动网络融合&#xff09;&#xff0c;是指通过固定网络与移动网络之间的融通、合作&#xff0c;实现全业务及融合业务的经营。这一技术旨在打破传统固定网络和移动网络之间…