【计算机视觉】必须了解的图像数据底层技术

news2026/2/14 11:27:50

计算机视觉的主要目的是让计算机能像人类一样甚至比人类更好地看见和识别世界。计算机视觉通常使用C++、Python和MATLAB等编程语言，是增强现实（AR）的一项重要技术。

文章目录

一、引言
二、什么是计算机视觉（Computer Vision）
三、计算机视觉的主要应用
四、计算机视觉工作流程
- 4.1 引言
- 4.2 数据标准化
- 4.3 作为数据的图像
- 4.4 训练神经网络

一、引言

计算机视觉（Computer Vision）自兴起以来就非常迅速且广泛应用于各个领域，比如我们熟悉的且每天都会使用的基于手机摄像头的人脸识别，除此之外，它还可以在自动驾驶领域辅助汽车识别交通信号、标志和行人；在制造业辅助工业机器人监督和指导人工操作。

在这里插入图片描述

目前主流的计算机视觉工具有OpenCV、Tensorflow、Gpu、YOLO、Keras等。计算机视觉其实是一个复杂多元的交叉领域，包含了很多来自数字信号处理、神经科学、图像处理、模式识别、机器学习(ML)、机器人、人工智能(AI)等领域的概念。

本文将具体介绍一下计算机视觉的工作流程。

二、什么是计算机视觉（Computer Vision）

一言蔽之，计算机视觉是让计算机理解并标记图像内容的技术领域。

举个例子，请看下图：

在这里插入图片描述
对于人类来说，你很难向从没穿过衣服的原始人解释什么是连衣裙或者什么是鞋。计算机视觉也是如此，如果它并没有相关输入，就不会理解上图的东西都是什么。

所以，我们需要收集并标记大量关于衣服、鞋、包包的图片，输入进计算机“告诉”它这些图片里的东西是什么，在经过不断的学习和训练后，计算机将会识别出哪个是连衣裙，哪个是鞋、哪个是包包。

三、计算机视觉的主要应用

计算机视觉目前应用的领域不胜枚举，挑出5个具有代表性的应用吧：

物体与行为识别
自动驾驶汽车
医疗影像分析与诊断
图片标记
人脸识别

四、计算机视觉工作流程

4.1 引言

计算机视觉工作流程其实是大多数计算机视觉应用程序将经历的一系列步骤。许多视觉应用程序都是从获取图像和数据开始，然后处理数据，执行一些分析和识别步骤，最后执行一个动作的：

在这里插入图片描述

就拿人脸识别来说吧，它也主要遵循了计算机视觉的工作流程：

在这里插入图片描述
我们可以看到，大部分计算机视觉技术应用其实都是从数据预处理开始的，其实这也是机器学习的关键。

4.2 数据标准化

所谓预处理图像就是将输入的图像数据标准化，以便后续工作流程的顺利进行。例如，假设我们创建了一个简单的聚类算法来区分红玫瑰和其他花朵：

在这里插入图片描述
我们将算法设计为计算给定图像中红色像素的数量，如果有足够多的红色像素（大于300个红色像素）就被归类为红玫瑰。（这个例子里我们只提取了颜色特征）

还有一点需要注意的是，输入图像的大小、裁切方式都会影响算法的输出结果，因此数据预处理非常重要！

4.3 作为数据的图像

图像中的每一个像素都是一个我们可以改变的数值，比如，我们可以将一个像素乘以一个标量来改变图像亮度，我们也可以将每个像素值向右移动来改变图像饱和度等。

在这里插入图片描述
将图像视为数字网格是许多图像处理技术的基础。一般来说，色彩与形状改变都是通过数学运算对图像进行逐像素变换完成的。

4.4 训练神经网络

为了训练神经网络，我们要提供一组标记过的图像数据，然后比较这些输入图像与计算机预测的输出标签或识别的测量值的差异以检测算法模型的准确率。基于神经网络的深度学习会监督它所犯的错误（误差），并通过修正它发现的图像数据间的模式与差异来实现迭代与拟合。

其中，梯度下降法是一种减少神经网络误差的数学方法，其中卷积神经网络是一种特殊类型的神经网络，通常用于计算机视觉应用。

在这里插入图片描述
X =输入；a = 活化函数；W = 卷积神经网络中的权重；J = 损失函数；Alpha = 学习率；y = 地面真值；y = 预测；k = 迭代次数

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/456731.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Flink窗口函数

Flink窗口函数

1.什么是窗口函数 Flink窗口函数是指对数据流中的数据进行分组和聚合操作的函数。 FlinkSQL支持对一个特定的窗口的聚合。例如有用户想统计在过去的1分钟内有多少用户点击了某个的网页。在这种情况下，我们可以定义一个窗口，用来收集最近一分钟内的数据…

阅读更多...

codemirror 5前端代码编辑器资料整理。

codemirror 5前端代码编辑器资料整理。

CodeMirror 是基于js的源代码编辑器组件，它支持javascript等多种高级语言，tampermonkey内置的代码编辑器就是基于它。它的按键组合方式兼容vim，emacs等，调用者还可自定义”自动完成“的列表窗口，自由度极高&#xff0c…

阅读更多...

Android studio 按钮状态列表

Android studio 按钮状态列表

1.创建一个drawable，类型selector 。 <?xml version"1.0" encoding"utf-8"?> <selector xmlns:android"http://schemas.android.com/apk/res/android"><item android:state_pressed"…

阅读更多...

信息安全复习三：古典密码之设计好的密码算法

信息安全复习三：古典密码之设计好的密码算法

一.章节梗概讨论以下算法，理解怎么设计好的密码算法的关键问题 1.Caesar cipher 2.单字母表密码 3.Playfairmima 4.维吉尼亚密码 5.自动生成密码二.Caesar cipher 2.1 穷举攻击穷举攻击定义：尝试所有密钥直到有一个合法密钥能够把密文还原成明文&…

阅读更多...

软考软件设计师操作系统笔记

软考软件设计师操作系统笔记

操作系统地位程序顺序执行（进程管理） 程序顺序执行的特征，顺序性封闭性可再现性前趋图 P1结束后 V操作 SS1 P2操作前先执行S S -1 此时S0 一个箭头对应一个信号量程序并发执行和前驱图找到输入i计算c输出p，如果找不到就…

阅读更多...

结合实战，浅析GB/T28181（十）——媒体流保活

结合实战，浅析GB/T28181（十）——媒体流保活

1 问题现象在实际项目对接过程中，我们有时会碰到这样的问题：视频正在播放着，突然停止了。然后ping一下，也能ping通！下级平台或上级平台看起来也在线，看起来不是网络的问题。这到底咋回事呢？一…

阅读更多...

实验室电磁铁EM4S的技术参数

实验室电磁铁EM4S的技术参数

锦正茂科技自主研发的电磁铁，可以通过更换电磁铁极头在一定范围内改善磁场的大小和磁场的均匀度 ，并且可以通过调整极头间距改变磁场的大小，该种类型的电磁铁能够很好的与客户设计的磁场平台兼容。主要用于磁滞现象研究、磁化系数测量、霍尔效…

阅读更多...

公派访问学者签证申请需提交的材料

公派访问学者签证申请需提交的材料

公派访问学者签证申请需提交的材料: 1、《公派留学人员基本情况表》。 2、留学基金委出具的《同意派出函》复印件一份(特殊项目除外)。 3、录取文件复印件一份。(如您是改派国别、延期派出、缩短在外留学期限等，还要提交留学基金委出具的相关文件复印件一份)。 4…

阅读更多...

dtype = torch.float32到底有什么用

dtype = torch.float32到底有什么用

dtype torch.float32到底有什么用解决：RuntimeError: expected scalar type Long but found Float 先看一个例子要计算 z x0 w1x1 w2x2 其中w [-0.2,0.15,0.15] 于是你开始尝试其中torch.mv用于矩阵*向量此时你发现他需要你提供float格式的数据你查看发…

阅读更多...

（一）MYSQL实战——用户权限控制管理

（一）MYSQL实战——用户权限控制管理

前言 mysql作为目前最流行的关系型数据库，被广泛使用在各种系统服务中，本节内容主要是关于mysql数据库在生产环境中用户、权限等相关内容的设置说明，便于我们更好的使用和管理我们的数据库。正文 SQL的分类 ①数据查询语言（Da…

阅读更多...

SpringBoot日志

SpringBoot日志

日志有什么用？ 日志最主要的用途就是排查和定位错误，除此之外，日志还可以将错误信息具体化，比如时间、位置等。如何打印日志使用Logger类使用方法： Logger log LoggerFactory.getLogger（类名/类名…

阅读更多...

MVCC实现原理

MVCC实现原理

MVCC实现原理主要依赖隐藏字段undo logundolog生成的记录链 Read View可见性规则三个全局属性具体的比较规则 MVCC的整体处理流程RC、RR级别下的InnoDB快照读有什么不同主要依赖 mvcc的实现原理主要依赖于记录中的三个隐藏字段（对用户来说是不可见的）…

阅读更多...

【Spring Cloud Alibaba】8.路由网关(Gateway)

【Spring Cloud Alibaba】8.路由网关(Gateway)

文章目录简介什么是 Spring Cloud Gateway功能介绍工作流程开始搭建创建项目修改POM文件添加启动类添加配置文件启动项目测试网关全局过滤创建全局过滤器测试结尾简介接下来对服务消费者添加路由网关来实现统一访问接口，本操作先要完成之前的步骤&#xff0c…

阅读更多...

API 自动化测试难点总结与分享

API 自动化测试难点总结与分享

笔者是 API 管理工具的项目参与者之一，在日常工作中会经常遇到 API 自动化测试难点，我决定总结分享给大家： API 自动化测试的难点包括： 接口的参数组合较多，需要覆盖各种可能的情况。接口的状态和数据关联较多&#…

阅读更多...

DJ4-1 存储器的层次结构

DJ4-1 存储器的层次结构

目录 4.1.1 存储器的层次结构 1. 主存储器（内存，主存，可执行存储器） 2. 寄存器 3. 高速缓存 4. 磁盘缓存存储器层次结构的特点 4.1.2 存储器管理的目的和功能 1. 主存储器的分配和管理 2. 提高主存储器的利用率 3. 扩…

阅读更多...

基于ArcGIS Pro、Python、USLE、INVEST模型等多技术融合的生态系统服务构建生态安全格局

基于ArcGIS Pro、Python、USLE、INVEST模型等多技术融合的生态系统服务构建生态安全格局

近年来，由于社会经济的快速发展和人口增长，社会活动对环境的压力不断增大，人地矛盾加剧。虽然全球各国在生态环境的建设和保护上已取得不少成果，但还是未从根本上转变生态环境的恶化趋势；生态破坏、环境退化、生物多样…

阅读更多...

OceanMind海睿思入选“2023爱分析·智能制造最佳实践案例”

OceanMind海睿思入选“2023爱分析·智能制造最佳实践案例”

近日，中国领先的产业数字化研究与咨询机构爱分析发布了《2023爱分析智能制造最佳实践案例》，该奖项旨在肯定智能制造领域领先企业的数字化创新应用和最佳实践。中新赛克海睿思凭借为星宇股份构建的“星宇车灯数据智能解决方案”入选智能制造最佳实践…

阅读更多...

AWR1642毫米波雷达实测行人、自行车和汽车等目标

AWR1642毫米波雷达实测行人、自行车和汽车等目标

本文编辑 | 调皮哥的小助理 AWR1642因为最大中频带宽固定只有5MHz，最大中频带宽是发射信号与回波信号混频之后得到的最大中频频率，即代表着最大的回波延迟时间。因此根据雷达方程和目标最大探测距离公式，如下所示： 复采样&…

阅读更多...

一文谈谈文心一言对比ChatGPT4.0的差距

一文谈谈文心一言对比ChatGPT4.0的差距

对于想体验文心一言的朋友，可以进行申请尝试，快速入口如果想体验ChatGPT的朋友，可以自行fq注册；但是由于现在限制注册并且不稳定，对于不会用梯子不想注册的朋友可以使用这个进行访问，快速入口关于ChatG…

阅读更多...

CTF之SSRF常见绕过

CTF之SSRF常见绕过

1.绕过localhost和127.0.0.1 当程序中限制了我们使用localhost和127.0.0.1时，便可以利用进制转换来绕过 http://0x7F.0.0.1 //16进制 http://0177.0.0.1 //8进制 http://2130706433 //10进制整数格式 http://0x7F000001 16进制整数格式 http://127.1 //省略模式 h…

阅读更多...

推荐文章

最新文章