计算机视觉的图像标注与视觉任务

news2024/12/26 10:52:17

1 ​计算机视觉应用

       计算机视觉是一种利用计算机和数学算法来模拟人类视觉的技术,可以应用于许多领域。以下是计算机视觉的八大应用: 

  • 图像识别:利用计算机视觉技术,可以对图像进行分类、识别和分割,从而实现自动化的图像处理。
  • 视频监控:利用计算机视觉技术,可以对视频进行实时监控和分析,从而实现对安全和环境的监控。
  • 人脸识别:利用计算机视觉技术,可以对人脸进行识别和分析,从而实现身份验证和安全控制。
  • 视觉导航:利用计算机视觉技术,可以对场景进行三维重建和定位,从而实现自动驾驶和机器人导航。
  • 医学影像分析:利用计算机视觉技术,可以对医学影像进行分析和诊断,从而实现精准医疗和疾病预防。
  • 智能交通:利用计算机视觉技术,可以对交通流量进行监测和管理,从而实现交通拥堵的缓解和交通安全的提升。
  • 智能家居:利用计算机视觉技术,可以对家居环境进行监测和控制,从而实现智能化的家居管理。
  • 虚拟现实:利用计算机视觉技术,可以对虚拟环境进行建模和渲染,从而实现沉浸式的虚拟现实体验。

​2 计算机视觉任务

  • 物体检测(目标检测):用于零售或医学
  • 线/边缘检测:用于制造业
  • 图像分割:用于自动驾驶汽车
  • 姿态预测/关键点识别:用于情绪检测
  • 图像分类:用于图像类别划分

3 不同视觉任务训练数据的标注技术

       要完成计算机视觉的任务,就需要建立并训练出一个模型,用这个训练出的模型进行完成上面的视觉任务。但训练这个模型需要数据,而数据往往是图片,并且这些图片需要进行人工标注,并给出这些图片的语义标签,如下图

3.1 目标检测

       对于目标检测类图片数据进行标注

       进行目标检测的技术主要有两种,即2D和3D包围框。

3.1.1 2D 包围框

       在这种方法中,只需要在被检测的物体周围绘制矩形框。它们用于定义对象在图像中的位置。边框可以由矩形左上角的x、y轴坐标和右下角的x、y轴坐标来确定。

优点和缺点:

  • 标注起来快速和容易。
  • 不能提供重要的信息,如物体的方向,这对许多应用来说是至关重要的。
  • 包括不属于物体一部分的背景像素。这可能会影响训练。

3.1.2  3D包围框或者立方体

       类似于2D边框,除了它们还可以显示目标的深度。这种标注是通过将二维图像平面上的边界框向后投影到三维长方体来实现的。它允许系统区分三维空间中的体积和位置等特征。

 优点和缺点:

  • 解决了物体方向的问题。
  • 当物体被遮挡,这种标注可以想象包围框的维度,这可能会影响训练。
  • 这种标注也会包括背景像素,可能会影响训练。

3.1.3  多边形

       有时,必须标记形状不规则的物体。在这种情况下,使用多边形。注释时只需标记物体的边缘,我们就能得到要检测的物体的完美轮廓。

 优点和缺点:

  • 多边形标记的主要优点是它消除了背景像素,并捕获了物体的精确尺寸。
  • 非常耗时,如果物体的形状是复杂的,很难标注。

3.2 线/边缘检测(线和样条)

        对于边缘检测类图片数据进行标注

        在划分边界时,线和样条是有用的。将区分一个区域和另一个区域的像素进行标注。

优点和缺点:

  • 这种方法的优点是,连线上的像素不需要都是连续的。这样在检测有中断的线或部分遮挡的物体是非常有用的。
  • 手动标注图像中的线是非常累人和费时的,特别是图像中有很多的线的时候。
  • 当物体碰巧是对齐的时候,可能会给出误导的结果。

3.3. 姿态预测 / 关键点识别 

       对人体的姿势或者人脸的识别等图片进行数据标注

       在许多计算机视觉应用中,神经网络常常需要识别输入图像中重要的感兴趣的点。我们把这些点称为地标或关键点。在这种应用中,我们希望神经网络输出关键点的坐标(x, y)。

 3.4. 分割

        对连续图像进行图像标注

        图像分割是将一幅图像分割为多个部分的过程。图像分割通常用于在像素级定位图像中的物体和边界。图像分割方法有很多种。

  • 语义分割: 语义分割是一项机器学习任务,它需要像素级标注,其中图像中的每个像素都被分配给一个类。每个像素都带有语义意义。这主要用于环境背景非常重要的情况。
  • 实例分割: 实例分割是图像分割的一种子类型,它在像素级别上标识图像中每个物体的每个实例。实例分割和语义分割是图像分割的两种粒度级别之一。
  • 全景分割: 全景分割结合了语义分割和实例分割,所有像素都被分配一个类标签,所有目标实例都被唯一地分割。

3.5. 图像分类

       对需要分类的图片进行标注,使用候选框+文字

       图像分类分为两种:

  • 1、单一的图像进行分类,如下图左侧,判断是否是猫。
  • 2、复杂的图像进行分类,如下图右侧,需要先进行图像的识别,识别后再进行分类。

       因此图像分类不同于目标检测。目标检测的目的是识别和定位目标,而图像分类的目的是识别和定位目标,并进行目标分类。这个用例的一个常见示例是对猫和狗的图片进行分类。标注者必须为一只狗的图像分配一个类标签“dog”,对猫的图像分配类标签“cat”。

4 视觉任务应用

4.1 物体检测(目标检测)

       应用于零售业和医学

  • 零售: 目标检测中的2D边框可以用于标注产品的图像,然后机器学习算法可以使用这些图像来预测成本和其他属性。图像分类在这方面也有帮助。
  • 医学:目标检测中的多边形可用于在医用x射线中标记器官,以便将它们输入深度学习模型,以训练x射线中的畸形或缺陷。这是图像标注最重要的应用之一,需要医学专家具有较高的领域知识。

4.2 线/边缘检测

      边缘检测应用于制造业 

  • 制造行业: 线和样条可用于标注工厂的图像线跟随机器人工作。这可以帮助自动化生产过程,人力劳动可以最小化。

4.3 图像分割:

       图像分割应用于自动驾驶汽车

  • 自动驾驶汽车: 这是另一个重要的领域,图像标注可以应用。利用语义分割对图像中的每个像素进行标记,使车辆能够感知到道路上的障碍物。这一领域的研究仍在进行中。

4.4 姿态预测/关键点识别

      应用于情绪检测或者人体姿势预测

  • 情绪检测: 这是里程碑,可以用来检测一个人的情绪(高兴,悲伤,或自然)。这可以应用于评估受试者对特定内容的情绪反应。

4.5 图像分类

      图像分类一般用于图像类别划分

总结:

       图像标注在计算机视觉中起着至关重要的作用。图像标注的目标是为和任务相关的、特定于任务的标签。这可能包括基于文本的标签(类),绘制在图像上的标签(即边框),甚至是像素级的标签。

       人工智能需要的人工干预比我们想象的要多。为了准备高精度的训练数据,我们必须对图像进行标注以得到正确的结果。数据注释通常需要较高水平的领域知识,只有来自特定领域的专家才能提供这些知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/751151.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FreeRTOS实时操作系统(十四)软件定时器

系列文章目录 文章目录 系列文章目录软件定时器API函数实验测试 软件定时器 定时器的作用:经过一段指定时间,触发超时事件 在裸机开发中,应用的是芯片自带的定时器模块,精度很高,在中断服务函数中处理信息&#xff0…

大模型基础知识 - 语言模型及其演进 公开版

本文为作者内部分享文档,由于不涉敏可以公开,分享本身是课程形式,有什么疑问欢迎在评论区留言。 开场白 人工智能发展到现在,在2个重要领域取得了重大突破,有望达到人类水平: 计算机视觉 (Com…

【电路原理学习笔记】第2章:电压、电流和电阻:本章习题

第2章:电压、电流和电阻 以后还是分开做,每一节习题都按节做,不集中在一起做了,太累了,而且要忙其他事,好不容易凑了几天时间做这个题 本章习题 同步练习 (2-1)3C电荷对应于多少…

【数据网格架构】数据网格架构详解

“我想指出,所提供的链接都不是附属的,我从本文中提到的公司中没有任何收获。我做这一切是因为直到最近我才听说过数据网格,我很期待这次活动,并希望在此之前深入了解一下。我还认为这可能会让其他人感兴趣,并付出了额…

pytorch2.0版本简介

PyTorch 2.0 中发布了大量足以改变 PyTorch 使用方式的新功能,它提供了相同的 eager mode 和用户体验,同时通过 torch.compile 增加了一个编译模式,在训练和推理过程中可以对模型进行加速,从而提供更佳的性能和对 Dynamic Shapes …

JVM解析:class结构和常量及方法初始化

文件结构 推荐官方文档:https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-3.html ClassFile {u4 magic;u2 minor_version;u2 major_version;u2 constant_pool_count;cp_info constant_pool[cons…

通过python的signal库模拟电源设备的csine波形

import numpy as np import matplotlib.pyplot as plt import random from scipy import signal def csin(length, amp,lenf,n):"""生成模拟CSIN波形的函数:param length: 波形长度:param amp: 波形振幅:return: CSIN波形数据"""amp 100 if (am…

函数和控制流

专栏简介:本专栏作为Rust语言的入门级的文章,目的是为了分享关于Rust语言的编程技巧和知识。对于Rust语言,虽然历史没有C、和python历史悠远,但是它的优点可以说是非常的多,既继承了C运行速度,还拥有了Java…

基于Springboot的宠物店管理系统(源代码+数据库)087

基于Springboot的宠物店管理系统(源代码数据库)087 一、系统介绍 本系统分为管理员、店员两种角色 店员角色包含以下功能: 登录、宠物主人管理、宠物管理、宠物医疗管理、宠物销售管理、宠物寄养管理、宠物用品管理、宠物日常服务管理、宠物常见问题、个人中心、…

基于JavaSwing+MySQL的仓库商品管理系统

点击以下链接获取源码: https://download.csdn.net/download/qq_64505944/88046204?spm1001.2014.3001.5503 JDK1.8 MySQL5.7 功能:管理员与员工两个角色登录,增删改查用户信息,修改密码,增删改查商品信息&#xff0c…

Java文件与IO

文章目录 前言认识文件绝对路径与相对路径普通文件与二进制文件 Java中的操作文件File 类文件的读写 前言认识文件 狭义上的文件(file)。针对硬盘这种持久化存储的I/O设备,当我们想要进行数据保存时,往往不是保存成一个整体,而是独立成一个个…

RocketMQ基础概念

目录 1.简介 2.架构 3.核心概念 1.简介 RocketMQ 是一款开源的分布式消息中间件,最初由阿里巴巴集团开发并开源。它旨在为分布式系统提供可靠、高性能、可扩展的消息通信能力。RocketMQ和RabbitMQ、KAFKA一起并列为现在主流的三大消息中间件。 一般MQ可以从三个…

Python(八)字符编码

❤️ 专栏简介:本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中,我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 :本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…

06_HDMI 显示器驱动设计与验证

06_HDMI 显示器驱动设计与验证 1. HDMI 接口及引脚定义1.1 HDMI A Type 接口引脚图1.2 HDMI A Type 接口引脚定义 2. HDMI 原理2.1 HDMI 显示原理2.2 TMDS 传输原理 3. 实验目标4. 程序框图4.1 顶层模块4.2 时钟生成模块4.3 HDMI 驱动控制模块4.3.1 第一个步骤4.3.2 编码模块参…

反垄断在中国

中国通过反垄断法 中国通过了具有里程碑意义的反托拉斯立法,外国企业表示谨慎性的欢迎,希望该法案能带来更大的开放性,但需要观察它是如何实施的。(华尔街日报 2007年8月32日报道) 反垄断法禁止垄断协议和诸如卡特尔及价格操纵,但允许能促进创新和技术进步的垄断之存在。…

微软亚洲研究院推出AI编译器界“工业重金属四部曲”

编者按:编译器在传统计算科学中一直是一个重要的研究课题。在人工智能技术快速发展和广泛应用的今天,人工智能模型需要部署在多样化的计算机硬件架构上。同时,训练和部署大型人工智能模型时又对硬件性能有着更高的要求,有时还需根…

c#示例-json序列化和json树

序列化 由于指针和引用类型的存在,在运行中的程序中,数据不一定是整块的。 可能东一块西一块散落在内存的各个地方。 序列,是指连续且有序的一个整体。序列化就是把数据变为连续有序整体的过程。 经过这样处理后的数据就可以方便的进行传输…

1130 - Host XXX‘ is not allowed to connect to this MySQL server

mysql 连接报错 这个问题是因为在数据库服务器中的mysql数据库中的user的表中没有没有用户 解决的方法: 登入mysql后,更改 “mysql” 数据库里的 “user” 表里的 “host” 项,从”localhost”改称’%’。 1、连接服务器: mysql -u root -p…

万字解读 | 数据可视化平台--FineBI

什么是BI 学习目标 知道什么是BI 知道FineBI的优势 1. 商业智能: BI(Business Intelligence)是指通过收集、分析和解释企业内外部数据,为企业决策提供支持和指导的一种技术和工具。商业智能的目标是帮助企业管理者和决策者更好地理解企业…

vivado 添加 pynq-z2板

以vivado2019.02版本为例 1下载地址 https://www.tulembedded.com/FPGA/ProductsPYNQ-Z2.html 2.点击下载 3.解压添加 注:如果没有board_files 可以自己创建一个 4.重新打开vivado