计算机视觉研究方向初学习,计算机视觉都有什么方向??!到底是干什么的?!

news2024/9/22 17:34:08

计算机视觉研究方向初学习,计算机视觉都有什么方向??!到底是干什么的?!

  • 语义分割
  • 图像分类
  • 目标检测和定位
  • 实例分割、全景分割
  • 物体跟踪
  • 姿态估计
  • 人脸识别
  • 人体识别
  • 图像增强
  • 风格迁移
  • 图像生成
  • 视觉问答
  • 视频分析
  • 光学字符识别

语义分割

**语义指具有人们可用语言探讨的意义,分割指图像分割。**语义分割即能够将整张图的每个部分分割开,使每个部分都有一定类别意义。和目标检测不同的是,目标检测只需要找到图片中目标,打上框然后分出类别。语义分割是以描边的形式,将整张图不留缝隙的分割成每个区域,每个区域是一个类别,没有类别的默认为背景background。
在这里插入图片描述
语义分割的例子:

这是一个骑马的照片,如上图的左边,这张照片中有马、汽车、人等多个对象。语义分割的任务就是将这张照片中的每一个像素都标记为相应的类别。

具体步骤如下:

  1. 原始图像:一张人骑马的照片。

  2. 语义分割模型:使用预训练的语义分割模型(例如U-Net, SegNet或DeepLab等),将输入图像进行处理。

  3. 输出图像:模型会输出一个与原始图像大小相同的图像,每个像素都有一个类别标签。如上图的右边。

  4. 结果解释:在输出图像中,每个像素被分配了一个颜色编码,代表不同的类别,例如:

    • 马用紫色表示
    • 人用粉色表示
    • 车用灰色表示
    • 其他用黑色表示

    通过这种方式,你可以直观地看到图像中不同对象的分布和边界。
    语义分割不仅能帮助理解图像中的内容,还能为许多应用提供支持,比如自动驾驶汽车需要准确识别道路和障碍物,医学影像分析需要区分不同的组织或病变区域。

图像分类

图像分类,核心是从给定的分类集合中给图像分配一个标签。
实际上,这意味着我们的任务是分析一个输入图像并返回一个将图像分类的标签。标签来自预定义的可能类别集。
更适用于图片比较单一的,一张图片只有一个物体的图片。
在这里插入图片描述
我们假定一个可能的类别集categories = {dog, cat, eagle},类别={狗、猫、鹰},之后我们提供一张图读取到分类系统
这里的目标是根据输入图像,从类别集中分配一个类别, 这里为dog我们的分类系统也可以根据概率给图像分配多个标签,如dog:95%,cat:4%,eagle:1%。
在这里插入图片描述

目标检测和定位

目标检测和定位是计算机视觉中的关键任务,旨在识别图像或视频中的目标对象,并确定其位置。目标检测不仅要识别出目标的类别(如人、车、动物等),还要在图像中框出这些目标的位置。
在这里插入图片描述

实例分割、全景分割

通常意义上的目标分割指的就是语义分割,图像语义分割,简而言之就是对一张图片上的所有像素点进行分类。
  语义分割(下图左)就是需要区分到图中每一点像素点,而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。
在这里插入图片描述
实例分割(上图右)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3…)

全景分割是语义分割和实例分割的结合。
  跟实例分割不同的是:实例分割只对图像中的object进行检测,并对检测到的object进行分割,而全景分割是对图中的所有物体包括背景都要进行检测和分割。
在这里插入图片描述
a图为原图,b图为语义分割,c图为实例分割,d图为全景分割

物体跟踪

物体跟踪的主要目标是在视频序列中跟踪目标物体的位置和状态。这个过程包括两个主要步骤:首先,在视频序列中检测目标物体;然后,跟踪目标物体的位置和状态。视频就是由一张一张的图片构成的。

姿态估计

人体姿态估计是指通过计算机算法在图像或视频中定位人体关键点
在这里插入图片描述
在这里插入图片描述

人脸识别

在这里插入图片描述
人脸识别作为一种生物特征识别技术,具有非侵扰性、非接触性、友好性和便捷性等优点。人脸识别通用的流程主要包括人脸检测、人脸裁剪、人脸校正、特征提取和人脸识别。人脸检测是从获取的图像中去除干扰,提取人脸信息,获取人脸图像位置,检测的成功率主要受图像质量,光线强弱和遮挡等因素影响。

人体识别

人体识别是计算机视觉中的一个重要分支,主要目的是识别和分析图像或视频中人体的特征和动作。
在这里插入图片描述
人体动作捕捉
基于视觉技术实现动作捕捉,得到人体的各个关节在空间中的移动和旋转数据,从而捕捉到完整的人体动作。如上图
在这里插入图片描述
人体关键点识别2D/3D
机器视觉技术实时检测分析人体肢体、手部、头部等肢体信息,可计算得出25个核心关键点三维坐标数据。如上图
在这里插入图片描述
人体姿态识别
机器视觉技术对人体动作特征进行提取、分类,识别出人体动作,得出动作信息。让机器“读懂”人的肢体语言。

图像增强

图像增强技术通过多种方法和技术手段,可以有效改善图像的质量和可视性,提升图像在各个领域的应用价值。
失焦模糊、运动模糊、低照图像恢复、hdr、超级夜景等提高图像质量的技术。
在这里插入图片描述
在这里插入图片描述

风格迁移

风格迁移是一种计算机视觉技术,旨在将一种图像的艺术风格应用到另一幅图像上,使其呈现出与原始风格类似的视觉效果。
风格迁移分为两类,一类为风格图片(毕加索、梵高.)一类 是内容图片,通常来自现实世界中大多数普通图像
效果逼真的风格迁移图片有两个要求,一是要生成的图片在内容、细节上和输入的内容图片保持一致,二是要生成的图片在风格上尽可能与风格图片保持一致。

比如:期望风格
在这里插入图片描述
风格迁移期待实现效果图:
在这里插入图片描述
在这里插入图片描述

图像生成

图像生成是一种技术,可以通过计算机自动创建新的图像。简单来说,就是用电脑画出原本不存在的图片。
举个例子:
你想要一张从来没有拍过的风景照片,但手头没有这样的照片。通过图像生成技术,电脑可以根据已有的风景照片样本,自动生成一张看起来像真实风景的图片。

视觉问答

想象一下,你有一张朋友聚会的照片,你可以问计算机“有多少个人在笑?”或者“桌子上有多少个饮料?”计算机会“看”这张照片,并根据问题“回答”你。这就是视觉问答的基本原理。比如GPT可以根据你发送的图片进行回答问题。

视频分析

视频分析是一种技术,用于自动分析视频内容,提取有用的信息。它结合了计算机视觉、机器学习和数据处理技术,可以实现从视频中识别和理解不同的场景、物体、行为等。
你有一段监控视频,想知道视频中有没有人进入某个区域。视频分析技术可以自动处理视频,识别并告知你是否有人进入该区域,以及具体的时间和行为。
想象你有一台智能摄像头,它不仅能录制视频,还能“看懂”视频内容。如果家里进了小偷,它能马上识别出来并给你发警报;如果商店里某个货架前顾客停留时间很长,它能告诉店主这个商品可能很受欢迎。这就是视频分析的基本原理和应用。

光学字符识别

光学字符识别(Optical Character Recognition,简称OCR)是一种将印刷或手写文本转换为机器可读文本的技术。简单来说,OCR可以让计算机“读懂”印刷或手写的文字,并将其转化为可编辑的电子文本。
举个例子
你有一页打印的书页,想把上面的内容变成电子文档。通过OCR技术,你可以用扫描仪扫描这页纸,然后OCR软件会自动识别上面的文字,将其转换成电脑上的文字文件。
想象你有一份很重要的手写笔记,想把它变成电子文档保存起来。用OCR技术,你只需要拍一张照片或扫描这份笔记,计算机就能自动识别上面的文字,并把它们转换成可以在电脑上编辑的文本文件。这就像给计算机装上了一双会读书的眼睛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1911065.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初探ethercat IGH协议栈(交叉编译)

说明, 1)不要着急编译,建议读完全文,再参照编译; 2)IGH编译是需要Linux内核源码的,还有打rt补丁; 3)依赖的内核版本最好是目标设备的一样; 4)…

“爆炸性更新!JDK 17携全新语法特性强势来袭,开发者必看的升级亮点“(1)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:Java进化论 目录 背景 yield关键字 var关键字 空指针异常 密封类 接口中的私有方法 instanceof关键字 背景 Java 8 虽然曾经是使用…

基于Java技术的网吧管理系统

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:Java技术,B/S结构 工具:MyEclipse,MySQL 系统展示 首页 个人中…

中西部公关新篇章:赛氪网赋能新质生产力赛事,引领行业潮流

2024年7月7日,武汉光谷盛况空前,中西部公共关系协会共同体多边合作平台(以下简称“共同体”)举办了2024年度中西部公关协会会长、秘书长专题交流会,本次会议主题为“加快新质生产力,推进公关行业新格局&…

Google账号输入用户名和密码后提醒要到手机通知点是,还要点击数字,但是我手机收不到

有一些朋友换了一个新的电脑后手机登录谷歌账号时,用户名和密码都正确输入以后,第三步弹出一个提示,要在手机上的通知栏点击是,并且点击手机上相应的数字才能继续登录。 但是自己的手机上下拉通知栏却没有来自谷歌的通知&#xf…

用例子和代码了解词嵌入和位置编码

1.嵌入(Input Embedding) 让我用一个更具体的例子来解释输入嵌入(Input Embedding)。 背景 假设我们有一个非常小的词汇表,其中包含以下 5 个词: "I""love""machine"&qu…

Greenplum(三)【分布式事务和两阶段提交协议】

1、事务实现原理和 WAL(单机) 属性含义数据库系统实现Atomic(原子性)事务中的操作要么全部正确执行,要么完全不执行(要么成功、要么失败)Write Ahead Logging 预写日志,分布式事务&…

牛客周赛 Round 50 解题报告 | 珂学家

前言 题解 数学场,对数学头痛, T_T. A. 小红的最小最大 题型: 签到 a, b, x list(map(int, input().split()))if min(a, b) x > max(a, b):print ("YES") else:print ("NO")B. 小红的四则运算(easy) 思路: 贪心…

职场中的3个误区,你踩坑了吗?

1、个人发展比工资待遇更重要 这句话也不能说是完全错的,但是你要明白能给你提供发展空间的公司,待遇也不会差到哪里去,而且随着你个人能力的提升,发展也会越来越好,你的待遇也自然水涨船高,这个道理其实大…

乐鑫ESP-NOW与Wi-Fi SoC方案家居设备无缝连接,启明云端乐鑫代理商

随着科技的不断进步,智能家居逐渐成为现代生活的一部分。ESP-NOW技术以其独特的无线通信能力,为智能家居领域带来了一场革命。 ESP-NOW是一种由乐鑫定义的无线通信协议,它能够在无需路由器的情况下,实现设备间的直接、快速、低功…

如何高效学习(一)

什么是学习?学习的本质是什么?如何学习?如何更加高效的学习 以下内容均为观看B站UP主(硬核学长2077)所做总结和自我分析 一、自我介绍 ​ 我,一个二三线城市小小程序员,在高中学习就很一般,但当时并没有特…

解锁敦煌网成功秘籍:批量注册买家号测评的高效策略

敦煌网(DHgate)作为一个跨境电商平台,搭建境外本土网络环境并实现批量注册买家号下单,需要遵循一系列严谨的步骤和考虑多个关键因素。以下是一个概括性的指南: 一、环境要求 国外服务器:首先,…

WPF 初识依赖属性

依赖属性的意义和作用 核心模块内存共享,节省空间数据绑定、样式、模板、动画。。。。如果没有依赖属性,这个框架就是一个控件框架 相当于Winform 依赖属性的基本定义 基本过程:声明、注册、包装 在需要写依赖属性的类中,继承…

Axure第12享:Google加载Axure扩展程序

1、需求描述 在双击打开RP文件进行预览时,提示要为Google浏览器加载Extension(扩展程序),如下图所示。 2、解决思路 按照系统指导的操作步骤,但要注意1点,加载“扩展程序”时是选择整个文件夹&#xff0c…

3款ui设计师必备的高效软件,一定要收藏!

UI设计小伙伴们,你们是否在寻找那些能够让设计工作事半功倍的插件呢?今天,我要为大家带来3款UI设计软件中的高效软件,它们不仅能够极大提升我们的工作效率,还能让我们的设计更加专业和精致。让我们一起来看看这些不容错…

动手学深度学习54 循环神经网络

动手学深度学习54 循环神经网络 1. 循环神经网络RNN2. QA 1. 循环神经网络RNN h t h_t ht​ 与 h t − 1 h_{t-1} ht−1​ x t − 1 x_{t-1} xt−1​有关 x t x_t xt​ 与 h t h_t ht​ x t − 1 x_{t-1} xt−1​ 有关 怎么把潜变量变成RNN–假设更简单 潜变量和隐变量的区…

透明加密软件核心技术分享|十款好用的透明加密软件分享

透明加密软件的核心技术在于其能够自动、实时地对文件进行加密和解密,而这个过程对最终用户来说是无感的。这种技术在不改变用户操作习惯的前提下,增强了数据的安全性。下面是透明加密软件的一些核心技术要点。 实时加密与解密:软件在文件被打…

虚拟内存【Linux】

虚拟内存 为什么需要虚拟内存Linux虚拟内存的结构32位系统下的虚拟地址空间64位系统下的虚拟地址空间页表多级页表TLB 流程虚拟内存的作用 为什么需要虚拟内存 为了在进行多进程编码进行内存访问的时候保持内存的隔离性,数据安全性,所以出现了虚拟内存。…

C++--智能指针

普通指针创建动态内存的问题: 1.new和new[]的内存需要使用delete和delete []释放。 2.有时忘记释放内存。 3.不知该在何时释放内存。 智能指针的优点: 在不需要对象时自动释放对象,从而避免内存泄漏和其他与内存管理相关的问题。 智能指针有:unique_ptr,share…

可转债之强赎条款

摘要:每天学习一点金融小知识 做可转债投资,强赎风险是特别需要注意的,若投资者没有及时采取措施,就有可能造成很大的损失。本文从可转债的定义、强赎条款的原因及强赎的情况几个方面来介绍下可转债的强赎条款。 什么是可转换债券…