计算机视觉研究方向初学习，计算机视觉都有什么方向？？！到底是干什么的？！

news2026/4/2 18:24:40

计算机视觉研究方向初学习，计算机视觉都有什么方向？？！到底是干什么的？！

语义分割
图像分类
目标检测和定位
实例分割、全景分割
物体跟踪
姿态估计
人脸识别
人体识别
图像增强
风格迁移
图像生成
视觉问答
视频分析
光学字符识别

语义分割

**语义指具有人们可用语言探讨的意义，分割指图像分割。**语义分割即能够将整张图的每个部分分割开，使每个部分都有一定类别意义。和目标检测不同的是，目标检测只需要找到图片中目标，打上框然后分出类别。语义分割是以描边的形式，将整张图不留缝隙的分割成每个区域，每个区域是一个类别，没有类别的默认为背景background。
在这里插入图片描述
语义分割的例子：

这是一个骑马的照片，如上图的左边，这张照片中有马、汽车、人等多个对象。语义分割的任务就是将这张照片中的每一个像素都标记为相应的类别。

具体步骤如下：

原始图像：一张人骑马的照片。
语义分割模型：使用预训练的语义分割模型（例如U-Net, SegNet或DeepLab等），将输入图像进行处理。
输出图像：模型会输出一个与原始图像大小相同的图像，每个像素都有一个类别标签。如上图的右边。
结果解释：在输出图像中，每个像素被分配了一个颜色编码，代表不同的类别，例如：
- 马用紫色表示
- 人用粉色表示
- 车用灰色表示
- 其他用黑色表示
通过这种方式，你可以直观地看到图像中不同对象的分布和边界。
语义分割不仅能帮助理解图像中的内容，还能为许多应用提供支持，比如自动驾驶汽车需要准确识别道路和障碍物，医学影像分析需要区分不同的组织或病变区域。

图像分类

图像分类，核心是从给定的分类集合中给图像分配一个标签。
实际上，这意味着我们的任务是分析一个输入图像并返回一个将图像分类的标签。标签来自预定义的可能类别集。
更适用于图片比较单一的，一张图片只有一个物体的图片。
在这里插入图片描述
我们假定一个可能的类别集categories = {dog, cat, eagle},类别={狗、猫、鹰}，之后我们提供一张图读取到分类系统
这里的目标是根据输入图像，从类别集中分配一个类别, 这里为dog我们的分类系统也可以根据概率给图像分配多个标签，如dog:95%，cat:4%，eagle:1%。
在这里插入图片描述

目标检测和定位

目标检测和定位是计算机视觉中的关键任务，旨在识别图像或视频中的目标对象，并确定其位置。目标检测不仅要识别出目标的类别（如人、车、动物等），还要在图像中框出这些目标的位置。
在这里插入图片描述

实例分割、全景分割

通常意义上的目标分割指的就是语义分割，图像语义分割，简而言之就是对一张图片上的所有像素点进行分类。
语义分割（下图左）就是需要区分到图中每一点像素点，而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左，标注为人，羊，狗，草地。而不需要羊1，羊2，羊3，羊4，羊5等。
在这里插入图片描述
实例分割（上图右）其实就是目标检测和语义分割的结合。相对目标检测的边界框，实例分割可精确到物体的边缘；相对语义分割，实例分割需要标注出图上同一物体的不同个体（羊1，羊2，羊3…）

全景分割是语义分割和实例分割的结合。
跟实例分割不同的是：实例分割只对图像中的object进行检测，并对检测到的object进行分割，而全景分割是对图中的所有物体包括背景都要进行检测和分割。
在这里插入图片描述
a图为原图，b图为语义分割，c图为实例分割，d图为全景分割

物体跟踪

物体跟踪的主要目标是在视频序列中跟踪目标物体的位置和状态。这个过程包括两个主要步骤：首先，在视频序列中检测目标物体；然后，跟踪目标物体的位置和状态。视频就是由一张一张的图片构成的。

姿态估计

人体姿态估计是指通过计算机算法在图像或视频中定位人体关键点
在这里插入图片描述

人脸识别

在这里插入图片描述
人脸识别作为一种生物特征识别技术，具有非侵扰性、非接触性、友好性和便捷性等优点。人脸识别通用的流程主要包括人脸检测、人脸裁剪、人脸校正、特征提取和人脸识别。人脸检测是从获取的图像中去除干扰，提取人脸信息，获取人脸图像位置，检测的成功率主要受图像质量，光线强弱和遮挡等因素影响。

人体识别

人体识别是计算机视觉中的一个重要分支，主要目的是识别和分析图像或视频中人体的特征和动作。
在这里插入图片描述
人体动作捕捉
基于视觉技术实现动作捕捉，得到人体的各个关节在空间中的移动和旋转数据，从而捕捉到完整的人体动作。如上图

人体关键点识别2D/3D
机器视觉技术实时检测分析人体肢体、手部、头部等肢体信息，可计算得出25个核心关键点三维坐标数据。如上图
在这里插入图片描述
人体姿态识别
机器视觉技术对人体动作特征进行提取、分类，识别出人体动作，得出动作信息。让机器“读懂”人的肢体语言。

图像增强

图像增强技术通过多种方法和技术手段，可以有效改善图像的质量和可视性，提升图像在各个领域的应用价值。
失焦模糊、运动模糊、低照图像恢复、hdr、超级夜景等提高图像质量的技术。
在这里插入图片描述

风格迁移

风格迁移是一种计算机视觉技术，旨在将一种图像的艺术风格应用到另一幅图像上，使其呈现出与原始风格类似的视觉效果。
风格迁移分为两类，一类为风格图片(毕加索、梵高.）一类是内容图片，通常来自现实世界中大多数普通图像
效果逼真的风格迁移图片有两个要求，一是要生成的图片在内容、细节上和输入的内容图片保持一致，二是要生成的图片在风格上尽可能与风格图片保持一致。

比如：期望风格
在这里插入图片描述
风格迁移期待实现效果图：

图像生成

图像生成是一种技术，可以通过计算机自动创建新的图像。简单来说，就是用电脑画出原本不存在的图片。
举个例子：
你想要一张从来没有拍过的风景照片，但手头没有这样的照片。通过图像生成技术，电脑可以根据已有的风景照片样本，自动生成一张看起来像真实风景的图片。

视觉问答

想象一下，你有一张朋友聚会的照片，你可以问计算机“有多少个人在笑？”或者“桌子上有多少个饮料？”计算机会“看”这张照片，并根据问题“回答”你。这就是视觉问答的基本原理。比如GPT可以根据你发送的图片进行回答问题。

视频分析

视频分析是一种技术，用于自动分析视频内容，提取有用的信息。它结合了计算机视觉、机器学习和数据处理技术，可以实现从视频中识别和理解不同的场景、物体、行为等。
你有一段监控视频，想知道视频中有没有人进入某个区域。视频分析技术可以自动处理视频，识别并告知你是否有人进入该区域，以及具体的时间和行为。
想象你有一台智能摄像头，它不仅能录制视频，还能“看懂”视频内容。如果家里进了小偷，它能马上识别出来并给你发警报；如果商店里某个货架前顾客停留时间很长，它能告诉店主这个商品可能很受欢迎。这就是视频分析的基本原理和应用。

光学字符识别

光学字符识别（Optical Character Recognition，简称OCR）是一种将印刷或手写文本转换为机器可读文本的技术。简单来说，OCR可以让计算机“读懂”印刷或手写的文字，并将其转化为可编辑的电子文本。
举个例子
你有一页打印的书页，想把上面的内容变成电子文档。通过OCR技术，你可以用扫描仪扫描这页纸，然后OCR软件会自动识别上面的文字，将其转换成电脑上的文字文件。
想象你有一份很重要的手写笔记，想把它变成电子文档保存起来。用OCR技术，你只需要拍一张照片或扫描这份笔记，计算机就能自动识别上面的文字，并把它们转换成可以在电脑上编辑的文本文件。这就像给计算机装上了一双会读书的眼睛。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1911065.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！