您必须尝试的 4 种经典特征提取技术!

news2024/10/6 2:49:09

一、说明

        特征提取如何实现?其手段并不是很多,有四个基本方法,作为AI工程师不能不知。因此,本篇将对四种特征提取给出系统的方法。

二、概述

        图像分类长期以来一直是计算机视觉领域的热门话题,并希望能够保持这种状态。为什么不应该呢?随着一次又一次的装备,它配备了机器来回答一个非常基本的问题!“我看到了什么?”尽管听起来引人入胜,但这个问题的答案不仅满足了人们对模仿我们自己的感知和决策能力的事物的渴望,而且开辟了无数的创造性可能性领域。生成式人工智能的最新进展通过利用这些辨别能力来创造创新和创造力的手段,从而改变了范式,以剪切优雅实现了显然不可逾越的壮举。然而,这个领域的每一个进步都围绕着视觉理解的概念,即有效辨别的能力。

        特征提取在确定识别模型的性能方面起着重要作用。基于CNN的特征提取提供了一个自动化框架,但它缺乏可解释性,并且计算成本很高。相反,传统的特征提取技术是劳动密集型的,可能需要领域知识才能在特定情况下成为CNN的更好替代品。在本文中,我们将探讨用于图像分类的 4 种经典特征提取技术。

  1. 定向梯度的直方图
  2. 本地二进制模式
  3. 加博尔过滤器
  4. 灰度共现矩阵

        为了简化理解,下面给出了该技术的逐步说明以及描述性解释。

三、定向梯度直方图 (HOG)

        HOG表示图像中局部梯度的分布。它计算小图像块中的梯度大小和方向,并形成这些方向的直方图,可用作分类的特征。

 

  • 将图像分成小单元格。
  • 计算每个像元中每个像素的梯度(幅度和方向)。
  • 在每个单元格内创建渐变方向的直方图。
  • 归一化直方图以考虑照明和对比度的局部变化。
  • 连接归一化直方图以形成表示图像的最终特征向量。

四、本地二进制模式 (LBP)

        LBP 捕获图像中的局部纹理信息。它根据每个像素的强度值与相邻像素的比较为每个像素定义二进制模式。这些模式的直方图可用作分类特征。

 

  • 将图像划分为小区域(例如,3x3 邻域中的像素)。
  • 阈值中心像素值并将其与其相邻像素进行比较。
  • 如果邻居的值大于或等于,则为其分配二进制值 1;否则,分配 0。
  • 将二进制模式转换为十进制数。
  • 在整个图像中构建十进制值的直方图以创建 LBP 特征表示。

五、加博尔过滤器

Gabor滤波器是一组调谐到不同频率和方向的线性滤波器。它们捕获图像中的局部频率和方向信息。Gabor 滤波器响应可用作纹理分类的特征。

 

  • 定义一组Gabor滤波器,这些滤波器是由高斯包络调制的复杂正弦波模式。
  • 将每个Gabor滤波器与输入图像进行卷积。
  • Gabor滤波器响应突出显示图像中的不同频率和方向信息。
  • 从过滤后的响应中提取特征,通常使用均值、方差或直方图等技术。
  • 生成的特征表示捕获以不同频率和方向存在的纹理和结构信息。

六、灰度共现矩阵 (GLCM)

灰度共现矩阵(GLCM)是另一种用于图像分类的经典特征提取技术。GLCM 根据像素的强度值捕获像素之间的空间关系。

图片 : 5 — 作者

  • 将图像转换为灰度(如果尚未转换为灰度)。
  • 定义距离和角度(或角度集)以指定像素对的相对位置。
  • 通过计算指定距离和角度处像素强度对的出现次数来创建共现矩阵。
  • 对矩阵进行归一化以获得像素强度共现的概率。
  • 从归一化GLCM中提取统计特征(例如,对比度,能量,熵)来表示图像。

七、关键要点

  1. HOG(定向梯度直方图)
  • 有效检测图像中的对象边缘和形状。
  • 对照明和对比度的变化具有鲁棒性。
  • 广泛用于行人检测和物体识别任务。
  • 提供简单有效的图像渐变表示形式。

2. LBP(局部二进制模式)

  • 有效地描述图像中的局部纹理图案。
  • 对照明和对比度的变化不敏感。
  • 可用于纹理背景中的面部识别、纹理分类和对象检测。
  • 易于计算,需要最少的计算资源。

3. GLCM(灰度共现矩阵):

  • 捕获有关图像中纹理和结构的二阶统计信息。
  • 对像素强度之间的空间关系敏感。
  • 常用于纹理分析、遥感和医学成像。
  • 提供对比度、能量和熵等功能,有助于区分不同的纹理。

4. 加博尔过滤器

  • 非常适合捕获图像中的纹理和频率信息。
  • 强调图像的特定频率和方向分量。
  • 适用于纹理分割、指纹识别和人脸识别等任务。
  • 可以组合成一个对各种频率和方向特征进行编码的特征集。

八、结论

        在本文中,我们讨论了四种经典的特征提取技术,它们可以用作计算昂贵的卷积技术的有效替代方案。此外,还简要介绍了这些技术的用例、优缺点。上述技术可以单独使用或组合使用,以产生出色的效果。因此,您应该尝试一下这些技术,并使它们成为您武器库的一部分。

        关注 Medium,了解更多与计算机视觉相关的内容。

        直到下一次,保持幸福!

九、引用

  1. N. Dalal 和 B. Triggs,“用于人类检测的定向梯度直方图”,2005 年 IEEE 计算机学会计算机视觉和模式识别会议 (CVPR'05),美国加利福尼亚州圣地亚哥,2005 年,第 886-893 卷第 1 卷,doi:10.1109/CVPR.2005.177。
  2. A. Hadid,“局部二元模式方法及其在面部分析中的应用”,2008 年第一届图像处理理论、工具和应用研讨会,突尼斯苏塞,2008 年,第 1-9 页,doi:10.1109/IPTA.2008.4743795。
  3. Haralick,Robert & Shanmugan,K&Dinstein,Itshak。(1973). 图像分类的纹理.IEEE 跨系统人网络。3.
  4. KAFUO, ASMAA & DIAF, SAMERA & GONIFEDA, AISHA & ALSHATOURI, ZAMZAM & Baba, Abdullatif.(2017). Gabor滤波及其应用研究综述.10.13140/RG.2.2.11079.50085.

纳比尔汗

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/970527.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MES系统质量检查:提升制造业生产质量

一、MES系统质量检查的定义: MES系统质量检查是指制造执行系统中的质量管理模块,旨在监控和管理生产过程中的质量控制和质量检查活动。该模块涵盖了产品质量数据的采集、分析、报告和追溯等功能,以确保产品符合质量要求,并提供实…

技术人的修炼---九五小庞

当一个人在一个领域做了很长时间后,很容易形成一些固化的认识,而且变得封闭,不愿意接受而这个认识的观点。这儿举一个我自己的例子: (建立固化认识)我做用增做了很多年,我自己建立一个很深的认识『产品价值是一切业务增…

轻松敏捷开发流程之Scrum

Scrum是一种敏捷开发流程,它旨在使软件开发更加高效和灵活。Scrum将软件开发过程分为多个短期、可重复的阶段,称为“Sprint”。每个Sprint通常为两周,旨在完成一部分开发任务。 在Scrum中,有一个明确的角色分工: 产品…

智能座舱域集中驶入「深水区」,这些细分赛道迎来变局!

在“移动出行第三空间”概念的指引下,融合视觉、听觉、触觉、文本等多维感知信息的多模态交互,正打破单模态输入输出限制,深度应用于智能座舱。 比如,叠加大屏化、多屏化、AR全息无屏化趋势,多模态识别与大屏&多屏…

iTOP-RK3568开发板驱动指南第五篇-中断

文档教程更新至第五篇 第1篇 驱动基础篇 第2篇 字符设备基础 第3篇 并发与竞争 第4篇 高级字符设备进阶 第5篇 中断 未完待续,持续更新中... 视频教程更新至十一期 第一期_驱动基础 第二期_字符设备基础 第三期_并发与竞争 第四期_高级字符设备进阶 第五期…

【数据结构-队列】队列介绍

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…

三维模型OBJ格式轻量化纹理压缩技术方法浅析

三维模型OBJ格式轻量化纹理压缩技术方法浅析 三维模型的OBJ格式轻量化中,纹理压缩是一项重要的技术,用于减小模型文件中纹理数据的大小。以下是对三维模型OBJ格式轻量化纹理压缩的关键技术进行分析: 1、纹理图像压缩算法: 纹理图…

RCU501 RMP201-8 KONGSBERG 分布式处理单元

RCU501 RMP201-8 KONGSBERG 分布式处理单元 AutoChief600使用直接安装在主机接线盒中的分布式处理单元。进出发动机的所有信号都在双冗余CAN线路(发动机总线)上传输。 所有不重要的传感器都可以与K-Chief 600报警和监控系统共享,只需要一个主机接口。这一原则大大…

Mybatis--关联关系映射

目录: 1.什么是关联关系映射: 一对一和多对多的区别 2.mybaits中的一对一&一对多关联关系配置 配置generatoeConfig文件 插件自动生成 ​编辑 写sql语句 创建 Ordermapper类 编写接口类 ​编辑 编写接口实现类 编写测试类 测试结果 一对…

19.SPI核心框架简介

目录 SPI物理总线 信号线 spi时序 spi通信模式 常见spi设备 SPI驱动框架简介 spi主机驱动:spi_controller结构体 spi设备驱动:spi_device结构体、spi_driver结构体 spi总线注册:spi_init() spi总线定义:spi_bus_type s…

【LeetCode-中等题】210. 课程表 II

文章目录 题目方法一:bfs方法二:dfs 题目 这一题是在207题的基础上,要统计拓扑排序的顺序集合,所以只需要在207的基础上加入一个将拓扑排序的节点输出即可(有环无拓扑排序) 【LeetCode-中等题】207. 课程表…

LeetCode--HOT100题(47)

目录 题目描述:105. 从前序与中序遍历序列构造二叉树(中等)题目接口解题思路代码 PS: 题目描述:105. 从前序与中序遍历序列构造二叉树(中等) 给定两个整数数组 preorder 和 inorder ,其中 preo…

本地缓存、Redis数据缓存策略

目录 需求看似简单,一取一传但是,又出现了一个新的问题,数据丢了。 一、缓存缓存有哪些分类: 二、分析一下本地缓存的优势三、本地缓存解决方案?1、基于Guava Cache实现本地缓存2、基于Caffeine实现本地缓存3、基于Enc…

华为OD机试-机器人走迷宫

题目描述 机器人走一个迷宫,给出迷宫的x和y(x*y的迷宫)并且迷宫中有障碍物,输入k表示障碍物有k个,并且会将障碍物的坐标挨个输入. 机器人从0,0的位置走到x,y的位置并且只能向x,y增加的方向走,不能回退. 如代码类注释展示的样子,#表示可以走的方格,0代表障碍,机器人从0,0的位置…

【传输层】TCP -- 三次握手四次挥手 | 可靠性与提高性能策略

超时重传机制连接管理机制三次握手四次挥手滑动窗口拥塞控制延迟应答捎带应答面向字节流粘包问题TCP异常情况TCP小结基于TCP应用层协议理解 listen 的第二个参数 超时重传机制 主机A发送数据给B之后,可能因为网络拥堵等原因,数据无法到达主机B&#xff1…

日志规范整改

日志框架 日志级别 日志级别从高到低&#xff1a;TRACE < DEBUG < INFO < WARN < ERROR < FATAL 获取应用名字 <springProperty scop"context" name"spring.application.name" source"spring.application.name" defaultVal…

电子行业数字化工厂管理系统规划方案

电子行业作为现代社会的重要产业之一&#xff0c;具有十分广泛的应用前景和市场前景。随着科技的不断进步和消费者需求的不断升级&#xff0c;电子行业面临着不断提升产品品质、提高生产效率、降低成本等挑战。为了应对这些挑战&#xff0c;数字化工厂管理系统成为了电子行业不…

(10)(10.8) 固件下载

文章目录 ​​​​​​​前言 10.8.1 固件 10.8.2 Bootloader 10.8.3 APM2.x Autopilot 10.8.4 许可证 10.8.5 安全 前言 固件服务器(firmware server)可提供所有飞行器的最新固件。其中包括&#xff1a; CopterPlaneRoverAntennaTrackerSub 本页提供了一些被视为&quo…

考研408 | 【计算机组成原理】计算机系统的概述

计算机的发展 硬件的发展&#xff1a; 摩尔定律&#xff1a; 微处理机的发展&#xff1a; 软件的发展&#xff1a; 发展趋势&#xff1a; 总结&#xff1a; 计算机硬件的基本组成 早期的冯诺依曼机&#xff1a; 现代计算机的结构&#xff1a; 总结&#xff1a; 各个硬件的工作…

Flutter 完美的验证码输入框 转载

刚开始看到这个功能的时候一定觉得so easy&#xff0c;开始的时候我也是这么觉得的&#xff0c;这还不简单&#xff0c;然而真正写的时候才发现并没有想象的那么简单。 先上图&#xff0c;不上图你们都不想看&#xff0c;我难啊&#xff0c;到Github&#xff1a; https://gith…