Scalable Recognition with a Vocabulary Tree(词汇树)

news2024/11/24 12:50:51

视觉单词

参考
视觉词袋(BoVW,Bag of Visual Words)模型,是“词袋”(BoW,Bag of Words)模型从自然语言处理与分析领域向图像处理与分析领域的一次自然推广。对于任意一幅图像,BoVW模型提取该图像中的基本元素,并统计该图像中这些基本元素出现的频率,用直方图的形式来表示。通常使用“图像局部特征”来类比BoW模型中的单词,如SIFT、SURF、HOG等特征,所以也称视觉词袋模型。
利用BoVW模型表示图像,获得图像的全局直方图表示,主要有四个关键步骤:

  1. 图像局部特征提取(Image Local Features Extrication)
    一般是SIFT算法提取图像的局部特征。
  2. 视觉词典构造(Visual Dictionary Construction)
    通常所采用的处理方法是对训练图像的所有局部特征向量进行聚类分析,将聚类中心定义为视觉单词。所有视觉单词组成视觉词典,用于图像的直方图表示。所有的局部特征数量太多,我们应该用一个特征表示相似的一类特征向量。
  3. 特征向量量化(Feature Vector Quantization)
    向量量化结果是将图像的局部特征向量量化为视觉单词中与其距离最相似的视觉单词。向量量化过程实际上是一个搜索过程,通常采用最近邻搜索算法,搜索出与图像局部特征向量最为匹配的视觉单词。对一张图像,我们像查字典一样,将每个局部特征归类到视觉词典中的某一类。
  4. 用视觉单词直方图表示图像,也称为量化编码集成(Pooling)
    最后得到词典中每个视觉单词出现的频率,用直方图表示。

TF-IDF算法

参考
TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)。
在这里插入图片描述
在这里插入图片描述

当有TF(词频)和IDF(逆文档频率)后,将这两个词相乘,就能得到一个词的TF-IDF的值。某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,所以通过计算文章中各个词的TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。

Inverse index倒排索引

一个未经处理的数据库中,一般是以文档ID作为索引,以文档内容作为记录。

而Inverted index 指的是将单词或记录作为索引,将文档ID作为记录,这样便可以方便地通过单词或记录查找到其所在的文档。
在这里插入图片描述

3. Building and Using the Vocabulary Tree

词汇树是一个分层的聚类得到的分层的量化。在树的无监督训练中使用了大量的代表性描述符向量。
在一开始的视觉词典中,是直接得到k个聚类(或量化单元),词汇树中k是每个节点的孩子的数量。一开始,一个最初的聚类用于数据得到k和聚类中心,然后将训练数据分成k组,根据距聚类中心的距离。
然后对每个组进行相同的过程,词汇树一层一层的生成,直到最大层数L。每层聚类中心只由父节点量化单元中的描述符得到。
在这里插入图片描述
总共生成kL个节点,如果k不是太大,这是非常有效的。
词汇树以一种集成的方式定义了视觉词典和一个高效的检索过程。这与传统的视觉词典不同。
传统的视觉词典,增加词汇数据量的花费是非常大的,然而在词汇树中是叶子节点(单词数量)的对数。内存花费是 k L k^L kL的线性关系。总节点的数量是 k L k^L kL

4. Definition of Scoring

一旦定义了量化,我们希望根据数据库图像和查询图像的描述符的词汇表树的路径的相似性来确定数据库图像与查询图像的相关性。图3给出了这种图像的表示方式。
在这里插入图片描述
每个节点赋予一个权重 w i w_i wi(通常基于熵得到),然后计算查询向量q和数据向量d如下公式所示。i表示节点i。
在这里插入图片描述
n和m分别是查询图片和数据集图片的描述符向量,然后计算数据库图像的相关性评分。
在这里插入图片描述
范数选择L1范数比L2范数效果好。
简单的情况下w被设置为一个常数,N是image的数量,Ni是至少有一个描述符经过节点i的图片的数量。也就是TFIDF算法。
在这里插入图片描述
与TFIDF算法比较,可以看出这里计算的是IDF,也就是总的图片数和包含该节点表示的特征描述符的图片数。
不同层的w可以通过好几种方式得到,比如分配每个节点相对于路径中它上面的节点的熵,这似乎是正确的,但是我们发现使用相对于树的根的熵和忽略路径内的依赖关系更好。
我们发现,对于检索质量来说,最重要的是拥有大量的词汇表(大量的叶节点),而不是给词汇表树的内部节点过强的权重。原则上,叶子节点的数量越多检索效果最好,所以根据根节点计算叶子节点的熵效果好。也就是说可以之给叶子节点赋值w。这里作者给的解释是如果词汇数量过多,那么描述向量的可变性和噪声等会使得其很容易属于其他的量化单元,但是树型结构限制了这一风险,是的其不会偏离太多。(聚类中心越多,每个聚类的区域越小,每个点很容易偏移进其他区域,而树型结构由于其父节点的限制,很难偏移很远)。
也可以使用stop list,其中wi为最频繁和/或不频繁的符号设置为零。

5. Implementation of Scoring

使用了倒排索引,具体来说就是每个节点对应一个文件,文件中存有包含这个节点特征的图像的id。以及出现的频率。正向文件也可以用作补充,以查找特定图像中存在哪些视觉单词。在我们的实现中,只有叶节点被显式表示,而内部节点的反向文件只是叶节点的反向文件的连接,见图4。倒排文件的长度存储在词汇表树的每个节点中,这个长度实际上就是定义节点熵的文档频率,超过一定长度将阻止评分。假设每个节点的熵是固定的和已知的,这可以通过对特定数据库的预先计算来完成,或者通过使用一个大型的代表性数据库来确定熵。然后,可以预先计算表示数据库图像的向量,并归一化到单位大小,例如,当图像被输入数据库时。类似地,查询向量被归一化为单位大小,然后计算他们的p范数。
在这里插入图片描述
在这里插入图片描述
假设需要查询的图片有M个word,首先取得第一个word,从树中找到最近的最下层子节点。这个字节点中可以找到很多图片的索引以及各自的权重。这样循环M次每一个word都能拿到各自的图片索引和权重(上一节计算的评分)。最终把M个word的图片索引和权重汇聚到一起,哪个图片的权重最大自然也就计算出来了。

总结一下,词汇树的三个步骤:

  1. 构建词汇树:使用聚类算法,构建一个树型的视觉词典,叶子节点表示单词。
  2. 计算每个数据库图像的评分:对于数据库中每个图像,对其每个单词(叶子节点)计算评分。这样词汇树中每个叶子节点存储图像索引和得分。
  3. 图像检索:对查询图像中每个单词,从树中找到对应叶子,拿到图像索引和得分,计算查询图像和数据库图像的p范数,最后对所有单词的p范数求和,并比较所有数据库图像(已经得到索引的)的大小。(即比较查询图像与数据库图像的距离)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/422102.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

jwt生成和解密-jose4j

jwt生成和解密-jose4j jwt的概念和生成意义在这里就不描述了&#xff0c;百度能搜到很多&#xff0c;直接上代码 官网地址 https://bitbucket.org/b_c/jose4j/wiki/Home maven <dependency><groupId>org.bitbucket.b_c</groupId><artifactId>jose4j…

【微信小程序】-- 配置uni-app的开发环境(四十八)

&#x1f48c; 所属专栏&#xff1a;【微信小程序开发教程】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &…

Echarts图表显示不完全(多种图表解决方案)

前言 在使用Echarts画图的时候&#xff0c;有时候图表在固定大小的盒子模型&#xff08;dom容器&#xff09;中会显示不完全&#xff0c;因此我们需要对图表进行相关的调整使得图表内容显示完全。结合最近遇到的情况&#xff0c;提出一些解决方向 &#xff08;比较片面&#x…

Linux操作系统ARM体系结构处理器机制原理与实现

ARM 的概念ARM(Advanced RISC Machine)&#xff0c;既可以认为是一个公司的名字&#xff0c;也可以认为是对一类微处理器的通称&#xff0c;还可以认为是一种技术的名字。ARM 公司并不生产芯片也不销售芯片&#xff0c;它只出售芯片技术授权。其合作公司针对不同需求搭配各类硬…

【2023 · CANN训练营第一季】昇腾AI入门课(Pytorch)——第二章学习笔记

第二章 PyTorch模型迁移&调优 目标 了解 Pytorch 是如何适配到昇腾平台上的了解 Davinci 硬件架构以及什么样的模型在昇腾上更亲和了解软件术语和 Ascend - Pytorch 的安装步骤了解如何将原生 Pytorch 的模型代码是如何适配到 Ascend - Pytorch 前置知识 对原生 Pytorc…

足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼

之前尝试了从0到1复现斯坦福羊驼&#xff08;Stanford Alpaca 7B&#xff09;&#xff0c;Stanford Alpaca 是在 LLaMA 整个模型上微调&#xff0c;即对预训练模型中的所有参数都进行微调&#xff08;full fine-tuning&#xff09;。但该方法对于硬件成本要求仍然偏高且训练低效…

Java基础——IO流+字节流使用

&#xff08;1&#xff09;IO流的概述&#xff1a; IO流也称为输入&#xff0c;输出流&#xff0c;就是用来读写数据的。I表示input&#xff0c;是数据从硬盘文件读入到内存的过程&#xff0c;称之输入&#xff0c;负责读。O表示output&#xff0c;是内存程序的数据从内存到写…

CSS:transform顺序问题(translate()+rotate())

问题&#xff1a;下面两行代码在执行效果上有区别吗&#xff1f; transform: translate(100px,100px) rotate(45deg);transform: rotate(45deg) translate(100px,100px);translate(X,Y)&#xff0c;可以使元素在x轴和y轴上平移。&#xff08;在translate中&#xff0c;x轴右为…

设计模式之观察者模式(C++)

作者&#xff1a;翟天保Steven 版权声明&#xff1a;著作权归作者所有&#xff0c;商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处 一、观察者模式是什么&#xff1f; 观察者模式是一种行为型的软件设计模式&#xff0c;定义对象间的一种一对多的依赖关系&#x…

51 openEuler搭建PostgreSQL数据库服务器-安装、运行和卸载

文章目录51 openEuler搭建PostgreSQL数据库服务器-安装、运行和卸载51.1 安装51.2 运行51.2.1 初始化数据库51.2.2 启动数据库51.2.3 登录数据库51.2.4 配置数据库账号密码51.2.5 退出数据库51.2.6 停止数据库51.3 卸载51 openEuler搭建PostgreSQL数据库服务器-安装、运行和卸载…

【Webpack5】核心原理

介绍 本章节我们主要学习&#xff1a; loader 原理自定义常用 loaderplugin 原理自定义常用 plugin Loader 原理 loader 概念 帮助 webpack 将不同类型的文件转换为 webpack 可识别的模块。 loader 执行顺序 分类 pre&#xff1a; 前置 loadernormal&#xff1a; 普通 …

【golang项目-GeeCache】动手写分布式缓存 day1 - 实现LRU算法

介绍 LRU 内存淘汰算法 LRU(Least Recently Used) 最近最少使用 算法 &#xff0c;系统认为如果这个数据最近使用过那么它被再次使用的概率会高&#xff0c;所以系统会先淘汰最久没被使用的数据 基本逻辑 -----------------------------------------------------------------…

手把手教你学习IEC104协议和编程实现 十一-定值的概念讲解、定值的操作过程以及部分代码的实现

从本章开始,我们开始研究定值部分; 定值是什么? 了解过终端的可能都知道,定值就是保护定值,就是设定了一组参数,当终端的采样值达到这个参数的时候,终端就会做出一系列的反应。这样的目的,是为了保护电网,让电网正常运行,具体为什么这么做,不做详细的解释,如果有…

李宏毅2021春季机器学习课程视频笔记13-自注意力机制

【(强推)李宏毅2021/2022春机器学习课程】 Slide地址 一、问题引入 1.模型的输入 无论是预测视频观看人数、视频处理、语言识别&#xff0c;这些所有的model中&#xff0c;输入数据都可以视作为一个向量&#xff08;vector&#xff09;&#xff0c;模型的输出为一个数值或者一…

UDP的报文结构及注意事项

UDP的报文结构及注意事项&#x1f50e;UDP的报文结构源端口和目的端口报文长度校验和&#x1f50e;UDP的注意事项端口号报文长度校验和&#x1f50e;结尾&#x1f50e;UDP的报文结构 图片来自网络 源端口和目的端口 如果将 源IP 和 目的IP 看作是两台计算机在网络中的地址 那么…

完美解决丨#在python中,如果引用的变量未定义,则会报告NameError: name ‘变量名‘ is not defined。

NameError 在python中&#xff0c;如果引用的变量未定义&#xff0c;则会报告NameError: name 变量名 is not defined。 如下代码抛出了一个异常&#xff1a; !/usr/bin/env python -- coding:utf-8 -- print hello world print hello %s % name 报错信息如下&#xff1a; Trac…

基于springboot和ajax的简单项目 02 代码部分实现,思路 (上)

01.由于是对功能的实现&#xff0c;应该是按照功能的需要去写代码&#xff0c;所以&#xff0c;先看前端html文件的代码。 02.项目的开始界面是starter.html文件。 关键的script标签 <script type"text/javascript">$(function(){//页面加载完成之后执行doLo…

VS中解决方案和项目的区别

总目录 文章目录总目录一、概述1、解决方案2、项目3、项目文件4、解决方案文件夹二、图解1、图解解决方案和项目的关系2、图解sln文件3、图解项目文件结语一、概述 1、解决方案 解决方案是一个容器&#xff0c;通常包含多个项目&#xff0c;这些项目通常相互引用。 解决方案中…

CSDN粉丝首破一千关,有你名字

2023-4-11&#xff0c;CSDN粉丝首破一千关。 感谢词版本1,哈哈哈哈哈哈哈哈 在编程世界里&#xff0c;人们可以像创造生命一样创造程序&#xff0c;而我对这种创造和创新的热情&#xff0c;从我的csdn博客社区粉丝首次突破一千人的消息中得到了极大的满足和激励。作为一个Pyth…

Spring中Bean初始化和销毁的多种方式

Spring中Bean初始化和销毁的多种方式一、Bean的多种初始化方式1.PostConstruct注解2.实现InitializingBean接口3.声明init-method方法二、Bean的多种销毁方式1.PreDestroy注解2.实现DisposableBean接口3.声明destroy-method方法三、总结Spring中支持在Bean的加载时声明初始化方…