【打卡-Coggle竞赛学习2023年4月】图像检索与重复图像识别

#### 任务1：图像匹配与检索

图像相似度

图像相似度是用于度量两幅图像之间相似程度的指标。图像相似度可以基于像素级别的相似度或者基于特征匹配的相似度来计算。像素级别的相似度通常是基于两幅图像的像素值来计算的，包括均方误差、结构相似性指数（SSIM）等。而基于特征匹配的相似度则是通过提取图像的特征，比如颜色、纹理、形状等，来计算图像之间的相似度。

颜色直方图

颜色直方图是指统计一幅图像中每种颜色出现的频率，然后将这些频率以直方图的形式表示出来。颜色直方图相似度是一种基于颜色直方图的相似度度量方法，用于度量两幅图像之间的相似程度。计算颜色直方图相似度的方法通常包括将两幅图像的颜色直方图进行比较，比如可以计算两个直方图之间的距离或者相似度。颜色直方图相似度在图像检索、图像分类、目标识别等领域都有广泛的应用。

图像检索流程

图像检索是指通过输入一张图像，然后在一个图像数据库中搜索与该图像最相似的图像。图像检索的基本流程包括图像特征提取、相似度计算和排序等步骤。

首先，通过图像特征提取方法将一张图像转换为一个向量表示。然后，通过相似度计算方法计算输入图像与数据库中所有图像之间的相似度。最后，根据相似度对所有图像进行排序，将与输入图像最相似的图像排在前面。

任务1实践步骤如下：

步骤1：从实践比赛地址：https://competition.coggle.club/下载图像检索与匹配数据集
步骤2：使用opencv提取单张图片的颜色直方图
步骤3：提取图像数据集（dataset文件夹）和查询图片（query文件夹）所有图片的直方图
步骤4：通过query的直方图向量去计算在dataset中最相似的结果。
步骤5：将计算结果提交到实践比赛地址：https://competition.coggle.club/

在这里插入图片描述

import cv2
import glob
import os, sys
import pandas as pd
import numpy as np
from sklearn.preprocessing import normalize

# 计算dataset文件夹中所有图的直方图
dataset_feat = []
for path in glob.glob('./dataset/*.jpg'):
    img = cv2.imread(path, 0)
    feat = cv2.calcHist(np.array([img]), [0], None, [256], [0, 256]).flatten()
    dataset_feat.append(feat)

# 进行归一化
dataset_feat = np.array(dataset_feat)
dataset_feat = normalize(dataset_feat)

# 计算query文件夹中所有图像的直方图
query_feat = []
for path in glob.glob('./query/*.jpg'):
    img = cv2.imread(path, 0)
    feat = cv2.calcHist(np.array([img]), [0], None, [256], [0, 256]).flatten()
    query_feat.append(feat)

# 进行归一化
query_feat = np.array(query_feat)
query_feat = normalize(query_feat)

# 计算每张query图片与dataset图片的颜色直方图相似度
dis = np.dot(query_feat, dataset_feat.T)
dataset_path = np.array(glob.glob('./dataset/*.jpg'))

# 生成提交结果
pd.DataFrame({
    'source': [x.split('/')[-1] for x in dataset_path[dis.argmax(1)]],
    'query': [x.split('/')[-1] for x in glob.glob('./query/*.jpg')]
}).to_csv('submit.csv', index=None)

#### 任务2：图像局部特征提取

SIFT/ORB关键点

SIFT和ORB是两种常用的局部特征提取算法，它们能够从图像中提取出关键点，并对这些关键点进行描述和匹配。SIFT（Scale Invariant Feature Transform）算法通过对不同尺度和方向的高斯差分图像进行特征检测，得到具有旋转不变性和尺度不变性的关键点。

ORB（Oriented FAST and Rotated BRIEF）算法则是基于FAST关键点检测算法和BRIEF描述符的改进算法，具有快速和鲁棒性的优点。在关键点匹配时，常用的方法包括暴力匹配和基于FLANN的匹配算法。

局部特征编码：局部特征编码是将局部特征向量表示为一种固定维度的向量，以便于后续的特征匹配和检索。

方法1：BoW（Bag of Words）模型是一种常见的局部特征编码方法，将局部特征向量表示为一组视觉词汇的直方图。

方法2：VLAD（Vector of Locally Aggregated Descriptors）和Fisher Vector则是基于BoW模型的改进算法，能够更加准确地描述局部特征的分布和空间结构。

关键点匹配与相似度计算

关键点匹配是图像匹配的一项基本任务，通常用于在两幅图像中寻找相同或相似的物体、场景等。匹配的过程可以通过比较两幅图像的局部特征来实现，其中每个关键点都对应着一个特征向量，可以通过计算这些向量之间的距离或相似度来评估它们之间的匹配程度。

常见的关键点匹配方法包括暴力匹配和基于FLANN的匹配。暴力匹配方法简单直观，对于每个关键点，将其与另一幅图像中的所有关键点进行比较，选取距离最近的关键点作为其匹配点。FLANN（Fast Library for Approximate Nearest Neighbors）的匹配方法则采用了近似最近邻算法，能够在保证匹配准确率的同时大幅降低计算时间。

RANSAC（Random Sample Consensus）是一种经典的估计模型参数的算法，其主要应用于数据中包含噪声或异常值的情况下，通过随机采样和假设验证的方式来估计模型。在RANSAC算法中，首先从匹配的关键点对中随机选择一组样本，然后使用这组样本计算出一个模型参数。接着，使用这个模型参数对所有关键点对进行预测，并将与预测结果差距较小的关键点对视为符合模型的关键点对。最后，根据符合模型的关键点对的数量来评估该模型参数的好坏，若该模型参数符合预设的阈值，则认为该模型参数可用于描述这组关键点的匹配关系。

任务2实践步骤如下：

步骤1：使用sift或orb提取图片的关键点，对对提取的关键点进行匹配。
步骤2：对任务1中直方图计算得到的相似图，使用sift或orb进行过滤
- 计算query和dataset中所有的直方图特征
- 对query每张图计算与其对应的Top10相似的dataset图
- 对每个Top10图使用sift或orb进
- 行过滤，选择匹配关键点最多的作为结果
【选做】步骤3：对图片sift或orb使用bow或vlad进行全局编码，然后query与dataset最相似的图片
步骤4：将计算结果提交到实践比赛地址：https://competition.coggle.club/
参考资料：
- https://docs.opencv.org/4.x/dc/dc3/tutorial_py_matcher.html
- https://yongyuan.name/blog/CBIR-BoW-for-image-retrieval-and-practice.html

#### 任务3：深度全局特征：

CNN/VIT模型特征提取：介绍CNN和VIT模型在图像特征提取中的应用，包括如何利用预训练模型提取图像的全局特征。

CLIP模型特征提取：讲解CLIP模型的原理和应用，包括如何将图像和文本的特征嵌入到同一个向量空间中，以及如何利用CLIP模型进行图像检索和分类。

深度全局特征的优缺点：讨论深度全局特征和传统算法的差异，包括特征表达能力、泛化能力、计算效率等方面。

步骤1：使用CNN模型预训练模型（如ResNet18）提取图片的CNN特征，计算query与dataset最相似的图片
步骤2：使用VIT模型预训练模型提取图片特征，计算query与dataset最相似的图片
步骤3：使用CLIP模型预训练模型提取图片特征，计算query与dataset最相似的图片
步骤4：分别将每种思路的计算结果提交到实践比赛地址：https://competition.coggle.club/

import torch
from torch.utils.data.dataset import Dataset
import torchvision.models as models
import torchvision.transforms as transforms

# 加载CNN模型
device = 'cuda' if torch.cuda.is_available() else 'cpu'
model = models.resnet50(True)
model.fc = torch.nn.Identity()
model = model.to(device)

# 加载VIT模型
device = 'cuda' if torch.cuda.is_available() else 'cpu'
model = models.vit_b_16(weights=torchvision.models.ViT_B_16_Weights)
model.heads = torch.nn.Identity()
model = model.to(device)

# 加载CLIP模型
import clip
# https://github.com/openai/CLIP
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

在这里插入图片描述

提取图片特征的代码可参考：

https://www.kaggle.com/code/finlay/shopee-products-matching-image-part-english

#### 任务4：孪生网络

孪生网络是一种由两个相同结构的神经网络组成的模型，其目的是将两个输入数据映射到一个共同的向量空间中，并计算它们之间的相似度或距离。它通常用于图像匹配、人脸识别、语义匹配等任务中。

步骤1：构建三元组数据集，分别为<图片A，图片A’>和<图片B，图片B’>的组合，此时图片A和A’分别进行不同的数据增强；
步骤2：加载CNN模型，定义二分类损失函数
步骤3：训练孪生网络，记录损失曲线
步骤4：计算query与dataset最相似的图片，提交到实践比赛地址：https://competition.coggle.club/

参考代码：

https://github.com/owruby/siamese_pytorch/blob/master/train.py

这个其实需要我们先预训练一个siamese_pytorch网络，然后使用这个model进行推理

在这里插入图片描述

#### 任务5：对比损失

对比损失的目标是将同类实例之间的距离最小化，不同类实例之间的距离最大化，而三元组损失则是将同类实例之间的距离最小化，并将不同类实例之间的距离最大化。

在SimCLR中，模型通过学习对同一个图像的多个视角进行编码，从而生成不同的表示形式，这些表示形式被设计成相互一致的，以使得相同实例的不同视角编码之间的距离最小化。

类似地在SimCSE中，模型通过学习对同一个句子的多个视角进行编码，从而生成不同的表示形式，这些表示形式被设计成相互一致的，以使得相同实例的不同视角编码之间的距离最小化

步骤1：编写SimCLR和SimCSE对比损失函数。
步骤2：在模型中加入Dropout，训练时加入数据增强。
步骤3：利用Dropout和数据增强得到不同的样本，如样本A分别正向传播2次，得到图片A和图片A’。
步骤4：重复步骤孪生网络的训练过程。
步骤5：计算query与dataset最相似的图片，提交到实践比赛地址：https://competition.coggle.club/

参考链接：

https://blog.csdn.net/qq_27590277/article/details/128195782
https://zhuanlan.zhihu.com/p/368353121

#### 任务6：特征压缩与扩展查询

PQ量化（Product Quantization）是一种压缩和加速高维向量相似性搜索的技术，通常用于图像和视频检索领域。PQ量化将高维向量划分成多个较小的子向量，并对每个子向量使用独立的编码器进行编码，从而将高维向量转换为一系列的子编码。这些子编码通常被存储在内存中，并通过查询相似性搜索引擎进行搜索。

特征PCA白化是一种预处理技术，它将输入数据的协方差矩阵进行特征分解，并将其变换为一个对角矩阵，然后将原始数据进行线性变换，使得变换后的数据的协方差矩阵为单位矩阵。这样做的好处是可以去除数据中的冗余信息和相关性，并且提高数据的稳定性和可解释性。

步骤1：对query与dataset特征进行白化进行处理。从新计算query与dataset最相似的图片，提交到实践比赛地址：https://competition.coggle.club/
步骤2：使用PCA对特征query与dataset特征降维到100/200。分别从新计算query与dataset最相似的图片，提交到实践比赛地址：https://competition.coggle.club/