CLIP与DINOv2的图像相似度对比

news2025/1/16 18:47:59

在计算机视觉领域有两个主要的自监督模型:CLIP和DINOv2。CLIP彻底改变了图像理解并且成为图片和文字之间的桥梁,而DINOv2带来了一种新的自监督学习方法。

在本文中,我们将探讨CLIP和DINOv2的优势和它们直接微妙的差别。我们的目标是发现哪些模型在图像相似任务中真正表现出色。

CLIP

使用CLIP计算两幅图像之间的相似性是一个简单的过程,只需两步即可实现:提取两幅图像的特征,然后计算它们的余弦相似度。

我们先创建虚拟环境并安装包

 #Start by setting up a virtual environment
 virtualenv venv-similarity
 source venv-similarity/bin/activate
 #Install required packages
 pip install transformers Pillow torch

接下来进行图像相似度的计算:

 import torch
 from PIL import Image
 from transformers import AutoProcessor, CLIPModel
 import torch.nn as nn
 
 device = torch.device('cuda' if torch.cuda.is_available() else "cpu")
 processor = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
 model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32").to(device)
 
 #Extract features from image1
 image1 = Image.open('img1.jpg')
 with torch.no_grad():
     inputs1 = processor(images=image1, return_tensors="pt").to(device)
     image_features1 = model.get_image_features(**inputs1)
 
 #Extract features from image2
 image2 = Image.open('img2.jpg')
 with torch.no_grad():
     inputs2 = processor(images=image2, return_tensors="pt").to(device)
     image_features2 = model.get_image_features(**inputs2)
 
 #Compute their cosine similarity and convert it into a score between 0 and 1
 cos = nn.CosineSimilarity(dim=0)
 sim = cos(image_features1[0],image_features2[0]).item()
 sim = (sim+1)/2
 print('Similarity:', sim)

上面两个相似的图像,获得的相似度得分达到了96.4%

DINOv2

使用DINOv2计算两幅图像之间的相似度的过程与CLIP的过程类似。使用DINOv2需要与前面提到的相同的软件包集,而不需要任何额外的安装:

 from transformers import AutoImageProcessor, AutoModel
 from PIL import Image
 import torch.nn as nn
 
 device = torch.device('cuda' if torch.cuda.is_available() else "cpu")
 processor = AutoImageProcessor.from_pretrained('facebook/dinov2-base')
 model = AutoModel.from_pretrained('facebook/dinov2-base').to(device)
 
 
 image1 = Image.open('img1.jpg')
 with torch.no_grad():
     inputs1 = processor(images=image1, return_tensors="pt").to(device)
     outputs1 = model(**inputs1)
     image_features1 = outputs1.last_hidden_state
     image_features1 = image_features1.mean(dim=1)
 
 image2 = Image.open('img2.jpg')
 with torch.no_grad():
     inputs2 = processor(images=image2, return_tensors="pt").to(device)
     outputs2 = model(**inputs2)
     image_features2 = outputs2.last_hidden_state
     image_features2 = image_features2.mean(dim=1)
 
 cos = nn.CosineSimilarity(dim=0)
 sim = cos(image_features1[0],image_features2[0]).item()
 sim = (sim+1)/2
 print('Similarity:', sim)

上面CLIP示例中相同的图像对,DINOv2获得的相似性得分为93%。

两个模型都可以给出图像的相似性,下面我们来进行深入的研究。

使用COCO数据集进行测试

这里使用来自COCO数据集验证集的图像来比较CLIP和DINOv2产生的结果。

流程如下:

  • 遍历数据集以提取所有图像的特征。
  • 将嵌入存储在FAISS索引中。
  • 提取输入图像的特征。
  • 检索前三个相似的图像。

1、特征提取和创建索引

 import torch
 from PIL import Image
 from transformers import AutoProcessor, CLIPModel, AutoImageProcessor, AutoModel
 import faiss
 import os
 import numpy as np
 
 device = torch.device('cuda' if torch.cuda.is_available() else "cpu")
 
 #Load CLIP model and processor
 processor_clip = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
 model_clip = CLIPModel.from_pretrained("openai/clip-vit-base-patch32").to(device)
 
 #Load DINOv2 model and processor
 processor_dino = AutoImageProcessor.from_pretrained('facebook/dinov2-base')
 model_dino = AutoModel.from_pretrained('facebook/dinov2-base').to(device)
 
 #Retrieve all filenames
 images = []
 for root, dirs, files in os.walk('./val2017/'):
     for file in files:
         if file.endswith('jpg'):
             images.append(root  + '/'+ file)
 
 
 #Define a function that normalizes embeddings and add them to the index
 def add_vector_to_index(embedding, index):
     #convert embedding to numpy
     vector = embedding.detach().cpu().numpy()
     #Convert to float32 numpy
     vector = np.float32(vector)
     #Normalize vector: important to avoid wrong results when searching
     faiss.normalize_L2(vector)
     #Add to index
     index.add(vector)
 
 def extract_features_clip(image):
     with torch.no_grad():
         inputs = processor_clip(images=image, return_tensors="pt").to(device)
         image_features = model_clip.get_image_features(**inputs)
         return image_features
 
 def extract_features_dino(image):
     with torch.no_grad():
         inputs = processor_dino(images=image, return_tensors="pt").to(device)
         outputs = model_dino(**inputs)
         image_features = outputs.last_hidden_state
         return image_features.mean(dim=1)
 
 #Create 2 indexes.
 index_clip = faiss.IndexFlatL2(512)
 index_dino = faiss.IndexFlatL2(768)
 
 #Iterate over the dataset to extract features X2 and store features in indexes
 for image_path in images:
     img = Image.open(image_path).convert('RGB')
     clip_features = extract_features_clip(img)
     add_vector_to_index(clip_features,index_clip)
     dino_features = extract_features_dino(img)
     add_vector_to_index(dino_features,index_dino)
 
 #store the indexes locally
 faiss.write_index(index_clip,"clip.index")
 faiss.write_index(index_dino,"dino.index")

2、图像相似度搜索

 import faiss
 import numpy as np
 import torch
 from transformers import AutoImageProcessor, AutoModel, AutoProcessor, CLIPModel
 from PIL import Image
 import os
 
 #Input image
 source='laptop.jpg'
 image = Image.open(source)
 
 device = torch.device('cuda' if torch.cuda.is_available() else "cpu")
 
 #Load model and processor DINOv2 and CLIP
 processor_clip = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
 model_clip = CLIPModel.from_pretrained("openai/clip-vit-base-patch32").to(device)
 
 processor_dino = AutoImageProcessor.from_pretrained('facebook/dinov2-base')
 model_dino = AutoModel.from_pretrained('facebook/dinov2-base').to(device)
 
 #Extract features for CLIP
 with torch.no_grad():
     inputs_clip = processor_clip(images=image, return_tensors="pt").to(device)
     image_features_clip = model_clip.get_image_features(**inputs_clip)
 
 #Extract features for DINOv2
 with torch.no_grad():
     inputs_dino = processor_dino(images=image, return_tensors="pt").to(device)
     outputs_dino = model_dino(**inputs_dino)
     image_features_dino = outputs_dino.last_hidden_state
     image_features_dino = image_features_dino.mean(dim=1)
 
 def normalizeL2(embeddings):
     vector = embeddings.detach().cpu().numpy()
     vector = np.float32(vector)
     faiss.normalize_L2(vector)
     return vector
 
 image_features_dino = normalizeL2(image_features_dino)
 image_features_clip = normalizeL2(image_features_clip)
 
 #Search the top 5 images
 index_clip = faiss.read_index("clip.index")
 index_dino = faiss.read_index("dino.index")
 
 #Get distance and indexes of images associated
 d_dino,i_dino = index_dino.search(image_features_dino,5)
 d_clip,i_clip = index_clip.search(image_features_clip,5)

3、结果

使用四种不同的图像作为输入,搜索产生了以下结果:

如果肉眼判断,DINOv2表现出稍好的性能。

使用DISC21数据集进行测试

为了量化CLIP和DINOv2的差别,我们选择了专门为图像相似性搜索创建的DISC21数据集。由于它的实际大小为350GB,我们将使用150,000个图像子集。

在参数方面,我们将计算:

  • 准确率:正确预测的图像与图像总数的比率。
  • top -3准确率:在前三幅相似图像中找到正确图像的次数占图像总数的比例。
  • 计算时间:处理整个数据集所需的时间。

结果如下:

特征提取:CLIP:每秒70.7个图像,DINOv2:每秒69.7个图像,2者的计算密集度都差不多。

准确率和前三名的准确率

两种模型都正确地预测了图像

所有模型都找不到正确的图像

只有CLIP预测正确的图像,DINOv2的top3

只有DINOv2预测正确的图像

结果分析

DINOv2明显的胜出,他在这个个非常具有挑战性的数据集上实现了64%的准确率。相比之下,CLIP只有28.45%。

在计算效率方面两种模型表现出非常相似的特征提取时间。

这里DINOv2大幅领先的一个原因是MetaAI使用DISC21数据集作为其模型的基准,这肯定会给DINOv2带来有利的优势。但是我们可以看到在COCO数据集上的测试中显示了有趣的细微差别:DINOv2在识别图像中的主要元素方面表现出更高的能力,而CLIP在专注于输入图像中的特定细节方面表现得很熟练(看看 bus那个图像,CLIP找出的全部是红色的车,这可能是因为它与文本对齐时包含了颜色)

还有一个问题就是CLIP和DINOv2之间嵌入维数的差异。CLIP的嵌入维数为512,而DINOv2的嵌入维数为768。所以可能也是差异的原因,但是如果使用更大的CLIP模型,执行的速度应该不会这么快了。

总结

DINOv2在图像相似任务中表现出卓越的准确性,展示了其实际应用的潜力。CLIP虽然值得称赞,但相比之下就显得不足了。CLIP在需要关注小细节的场景中特别有用。两种模型都表现出相似的计算效率,如果只针对于图像的单模态,DINOv2应该是一个不错的选择。

https://avoid.overfit.cn/post/bed7816b98f6487a9ed88a52f32f8dcd

作者:JeremyK

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1070487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PostgreSQL ash —— pgsentinel插件 学习与踩坑记录

零、 注意事项 测试发现,pgsentinel插件在pg_active_session_history视图记录条数较多时,存在严重的内存占用问题,群里的其他朋友反馈还可能存在严重的内存泄漏问题。本文仅用于学习和测试,未用于生产环境。 设置 pgsentinel_ash.…

Android平台实现lottie动画

1、lottie动画简介 Lottie 是一个应用十分广泛动画库,适用于Android、iOS、Web、ReactNative、Windows的库,它解析了用Bodymovin导出为json的Adobe After Effects动画,并在移动和网络上进行了原生渲染。它提供了一套完整得从AE到各个终端的…

c++ 学习 之 继承中 父类子类构造函数和析构函数的调用顺序

#define _CRT_SECURE_NO_WARNINGS #include<iostream> using namespace std;// 继承中的对象模型class Base { public:Base(){cout << "Base 的构造函数 " << endl;}~Base(){cout << "Base 的析构函数 " << endl;} };clas…

2023年【通信安全员ABC证】找解析及通信安全员ABC证考试总结

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 通信安全员ABC证找解析参考答案及通信安全员ABC证考试试题解析是安全生产模拟考试一点通题库老师及通信安全员ABC证操作证已考过的学员汇总&#xff0c;相对有效帮助通信安全员ABC证考试总结学员顺利通过考试。 1、【…

业务平台为测试带来的挑战

“业务平台”是指 中间平台&#xff0c;其上游有底层系统支撑&#xff0c;其下游有客户群体。因为平台下游承接大量客户群体&#xff0c;客户对应用的行为极其敏感&#xff0c;一些小故障比如闪屏、按钮失灵&#xff0c;落数失败会有很大概率引起客诉。 客诉对公司整体的影响 …

山体滑坡监测预警系统

在面对自然灾害和地质灾害的严峻挑战时&#xff0c;人们对于科技的需求和依赖更加强烈。山体滑坡&#xff0c;作为一种常见的地质灾害&#xff0c;其不可预测性和潜在的巨大破坏力令人深感忧虑。然而&#xff0c;随着山体滑坡监测预警系统的出现&#xff0c;人们有了一个强有力…

【计算机视觉 05】YOLO论文讲解:V1-V7

https://ai.deepshare.net/live_pc/l_63243a65e4b050af23b79338 Part1.目标检测与YOLO系列 1. 目标检测任务及发展脉络 2. YOLO的发展史 Anchors Base原理&#xff1a; Part2.YOLOV1-V3 3. YOLO V1的网络结构 4. YOLO V3的网络结构与实验结果 Part3.YOLO的进化 5. YOLO V4的网络…

Python实现收发邮件

在实际开发中&#xff0c;当你收到一个需求的时候&#xff0c;比如要做一个「收发邮件」的功能。 如果你完全没有印象&#xff0c;没有思路&#xff0c;可以直接 Google 搜索的。 因为我们不可能对每个知识点都了解&#xff0c;不了解不可耻&#xff0c;但要懂得怎么去找资料…

用全栈智能,联想如何“零故障”支持亚运会?

作者 | 曾响铃 文 | 响铃说 1912年&#xff0c;电子计时器首次应用&#xff0c;1936年&#xff0c;体育赛事首次在电视上播出&#xff0c;1972年计算机首次进入人类赛事&#xff0c;1996年互联网技术大范围应用&#xff0c;随后3G网络、3D技术、VR技术……以奥运会为代表&…

Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning

ABSTRACT 在这项工作中&#xff0c;我们使用一种新颖的风格特征表示学习方法来解决任意图像风格转移的挑战性问题。合适的风格表示作为图像风格化任务的关键组成部分&#xff0c;对于获得满意的结果至关重要。 现有的基于深度神经网络的方法在内容特征的Gram矩阵等二阶统计量…

Linux——指令初识(二)

Linux下基本指令 前言一、时间相关的指令二、Cal指令三、find指令四、grep指令五、sort指令六、uniq指令七、.zip/unzip指令八、.tar指令九、uname –r指令十、重要的几个热键[Tab],[ctrl]-c, [ctrl]-d十一、关机总结 前言 linux的学习开始啦&#xff01; 今天我们继续来认识指…

选择适合普通公司的项目管理软件

不管是打工人还是学生党都适合使用Zoho Projects项目管理软件。利用项目概览功能&#xff0c;将整体项目尽收眼底&#xff0c;作为项目管理者&#xff0c;项目日程、进度都可见&#xff0c;Zoho Projects项目管理APP助推项目每一环节的进展&#xff0c;更便于管理者设计项目的下…

基于Springboot实现校园新闻网站管理系统演示【项目源码+论文说明】分享

基于Springboot实现校园新闻网站管理系统演示 摘要 本论文主要论述了如何使用JAVA语言开发一个校园新闻网站 &#xff0c;本系统将严格按照软件开发流程进行各个阶段的工作&#xff0c;采用B/S架构&#xff0c;面向对象编程思想进行项目开发。在引言中&#xff0c;作者将论述校…

基于Springboot实现网上商城管理系统演示【项目源码+论文说明】分享

基于Springboot的网上商城管理系统演示 摘要 随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的优势&#xff0c;网上商城购物系统当然也不能排除在外。网上商城购物系统是以实际运用为开发背景&…

【小白必看】网络安全(黑客)0基础学习笔记

目录 一、自学网络安全学习的误区和陷阱 二、学习网络安全的一些前期准备 三、网络安全学习路线 四、学习资料的推荐 想自学网络安全&#xff08;黑客技术&#xff09;首先你得了解什么是网络安全&#xff01;什么是黑客&#xff01; 网络安全可以基于攻击和防御视角来分类…

使用echarts时多tab切换后不能正确获取到指定的宽度,默认100px,修改浏览器窗口大小后又能正常展示

图表部分代码&#xff1a; <template><div :class"className" :style"{ height: height, width: width }" /> </template>使用代码&#xff1a; <el-tabs v-model"activeName" type"card"><el-tab-pane …

【Nginx学习】—Nginx基本知识

【Nginx学习】—Nginx基本知识 一、什么是Nginx Nginx是一个高性能的HTTP和反向代理的web服务器&#xff0c;Nginx是一款轻量级的Web服务器/反向代理服务器处理高并发能力是十分强大的&#xff0c;并且支持热部署&#xff0c;启动简单&#xff0c;可以做到7*24不间断运行。 …

打包报错JavaScript heap out of memory

npm run build 的时候出现了Reached heap limit Allocation failed - JavaScript heap out of memory&#xff0c;报错信息如下图所示。 奇怪的时候这个报错信息在本地不会出现&#xff0c;通过jekins在服务器打包部署的时候才会出现。于是进入服务器执行下面一句代码&#xff…

点三流水灯

.text .global _start_start: 设置GPIOF寄存器的时钟使能LDR R0,0X50000A28LDR R1,[R0]ORR R1,R1,#(0x1<<5)STR R1,[R0]设置GPIOE寄存器的时钟使能LDR R0,0X50000A28LDR R1,[R0] 从r0为起始地址的4字节数据取出放在R1ORR R1,R1,#(0x1<<4) 第4位设置为1STR R1,[R…

Linux虚拟机搭建RabbitMQ集群

普通集群模式&#xff0c;意思就是在多台机器上启动多个 RabbitMQ 实例&#xff0c;每台机器启动一个。创建的 queue&#xff0c;只会放在一个 RabbitMQ 实例上&#xff0c;但是每个实例都同步 queue 的元数据&#xff08;元数据可以认为是 queue 的一些配置信息&#xff0c;通…