Contrastive Learning in Image (CVPR 2023)

news2024/10/2 12:29:46

文章目录

  • 1. Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning (图文匹配)
      • 1.目标
      • 2.任务类型
      • 3.解决思路
      • 4. 总结
  • 2. MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining (图片蒸馏)
      • 核心思想
  • 3.Twin Contrastive Learning with Noisy Labels(图分类)
      • 1. 目标
      • 2.模型
        • Out-Of-Distribution Label Noise Detection
        • learni robust representation with contrastive loss
        • align loss
        • train & inference
  • 4. Align and Attend: Multimodal Summarization with Dual Contrastive Losses
        • 1. 核心思想
        • 2.损失函数
  • Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens
        • 1核心思想
        • 2 损失函数
  • MaskCon: Masked Contrastive Learning for Coarse-Labelled Dataset
  • Dynamic Conceptional Contrastive Learning for Generalized Category Discovery

1. Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning (图文匹配)

1.目标

train an alignment between the patch tokens of the vision encoder and the CLS token of the text encoder,期望达到的效果是:一个模型可以识别与给定文本输入相对应的图像区域

2.任务类型

open vocabulary semantic segmentation问题,仅仅使用image-text data .

3.解决思路

**评测指标——**分类准确率:提供了一个衡量模型中视觉和文本表征之间的补丁级别的一致性,其中高分类精度表明高一致性,反之亦然。
**选择使用对比学习的依据——**在image中语义相似的regions应该相似度值更大。
semantically similar regions in an image should produce similar patch representations in the vision encoder

使用cosine similarity ** 计算patch representation的相似值,并使用二分类**函数盘算patches 之间是否有相同的taget table。

对比学习的损失函数一般是InfoNCE loss
在这里插入图片描述

image 是x, text 是y.
image 的表示是 有weight patch level的representation得到的。
权重选择上是计算篇patch embedding和text的CLS 的相似度值得到的。
在这里插入图片描述
在最上方的loss函数上,更新之后的φ函数值计算如下:
在这里插入图片描述

4. 总结

patch alignment,是从每个patch计算text的CLS之间的相似值,作为权重,得到的image representation。
然后,使用INfoLOSS 更新模型参数。

2. MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining (图片蒸馏)

核心思想

The core idea of masked self-distillation is to distill representation from a full image to the representation predicted from a masked image

在这里插入图片描述
如上图所示,图d是文中模型,EI是mask的图片,EI—是蒸馏中的teacher model,EI(不带横岗)是student model,ET 是text。

contrastive learning部分,是masked 的图片表征,用来和image做匹配对齐。(contrastive learning )
知识蒸馏部分
,是用teacher model来教masked的student model。
所以,是两部分,共同实现了model蒸馏。

润物细无声
在**Vision language 对比学习中,**图片是由多个pixel考虑的,text是多个token考虑的。

在这里插入图片描述
σ stands for the temperature for the loss functions
在image的distill学习中, 是使用的蒸馏损失函数。
在这里插入图片描述
最终的损失函数为:

在这里插入图片描述

3.Twin Contrastive Learning with Noisy Labels(图分类)

1. 目标

a novel twin contrastive learning model to learn robust representations and handle noisy labels for
classification
解决思路是建模为label noise detection as an out-of-distribution (OOD) problem

2.模型

模型整体分为3个部分:

(i) 在第3.1节中通过GMM (球形高斯混合模型,spherical Gaussian mixture model) 对模型预测和表征的数据分布进行建模;(ii) 在第3.2节中检测具有错误标签的例子作为分布外的样本;(iii) 在第3.3节中通过引导真实目标进行交叉监督;以及(iv) 在第3.4节中通过对比学习和混合学习进行robust representations

在这里插入图片描述

Out-Of-Distribution Label Noise Detection

Our idea is that the samples with clean labels should have the same cluster indices after linking the cluster index and class label
(clean labels的samples应该更加聚集,out-of-distribution 的labels 的分布和clean labels的分布应该不一致)
在这里插入图片描述
** regularization loss :**
在这里插入图片描述

第一个项可以通过最大化平均预测的熵来避免预测坍缩为一个单一的类别。第二项是最小熵正则化,以鼓励模型对预测有较高的信心,这在以前的半监督学习文献中已有研究[9]。

learni robust representation with contrastive loss

在这里插入图片描述

align loss

在这里插入图片描述

train & inference

在这里插入图片描述

4. Align and Attend: Multimodal Summarization with Dual Contrastive Losses

1. 核心思想

two novel contrastive losses to model both inter-sample and intra-sample correlations;两种新的对比性损失来模拟样本间和样本内的关联性
在这里插入图片描述

  1. 首先,为了利用不同模态之间的对齐信息,我们提出了对齐引导的自我注意模块,以对齐视频和文本模态之间的时间对应关系,并以统一的方式融合跨模态信息

  2. 双重对比损失,结合样本间和样本内的对比损失,来模拟不同粒度的跨模式相关性

2.损失函数

分类损失函数在这里插入图片描述
Inter-Sample Contrastive Loss :we maximize the cosine similarity of the video embedding [CLSV] and
the text embedding [CLST] from B real pairs in the batch while minimizing the cosine similarity of embeddings from
the B2 − B incorrect pairs
在这里插入图片描述
在这里插入图片描述
Intra-Sample Contrastive Loss
these keyframes and key-sentences should be deeply correlated with each other and share similar high-level semantic meanings. Motivated by this observation, we propose the intra-sample contrastive loss which is calculated within each video and text pair sample rather than across different sample pairs

在这里插入图片描述
total loss
在这里插入图片描述

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

1核心思想

unifying the information granularities of images and texts can help generate better multimodal representations

对于一个图像,它的patch embedding首先由一个图像编码器提取。然后,通过对所有patches中的FDT(Finite Discrete Tokens)的注意力权重进行最大集合来测量FDT和图像之间的对应关系。最后,基于FDT的图像表示被计算为FDT的注意力加权和。输入文本的基于FDT的嵌入可以用同样的方法构建。**The encoders and FDT are trained to pull close the FDT-based representations of matched image-text pairs while pushing away those of unmatched pairs by using **编码器和FDT被训练为拉近匹配的图像-文本对的基于FDT的表示,同时通过使用InfoNCE损失推开那些不匹配的对。

在这里插入图片描述

2 损失函数

在这里插入图片描述

MaskCon: Masked Contrastive Learning for Coarse-Labelled Dataset

Dynamic Conceptional Contrastive Learning for Generalized Category Discovery

主要的挑战是,未标记的数据所包含的实例不仅来自标记数据的已知类别,也来自新的类别。这导致传统的新类别发现(NCD)方法不能用于GCD,因为它们假设未标记的数据只来自新类别。GCD的一个有效方法是应用自我监督学习来学习无标签数据的区分性表示。然而,这种方式在很大程度上忽略了同一概念的实例之间的潜在关系(例如,类、超类和子类),这导致了较差的表示学习。在本文中,我们提出了一个动态概念对比学习(DCCL)框架,它可以通过交替估计潜在的视觉概念和学习概念表征来有效提高聚类的准确性。 此外,我们还设计了一个动态的概念生成和更新机制,它能够保证概念学习的一致性,从而进一步促进DCCL的优化。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/686532.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数学模型在水环境评价、防洪评价、排污口论证、水质、水量、水生态、水动力等方面的应用

目录 专题一、一维水动力模型模拟一河道水流的应用 专题二、一维复杂河网模型构建及建筑物设置 专题三、一维水质模型在环境影响评价中的应用 专题四、平面二维水动力模型的构建河验证 专题五、平面二维水动力模型在防洪影响评价中的应用 专题六、平面二维水动力水质模型…

抖音kol投放模型怎么打造,营销策略规划

这是一个内容为王的时代,想要在小红书这种内容平台做好内容营销,一定要了解抖音kol投放模型怎么打造,营销策略规划。 一、如何进行kol投放 品牌想要完成一次高效而准确的完成kol投放模型,需要完整的品牌投放策略。针对于小红书平台…

如何驯化机器狗读懂人类手势,手把手教你!

作为全国普通高校大学生竞赛榜单内竞赛,“中国软件杯”大学生软件设计大赛-智能四足机器狗电力巡检系统开发赛项,目前已吸引了全国2041支队伍参加。经过激烈的目标检测与分割算法打榜赛,最终,有153支团队成功晋级区域赛。在即将于…

知乎财报预测:知乎2023年Q2收入将继续下滑,净亏损将扩大一倍

来源:猛兽财经 作者:猛兽财经 华尔街分析师对知乎2023年第二季度财报的预测 在5月24日发布第一季度业绩时,知乎(ZH)并未对2023年第二季度或2023财年全年提供任何具体的指引。但目前卖方分析师的一致财务预测表明&…

F-35飞控系统详解

基于非线性动态逆(NDI)的控制律 1. F-35飞控控制律 F-35采用了由三台冗余机载管理计算机(VMC,Vehicle Management Computers)中运行的非线性动态逆控制架构来提供电传飞行控制。F-35的控制律不仅能增强飞机动力学特性实现增稳,还…

java学习记录之JDBC2

1 JDBC回顾  Statement 语句执行者 Connection conn null; Statement st null; ResultSet rs null; try{ //1 通过工具类获得连接 conn JdbcUtils.getConnection(); //2 获得语句执行者 st conn.createStatement() --> 参数 结果集类型、并发参数 (滚动结…

如何在 Spring Boot 中使用定时任务

如何在 Spring Boot 中使用定时任务 引言 在实际的项目中,我们经常需要编写定时任务来执行一些周期性的任务,比如定时备份数据库、定时发送邮件等。在 Spring Boot 中,我们可以使用 Spring 的 Task Execution 和 Scheduling 来实现定时任务…

用BERT做命名实体识别任务

命名实体识别NER任务是NLP的一个常见任务, 它是Named Entity Recognization的简称。 简单地说,就是识别一个句子中的各种 名称实体。 诸如:人名,地名,机构 等。 例如对于下面这句话: 小明对小红说:"你…

佩戴舒适度的蓝牙耳机品牌有哪些?佩戴舒适性蓝牙耳机排行榜推荐

​对于年轻人来说,耳机使用场景丰富,时尚追求度高,喜好的音乐类型也是多种多样,需求侧重也不尽相同。下面我来推荐几款相当不错的蓝牙耳机给大家,总会有喜欢那款! 一、南卡OE PRO开放式耳机 南卡OE PRO是国…

带你阅读 Flutter Demo(flutter 保姆级入门教程)

dart、flutter Flutter Demo 解析 - 文章信息 - Author: Jack Lee (jcLee95) Visit me at: https://jclee95.blog.csdn.netEmail: 291148484163.com. Shenzhen ChineAddress of this article:https://blog.csdn.net/qq_28550263/article/details/xxxxxx 【介绍】:本…

RFID技术的革新与应用:连接智能物联网的关键

在日益数字化的时代,物联网(IoT)技术正迅速发展,并为我们的生活带来了无数的便利。而射频识别(RFID)技术作为物联网的关键支撑之一,正在推动着智能化、自动化的进程。本文将深入探讨RFID技术的基…

INTERSPEECH 2023论文|基于自监督学习表示的具有持久性口音记忆的口音识别

论文题目: Self-supervised Learning Representation based Accent Recognition with Persistent Accent Memory 作者列表: 李睿,谢志伟,徐海华,彭亦周,刘和鑫,黄浩,Chng Eng Sio…

神州设备IPV6路由综合运用

实训拓扑图 一、基本配置: SW-1: SW-1>ena SW-1#conf SW-1(config)#vlan 10;100 SW-1(config)#int l1 SW-1(config-if-loopback1)#ip add 1.1.1.1 255.255.255.255 SW-1(config-if-loopback1)#ipv6 add 2001:1::1/128 SW-1(config-if-loopback1)#exit

前端系列18集-权限,nginx成功,屏幕分辨率,vue3

vue3.0 使用原生websocket通信 // Websoket连接成功事件const websocketonopen (res: any) > {console.log("WebSocket连接成功", res);};// Websoket接收消息事件const websocketonmessage (res: any) > {console.log("数据", res);};// Websoket…

【从零开始学习C++ | 第二十二篇】C++新增特性(下)

目录 前言: 类型推导: constexpr关键字: 初始化列表: 基于范围的for循环: 智能指针之unique ptr Lambda表达式: 总结: 前言: 本文我们将继续介绍 C 11 新增十大特性的剩余…

解决前端容器不能充满屏幕

解决前端容器不能充满屏幕 px、rpx、em、rem、vw、vh各种像素单位的区别 css3新单位vw、vh、vmin、vmax的使用详解 学习element-UI写管理系统的页面,发现当菜单栏都收缩起来,结果是这样的 红色框是容器里每个板块的布局,但是容器下面却有空白…

如何处理兼容性测试中的变更管理?

如何处理兼容性测试中的变更管理? 在进行软件测试的过程中,兼容性测试是非常重要的一环。然而,在进行兼容性测试时,由于涉及到不同平台、不同设备的适配问题,可能会出现许多变更管理的情况。这时候,如果没…

阿里企业邮箱收费标准_企业邮箱费用明细表

阿里云企业邮箱收费标准(免费版/标准/尊享/集团),2023阿里云企业邮箱收费标准,免费版企业邮箱0元,标准版企业邮箱540元一年(原价600元一年),企业邮箱尊享版1400元一年,9折…

4-移动端适配-1

01-移动 Web 基础 谷歌模拟器 模拟移动设备,方便查看页面效果 屏幕分辨率 分类: 物理分辨率:硬件分辨率(出厂设置)逻辑分辨率:软件 / 驱动设置 结论:制作网页参考 逻辑分辨率 视口 作用&a…

微信小程序项目实例——2048小游戏

今日推荐💁‍♂️ 第一次听廖俊涛的歌是他首次出现在明日之子舞台上的那首《谁》 到现在这首歌成了我网易云收藏的十几首歌中的一首,也是听的最多的一首 怎么形容呢🤔算不上惊艳,却百听不厌👂 🔮&#x1…