Meta提出用向量检索来改进图像描述模型

news2025/1/12 18:02:37

出品人:Towhee 技术团队

作者:王翔宇 顾梦佳

随着深度神经网络的发展,自动图像描述技术取得了令人瞩目的进展。然而,现有的方法主要注重生成的描述与人类参考描述之间的相似性,却忽视了描述在实际应用中的特定目标。Meta FAIR实验室一项最新研究提出了一种改进方法,通过引入判别性目标和强化学习,使得神经网络生成的图像描述更具信息量和可理解性,为实际应用带来了新的希望。

论文认为,图像描述的一个基本目标是正确地描述一个物体,使得听者能够将其与其他环境元素区分开来。为了实现这一目标,论文提出了一种使用强化学习的自监督判别通信目标来微调预训练的图像描述模型的方法。论文通过让图像描述模型与一个图像检索模型进行判别博弈来进行微调。

具体而言,给定一个目标图像,图像描述模型生成一段描述,而图像检索模型则使用这个描述从候选图像集合中选择出目标图像。这种微调方法不需要标注数据,且独立于底层的图像描述模型和图像检索模型。

alt

该研究采用了一种称为DiscriTune的微调方法,通过强化学习,对预训练的图像描述模型进行微调,生成的描述作为输入传递给一个固定的判别器。判别器的任务是在一组干扰图像中找到原始图像。通过这种微调方法,模型逐渐学会生成更具辨识度和可区分性的描述,更好地传达图像的特征和内容。

研究团队使用了两种不同的图像描述模型进行实验:ClipCap和BLIP。ClipCap是一个基于GPT-2模型的图像条件模型,它使用一个可训练的映射网络将图像的视觉特征与GPT-2嵌入空间进行关联,从而生成图像描述。BLIP是一个由文本Transformer和视觉Transformer组成的大型图像描述模型,它通过跨模态注意力机制将视觉信息引入到生成的描述中。这些模型经过微调后,生成的描述更具信息量和可理解性。

为了评估改进方法的效果,研究团队还使用了一个神经检索模型CLIP来进行实验。CLIP是一个多模态双编码器模型,通过对比损失最大化文本和图像之间的相似性。通过计算描述与图像之间的匹配分数,可以判断图像是否被正确检索出来。

在优化过程中,由于解码过程具有离散性,无法直接使用损失函数进行端到端的反向传播。因此,研究团队采用了强化学习中的REINFORCE算法来优化图像描述模型。通过计算匹配分数的奖励作为反馈信号,模型逐步调整生成的描述,以最大化目标图像的匹配分数。

alt

这个表格里列了一些重要结果。ClipCap和DiscriTune在从包含100个候选图像的集合中检索目标图像时的准确率(P@1),这些图像来自于COCO、Conceptual Captions和Concadida测试集以及nocaps验证集。可以看出来DiscriTune能带来较大的收益。

相关资料:

  • 论文: https://arxiv.org/pdf/2304.01662.pdf

🌟全托管 Milvus SaaS/PaaS 即将上线,由 Zilliz 原厂打造!覆盖阿里云、百度智能云、腾讯云、金山云。目前已支持申请试用,企业用户 PoC 申请或其他商务合作请联系 business@zilliz.com。


  • 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。

  • 欢迎关注微信公众号“Zilliz”,了解最新资讯。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/703826.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用户体验测试要怎么做?

用户体验测试是软件和应用程序开发的关键环节,它可以帮助团队了解如何优化产品以提高用户满意度,那用户体验测试要怎么做?下面是一些进行用户体验测试的最佳实践: 制定测试计划 在进行用户体验测试之前,您需要制定测试…

【Gradio】Could not create share link

Gradio是MIT的开源项目,用于构建机器学习和数据科学演示和 Web 应用,挺有意思的,感兴趣的同学可以去Gradio官网查看。 本地环境: - OS: Win 11 - Pyton: 3.10.11 - Gradio: 3.29.0 Gradio库的安装(Python 需要3.7 版本): - pip …

6.5 指令与文件的搜寻

6.5.1 指令文件名的搜寻 在终端机模式当中,连续输入两次[tab]按键就能够知道使用者有多少指令可以下达。 which (寻找“可执行文件”) 这个指令是根据“PATH”这个环境变量所规范的路径,去搜寻“可执行文件”的文件名。所以&…

iOS distribution发布证书过期或者被手动revoke了app会被下架吗?

在距离distribution 证书过期一个月(或被手动revoke了)的时候会受到apple的邮件 虽然distribution过期(或者被手动revoke)了,如果你的开发者账号是company(公司)类型或个人类型的,只…

LDR6023Q在USB摄像头转接器的应用

最近USB摄像头火了起来,连接手机后可以用于直播,内窥镜,探鱼器,上网课等等,应用非常广泛,但在长时间连接手机的时候,电量消耗特别快,所以USB摄像头转接器应运而生。 USB摄像头转接器…

多元回归预测 | Matlab海鸥算法(SOA)优化极限学习机ELM回归预测,SOA-ELM回归预测,多变量输入模型

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 多元回归预测 | Matlab海鸥算法(SOA)优化极限学习机ELM回归预测,SOA-ELM回归预测,多变量输入模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码 %% 清空环…

我的创作纪念日(一周年)

机缘 作为一位互联网安全专业的大一学生,我始终怀抱着提升自身技术能力、保护网络安全、推动互联网世界发展的初心。 通过实战项目的经验分享,我收获颇多。参与团队网络安全演练与攻防对抗,使我学会了应对不同类型攻击与漏洞,提…

vue(typescript)项目在vs中打开出现的各种问题

目录 vue3 报错解决:找不到模块或其相应的类型声明。(Vue 3 can not find module) (TS) 未知的编译器选项“allowImportingTsExtensions”。 TS6046 (TS) “--moduleResolution”选项的参数必须为 node, classic, node16, nodenext。…

FinalShell连接不上Ubantu

解决方法 1.ssh服务问题 1.先安装openssh-server服务 sudo apt install aopenssh-server 2.重启ssh服务 sudo systemctl restart ssh 2.防火墙问题 1. 直接关闭防火墙(最省时) ufw stop 2. 开放FinalShell要连接的端口号,下图。 ufw allow 22

python使用WxPusher自动向微信发送信息

Github地址:https://github.com/wxpusher/wxpusher-docs Demo演示功能:https://wxpusher.zjiecode.com/demo/ 使用说明文档:https://wxpusher.zjiecode.com/docs/#/ 使用方法 首先进入网址:https://wxpusher.zjiecode.com/admi…

【Linux】4、BootLoader:UBoot | BIOS、BMC 介绍

文章目录 一、bootloader1.1 uboot 二、BIOS2.1 grub 三、BMC3.1 原理3.2 使用场景3.3 IPMI 规范3.4 配置和使用3.4.1 通过 ipmitool 设置 BMC IP3.4.2 通过 BIOS 设置 BMC IP 一、bootloader 参考 windows开机时会首先加载bios,然后是系统内核,最后启…

糟糕透了!知识答题PK出线上bug了!复盘与总结一下吧

糟糕透了!知识答题PK出线上bug了!我来进行复盘与总结一下吧。 主要两大问题: 1、服务器问题:云数据库watch监听报错的问题; 2、卡bug问题:匹配成功或者pk开始后,有人中途退出的问题;…

数据库监控与调优【十九】—— SQL调优实战

SQL调优实战 SQL调优实战1-常规调优 项目建表语句 -- ---------------------------- -- Table structure for carousel -- ---------------------------- DROP TABLE IF EXISTS carousel; CREATE TABLE carousel (id varchar(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_09…

找不到mfc140u.dll怎么解决?mfc140u.dll丢失的三个解决方法

在使用Windows操作系统的时候,即使更新到最新系统,电脑系统偶尔也会出现系统报错,这个是由于Windows系统的开放性导致的。在系统报错的时候,只需要找对修复方法,对其进行修复即可,比如提示“由于找不到mfc1…

oracle只读打开数据库

客户经常有这样的需求,数据库已迁移,但还是希望原库可以打开,就只能只读模式打开了 方法一 SYSorcl> STARTUP OPEN READ ONLY; ORACLE instance started. Total System Global Area 4.0086E10 bytes Fixed Size 22549…

浅谈 Android Tombstone(墓碑日志)分析步骤

最近项目产品刚刚出货,客户退机、死机事件频发。日常解决bug中,少不了和墓碑日志打交道,截止今天之前,见到墓碑日志都是一脸懵逼,不知道怎么分析。最近又有了两个日志,硬着头皮看吧。之所以称之为浅谈&…

fail-safe 机制与 fail-fast 机制分别有什么作用

fail-safe 和 fail-fast ,是多线程并发操作集合时的一种失败处理机制。 Fail-fast : 表示快速失败,在集合遍历过程中,一旦发现容器中的数据被修改了,会立刻抛ConcurrentModificationException 异常,从而导致…

蓝奥声开发高性价比智能wifi插座进军智能家居

智能硬件的大潮袭来让智能家居这一并不新鲜的概念再次火热起来,关于智能家居的各种场景的描述给了我们很大的想象空间,然而落到实处真正开始走进生活时却又显得那么骨感,一时间作为智能家居的控制中介,小巧实用智能插座就成为家居…

多元分类预测 | Matlab粒子群算法(PSO)优化混合核极限学习机(HKELM)分类预测,多特征输入模型,PSO-HKELM分类预测

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 多元分类预测 | Matlab粒子群算法(PSO)优化混合核极限学习机(HKELM)分类预测,多特征输入模型,PSO-HKELM分类预测 多特征输入单输出的二分类及多分类模型。程序内注释详细,直接替换数据就可以用。程序语言为matl…

C++ 内联函数基本概念学习

https://blog.csdn.net/bcbobo21cn/article/details/71305186 这里是一些内联函数示例;有时间再逐个看; 学习一下内联函数的基本概念; 其基本概念有三点; 函数调用都有开销;如果函数体代码比较多,那么…