CIDEr(Consensus-based Image Description Evaluation)的计算

news2024/11/23 12:10:48

CIDEr(Consensus-based Image Description Evaluation)

论文原文 CIDEr: Consensus-based Image Description Evaluation

CIDEr(Consensus-based Image Description Evaluation)是一种用于自动评估图像描述(image captioning)任务性能的指标。它主要通过计算生成的描述与一组参考描述之间的相似性来评估图像描述的质量。CIDEr的独特之处在于它考虑了人类对图像描述的共识,尝试捕捉描述的自然性和信息量。

计算过程

定义

计算关于图片 I i I_i Ii 生成的描述 c i c_i ci 与一组给定图片描述 S i = { s i 1 , … , s i m } S_i = \{s_{i1}, \dots, s_{im} \} Si={si1,,sim} 的一致性。

计算一个词组(wk)的权重

一个n-gram词组 w k w_k wk 出现在参考句子(生成描述)中的次数记为 h k ( s i j ) h_k(s_{ij}) hk(sij) h k ( c i ) h_k(c_i) hk(ci) )。

首先,为每个n-gram词组 w k w_k wk 计算TF-IDF权重( g k ( s i j ) g_k(s_{ij}) gk(sij) ):

其中 Ω Ω 表示包含所有n-gram词组的词典, I I I 是数据集中所有图片的集合。

前面的算式计算的是每个 w k w_k wk 的TF,第二个算式计算的是 w k w_k wk 的稀有程度(IDF)。

简单来说,

前面的算式 = w k 在当前句子 ( s i j ) 的出现次数 每个 w 在当前句子的出现次数之和 前面的算式 = \frac{w_k在当前句子(s_{ij})的出现次数}{每个w在当前句子的出现次数之和} 前面的算式=每个w在当前句子的出现次数之和wk在当前句子(sij)的出现次数

后面的算式 = log ⁡ 数据集图片数量 给定描述中出现过 w k 的图片数量 后面的算式 = \log \frac{数据集图片数量}{给定描述中出现过w_k的图片数量} 后面的算式=log给定描述中出现过wk的图片数量数据集图片数量

前面是词组在当前句子中的重要程度,后面是词组在整个数据集中的出现概率的倒数。整体作用跟tf-idf类似。

TF-IDF(term frequency–inverse document frequency)

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

百度百科:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。

顾名思义,Tf-idf由tf和idf两部分组成,tf是指一个词在当前document里面出现的频率,idf是指这个词在全体语料库中出现频率的倒数。根据这个定义,说明一个词对于一个document的重要程度与这个词出现在当前document的频率成正比,与出现在全体语料库中的频率成反比。通俗理解,一个词在一篇文章中出现次数越多,这个词对这篇文章越重要;在全体语料中出现频率越多,说明,这个词只是一个常用词而已,两者乘积就是Tf-idf。注意:这里document不一定是文章,可能是句子之类的,或者是其他的。

公式为:

其中 t f ( d , w ) tf(d,w) tf(d,w) 是文档d中w的词频, i d f ( w ) = log ⁡ N N ( w ) + 1 idf(w) = \log\frac{N}{N(w) + 1} idf(w)=logN(w)+1N ,+1是为了避免单词未出现导致分母为0。

  • N表示预料中的文本总数
  • N(w)表示w出现在多少个文档中。

当某个词在当前文档中出现频率比较高,而且在整体语料库中的出现的概率较小,这样的词会获得较大权重,因此TF-IDF倾向于过滤掉常见的词语,而保留对某一篇文档来说出现频率高的词。

这里需要补充一点,tf是一个词在当前文档中的词频,也就是这个词出现的次数,这里就引出了另外的一个问题,就是如果某篇文档的总词数远大于其他文档,那么不管重要与否它的词通常拥有更高的词频,因此通常对tf进行归一化,也就是用当前文档某个词的词频除以当前文档总词数。

计算n-gram的CIDEr

对于n-gram的某个特定情况,如n=1,2,…,会有一个特定的值 C I D E r n CIDEr_n CIDErn ,计算公式如下:

其中 g n ( c i ) \textbf{g}^\textbf{n}(c_i) gn(ci) 是一个向量,由所有当前设置n下的词组计算的 g k ( c i ) g_k(c_i) gk(ci) 构成, ∣ ∣ g ∣ ∣ ||\textbf{g}|| ∣∣g∣∣ 是向量的长度,用来归一化。 s i j s_{ij} sij 计算方式一样; j j j 为当前图片所拥有的给定描述长度。

简单来说, C I D E R n ( c i , S i ) = 1 / m ∑ j 所有 n − g r a m 词组对于 c i 的 g 构成的向量 ⋅ 所有 n − g r a m 对于 s i j 的 g 构成的向量 归一化 CIDER_n(c_i, S_i) = 1 / m \sum_j\frac{所有n-gram词组对于c_i的g构成的向量 \cdot 所有n-gram对于s_{ij}的g构成的向量}{归一化} CIDERn(ci,Si)=1/mj归一化所有ngram词组对于cig构成的向量所有ngram对于sijg构成的向量

这里的”所有n-gram词组”应该是 { w i ∣ w i ∈ c i  or  w i ∈ S i } \{w_i | w_i \in c_i \text{ or } w_i \in S_i \} {wiwici or wiSi} ,即候选句子和给定句子集合中的所有n-gram词组。

整体CIDEr

就是循环计算n=1,2,3,…的 C I D E r n CIDEr_n CIDErn ,然后求均值:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1893681.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

吴恩达深度学习笔记:机器学习策略(2)(ML Strategy (2)) 2.3-2.4

目录 第三门课 结构化机器学习项目(Structuring Machine Learning Projects)第二周:机器学习策略(2)(ML Strategy (2))2.3 快速搭建你的第一个系统,并进行迭代(Build your first system quickly…

师从IEEE fellow|博士后加拿大阿尔伯塔大学成行

V老师指定申请加拿大,优先对方出资的博士后,如果外方无资助,也可以自筹经费,但要求必须是博士后头衔。最终我们为其落实了加拿大阿尔伯塔大学的postdoctoral fellow(博士后研究员),尽管是无薪职…

三菱plc gxwork3 0X121201F 报错;三菱标签区域的保留容量不足;

如果占用过多把r文件寄存器的地址范围改小,一般文件寄存器的地址r0-8000足够了

腾讯课堂即将停止服务?来试试这款开源的知识付费系统

项目介绍 本系统基于ThinkPhp5.0layuiVue开发,功能包含在线直播、付费视频、付费音频、付费阅读、会员系统、分销系统、拼团活动、直播带货、直播打赏、商城系统等。能够快速积累客户、会员数据分析、智能转化客户、有效提高销售、吸引流量、网络营销、品牌推广的一款应用&…

2024 世界人工智能大会暨人工智能全球治理高级别会议全体会议在上海举办,推动智能向善造福全人类

2024 年 7 月 4 日,2024 世界人工智能大会暨人工智能全球治理高级别会议-全体会议在上海世博中心举办。联合国以及各国政府代表、专业国际组织代表,全球知名专家、企业家、投资家 1000 余人参加了本次会议,围绕“以共商促共享,以善…

微软发布了Win11 24H2版本的首个设置动态更新和恢复!

系统之家于7月3日发出最新报道,微软针对Win11 24H2版本发布了首个设置动态更新(Setup Dynamic Update)KB5039448。此次更新主要改进了Win11 24H2的安装文件以及用户在升级、安装到24H2版本过程中可能会使用到的所有文件。 系统之家附上 Windows 11 24H2 的完整发布时…

mac视频压缩简单办法,mac如何把视频压缩到指定大小内存

在数字时代,视频已成为我们日常生活和工作的重要交流工具。然而,视频文件体积庞大,给存储和分享带来了不少困扰。本文将为你揭秘视频压缩的秘密,让你轻松减小视频文件体积,提升分享效率! 方法一下载文件压缩…

PLC工作原理

PLC(可编程逻辑控制器)的工作原理简述为:集中采样、集中输出、周期性循环扫描。 西门子PLC 一、集中采样 顺序读取所有输入端子的通断状态,并将所读取的信息存到输入映像寄存器中,此时输入映像寄存器被刷新&#xff…

Pylons 和 Flex 3

“Pylons” 和 “Flex 3” 是两个不同的技术,各自有着不同的背景和应用场景: Pylons Pylons 是一个 Python Web 框架,用于快速开发 Web 应用程序。它强调简单性、灵活性和可扩展性,以便开发人员能够快速构建和部署功能强大的 We…

100个名人的家,娄艺潇的家:大美国色,浪漫栖居

冠珠瓷砖「100个名人的家」,大美筑家,中国冠珠2024大美筑家之旅,冠珠瓷砖「100个名人的家」,探索中国人的烟火浪漫与美学追求。从中国家文化、人文居所、人生底蕴层面,发掘大美人居的故事,以中国瓷砖、空间…

TypeError: Cannot read properties of null (reading ‘nextSibling‘)

做项目用的Vue3Vite, 在画静态页面时,点击菜单跳转之后总是出现如下报错,百思不得其解。看了网上很多回答,也没有解决问题,然后试了很多方法,最后竟然发现是template里边没有结构的原因。。。 原来我的index.vue是这样…

java基础:数组

一、概述 1、数组是相同类型数据的有序集合 2、数组描述的是相同类型的若干个数据,按照一定的先后次序排列组合而成 3、每一个数据称作一个数组元素,每个数组元素可以通过一个下标来访问它们 二、声明创建 1、先声明数组变量,才能在程序中…

原创作品 —(金融行业)年金系统交互和视觉设计

金融行业软件交互设计要点:“简化操作流程,确保流畅易用,同时注重交易环境的安全可靠,通过个性化体验提升用户满意度,并及时收集反馈以持续优化。” 2.UI设计要点:“注重视觉效果与用户体验的平衡&#xff…

从CVPR 2024看 NeRF 最新改进&应用

三维重建领域必不可少的NeRF技术最近又有新突破了! 首先是SAX-NeRF框架,专为稀疏视角下X光三维重建设计,无需CT数据进行训练,只使用 X 光片即可,等于给NeRF开透视眼! 还有清华提出的GenN2N,一…

7月2日PythonDay1

阶段一阶段导学 测试人员为什么要学习编程? Python是一门快速增长的计算机编程语言 白盒测试、自动化测试、测试开发 为什么学习Python? 相对于其他编程语言更简单 语言开源并且免费 使用人群广泛 应用领域广泛 学习目标 掌握python基础语法&…

你们叫AI,我们叫DI

大家好,才是真的好。 最近Notes/Domino产品在做哪些更新,想必大家都很好奇。 从2022年年末到现在,快两年了,任何一个有追求的大企业或巨头,应该都在追求实现一件事情:AI人工智能。 从小道消息来看&#…

Django创建项目

虚拟环境创建成功 使用命令行创建项目 创建一个文件夹,用pycharm打开,将之前创建好的虚拟环境选中(这一步不在仔细赘述了,比较简单) cd进入虚拟环境所在文件目录,打开虚拟环境pipenv shell 创建django项…

PDF怎么分割成一页一页的?原来可以这么轻松

PDF怎么分割成一页一页的?PDF文档因其跨平台兼容性和可打印性而被广泛使用,但有时为了便于发送电子邮件、管理文档或保护敏感信息,我们需要将一个大型的PDF文件分割成多个小文件。幸运的是,分割PDF文件并不复杂。下文中就介绍了三…

【讲解下AI Native应用中的模型微调】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

django开源电子文档管理系统_Django简介、ORM、核心模块

Django简介 Django是一种开源的大而且全的Web应用框架,是由python语言来编写的。他采用了MVC模式,Django最初是被开发来用于管理劳伦斯出版集团下的一些以新闻为主内容的网站。一款CMS(内容管理系统)软件。并于 2005 年 7 月在 BSD 许可证下发布。这套框…