(论文阅读51-57)图像描述3 53

news2024/11/16 19:30:49

51.文献阅读笔记(KNN)

简介

题目

Exploring Nearest Neighbor Approaches for Image Captioning

作者

Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, C. Lawrence Zitnick, arXiv:1505.04467

原文链接

http://arxiv.org/pdf/1505.04467.pdf

关键词

KNN、image caption

研究问题

image captioning

研究方法

explore a variety of nearest neighbor baseline approaches for image captioning。

首先查找相似图像,然后复制其标题来生成图像标题的方法

泛化到训练集以外的图像:测量每张测试图像与训练集中图像的相似度。然后,我们就可以检查各种方法在不寻常或更多样化的图像上的表现。

研究结论

更灵活、更受喜爱

创新不足

对于图片描述的评分有一定问题,对机器生成的文字评分更高,但是实际人类生成的文字更受喜爱。

额外知识

GIST

52.文献阅读笔记

简介

题目

Language Models for Image Captioning: The Quirks and What Works

作者

Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig, Margaret Mitchell, arXiv:1505.01809

原文链接

http://arxiv.org/pdf/1505.01809.pdf

关键词

现有方法性能比较

研究问题

image captioning

研究方法

研究结论

懒得看了

创新不足

额外知识

maximum entropy (ME) language model:最大熵( ME )语言模型

Cnn生成一组候选词,然后使用最大熵( ME )语言模型将这些词排列成一个连贯的句子。

第二种是将卷积神经网络的倒数第二个激活层作为循环神经网络( RNN )的输入,然后生成字幕序列。

BLUE评分:

Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型 - Determined22 - 博客园 (cnblogs.com)

53.文献阅读笔记

简介

题目

 What Value Do Explicit High Level Concepts Have in Vision to Language Problems?

作者

Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick, arXiv:1506.01144

原文链接

arXiv:1506.01144

关键词

研究问题

从视觉到语言(V2L)问题的最新进展主要是通过卷积神经网络(CNN)和循环神经网络(RNN)的结合实现的。这种方法并不明确表示高级语义概念,而是寻求从图像特征直接转化为文本。在本文中,我们将研究这种直接方法是否因其避免明确表示高级信息而取得成功。

研究方法

提出了一种将高级概念纳入成功的 CNN-RNN 方法的方法。

我们的视觉属性作为图像内容的高级语义表征,被输入到一个 LSTM 中,该 LSTM 会根据更大的词汇量生成目标句子。

在主要的 CNN-LSTM 框架中引入中间属性预测层的效果。

研究结论

证明这种方法在图像字幕和视觉问题解答方面都比最先进的方法有显著提高。我们还证明,同样的机制可用于引入外部语义信息,并能进一步提高性能。

创新不足

额外知识

CNN 作为图像 "编码器",生成固定长度的向量表示,然后将其输入 "解码器 "RNN 以生成字幕。

54.文献阅读笔记(有点注意力机制的意思)

简介

题目

Learning language through pictures

作者

Grzegorz Chrupala, Akos Kadar, Afra Alishahi,

原文链接

arXiv:1506.03694

关键词

研究问题

研究方法

提出了IMAGINET,一个从耦合的文本和视觉输入中学习基于视觉的语言表示的模型。该模型由两个具有共享词嵌入的门控循环单元网络组成,通过接收场景的文本描述并试图同时预测其视觉表征和句子中的下一个单词来使用多任务目标。

研究结论

它从对视觉场景的描述中获得单个单词的意义表征。而且,它学会了在多词短语的语义解释中有效地使用序列结构。

创新不足

额外知识

55.文献阅读笔记(对注意力机制的理解)

简介

题目

Describing Multimedia Content using Attention-based Encoder-Decoder Networks

作者

Kyunghyun Cho, Aaron Courville, Yoshua Bengio,

原文链接

arXiv:1507.01053

关键词

研究问题

基于注意力的编码器-解码器模型,四个最新应用:机器翻译、图像标题生成、视频描述生成和语音识别

研究方法

研究结论

创新不足

这意味着注意力机制的最终目标是帮助编码器-解码器模型进行多媒体内容描述。然而,这不应被视为注意力机制唯一可能的应用。注意力机制除了能带来卓越的性能外,还能用于提取两种完全不同的模式之间的底层映射,而无需对映射进行明确的监督。基于注意力的模型能够以一种无监督的方式推断出不同模态(多媒体及其文本描述)之间的对齐方式,在没有太多先验知识/领域知识的情况下,这种基于注意力的模型完全可以用来从一对模态中提取这些潜在的、往往是复杂的映射。

额外知识

56.文献阅读笔记

简介

题目

Image Representations and New Domains in Neural Image Captioning

作者

Jack Hessel, Nicolas Savva, Michael J. Wilber,

原文链接

arXiv:1508.02091

关键词

研究问题

即使在图像表示质量很差的情况下,最先进的神经描述算法也能够产生高质量的描述。我们将这一结果复制到一个新的、细粒度的、迁移学习的字幕域中

研究方法

研究结论

展示了 CNN 分类准确性与最先进的神经字幕算法生成的字幕质量之间的关系。训练越来越精确的图像分类器在达到一定程度后并不会带来更好的字幕。字幕质量的这种早期饱和现象表明,神经字幕生成算法的性能很可能无法通过生成更精确的 CNN 而直接提高。

此外,NIC 等模型输出的许多明显具有高度特异性的生成字幕很可能是由于语言模型捕获了粗粒度信息并生成了相应的可信自然语言序列。

图像特征过度拟合的作用很难量化。

一方面,图像表征中包含了额外的信息,而 NIC 等模型并没有利用这些信息,甚至通常会过度拟合图像表征。但是,目前还不清楚这些额外的、细粒度的信息是否值得考虑。基于离散图像表征生成语言的模型(例如(Young 等人,2014 年))所取得的成功表明,不考虑丰富的实值向量特征,算法也能达到最先进的性能。这些类型的模型很可能也不容易过度拟合。

创新不足

额外知识

57.文献阅读笔记(RCCA)(图像查询)

简介

题目

Learning Query and Image Similarities with Ranking Canonical Correlation Analysis

作者

Ting Yao, Tao Mei, and Chong-Wah Ngo, ICCV, 2015

原文链接

关键词

研究问题

图像搜索的基本问题之一是学习排名函数,即查询和图像之间的相似性。关于这一主题的研究已经发展出两种范式:基于特征的向量模型和图像排序器学习。前者依赖于图像周围的文本,而后者则根据人类标记的查询-图像对学习排序器。

研究方法

向量模型对文本描述的质量很敏感,而学习范式则很难扩展,因为获得人工标注总是过于昂贵。我们在本文中证明,通过共同探索子空间学习和使用点击数据,可以很好地缓解上述两个局限性。具体来说,我们提出了一种用于学习查询和图像相似性的新颖的排序典型相关分析法(RCCA)。

RCCA 最初通过最大化查询和图像视图之间的相关性来找到它们之间的共同子空间,并进一步同时学习双线性查询图像相似性函数和调整子空间以保留点击数据中隐含的偏好关系。一旦子空间最终确定,查询-图像相似度就可以通过双线性相似度函数计算出它们在该子空间中的映射关系。

研究结论

创新不足

额外知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1234288.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PHP中isset() empty() is_null()的区别

在PHP中,isset()、empty()和is_null()是用于检查变量状态的三个不同的函数。它们分别用于检查变量是否已设置、是否为空以及是否为null。在本文中,我们将详细解释这三个函数的用法、区别和适当的使用场景。 isset(): isset()函数用于检查一个变量是否已…

SystemV

一、共享内存 1、直接原理 进程间通信的本质是:先让不同的进程,看到同一份资源!! 我们要把这句话奉若圭臬一般 到了共享内存了支持双向通信能读也能写,但是一般都是一个读一个写 要想通信先看到同一个份资源&#xff0…

Spring-IOC-FactoryBean机制(难点且重点)

1、第一个案例 1.1、Book.java package com.atguigu.ioc; import lombok.Data; Data public class Book {private String bid;private String bname; }1.2、Book2.java package com.atguigu.ioc; import lombok.Data; Data public class Book2 extends Book {private String co…

数字化转型导师坚鹏:数字化时代银行网点厅堂营销5大难点分析

数字化时代银行网点厅堂营销存在以下5大难点: 1、识别难。识别有效的客户比较难,传统的厅堂识别主要依据客户的衣着气质等主管感受,判断客户是否为潜在中高端客户,提供相关服务。大堂经理主管识别与智能化系统识别相结合&#xf…

新安装win11,搜索框无法输入的问题

正确的做法是如下: 1首先进入win11系统,在搜索框中输入“ 控制面板 ”将其打开2在控制面板中找到“时间和语言“ 标题 再选择“ 语言和区域”, 标题 在显示的语言上面,点击省略号,进入语言选项 标题 在键盘处,删除不需要的输入法…

speech studio-神经网络定制自己的声音

Speech Studio - 神经网络定制声音 - 概述 (microsoft.com)

Zero-Shot Restoration of Back-lit Images Using Deep InternalLearning

ABSTRACT 如何恢复背光图像仍然是一项具有挑战性的任务。该领域最先进的方法基于监督学习,因此通常仅限于特定的训练数据。在本文中,我们提出了一种用于背光图像恢复的“零样本”方案,该方案利用深度学习的力量,但不依赖于任何先…

从大模型到内容生成,初窥门径的AI新次元

视频云AI进化新纪元。 最近Gartner发布2024年十大战略技术趋势,AI显然成为其背后共同的主题。全民化的生成式人工智能、AI增强开发、智能应用......我们正在进入一个AI新纪元。 从ChatGPT的横空出世,到开发者大会的惊艳亮相,OpenAI以一己之力…

JVM--Java虚拟机

0. java代码的执行过程 了解Java虚拟机(JVM)首先需要了解一下一段Java代码的具体执行过程。 Java代码的具体执行过程如下: 执行 javac 命令编译源代码为字节码执行 java 命令,二进制字节码通过解释器翻译为机器码 创建 JVM&…

《QT从基础到进阶·三十五》QT插件实现侧边工具栏tabBar

tabBar是用QT插件实现的一个dll,对于插件的使用可以参考文章: 《QT从基础到进阶三十三》QT插件开发QtPlugin 源码放在文章末尾 该功能类似侧边工具栏,可以在该标签栏上添加自己开发的界面,实现代码如下: 1、所有功能…

【大数据分布并行处理】实验测试(一)

文章目录 测试任务1测试任务2测试任务3 测试任务1 使用HDFS相关命令完成下列四个操作(20分) 操作1:在HDFS根目录创建以自己名字命名的目录,并查看是否创建成功(5分)。 提示:截图包括&#xff…

目标检测 详解SSD原理,数据处理与复现

原理详解 前言 今天我们要读的这篇VGGNet(《Very Deep Convolutional Networks For Large-Scale Image Recognition》),就是在AlexNet基础上对深度对网络性能的影响做了进一步的探索。它是ImageNet 2014年亚军,相比于AlexNet&am…

智能车入门补充篇——电感值处理、转向控制与巡线

冒泡法 冒泡法是一种简单的排序算法,它重复地遍历要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。遍历数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。冒泡排序的时间复杂度为O(n^…

电脑上可以写便签的软件哪些界面比较可爱且好用?

电脑上可以安装使用的便签类软件比较多,在选择使用电脑便签软件时,很多人对便签的外观界面还是比较在意的,一个好看的便签界面在一方面可以引起大家的注意,另一方面可以增加电脑桌面背景和便签类软件的协调性。 电脑便签软件通常…

Web测试中文件上传测试

总体情况 1、功能实现: (1)文件类型正确、大小合适 (2)文件类型正确,大小不合适 (3)文件类型错误,大小合适 (4)文件类型和大小都合适&#x…

引迈-JNPF低代码项目技术栈介绍

从 2014 开始研发低代码前端渲染,到 2018 年开始研发后端低代码数据模型,发布了JNPF开发平台。 谨以此文针对 JNPF-JAVA-Cloud微服务 进行相关技术栈展示: 1. 项目前后端分离 前端采用Vue.js,这是一种流行的前端JavaScript框架&a…

风丘远程试验管理平台TFM 支持“一键式“数据管理和监控

随着信息技术的高速发展,企业对远程试验实时监控与数据管理的需求日益增强。而利用远程试验信息协同技术,可突破部门与地域的限制,并把试验现场的车辆状态信息、试验数据和分析结果实时传输给数据分析部门和设计部门等,从而缩短时…

SQL的连接join

一、连接说明 union、intersect等集合运算,它的特征是以 “行” 为单位进行操作,通俗点说,就是进行这些集合运算,会导致记录行数的增减,使用union会增加记录行数,使用 intersect 或 expect 会减少行记录&a…

印刷企业数字工厂管理系统建设方案

随着科技的飞速发展,传统印刷企业正面临着前所未有的挑战。产能短缺、质量控制不足、成本控制不力以及服务质量不高等问题成为了制约企业发展的瓶颈。为了解决这些问题,印刷企业需要积极拥抱数字化转型,构建数字工厂管理系统。 一、印刷企业数…

Figma 是什么软件?为什么能被Adobe收购

很多人一定早就听说过Figma的名字了。看到很多设计同行推荐,用了很久,疯狂的安利朋友用。是什么让这么多设计师放弃了FigmaSketch的魅力?下面的内容将详细分享一些与Figma相关的知识点,并介绍这个经常听到但不熟悉的工具。 Figma…