多模态论文阅读之VLMo

news2024/11/25 4:24:16

VLMo泛读

  • Title
  • Motivation
  • Contribution
  • Model
  • Expertiments
  • Summary

Title

VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts

Motivation

  1. CLIP和ALIGN都采用dual-encoder的方式分别编码图像和文本,模态之间的交互采用cosine similarity ,这种方法对retrieval tasks(检索任务)及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后来一系列的tasks,采用的fusion encoder 的方式,即一开始分来images and text 然后采用transformer的encoder 做cross-modal 的intersection,这样的architecture 弥补了dual encoder architecture的drawback,But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有没**有一种融合上述两种架构的方法呢?**做检索任务的时候用 dual-encoder架构,做classfication的时候用fusion encoder,所以本文提出了Mixture-of-Modality-Experts
  2. VLMo的训练loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一样的。提出了一个stagewise的预训练方法分别vision 和NLP中的large-scale corpus:首先在vision上训练好,再预训练language experts on text-only data,最后将模型用于vision-language pre-training。

Contribution

  1. 模型上的改进:Mixture-of-Modality-Experts
  2. 训练方式上的改进:分阶段模型预训练

Model

overview of the model

  1. 模型中所有的multi-head self-Attention都是share weights的
  2. 模型inference的时候很灵活,要做那个任务,切换到那个架构上就行。
  3. 分阶段训练策略
    stagewise pre-training

Expertiments

  1. 比ALBEF性能好很多
  2. 在更大的数据集上训练,数据变得更好。

Summary

  1. 就是把transformer里的encoder中的FFN分为了几个FFN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167720.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AERMOD模型在大气环境影响评价中的实践技术应用

随着我国经济快速发展,我国面临着日益严重的大气污染问题。近年来,严重的大气污染问题已经明显影响国计民生,引起政府、学界和人们越来越多的关注。大气污染是工农业生产、生活、交通、城市化等方面人为活动的综合结果,同时气象因…

ROS学习笔记(5):rviz和rosbag数据记录、回放

1.rviz 1.前提 rviz-三维可视化平台可以满足ROS针对机器人的可视化需求。在Gazebo那里也可以看到rviz可以让模型显示在rviz上。 2.rviz的安装与运行 1.rviz的安装 sudo apt-get install ros-melodic-rviz 2.rviz的运行 roscore rviz/rosrun rviz rviz 3.rviz界面 1.视图区…

历“九“弥坚,怿星战略转型开新篇

10月是收获的季节,也迎来了怿星9岁生日。1024,程序员节,作为一家技术人员占比超过75%的高新技术企业,怿星9周年庆典活动也在这一天如期而至。 我们坚定地走在正确的道路上 近两年,多重因素叠加导致行业动荡也带来了资…

喝酒聚会摇色子小程序源码系统+石头剪刀布+大转盘 带完整的部署教程

来咯来咯,大家都知道摇色子是一种古老而受欢迎的饮酒游戏。在当代年轻人的聚会中,常常都使用摇骰子这种方法来喝酒的。今天罗峰要给大家介绍是一款非常受欢迎的小程序源码系统喝酒聚会摇色子小程序源码系统,还有石头剪刀布,大转盘…

公司防泄密软件都有什么功能

公司防泄密软件都有什么功能 企业为什么要用到防泄密软件? 主要还是为了保护敏感的信息和数据,以减少数据泄漏和数据丢失的风险,并确保数据的机密性和完整性,然企业使用数据防泄密软件的原因有:保护敏感数据、合规性…

行政处罚类型有哪些?哪里能够查到一家企业的行政处罚信息?

在查询企业信息的时候,处理企业基础的工商信息之外,我们还会注意到到的就是企业的处罚信息。毕竟处罚可以直观反应出一个企业的违法违规行为,帮助我们直接了解企业。 那么,企业的行政处罚包括哪些内容呢? 根据《中华…

GEE:为程序添加警告(alert)

作者:CSDN @ _养乐多_ 在 Google Earth Engine (GEE)云平台进行开发时,有时候会需要对用户的错误操作做出提示,或者自己写脚本的时候,想要对错误做出警告,以方便用户的操作或者代码的调试。这个时候就需要为程序添加警告。 本文将介绍为程序添加警告(alert)的方法和…

PLC如何远程控制、调试?贝锐蒲公英二层组网功能一招搞定

在制造、交通、能源、采矿等领域,工业物联网是热门话题,各类采集、控制器、控制传感器通过网络互联,实现信息实时共享、交互后,不仅能快速了解生产过程数据,还能用于设备远程、调试维护等场景,对优化生产过…

“免单优选模式:引爆电商革命,颠覆传统购物体验!“

免单优选模式是一种新型的电商销售模式,其核心理念是通过降低商品售价、设置阶梯式奖励以及利用社交关系链,激发消费者购买欲望,实现销售快速增长。 1、合法合规,不存在多层级奖励。 在免单优选模式中,平台不设置多层…

PointNet 论文阅读

论文链接 PointNet Abstract 对于点云问题,由于其格式不规则,大多数研究人员将此类数据转换为规则的 3D 体素网格或图像集合。然而,这会导致数据不必要地庞大并导致问题在本文中,我们设计了一种直接消耗点云的新型神经网络&…

《黑客帝国:破解编程密码》——探索编程世界的奥秘

文章目录 前言黑客帝国代码雨UbuntuLinux世界的奥秘如何在Ubuntu中查看系统信息科普推荐书籍后记 前言 在电影《黑客帝国》问世后,它不仅带来了震撼视觉体验,更在技术和编程领域产生了深远的影响。这部电影,让人们对计算机和编程的认识进一步…

【TS篇一】TypeScript介绍、使用场景、环境搭建、类和接口

文章目录 一、TypeScript 介绍1. TypeScript 是什么1.2 静态类型和动态类型1.3 Why TypeScript1.4 TypeScript 使用场景1.5 TypeScript 不仅仅用于开发 Angular 应用1.6 前置知识 二、如何学习 TypeScript2.1 相关链接 三、起步3.1 搭建 TypeScript 开发环境3.2 编辑器的选择3.…

Spring启示录

2023.11.3 今天正式开始Spring的学习。这一章主要学习一些开发中的原则和思想,以此引出接下来要学的Spring框架。 OCP开闭原则 在软件开发过程中应当对扩展开放,对修改关闭。也就是说,如果在进行功能扩展的时候,添加额外的类是没问…

美国市场11大类目热销榜公开!哪些商品遥遥领先?

TikTok美国市场9月GMV远超市场预期,凸显出强劲的消费需求。 但10月战绩梅开二度了!为什么怎么说? 据超店有数平台数据监测,TikTok美国市场10月销售额大幅增长42%,商品数增长43%,商品销量增长43%&#xff…

深度学习_8_对Softmax回归的理解

回归问题,例如之前做房子价格预测的线性回归问题 而softmax回归是一个分类问题,即给定一个图片,从猫狗两种动物类别中选出最可靠的那种答案,这个是两类分类问题,因为狗和猫是两类 上述多个输出可以这样理解,假设一个图…

JDBC 操作BLOB类型的数据

1 操作BLOB类型字段 1.1 MySQL BLOB类型 MySQL中,BLOB是一个二进制大型对象,是一个可以存储大量数据的容器,它能容纳不同大小的数据。 插入BLOB类型的数据必须使用PreparedStatement,因为BLOB类型的数据无法使用字符串拼接写的。…

300万美元!澳大利亚昆士兰州投资当地首家量子公司AQC

澳大利亚模拟量子电路公司(AQC)联合创始人 Tom Stace 教授和 Arkady Federov 副教授(图片来源:网络) 澳大利亚风险投资基金会Uniseed为澳大利亚昆士兰大学的两名教授提供了300万美元的资金,资助他们创办了…

Linux内核input子系统详解

目录 1 input子系统整体架构 2 input子系统驱动框架分析 2.1 怎么添加input_dev 2.2 input_dev和input_handler匹配后,connec函数做了什么 3 input子系统读数据流程 3.1 open输入设备流程 3.2 read读取输入事件流程 4 应用程序读取的输入数据是怎样的 4.1 …

支付宝AI布局: 新产品助力小程序智能化,未来持续投入加速创新

支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA收款等生活服务应用。 支付宝不仅是一个支付工具,也是一个数字生活平台,通过…

cplex基础入门(三)之运行调试debug

聊聊题外话,你用cplex进行代码编写,其实你也可以相当于在编程一样,那对于编程,有一项非常核心的能力就是代码调试以及debug的能力,那你运行以及编写cplex也是一样,同样需要你会使用调试的方式,来…