神经网络论文研读-多模态方向-综述研读(上)

news2025/1/22 12:31:12

翻译以机翻为主

原文目录

在这里插入图片描述

前言

在这里插入图片描述
图1:LMU印章(左)风格转移到梵高的向日葵绘画(中)并与提示混合 - 梵高,向日葵 -通过CLIP+VGAN(右)。在过去的几年中,自然语言处理(NLP)和计算机视觉中使用的方法取得了一些突破。除了对单模态模型的这些改进之外,大规模多模态方法已成为一个非常活跃的研究领域。在本次研讨会中,我们回顾了这些方法,并试图创建一个坚实的该领域的概述,从当前最先进的方法分别是深度学习的两个子领域。此外,建模框架讨论一种模态转换为另一种模态的地方 第 3.1 章和第3.2章),以及利用一种模式来加强对方的表征学习(第3.3章和第3.4章)。总结第二部分,体系结构侧重于处理两者同时介绍了各种模式(第3.5章)。最后,我们还介绍了其他模式(第4.1章和第4.2章)以及通用多模态模型(第4.3章),能够处理不同的任务一个统一架构中的不同模式。一个有趣的应用“(生成艺术,第4.4章)最终完成了这本小册子。

在这里插入图片描述

## Foreword

本书是大学教学实验的结果。我们是受到克里斯托夫·莫尔纳(Christoph Molnar)周围的一群其他博士生的启发,他们以这种形式举办了另一场关于可解释机器学习的研讨会。而不是让每个学生在研讨会论文上工作,这或多或少与其他学生隔离,我们希望促进学生之间的合作学生并使他们能够产生一个有形的输出(这不是写的
将其余时间花在(数字)抽屉中)。在2022年夏季学期,一些统计学、数据科学和计算机科学专业的学生报名参加了我们的研讨会题为“多模态深度学习”,并有(在启动前会议)不知道他们报名了什么:写了一整本书到学期末。我们受到举办研讨会的考试规则的约束,但是否则,我们可能会偏离传统格式。我们在几个方面偏离了方式:

  1. 每个学生项目都是本小册子的一章,内容链接到其他伴侣,因为主题。
  2. .我们给学生挑战,而不是论文。挑战是调查来自的特定有影响力的近期模型或方法NLP,计算机视觉或多模态学习领域。
  3. 我们设计的作品超越了研讨会。
  4. 我们强调合作。学生写了引言小组章节并相互审查单独的文本。

在这里插入图片描述

摘要

在这里插入图片描述
人类有五种基本感官:听觉、触觉、嗅觉、味觉和视觉。
拥有这五种模式,我们能够感知和理解我们周围的世界。因此,“多模式”意味着组合不同的渠道同时了解我们周围的信息。例如当幼儿学习“猫”这个词时,他们会使用不同的方式说这个词大声说出来,指着猫,发出“喵喵”的声音。使用人类学习过程作为榜样,人工智能(AI)研究人员还可以尝试结合不同的模式来训练深度学习模型。安娜从表面上看,深度学习算法基于神经网络经过训练以优化一些目标,该目标通过所谓的损失函数。优化,即最小化损失,是通过称为梯度下降的数值过程。因此,深度学习模型只能处理数字输入,并且只能生成数字输出。然而,在多模式任务中,我们经常遇到非结构化数据喜欢图片或文字。因此,第一个主要问题是如何表示以数字方式输入。关于多式联运任务的第二个问题是如何正是为了结合不同的模式。例如,一个典型的任务可能是训练深度学习模型以生成猫的图片。首先计算机需要理解文本输入“cat”,然后以某种方式理解将此信息转换为特定图像。因此,有必要识别文本输入中的单词与图像输出中像素之间的空间关系。什么可能很容易对于学龄前的幼儿来说,对计算机来说是一个巨大的挑战。两者都必须学习对包含含义和动物的外观。现代深度学习的常见方法是生成嵌入,在某些数字上将猫表示为向量潜在空间。然而,为了实现这一目标,不同的方法和算法。
近年来已经开发了架构。本书给出了一个概述最先进的(SOTA)多模态深中使用的不同方法学习克服非结构化数据和组合带来的挑战不同模式的输入。

在这里插入图片描述

小册子大纲

由于多模态模型通常使用文本和图像作为输入或输出,因此方法。自然语言处理(NLP)和计算机视觉(CV)作为第2章的基础介绍。NLP领域的方法尝试处理
文本数据,而CV处理图像处理。关于NLP(第2.1小节),一个非常重要的概念是所谓的词嵌入,如今,这是(几乎)所有多模态深度学习的重要组成部分。架构。这一概念也为基于变压器奠定了基础像BERT(Devlin等人,2018a)这样的模型取得了巨大的改进在几个 NLP 任务中。特别是(自我)注意机制(Vaswani等人,2017a)的变压器彻底改变了NLP模型,这就是为什么他们中的大多数依靠变压器作为骨干。在计算机视觉中(第 2.2 小节)不同的网络架构,即ResNet(He等人,2015),EfficientNet(Tan和Le,2019a),SimCLR(Chen等人,2020a)和BYOL(Grill等人,2020b),将推出。在这两个领域,比较不同的方法及其在具有挑战性的基准上的表现。为因此,第2章最后2.3小节对CV和自然语言处理。第二章(见3)侧重于不同的多式联运架构,涵盖了文本和图像如何组合的各种方式。所呈现的模型结合并推进了NLP和CV的不同方法。首先查看Img2Text任务(小节3.1),数据集Microsoft COCO对象识别(Lin等人,2014a)和网格记忆转换器
图像字幕(M2变压器)(Cornia等人,2019)将被展示。相反,研究人员开发了基于生成图片的方法短文本提示(第 3.2 小节)。完成此任务的第一个模型
是生成对抗网络(GAN)(Goodfellow等人,2014b)和变分自动编码器(VAE)(Kingma和Welling,2019)。这些方法近年来得到了改进,今天的SOTA变压器架构和文本引导扩散模型,如 DALL-E(Ramesh 等人,2021a)和 GLIDE(尼科尔等人,2021a)取得了显着的成果。另一个有趣的问题是利用图像来支持语言模型的方式(第3.3小节)。这可以通过顺序嵌入、更高级的接地嵌入来完成或者,再次,在变压器内部。另一方面,也可以查看文本.

因为翻译问题,本文变压器一律代指transformer

支持 CV 模型,如 CLIP(Radford 等人,2021b)、ALIGN(Jia 等人,2021a)和佛罗伦萨(Yuan 等人,2021)(第 3.4 小节)。他们使用粉底模型意味着重用模型(例如 DALL-E 2 中的 CLIP)以及将文本与图像连接起来的对比损失。此外,零射击使无需昂贵的微调即可对新的和看不见的数据进行分类。尤其是用于图像的开源架构 CLIP(Radford 等人,2021b)分类和世代在去年引起了很多关注。最后第二章,一些处理文本和图像的进一步架构同时引入(第3.5小节)。例如,Data2Vec 使用言语、视觉和语言的学习方法相同,并以这种方式旨在找到一种通用方法来处理一个体系结构中的不同模式。此外,VilBert(Lu等人,2019a)扩展了流行的BERT架构。通过实现协同注意来处理图像和文本作为输入。这方法也用于谷歌的 Deepmind 火烈鸟(Alayrac 等人,2022 年)。在此外,火烈鸟旨在用一种视觉语言处理多项任务通过少镜头学习和冻结预先训练的视觉和语言进行建模
型。在最后一章(见4)中,介绍了也能够处理的方法文本和图像以外的形式,例如视频、语音或表格数据。这里的总体目标是找到一个基于以下挑战而不是模式。因此,需要处理问题多模态融合和对齐,并决定是使用连接还是协调代表(第4.1小节)。此外,我们更详细地介绍关于如何准确组合结构化和非结构化数据(小节)4.2). 因此,近年来发展起来的不同融合策略将是提出。本书通过生存分析中的两个用例来说明这一点。和经济学。除此之外,另一个有趣的研究问题是如何
在一个所谓的多用途模型中处理不同的任务(小节 4.3),例如它旨在由谷歌研究人员(Barham 等人,2022 年)在他们的“途径”模式。最后但并非最不重要的一点是,我们展示了一个示例性应用程序艺术场景中的多模态深度学习,其中图像生成模型像 DALL-E(拉梅什等人,2021a)是用于在该地区创作艺术品生成艺术(第4.4小节)

介绍模式

作者:杰姆·阿库斯、弗拉达纳·贾科维奇、克里斯托弗·本杰明·马夸特
主管:马蒂亚斯·阿森马赫
自然语言处理(NLP)已经存在了大约50年,但是它比以往任何时候都更加重要。在以下方面取得了多项突破这个机器学习分支,涉及口语和书面语言。例如,学习单词的内部表示是其中之一过去十年取得更大进展。词嵌入(Mikolov et al. (2013a),Bojanowski et al. (2016))使之成为可能,并允许开发人员编码单词作为捕获其基础语义内容的密集向量。在此方式,相似的单词在低维中彼此靠近嵌入功能空间。编码器-解码器解决了另一个重要挑战(也称为序列到序列)架构Sutskever等人(2014),其中可以将输入序列映射到不同长度的输出序列。它们对于机器翻译、视频等复杂任务特别有用字幕或问答。这种方法做出最少的假设在序列结构上可以处理不同的词序并活跃,以及被动语态。一个绝对重要的最先进的技术是Attention Bahdanau等人。(2014),它使模型能够像人类一样主动转移注意力做。它允许一次遵循一个想法,同时抑制信息与任务无关。因此,它已被证明显着提高机器翻译等任务的性能。通过给解码器访问直接查看源头,避免了瓶颈和
同时,它提供了通往遥远状态的快捷方式,从而有助于梯度消失问题。最新的序列数据建模之一技术是变形金刚(Vaswani等人(2017b)),它完全基于。注意,不必按顺序处理输入数据(如 RNN)。因此,深度学习模型在记忆上下文诱导方面更好。在长序列中较早。它是目前NLP的主导范式,并且甚至可以更好地利用 GPU,因为它可以执行并行操作。变压器架构,如BERT(Devlin等人,2018b),T5(Raffel等人,2019a)或GPT-3(Brown等人,2020)在大型语料库上进行预训练,并且可以针对特定语言任务进行微调。他们有能力生成故事、诗歌、代码等等。在上述的帮助下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/895292.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL系列】表内容的基本操作(增删查改)

「前言」文章内容大致是对MySQL表内容的基本操作,即增删查改。 「归属专栏」MySQL 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 一、MySQL表内容的增删查改1.1 Create1.1.1 单行数据全列插入1.1.2 多行数据指定列插入1.1.3 插入否则更新1.1.4 数据替换 1.2 Ret…

Vue 2自定义指令入门

Vue 2自定义指令入门 Vue自定义指令允许我们在DOM元素上添加自己想要的行为来扩展Vue的功能。 一个自定义指令需要一个名称和一个定义对象。在定义对象中,你可以使用一些钩子函数来控制指令的行为: bind:在指令被绑定到元素上时使用&#…

ShardingSphere 可观测 SQL 指标监控

ShardingSphere并不负责如何采集、存储以及展示应用性能监控的相关数据,而是将SQL解析与SQL执行这两块数据分片的最核心的相关信息发送至应用性能监控系统,并交由其处理。 换句话说,ShardingSphere仅负责产生具有价值的数据,并通过…

类加载 - 双亲委派机制详解

1、类加载器有哪些 启动类加载器(Bootstrap Class Loader):它是Java虚拟机的一部分,负责加载Java核心类库,如java.lang包中的类。它是最顶层的类加载器,由C实现,不是Java类。 扩展类加载器&…

效率逆天GPT-4一天顶6个月,颠覆审核行业

内容审核一直被视为互联网大厂中的脏活和累活。就拿审文章来说,审核员们一天要审约2000篇文章,724h工作制,经常过着昼夜颠倒的日子,更要命的是,他们每天都要接收各种低俗污秽内容,久而久之,心理…

4.物联网LWIP之C/S编程

LWIP配置 服务器端实现 客户端实现 错误分析 一。LWIP配置(FREERTOS配置,ETH配置,LWIP配置) 1.FREERTOS配置 为什么要修改定时源为Tim1?不用systick? 原因:HAL库与FREERTOS都需要使用systi…

MQTT协议--技术文档--搭建mqtt服务器--《EMQX单体服务器部署》

产品概览 | EMQX 5.1 文档 什么是EMQX? EMQX 是一款开源 (opens new window)的大规模分布式 MQTT 消息服务器,功能丰富,专为物联网和实时通信应用而设计。EMQX 5.0 单集群支持 MQTT 并发连接数高达 1 亿条,单服务器的传输与处理…

前端开发工具及环境配置

1.前端开发环境node npm环境配置 第一步:打开Download | Node.js (nodejs.org)下载,解压。 找到下载压缩包进行解压 解压到D盘目录下: 第二步:配置环境变量:右击此电脑点击属性进入高级系统设置 点击高级系统设置进入…

泛微E8配置自定义触发流程失败

在新公司接了个配置泛微流程触发的活。因为泛微的官方文档并没有详细的操作指引,在测试环境配置之后、要触发的流程可以手工提交,但是触发一直不成功。简单记录下业务场景和其他处理信息,以供参考。 应用版本 目前使用了泛微 E8 &#xff0…

无涯教程-Perl - warn函数

描述 此函数将LIST的值打印到STDERR。基本上与die函数相同,除了不对出口进行任何调用并且在eval语句内不引发异常。这对于引发错误而不导致脚本过早终止很有用。 如果变量$包含一个值(来自先前的eval调用),并且LIST为空,则$的值将以。\t.caught打印。附加到末尾。如果$和LIST…

GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战

斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPTs Behavior Changing Over Time?” 研究表明,随着时间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。 研究小组评估了 2023 年 3 月和 20…

为AI而生的数据库:Milvus详解及实战

1 向量数据库 1.1 向量数据库的由来 在当今数字化时代,人工智能AI正迅速改变着我们的生活和工作方式。从智能助手到自动驾驶汽车,AI正在成为各行各业的创新引擎。然而,这种AI的崛起也带来了一个关键的挑战:如何有效地处理和分析…

lama-cleaner:基于SOTA AI 模型Stable Diffusion驱动的图像修复工具

介绍 由 SOTA AI 模型提供支持的图像修复工具。从照片中删除任何不需要的物体、缺陷、人物,或擦除并替换(由Stable Diffusion驱动)照片上的任何东西。 特征 1.多种SOTA AI模型 擦除模型:LaMa/LDM/ZITS/MAT/FcF/Manga 擦除和替…

Spring的生命周期及Spring Bean单例和多例---超详细教学

一,何为spring生命周期 一个Bean对象从被Spring容器创建到被销毁的整个过程。Spring框架对Bean对象的生命周期进行了管理,提供了灵活性和控制权,让开发人员能够在不同的阶段进行自定义操作 1.1生命周期图 1.2.为什么要学习对象的生命周期…

source insight 添加宏-文件头加注释

source insight 3.5 自带的一些宏,在安装目录下的 utils.em 文件中,用户也可以自己写文件,命令为xxx.em ,然后把这个文件添加到项目中即可,添加后在菜单栏 Options -> Key Assignments 里输入macro 就能显示新添加的…

【校招VIP】产品分析之策略量化分析

考点介绍: 产品的设计和迭代需要通过数值来进行分析,那么如何去制定一个数值策略,区分好坏的情况,就会非常的重要。属于数据量化的范畴。 『产品分析之策略量化分析』相关题目及解析内容可点击文章末尾链接查看! 一、…

解决微信消息接收问题,原来只需设置这三个地方,让你涨知识

在日常使用微信的过程中,你是否曾经遇到过无法接收消息或消息延迟的问题?如果是的话,别着急!今天,我们将为你揭示解决这个问题的简单方法,原来只需设置这三个地方,让你的微信恢复正常运行。 首先…

openGauss学习笔记-43 openGauss 高级数据管理-事件触发器

文章目录 openGauss学习笔记-43 openGauss 高级数据管理-事件触发器43.1 语法格式43.2 参数说明43.3 示例 openGauss学习笔记-43 openGauss 高级数据管理-事件触发器 触发器会在指定的ddl事件发生时自动执行函数。目前事件触发器仅在PG兼容模式下可用。 43.1 语法格式 创建事…

【Java 动态数据统计图】动态数据统计思路案例(动态,排序,数组)二(113)

需求&#xff1a; 有一个List<Map<String.Object>>,存储了区域的数据&#xff0c; 数据是根据用户查询条件进行显示的&#xff1b;所以查询的数据是动态的&#xff1b;按区域维度统计每个区域出现的次数&#xff0c;并且按照次数的大小排序&#xff08;升序&#…