谷歌创新框架:从非结构化数据,实现多模态学习

news2024/10/7 20:25:20

看、听、说的多模态已成为主流大模型的重要功能之一。但在数据爆炸时代,大模型学习文本类的结构化数据相对还好一些,但要去学习视频、音频、图片等非结构化数据非常困难。

目前,从结构化和非结构化数据实现多模态学习,会随着模态数量、输入大小和数据异构性的增加,深度神经网络会变过拟合和泛化效果不佳。

尤其是当在规模有限的数据集上训练时,这一状况就越发明显,例如,经常表现出非平稳行为的时间序列数据。因此,谷歌提出了创新框架LANISTR来解决这些难题。

论文地址:https://arxiv.org/pdf/2305.16556

图片

LANISTR是一个基于注意力机制的框架,其核心思想是在单模态和多模态层面上应用基于掩码的训练。

还特别引入了一种新的基于相似度的多模态掩码损失,使其能够从存在缺失模态的大型多模态数据中学习跨模态之间的关系。

多模态融合编码器

现实数据经常以复合形式存在,单一模态的数据往往不足以捕捉事件的全貌。例如,在医疗诊断中,临床报告和MRI扫描图像才能展现患者状况的全面视图;而在电子商务中,商品描述与销售历史(时间序列)相结合才能更好地预测市场需求。

因此,一个好用的多模态大模型,必须具备将这些分散信息源综合的能力。为了实现这一目标,LANISTR采用了基于Transformer架构的交叉注意力机制。

图片

多模态融合编码器可将来自各模态的嵌入向量首先被串联起来,然后通过一系列的Transformer层进行处理

在这些层中,交叉注意力机制发挥了重要作用,允许模型在不同的模态表示之间自由“询问”和“回答”,使每个模态的特征都能关注其他模态的特征,并根据它们的相关性和重要性进行加权整合。

这一流程与人脑思考有些类似,可根据上下文和情境在不同感官信号间切换注意力,从而实现信息的高效整合。

4种编码器介绍

LANISTR中的多模态融合编码器一共由文本、图像、表格和时间序列4种编码器组成,每种模态都有其独特的表达方式和信息结构。这种机制不仅增强了对单个模态特征的理解,还促进了模态间的交互学习,从而对整个场景有了更加全面的认识。

图片

文本编码器:基于Transformer架构主要处理文本数据。通过掩码语言方法进行预训练,随机掩盖文本中的部分词汇,让模型学习预测这些被掩盖词的能力。这种机制促使模型理解词语间的依赖关系和语境含义,从而提取出丰富的语言特征。

图像编码器:采用Vision Transformer架构用于处理视觉数据。可将图像分割成多个小块,并将这些块视为序列输入到Transformer中,通过自注意力机制学习图像的高层次特征,还会使用掩码图像建模方法,通过重建被掩码的像素或特征来训练,以提取图像的视觉特征。

图片

表格编码器:使用了定制的神经网络结构,针对分类特征的嵌入层来编码每一列数据的特征。考虑到表格数据的稀疏性和多样性,了集成特征选择或降维技术,以聚焦于最有信息量的特征。

时间序列编码器:由于大模型需要捕捉随时间变化的动态模式,时间序列编码器使用了循环神经网络方法,长短时记忆网络和门控循环单元。通过对序列进行建模提取出时间序列的模式和趋势,为后续的多模态融合准备数据。

研究人员在两个数据集上测试了LANISTR的性能,在MIMIC-IV数据集上,当仅使用0.1%的有标签数据进行微调时,模型的AUROC相比最先进的方法提高了6.6%。

在亚马逊产品评论数据集中,仅使用0.01%的有标签数据,模型的准确率提升了14%。值得一提的是,这些改进是在高达35.7%和99.8%的样本存在模态缺失的情况下完成的,这更加证明了LANISTR的多模态学习能力。

本文素材来源LANISTR论文,如有侵权请联系删除

END

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1795771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】查看进程在哪个CPU上运行

当前服务器是多核,在进行性能压测时,需要除了要观测全局的CPU使用率,对于单进程单线程往往需要在一个cpu上运行,那如何查看进程在哪个CPU上运行呢? 方法一:taskset taskset命令主要是用来检索或设置一个处…

IO进程线程(九)线程的同步 进程间通信

文章目录 一、 线程的同步(一)无名信号量sem1. 定义和初始化2.获取信号量3.释放信号量4. 销毁5. 使用示例 (二)条件变量1. 定义和初始化2. 获取条件变量3. 释放条件变量4. 销毁条件变量 二、进程间通信(一)…

yum进阶——配置yum源

一、yum概述 yum的主要作用 解决依赖关系 自动安装 自动升级 各个系统中的安装软件服务 CentOS7 :yum -y 安装 rpm包 CentOS8 :dnf(yum的升级版), Ubantu(22.04) :apt -y 安装,安装源为/…

【Python报错】已解决ModuleNotFoundError: No module named ‘packaging’

成功解决“ModuleNotFoundError: No module named ‘packaging’”错误的全面指南 在Python编程中,遇到ModuleNotFoundError: No module named packaging这样的错误,通常意味着你的Python环境中缺少名为packaging的模块,或者该模块没有被正确…

sing-task message

文章目录 1.起因2.查因过程2.1 定位job2.2 定位sql text2.3 定位db_link2.4 测试dblink2.5 tnsping host2.6 检查host信息2.7检查网路状况 3.处置办法:4.结论 1.起因 在巡查长事务时,有两个事务执行了很长时间没有完成 SELECT SE.SID,SE.SERIAL#,to_ch…

CEC2017(Python):五种算法(SSA、RFO、OOA、PSO、GWO)求解CEC2017

一、5种算法简介 1、麻雀搜索算法SSA 2、红狐优化算法RFO 3、鱼鹰优化算法OOA 4、粒子群优化算法PSO 5、灰狼优化算法GWO 二、CEC2017简介 参考文献: [1]Awad, N. H., Ali, M. Z., Liang, J. J., Qu, B. Y., & Suganthan, P. N. (2016). “Problem defin…

gitee和github的协同

假设gitee上zhaodezan有一个开发库,但是从andeyeluguo上拉取最新的(从github上同步过来最新的) git remote add dbgpt_in_gitee https://gitee.com/andeyeluguo/DB-GPT.git remote -v git pull --rebase dbgpt_in_gitee main 有冲突可能需要…

前端工程化工具系列(九)—— mddir(v1.1.1):自动生成文件目录结构工具

mddir 是一个基于项目目录结构动态生成 Markdown 格式目录结构的工具,方便开发者在文档中展示文件和文件夹的组织结构。 1. 安装 全局安装改工具,方便用于各个项目。 pnpm i -g mddir2. 使用 在想要生成目录接口的项目内打开命令行工具,输…

【漏洞复现】用友NC downCourseWare 任意文件读取漏洞

0x01 产品简介 用友NC是一款企业级ERP软件。作为一种信息化管理工具,用友NC提供了一系列业务管理模块,包括财务会计、采购管理、销售管理、物料管理、生产计划和人力资源管理等,帮助企业实现数字化转型和高效管理。 0x02 漏洞概述 用友NC …

上市即交付,比亚迪秦L DM-i万人交车暨千媒众测开营

6月6日,“引领中级 开创油耗2时代”秦L DM-i万人交车暨千媒众测开营仪式在比亚迪大本营深圳盛大举行。 众多车主代表亲临现场,与全国各地的比亚迪4S店千店联动,将秦L DM-i全国交付推向新的高潮。发布即量产,上市即交付&#xff0…

【NLP】2、大语言模型综述

一、背景和发展历程 大语言模型四个训练阶段: 预训练: 利用海量的训练数据,包括互联网网页、维基百科、书籍、GitHub、 论文、问答网站等,构建包含数千亿甚至数万亿单词的具有多样性的内容。利用由数千块高性能 GPU 和高速网络组成…

【图像处理与机器视觉】XJTU期末考点

题型 选择:1 分10 填空:1 分15 简答题(也含有计算和画图):10 分*4 计算题:15 分20 分 考点 选择题(部分) 数字图像处理基础 p(x,y),q(s,t)两个像素之间的距离由公式&#xff1a…

HBuilderX打包uni-app项目成安卓app

目录 1、下载Android 离线SDK 2、Android Studio导入工程 3、生成签名 3.1、进入到jdk bin目录下,输入cmd执行命令keytool -genkey -alias wxsalias -keyalg RSA -keysize 2048 -validity 36500 -keystore wxs.keystore 生成签名 3.2、查看签名密钥keytool -lis…

C语言实现教学计划编制问题,Dev C++编译器下可运行(240606最新更新)

背景: 问题描述 大学的每个专业都要编制教学计划。假设任何专业都有固定的学习年限,每学年含两学期, 每学期的时间长度和学分上限都相等。每个专业开设的课程都是确定的,而且课程的开设时间的安排必须满足先修关系。每个课程的先…

最优化练习题

def f(x):return x*x-4*x5 a0,b01,31、均匀搜索 令 δ ( b 0 − a 0 ) / N , a i a 0 i δ , i 1 , 2 , 3 \delta(b_0-a_0)/N,a_ia_0i\delta,i1,2,3 δ(b0​−a0​)/N,ai​a0​iδ,i1,2,3 while b0-a0>0.1:anp.linspace(a0,b0,5)for i in range(1,4):if f(a[i-1])>f…

宝兰德受邀出席第八届丝绸之路网络安全论坛

近日,2024第八届丝绸之路网络安全论坛在陕西宾馆会议中心成功举办,本次论坛以“汇聚万千智慧 夯实安全堤坝”为主题,由主论坛及密码技术与密评、教育行业网络安全、卫健行业网络安全三个平行分论坛组成,论坛邀请业内专家学者、企业…

Pinia(三): 了解和使用state

1.state state 就是我们要定义的数据, 如果定义 store 时传入的第二个参数是对象, 那么 state 需要是一个函数, 这个函数的返回值才是状态的初始值.这样设计的原因是为了让 Pinia 在客户端和服务端都可以工作 官方推荐使用箭头函数(()>{ })获得更好的类型推断 import { de…

如何在Windows 10和11上修复DISM错误87?这里提供办法

​在电脑上运行DISM命令时,是否收到“错误代码87”消息?这是一个非常常见的错误,你可以轻松地修复它。我们将向你展示在Windows 11或Windows 10计算机上解决此问题的多种方法。 确保键入正确的命令 运行DISM命令时出现错误代码87的最常见原因是键入的命令不正确。你可能添…

【数据结构与算法 | 二叉树篇】二叉树的前中后序遍历(迭代版本)

1. 前言 前文我们实现了二叉树前中后三种遍历方式的递归版本,非常简单. 接下来我们来实现一下其迭代版本. 2. 二叉树的前序遍历 (1). 题 给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 示例 1: 输入:root [1,null,2…

【简单讲解下TalkingData】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…