什么是多模态深度学习?有哪些应用场景?

news2024/11/18 0:25:39

68af6d87c8c8a8276de61d86eeb84187.png

深度多模态学习能够更全面地理解数据,在准确性和效率上均有大幅提升。但首先,什么是多模态深度学习?它有哪些应用场景?本文将从定义、应用与前景三个角度来回答这两个问题。

随着深度神经网络的发展,深度学习也逐渐向多模态技术迈进。多模态技术为非结构化数据的智能处理提供了可能,包括图像、音频、视频、PDF 和 3D 网格。多模态深度学习不仅可以更全面地理解数据,还可以提高模型的效率和准确性。

Jina AI 是构建云原生多模态 AI 应用的最先进的 MLOps 平台,基于 Jina AI,用户可以将数据和几行代码转化为生产就绪的服务,而无需处理基础架构复杂性或扩展麻烦。

但首先,什么是多模态深度学习呢?它又有哪些应用场景呢?

模态是什么

“模态”对应于人类的五种感官,视觉、听觉、触觉、味觉和嗅觉,我们这里的“模态”实际指的是“数据模态”,也就是你需要处理的数据类型。

有时,人们把"多模态数据"和"非结构化数据"混淆使用,多模态数据是指包含多种数据模态的数据,例如可能包含文本、图像、视频和音频等。非结构化数据的含义更加宽泛,指没有固定数据结构的数据,它可能是文本、图像、视频或音频等任何格式,由于没有统一格式,无法被计算机直接处理。

真实世界的数据都是多模态的

早期的 AI 研究通常都是在单一模态数据上进行的,例如在自然语言处理领域,研究人员通常只关注文本数据,计算机视觉领域的研究人员只关注图像数据。因此,AI 应用总是局限于特定模态,垃圾邮件过滤应用处理的都是文本,照片分类应用处理的都是图像,语音识别应用处理的都是音频。

但是现实世界的数据往往是多模态的。视频常伴随着音轨,还有文本字幕。社交媒体平台的帖子、新闻文章或者其它互联网上的内容经常混合着文本、图像、视频和音频。因此,处理多模态数据的需求促进了多模态 AI 的发展。

多模态 vs 跨模态

“多模态”和“跨模态”是另外两个容易混淆的术语,它们的含义是不同的:

多模态深度学习是一个相对较新的领域,它关注从多模态数据中学习的算法。例如,人类可以同时通过视觉和听觉来识别人或物体,而多模态深度学习关注的是为计算机开发类似的能力,让模型也能同时处理来自不同模态的输入。

跨模态深度学习是一种多模态深度学习的方法,可以使用跨模态深度学习来学习跨越不同模态的关系,比如学习声音和文本之间的关系,图像和文本之间的关系。

多模态深度学习是将多种不同的模态作为输入来训练模型,而跨模态深度学习则是学习跨越不同模态的关系。“多模态”指用于多模态数据的 AI 系统,当狭义地指集成不同模式并将它们一起使用的 AI 系统时,“跨模态”则更为准确。

多模态深度学习应用

多模态深度学习有着广泛的应用,以下是已经可用的应用:

  • 自动生成图像的文本描述,为图像自动生成语言描述,例如盲人字幕。

  • 搜索与文本匹配的图像,例如“找一张蓝色狗的图片”。

  • 文本生成图像,利用文本描述创作图像的生成式艺术系统,例如,创作一张蓝色狗的图片。

这些应用都依赖于两个关键技术:搜索 和 生成

神经搜索

神经搜索的核心思想是利用前沿的神经网络模型构建搜索系统的每个组件,简而言之,神经搜索就是深度神经网络驱动的信息检索

以下是 DocArray 生成 embedding projector 的示例,可以用于基于内容的图像检索。

0750e3c9027b9c0517a1c25dd9324881.gif

将图像 embedding 投影到三维空间的可视化展示

越是相似的图像在嵌入空间中的距离就越近,也就是说搜索与某张图片最相似的图像,就相当于在嵌入空间中寻找距离最近的图像,你可以通过 DocArray API 轻松实现相似图像搜索任务。

db = ...# a DocumentArray of indexed images
queries = ...# a DocumentArray of query images

db.find(queries, limit=9)

for d in db:
    for m in d.matches:
        print(d.uri, m.uri, m.scores['cosine'].value)

神经搜索在处理多模态数据时表现相当出色,这是因为它可以将多模态数据(例如,文本和图像)映射到同一嵌入空间。这使得神经搜索引擎可以利用文本查询搜索图像,并利用图像查询搜索文本。

超越搜索框的搜索

问答机器人,将用户查询映射到与 FAQ、指南或者预留答案相同的嵌入空间中。

智能设备,利用语音识别技术将用户的语音转化为可用命令。

推荐系统,通过在嵌入空间中寻找距离最近的向量,搜索与用户选择商品最相似的产品。

生成式 AI

生成式 AI 是指利用神经网络模型生成新内容,比如文本、图像、视频等的技术。例如,OpenAI 的 GPT-3 可以根据文本提示创作新文本。GPT-3 是在拥有大量书籍、文章和网站的语料库上训练的。给定一个文本提示,它会根据提示自动生成文本。人们可以用 GPT-3 创作故事和诗歌,它的创作能力几乎和人类不相上下。

OpenAI 的 DALL·E 可以根据文本提示创作图像,下图是在 DALL·E Flow 根据提示“an oil painting of a humanoid robot playing chess in the style of Matisse”生成的图像。DALL·E Flow 是一个基于 Jina 构建,并托管在 Jina AI Cloud 上的完整的文本图像生成系统。

DALL·E Flow: https://github.com/jina-ai/dalle-flow

server_url = 'grpc://dalle-flow.jina.ai:51005'
prompt = 'an oil painting of a humanoid robot playing chess in the style of Matisse'

from docarray import Document

doc = Document(text=prompt).post(server_url, parameters={'num_images': 8})
da = doc.matches

da.plot_image_sprites(fig_size=(10, 10), show_index=True)

dcb2502a6f8af6f193be5b756d3adc42.png

生成式 AI 具有巨大的潜力,通过以下方式,它可能会彻底改变我们与机器的交互方式:

  • 人机交互过程中更个性化的体验。

  • 在电影、游戏和其它视觉媒体更加逼真的人和物体的 3D 图像和视频。

  • 用于游戏或其它交互媒体的更加自然的对话。

  • 用于制造业和其它行业的产品新设计。

  • 全新的市场营销文案。

多模态关系

多模态深度学习可以将不同模态的信息连接起来,这对于生成式 AI 和神经搜索十分有用。在以下示例中,我们将 cat, dog,human,ape 的文本和图像映射到同一嵌入空间中:

48ab74b71cb09fb3ffa6dbf02e6eec28.jpeg

这些项目在单个嵌入空间中的位置编码了它们之间的关系信息:

  • cat 的文本 embedding 和 dog 的文本 embedding 更近(相同模态);

  • human 的文本 embedding 和 ape 的文本 embedding 更近(相同模态);

  • cat 和文本 embedding 和 human 的文本 embedding 很远(相同模态);

  • cat 的文本 embedding 和 cat 的图像 embedding 更近(不同模态);

  • cat 的图像 embedding 和 dog 的图像 embedding 更近(相同模态)。

这些信息很明显可以用于信息检索中,但是生成式 AI 也可以使用这些信息。相比于在一组文本或图像 embedding 中寻找距离最近的向量,生成式 AI 是为提示的 embedding 创建距离最近的文本或图像。

f55c6064e5fdac840b4fc15a68fe35b7.png

综上,多模态深度学习的关键就是理解不同模态信息之间的关系,你可以利用这种关系搜索现有数据,也就是神经搜索;或者也可以生成新的数据,也就是生成式 AI。更多关于多模态深度学习的信息,可以阅读这篇文章:Jina AI创始人肖涵博士解读多模态AI的范式变革

更多技术文章

📖 Jina AI创始人肖涵博士解读多模态AI的范式变革

🎨 语音生成图像任务|🚀 模型微调神器Finetuner

💨 DocArray + Redis:快到飞起来的推荐系统

😎 Jina AI正式将DocArray捐赠给Linux基金会

🧬 搜索是过拟合的生成;生成是欠拟合的搜索

821ac039943d6effc9060b28c39983a8.png

点击“阅读原文”,即刻了解 Jina

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/107413.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于事件触发的二阶多智能体领导跟随一致性

【无限嚣张(菜菜)】:hello您好,我是菜菜,很高兴您能来访我的博客,我是一名爱好编程学习研究的菜菜,每天分享自己的学习,想法,博客来源与自己的学习项目以及编程中遇到问题…

基于java+springboot的人事招聘信息网站-计算机毕业设计

运行环境 开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven 项目介绍 在这个计算…

教你一招,解决头疼的DCOM配置问题

一、背景 OPC通信技术是工业通信领域中一套广为流行的方案,能够帮助大量的使用不同通信协议的下层现场设备数据与上位机应用程序进行交互。实现OPC通信需要基于Winodows上的COM/DCOM技术,只有在服务器和客户端都进行DCOM配置,开放相应的权限…

【矩阵论】6. 范数理论——非负/正矩阵

6.5 非负/正矩阵 6.5.1 定义 a. 非负/正矩阵定义 一个实矩阵 A(aij)∈RmnA(a_{ij})\in R^{m\times n}A(aij​)∈Rmn 若对每一 iii 和 jjj ,aij≥0a_{ij}\ge 0aij​≥0 ,则称A是非负矩阵,A≥0A\ge 0A≥0 若对每一 iii 和 jjj ,…

论文浅尝 | Relational schema optimization for RDF-based KGs

笔记整理:郑国鹏,天津大学硕士链接: https://www.sciencedirect.com/science/article/pii/S0306437921000223动机特征集(CS)根据与其主题节点相关的属性集来组织RDF三元组。它可以捕捉到RDF数据的隐含模式。虽然大多数基于CS的方法…

3、面向对象

文章目录3、面向对象3.1 介绍3.1.1 基本语法3.1.2 案例分析3.2 类和对象3.2.1 类3.2.1 对象3.3 属性3.4 方法3.5 方法参数3.6 传值方式3.7 静态3.8 静态代码块3.9 包3.10 import3.11 构造方法3.12 继承3.13 super、this3.14 继承、构造方法3.15 多态3.16 方法重载3.17 方法重载…

获奖 | APT检测能力再获认可,创宇猎幽荣获“金帽子”年度优秀安全产品奖

近日,2022网络安全金帽子年度评选活动揭晓,创宇猎幽APT流量监测系统获年度优秀安全产品奖。“金帽子”评选推动行业发展创宇猎幽获年度优秀安全产品奖“金帽子”年度评选活动旨在推动网络安全行业的健康发展,让更多的普通大众真正了解和认识网…

【技术应用】java接口幂等性实现方案

【技术应用】java接口幂等性实现方案一、前言二、幂等性三、幂等设计思路四、实现代码五、总结一、前言 最近在做一个线上的项目,与之前内网项目还是有很多差别的,尤其在安全性和并发性的处理上,要多做一些措施,第一步就是接口的…

Java HashSet

HashSet 基于 HashMap 来实现的,是一个不允许有重复元素的集合。 HashSet 允许有 null 值。 HashSet 是无序的,即不会记录插入的顺序。 HashSet 不是线程安全的, 如果多个线程尝试同时修改 HashSet,则最终结果是不确定的。 您必…

流量与技术双重加持,小游戏迎来高速增长周期

2017 年 12 月 28 日,微信小游戏正式上线。“跳一跳”刷爆了微信朋友圈,随后欢乐斗地主、坦克大战、纪念碑谷、拳皇等经典游戏纷纷出现在小游戏平台上。在过去的5年间,各大平台纷纷紧跟微信的步伐,纷纷入局小游戏,当前…

【CSS】速查复习background相关所有属性(上)

前言 background是一种 CSS 简写属性,用于一次性集中定义一个或多个背景属性,其中的属性有以下这些: background-clip background-color background-image background-origin background-size background-attachment background-blend…

window.location.href跳转页面后拿不到cookie

场景 最近在改其他同事写的系统时,我只改了个文案,但是打包部署上去发现其他地方出现了问题。原因可能是因为这个问题被同事修复过但是没有把代码提交,我拉取的时候这个问题还是存在的。最终拿同事之前打的包与我打的最新包对比,…

Java项目:SpringBoot+Mybatis+layui的学生成绩管理系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 功能介绍 SpringBoot学生成绩管理系统。主要分老师与学生两个角色。 其中,教师角色包含以下功能: 教师登录,学生信息管理,成绩管…

ETHERCAT从站设计与FOC伺服马达电流环控制

ETHERCAT从站开发方案介绍-含ET9300对比 EtherCAT一般设计要求(针对uCESC的方案): 硬件上:主控制器uCESC(可选各供应商的EtherCAT从站控制器) 操作系统:无特殊要求,根据产品性能决…

利用python在网上接单赚钱,兼职也能月入过万,还不赶紧学起来

我觉得python接单我是最有发言权的,从2013年进入大学,我就是一个不安分的学生,总是想着通过自己的技术来实现财富自由。 我崇拜雷军,我觉得雷布斯不仅技术强,而且很有商业头脑,可是我是个呆呆的瓜皮&#…

小白到底如何学 Python?

小白:我为什么要学习Python, 它能为我带来什么?我能学会吗?…… 为什么学习 Python? 计算机编程语言有很多,在我接触到的语言里面,比如Java, C, C等,Python是最容易上手的一门语言。 只要你会一点英语&…

GitHub 又一可视化低代码神器,诞生了!速度!手慢无!

在此之前,我曾多次与您交谈,在现阶段互联网业务疯狂增长的推动下,低代码编程被赋予了新的使命和义务,即帮助开发人员快速构建一个可以在早期以较低成本投入市场的应用程序。 那么,有没有一个成熟的低代码工具是开源的、…

使用docker快速部署ferry开源工单系统

大家好,我是早九晚十二,目前是做运维相关的工作。写博客是为了积累,希望大家一起进步! 我的主页:早九晚十二 开源软件ferry是集工单统计、任务钩子、权限管理、灵活配置流程与模版等等于一身的开源工单系统&#xff0c…

【蓝桥杯】第11届Scratch国赛中级组第6题 -- 3D打印小猫

[导读]:蓝桥杯大赛是工业和信息化部人才交流中心举办的全国性专业信息技术赛事。蓝桥杯大赛首席专家倪光南院士说:“蓝桥杯以考促学,塑造了领跑全国的人才培养选拨模式,并获得了行业的深度认可。” 春雷课堂计划推出Scratch蓝桥杯…

Linux网络协议之TCP协议(传输层)

Linux网络协议之TCP协议(传输层) 文章目录Linux网络协议之TCP协议(传输层)1.理解TCP协议2.谈谈可靠性问题3.TCP协议格式4.关于TCP的两个问题5.TCP序号与确认序号6.TCP缓冲区7.TCP窗口大小8.TCP的六个标志位9.确认应答机制(ACK)10.超时重传机制11.连接管理机制11.1 三次握手和四…