【知识库系列】MPR/多模态方向观察:图像视频与3D生成

news2024/9/24 7:16:43

多模态背后的backbone会长成什么样?

各种模态到梯度下降到最后会不会都差不多?

Sora 是不是已经被追上了?

我们真的把视频数据都用好了吗?

知识库完整文档:

MPR/多模态方向观察:图像视频与3D生成:https://miracleplus.feishu.cn/docx/Rl21d6hmOohXplxhrgccFxAqnJb?from=from_copylink

Manifesto

多模态,3D和视频生成是三个相关又各自独立的领域,他们在技术和应用领域上有所交叉。

1,多模态(Multimodality)

多模态技术指的是结合多种感官输入或输出的方式,例如视觉,听觉,触觉等。在人工智能领域,多模态通常指的是结合不同类型数据的分析和处理,如文本,图像和声音。

多模态学习是人工智能的一个重要分支,它涉及理解和生成能够同时处理多种数据类型的模型。

2,3D(三维)生成

3D技术涉及到创建和操作三维空间中的物体和场景,这包括3D建模,打印,动画和渲染等,在计算机图形学中,3D技术是创建逼真视觉效果的基础,广泛应用于电影,游戏和虚拟现实等领域。

3,视频生成:

视频生成指的是用计算机算法来创建视频生成的过程,可以是简单的动画,也可以是复杂的场景和角色模拟。

视频生成技术可以是结合3D模拟来创建三维动画,也可以使用机器模拟来生成逼真的内容

随着技术的发展,这三个领域正不断融合:

多模态与3D:在3D的创建过程中,多模态可以增强用户体验,通过结合视觉和听觉,可以增加3D的体验。

多模态与视频生成:多模态能帮助视频生成,从视觉和听觉的角度更好的理解和模拟真实世界。

一,多模态研究综述:

跨模态生成:

跨模态生成主要分为图像生成和视频生成两个部分

图像生成:

在图像生成领域,早期较为流行的架构为GAN(Generative Adversarial Network),模型通过generator 和 discriminator两个模块互相竞争来进行图像生成,Generator 大量生成多样性图像,Discriminator通过识别以及大量分类来识破generator 的生成。

在GAN 系列工作中,较为知名的style GAN,Circle GAN, 其中style GAN可以后期生成高分辨的人形图像,是GAN后期的最为流行的应用架构。

 近年来,图像生成领域占据主导地位的是扩散模型- diffusion models,扩散模型通过对图像数据的加噪/去噪的过程进行建模,从而实现图像的生成。

无论是GAN模型还是Diffusion Model,早期的工作都是从conditional generation开始,尽管模型可以生成高质量的图像,但用户无法对生成结果进行控制,因此后期的一个研究方向是condition/controllable  generation开始,其中最流行的是text to image generation,除此之外还包括spatial layout condition ,image condition (in- context) 等。

视频生成

与图像生成类似,早期的视频生成模型也是以GAN为主,不再赘述,近年来,扩散模型已在视频生成领域占据了主导地位,从早期图像迁移到视频领域,实现了text to video。

跨模态理解:

1,从训练数据,模型结构,评估方式等对大模型进行了分类。

2,很全面的列举了各种多模态多模型理解模型,以及他们在模型结构上的共性。

多模态幻觉:

多模态幻觉是模型在生成输出时生成了和图像不符的信息。一般是由大模型对图片的理解不够准确,或生成时过度依赖文本情境而忽略图片情境而导致的。

提升训练数据标注质量,改进训练方式,改进解码方式,对生成结果进行后处理。

这篇综述对多模态幻觉原因,评测benchmark以及在不同阶段的缓解方法进行了总结,对多模态幻觉的研究可以消除幻觉,提升模型的可靠度和用户信任外,更有利于揭示多模态模型的内在机制和潜在缺陷,推动模型架构和训练方法的改进。

片段定位:

如果多模态大模型能理解表示图片/视频中的部分内容的文本输入输出,那么这个大模型就能完成更低颗粒度的任务,如grounding,dense captioning.

在图片-文本多模态大模型中拥有grounding能力的模型包括Qwen-VL,InternLM-XComposer等,在视频,文本等大模型中,拥有grounding能力的大模型包括VTimeLM,TimeChat,HawkEye。

具身智能:

具身智能旨在识别和理解环境中的物体,来实现类似人类对环境的感知和与周围环境的交互,目前学术研究中具身智能方面最热门的问题包括具身规划,具身控制和具身问答。一些研究使用多模态大模型来统一解决各种具身智能问题。

视频理解中高效帧采样的单帧偏置问题

虽然理论上视频是新增了时间维度的帧的序列,但实践中对视频中的帧进行等距采样作为多模态大模型的输入一般是并不是最优解;有时很长的一段视频中只有一小段和问题相关,甚至只需要一帧中的静态画面就能回答很多问题。因此对于视频-文本多模态大模型,如何对视频进行更高效的帧采样对算法和性能都有重要影响,是一个关键研究问题。

3D生成

单场景3D重建:

神经网络辐射场与3D高斯颇溅是单场景3D重建近几年最常用的AI网络。二者区别于NeRF是利用神经网络隐式存储3D空间信息,3D Gaussian Splatting 是通过显式存储3D高斯隧球来保存3D信息。

多模态3D重建:

Toy data multi-model 3D diffusion

最经典的是zero1-to-3.该方法在image diffusion的基础上引入了camera matrix当作控制变量,对大模型微调得到了3D diffusion模型,这样我们获得了根据输入文字的图片/描述生成对应3D场景的多模态能力。

但重建出的物体质量极低,meta提出了3D Gen,3D Gen是通过集成Meta 3D AssetGen 和 Meta 3D TextureGen 模型的能力合理重建toy data 相对高质量的纹理,也保持了较好的几何合理性与连续性。

目录:

多模态研究综述:浩瀚学术中的拼图

跨模态生成

图像生成

视频生成

跨模态理解

简介

重要学术问题

3D生成

单场景3D重建

多场景3D重建

工程化观察:给开发者的工具箱

跨模态生成

图像生成

视频生成

3D生成

多模态生成

开源工具

闭源工具

图片理解工具

视频理解工具

训练和部署工作

Benchmark动态

技术与发展的探讨

多模态与视觉生成

Diffusion vs AR

理解 vs 生成

内容生成 vs 视觉模型

数据质量 vs scaling law

多模态与3D生成

NeRF vs 3DGS vs 几何表征

数据集构建与scaling 

精度。成本与应用范围

商业化赛道观察

万物灵犀 (3D扫描)

C端商业模式

B端商业模式

创源引擎(3D世界生成)

极佳科技(世界模型与多模态数据)

圆桌校友思考

补充内容:

年初,Sora的横空出世并引起广泛关注就是一个明显信号。多模态模型的运行可以大致分成两个过程:一是对多模态模型世界的理解,第二就是生成。以Sora视频生成类模型为例,它的运行不仅需要更大的内存带宽,对算力的需求也非常大。运行时,模型首先需要专门的图像处理引擎对视频或图片进行理解。这个过程中几乎每秒都要处理上千个Token才能实现实时理解。对于视频来说,一秒钟至少要生成30帧,同时还要考虑上下文的联系,连续30秒需要的算力非常之高。在理解的基础上,模型还要做生成。这对处理器的带宽又会提出新的要求。

也就是说,多模态模型的运行对芯片的算力和带宽以及成本、功耗都将有着更高的要求。Sora推出以来,其推广速度并不如人们想象得那么快,这与它对AI芯片的高需求有着莫大关系。当前的AI芯片很难支撑如此庞大的算力、带宽需求,而对算力带宽提出高需求的同时又会急剧推高成本。据测算,多模态模型的芯片成本将远高于目前的大语言模型。

蔡一茂指出,相对传统架构而言,存内计算或是突破多模态大模型发展中算力瓶颈的一个重要方向。如前所述,存内计算相对传统计算架构无论在算力还是带宽方面都有明显提升。存内计算相对传统计算另外一个重要优势是可以大幅降低成本。随着Flash、DRAM等存储容量的大幅度提高,芯片的单位成本也将不断降低。同时存内计算可以大幅减少数据搬运,这对降低芯片的运行功耗非常有利。

存内计算是一种将计算单元嵌入到内存中的计算范式,旨在解决传统冯·诺依曼架构中的“内存墙”和“功耗墙”问题。北京大学集成电路学院院长蔡一茂在接受记者采访时就表示,在越来越接近物理极限的情况下,单纯依靠传统工艺集成的方式推进摩尔定律,难度和成本都在急剧上升。另一方面,随着AI时代的到来,对传统芯片架构也将带来新的挑战,用户更加看重AI芯片在算力、存储、缓存带宽等方面的整体表现,因此寻求芯片架构上的创新对延续摩尔定律非常重要。这个架构创新就包括存内计算技术。

针对多模态的商业化应用方向观察,在图像视频与3D生成领域快速发展,本地化部署的大模型参数将达到千亿,然而目前基于SRAM/DRAM缓存的GPU或者NPU方案,都面临存储容量受限或者成本过高的巨大挑战。而存内计算不但可以有效减小计算过程中的缓存需求,还可以探索基于低成本大容量的Flash介质比如VNAND研制更加低成本的存内计算芯片,这将是一个重要的市场发展机遇。

关于存内计算2024 ISSCC最新论文解析访问链接 https://github.com/witmem/Witmem-CIM-Papers-Collection 

以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2090293.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Unity3D优化】优化内置shader的内存占用

一、性能分析 监控项目线上的崩溃情况,绝大多数崩溃都是因为低端设备,运行时内存不足,在运行过程中申请开辟新的内存时Crash了。因此,不定期继续优化内存占用。 性能分析首先主要靠Unity3d的Memory Profiler监控一些可追踪到的内存…

初识redis:学习Java客户端

Redis服务器在官网公开了使用的协议,叫做RESP。任何一个第三方都可以通过上述的协议,来实现出一个和redis服务器通信的客户端程序。 Java生态中,封装好了RESP协议,实现的redis客户端是有很多的,此处使用的是jedis&…

操作系统:实验三进程间通信实验

一、实验目的 1、了解什么是信号。 2、熟悉LINUX系统中进程之间软中断通信的基本原理。 3、理解进程的同步关系。 4、掌握用信号实现进程间的同步操作。 5、了解什么是管道。 6、熟悉UNIX/LINUX支持的管道通信方式。 二、实验内容 1、阅读下列程序,执行程序…

【js逆向专题】1.js语法基础

小节目标: 逆向工具准备熟悉 逆向的基本过程熟悉 JavaScript语法 一.前期准备 1. 技术准备 python基础语法爬虫基础功底JavaScript基础语法知识(可以自己偷偷的学习一些) 2. 工具准备 node解释器 官网地址:https://nodejs.org/zh-cn (推荐安装版本16版本) 把提供的软件…

网络层 IV(ARP、DHCP、ICMP)【★★★★★★】

(★★)代表非常重要的知识点,(★)代表重要的知识点。 一、地址解析协议(ARP)(★★) 在局域网中,由于硬件地址已固化在网卡上的 ROM 中,因此常常将…

Gartner报告解读:如何帮助企业完善数据分析与治理路线图

Gartner服务于全球100多个国家和地区的14,000余家机构,是一家深受客户信赖、观点客观的研究顾问公司。Garnter洞察、建议和工具可帮助您发现创新机遇,完成关键优先任务,助您成为企业不可或缺的战略专家和价值创造者。该公司是标普 500 指数成…

ET6框架(八)事件系统

文章目录 一、事件的定义二、定义异步事件 一、事件的定义 我们打开Client > Unity.Model > Codes > Model > Demo > EventType.cs 即可以查看目前工程中的事件 我们可以此添加事件结构体 我们还需要定义一个事件接收方法,创建路径文件夹及脚本 …

84、 k8s的pod基础+https-harbor

一、pod基础: pod进阶:探针(面试必问—扩缩容,挂载) 1.1、pod的定义 pod是k8s里面的最小单位,pod也是最小运行容器的资源对象。 容器时基于pod在k8s集群当中工作。 在k8s集群当中,一个pod就…

基于Android+SQLite数据库开发Java考试App

项目简介 Java课程考试App是基于AndroidStudio和SQLite数据库开发的一款App可以实现教师考生双端登录并使用相应功能。以Java课程作为设计主题,针对它们设计、实现一个考试APP。满足教师用户通过APP进行考生管理(考生信息的增删改查)、试题管…

Python 项目及依赖管理工具技术选型

Python 项目及依赖管理工具,类似于 Java 中的 Maven 与 Node 中的 npm webpack,在开发和维护项目时起着重要的作用。使用适当的依赖管理工具可以显著提高开发效率,减少依赖冲突,确保项目的稳定性、可靠性和安全性。 一、常见项目…

怎样把图片转换成pdf文件?分享图片转PDF的九个转换方法(新)

图片转为pdf怎么弄?图片和pdf是两种完全不同的文件类型,图片转pdf的是一个比较常见的格式转换需求,尤其是需要分享图片合集时。 图片转换成pdf文件可以借助专业的pdf转换器实现,只需要简单几个步骤就能轻松搞定。无论是图片转pdf&…

北斗系统助力低空经济腾飞:未来发展无限可能

近年来,随着科技的飞速发展,北斗卫星导航系统(Beidou Satellite Navigation System, BDS)在我国乃至全球范围内的应用日益广泛。尤其在低空经济领域,北斗系统作为新基建的重要组成部分,正在发挥着不可替代的…

JMeter之上传文件同时带有参数

文章目录 业务场景使用坑 业务场景 针对下述接口构建jmeter测试&#xff0c;这是个post接口&#xff0c;在上传文件file的同时指定变量groupId的值 PostMapping("/importExcel")public ApiResultDto<String> importExcel(TagChildrenImportDto importDto) {Sec…

Python中对象操作函数

Python中的对象操作函数包括help()、dir()、type()、ascii()等。 1 help()函数 help()函数可以查看指定函数的帮助信息&#xff0c;使用方法如图1所示。 图1 help()函数的使用方法 图1中所示的代码查看了“sorted”函数的帮助信息&#xff0c;包括该函数的作用、参数以及返回…

x264 编码器 AArch64汇编系列:DCT 变换相关汇编函数

DCT变换 在x264_dct_init函数中初始化具体的 dct 实现函数。 4x4 块DCT 变换 c 语言版本实现 4x4DCT 变换函数:sub4x4_dct。pixel_sub_wxh 函数: 这个函数的作用是从两个像素块中减去一个像素块,得到差分值,这些差分值将用于DCT变换。参数: diff:指向存储结果差分值的数组…

高标准城市照明智能化应用,创新城市节能之光

项目背景 在国家推动节约型、智慧化发展的背景下&#xff0c;该城市照明系统亟需智能化升级&#xff0c;以解决现有依赖传统时控器的局限性、能源浪费与照明不足的矛盾&#xff0c;以及依赖人工巡查和市民反馈的低效率、高成本维护等问题。通过引入智能控制系统&#xff0c;实现…

RKNPU2从入门到实践 --- 【10】RKNPU2零拷贝API实现RKNN模型在RK3588开发板上的部署

目录 一、为什么叫零拷贝API&#xff1f; 二、零拷贝API执行流程&#xff08;代码解读&#xff09; 2.1 前奏工作 2.2 main.cc文件的编写&#xff08;代码的编写&#xff09; 2.2.1 第一步&#xff1a;rknn_init接口创建rknn_context对象、加载RKNN模型 2.2.2 第二步…

产品概述Tektronix泰克TCP0030A电流探头TCP0030原装二手

产品概述 Tekronix TCP0030 AC/DC 电流探头是一款高性能且易于使用的探头&#xff0c;它通过可选测量范围增强了带宽&#xff0c;同时还提供了低电流测量能力和精度。Tektronix TCP0030 探头专为具有 TekVPI 探头接口的示波器而设计。 Tektronix TCP0030 AC/DC 电流探头的功能…

浏览器播放RTSP流,支持H264、H265等格式,支持IE、Chrome等浏览器

目录 背景 解决方案 效果 代码 前端代码 后端代码 下载 背景 项目中需要在浏览器中播放RTSP流&#xff0c;实在是不想折腾ActiveX控件 1、麻烦&#xff08;开发麻烦、使用时设置也麻烦&#xff09; 2、非IE浏览器不兼容 解决方案 使用OpenCvSharpNancy写一个解码服…

uniapp秋云图表报错json underfind的原因

如果在使用秋云图表 出现报错 以及只有第一次能够渲染正确的图表 后续刷新都不显示 那么大概率都是因为在刷新页面数据的时候 图标组件自己先执行了一遍&#xff0c;导致在第一遍的时候找不到值而报错 如图所示 只需要在加载数据的时候 加个延时 就可以很好的解决这个问题