OpenAI SORA团队负责人 通往智能的方式 报告笔记

news2025/1/11 0:19:45

OpenAI SORA团队负责人 通往智能的方式 报告笔记

这个报告其实是2024年智源大会的主旨报告,OpenAI SORA和DALL-E团队负责人Aditya Ramesh给出的一段有关多模态大模型的报告。我去听了现场,感觉倍受启发,但是感觉很多并不能当场理解,于是下来又看了几遍,实在是非常的inspiring,于是打算写下一段笔记,来记录这个报告。但是与其说主题是多模态大模型,我更认为这个负责人在讨论的是通向智能的方式,所以自作主张换了个名字。

一. DaLL-E 1是通向智能的方式吗

DALL-E是一个基于自回归的图像生成模型,给定一段文本,生成一个图像。可以看到,生成的图像还是比较符合文本的描述的。

这里强调了它看到了Scaling with DALL-E,也就是DALL-E的缩放定律,就像大语言模型的缩放定律一样。即,

  1. 如果在一个小规模的模型上进行训练的话,可以看到光和反射、颜色和现状被很好的绘制出来了。
  2. 在一个相对大一点的规模上呢,就可以学习到艺术风格,更换一些属性等。
  3. 再大一点呢,就可以看到能够渲染出文字了!组合的一个泛化,甚至是image的上下文学习了!甚至可以实现image上的一些iq测试。

如下图

在这里插入图片描述

即便如此,Aditya在想一个关键的问题这是学习智能的好的方式吗,作者提到DALL-E 1的方法是学习一个模型,来压缩世界上所有的像素是一个非常困难的事情,需要建模很多信息(是VQGAN的那个部分吗)。Aditya还列出了一些其他的文章,这些文章都暗示了DALL-E不是实现智能的方式。比如说虽然iGPT能够在scale的时候取得比较好的结果,但是呢效率并不如CLIP。Aditya提到CLIP在从图像中提取智能的效率是CLIP的好几个数量级之倍。

所以作者给了一个很重要的结论DALL-E是一个有趣的项目,但是不是通向AGI的关键路径

二、图像表示学习的演化

Aditya先简单介绍了一下CLIP,这里就略过了。在介绍完CLIP后,作者提到了CLIP是一个巨大的范式转变,因为不需要手工标注的样本了。手工标准样本又花时间又痛苦,然而CLIP可以利用互联网上的自由文本,去学习一个在各个领域都很好的分类器。

接着,Aditya讨论了,图像表征学习的发展。最开始的时候,deep learning在image net上进行有监督的学习,预测图像的分类。接着呢,CLIP出现之后,可以通过互联网的文本-图像进行学习了,不需要提取手工特征了。最后还提到了一个文章,大致是通过训练一个图像编码器,用这个编码器来重建这个图像的caption,有点像之前的反过来。如下图。

在这里插入图片描述

所以,Aditya再次发问**基于文本的模拟是通向智能的方式吗?**作者又提到了iGPT。iGPT(似乎是一个生成式的图像模型,纯图像)通过大规模生成式学习能够学习到数据的结构,然后得到较好的表示(尽管不是很足够),那么文生图模型也能够学习到好的表示吗?Aditya得到的答案是:是。提到了your diffusion model is secretly a zero-shot classfier这个文章(如果没看过可以看我往期的博客)。这个文章基本的思想就是,即使你在建模给定文本的图像分布,这个模型也可以转换为分类模型。

所以作者给出了一个结论:我们的范式正在从给定图像来预测文本(比如说文本是分类的标签),转换为给定文本来预测图像

在这里插入图片描述

三、下一步与未来

接着作者提到了DALL-E3,这里有一个take away就是,在最具描述性(ultradescriptive)的文本上训练,会更具有效率。这告诉人们可以通过将语言当作脚手架,得到一个更好的无监督模型,脚手架这个比喻在智源大会里也经常被提到。

接着,作者举了一个比较有意思的例子来解释他的思想,如下图。中间这一列代表的是加了不同程度噪声的图像。加噪声的意义是为了代表剩下的部分(即没加噪声的部分)是希望去建模(or生成的),(这里应该没说错,就是没加噪声的部分是要生成的,然后噪声的部分可能就是只要生成的合理即可的这样)。

  1. 如果说图像里没有噪声的话,必须要用每一个具体的像素点来进行描述,图像里就没有不确定性了。
  2. 如果给模型添加一些噪声,那么就会有一些模型需要学习才能得到的,比如说狗的纹理之类的,就会存在一些不确定性,但是剩下的不确定性仅需要通过一个真正描述性的标题来得到。
  3. 如果增加了很多的噪声,那么就会有很多的不确定性,为了解释仍然存在信号的部分,只需要一个简单的说明了。
  4. 如果再加的话,模型就需要学习一切。此时并没有标题了,因为anything is possible。

接着,Aditya介绍了左边的这个环的意义。假设现在要学习一个文生图的模型, p ( i m a g e ∣ c a p t i o n ) p(image|caption) p(imagecaption),如果给它输入的是每个点的pixel value,那么它可能什么都学不到。如果计算量更多的话,那么就可以学到一个把比较有描述性的文本,转换成图像的模型,但是它可能学不到特别多,因为给它说得比较详细。如果计算量还能多,那么就能够从更多的描述性文本中进行学习。如果有特别大的规模,有可能就完全不需要conditional了。

在这里插入图片描述

接着Aditya进行了一段总结,然后补充了一下第二个图,如下图。说觉得可以从模拟 p ( t e x t ∣ i m a g e ) p(text|image) p(textimage),转移到 p ( i m a g e ∣ t e x t ) p(image|text) p(imagetext)。还提到说,有一些迹象证明,无条件建模任务的性能也会随着时间推移而提高。

对着这个图,Aditya又在这里进行了一番回顾,我们最开始其实不太用文本,只在预测一些信息的时候使用。接着就在训练模型的过程中越来越多的使用文本,比如CLIP和Image captioners。最后发现了其实可以通过使用非常描述性的标题来训练良好的生成式模型,最后,可能随着时间的推移,规模的扩大,语言可能真的只是脚手架,可以扔掉了,因为视觉世界可能是比文本更通用的界面

Aditya在这里提到说,之前的讨论代表了一个思维的转变。之前的思维是,固定数据集,找到更好的优化目标和模型结构来改善认知。 而最近而言呢,固定了优化目标,和模型结构,去找到更好的数据集。这个意思是,比如说如何使用更加描述性的文本,如何对文本排序等。

在这里插入图片描述

四、在将语言纳入视觉中,我们得到了什么

Aditya在这里又进行了一遍回顾,最开始我们想从图里生成文本,接着又想从文本里生成图。在随着计算的增加,语言的作用似乎在被纳入视觉。

在这里回顾了DALLE-2,因为DALLE-2可以做一些有趣的风格迁移,在拍了张图片之后,使用CLIP得到图像表征之后,就可以在视觉空间中进行风格化,而且保持本身的细节。

接着回顾了DALLE-1,DALLE-1学习到了图像的上下文学习,仅需给模型上半部分的图像,就可以生成对上半部分进行一些改变的下半部分, (如第一个图的im2im),尽管并没有被训练为如此。所以Aditya当时就认为这是一个通向各种图像控制的一个路径。

五、总结

作者最后总结压缩一切可能是正确的路径,而语言只是一个必要的脚手架。当然,最后可能也不够,需要一些额外的trick来让我们抵达。

语言虽然似乎可以帮我们抵达,但是最终也会归为视觉智能。

最后会给我们一个通用的界面,来模拟任何我们想要的东西。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2112712.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

赢麻了!算法学不懂都来翻烂这本书,吊打国内所有晦涩难懂的毒教材!!

这本书巧妙的运用了简洁的图表和示意图,帮助读者更加直观的理解各种机器学习算法的工作原理和应用场景。 就是一本既全面又容易上手的机器学习宝典,适合各种水平的读者,不管你是对AI感兴趣的爱好者,还是正在从事相关工作的专业人…

Linux系统应用(5)——编译器gcc

个人内容简介: 🍃个人主页:诉清风2023 🎈逆转时间的公式,就是珍惜现在ദ്ദി˶ー̀֊ー́ ) ✧ 目录 个人内容简介: 🎈逆转时间的公式,就是珍惜现在ദ്ദ…

局域网一套键鼠控制两台电脑(台式机和笔记本)

服务端(有键盘和鼠标的电脑作为服务端) 下载软件 分享文件:BarrierSetup-2.3.3.exe 链接:https://pan.xunlei.com/s/VO66rAZkzxTxVm-0QRCJ33mMA1?pwd4jde# 配置服务端 一, 二, 客户端屏幕名称一定要和…

springboot+vue+mybatis智慧篮球馆预约+PPT+论文+讲解+售后

近些年来,随着科技的飞速发展,互联网的普及逐渐延伸到各行各业中,给人们生活带来了十分的便利,智慧篮球馆预约利用计算机网络实现信息化管理,使整个智慧篮球馆预约的发展和服务水平有显著提升。 本文拟采用Eclipse开发…

虚拟机ubuntu配置opencv和opencv_contrib

前期准备 1.下载opencv和opencv_contrib源码 opencv-4.6.0:https://opencv.org/releases/ opencv_contrib-4.6.0:https://github.com/opencv/opencv_contrib 在ubuntu直接下载或者在window上下好传到虚拟机里都可以 自己找个地方把他们解压&#xf…

[项目][CMP][Thread Cache]详细讲解

目录 1.设计&结构2.申请内存3.释放内存4.框架 1.设计&结构 Thread Cache是哈希桶结构,每个桶是一个按桶位置映射大小的内存块对象的自由链表 每个线程都会有一个Thread Cache对象,这样每个线程在这里获取对象和释放对象时是无锁的 TLS – Thr…

深入理解Kotlin中的异步网络请求处理

在现代移动和Web应用开发中,异步网络请求处理是核心功能之一。Kotlin,作为一种现代、简洁且功能强大的编程语言,提供了多种方式来处理异步任务,使得开发者能够编写出更加高效和响应迅速的应用。本文将深入探讨Kotlin中的异步网络请…

FPGA开发:Verilog数字设计基础

EDA技术 EDA指Electronic Design Automation,翻译为:电子设计自动化,最早发源于美国的影像技术,主要应用于集成电路设计、FPGA应用、IC设计制造、PCB设计上面。 而EDA技术就是指以计算机为工具,设计者在EDA软件平台上…

Python-获取excel数据 - 成绩统计

Pandas库基础操作 pandas库是Python中非常受欢迎的数据分析库,提供了快速、灵活和富有表现力的数据结构,便于轻松地进行数据清洗和分析。因为它不是标准库,使用前确保环境已经安装了Pandas库。 pip install pandas接下来,通过一…

LLM Attention and Rotary Position Embedding(旋转位置编码)

旋转位置编码(Rotary Position Embedding,RoPE)是一种能够将相对位置信息依赖集成Attention计算里的方法。就是在做词表映射的时候不是单一的进行一个embedding计算,还考虑位置信息。 一些资料 [1] https://arxiv.org/pdf/2104.0…

Ubuntu20.04+ros-noetic配置Cartographer

一、概述 因为要配置激光SLAM,Cartographer属于激光雷达SLAM 中比较经典的一款,在学习之前先将其在Ubuntu20.04首先配置出来并成功运行demo。 二、具体操作 (一)概述 使用平台是Windows的wsl2上的Ubuntu20.04子系统,…

.NET技巧 - 控制台应用隐藏窗口

.NET技巧 - 控制台应用隐藏窗口 前言 起初我通过C#创建控制台应用程序免杀shellcode加载器时,默认会启动一个cmd控制台窗口 但当我们希望将其免杀loader用于钓鱼时,我们必然不希望出现这种情况。在执行进程迁移、进程注入、进程镂空等持久化权限维持操…

如何在Word中插入表格并进行高级格式化:冒号对齐、添加下划线并分栏

如何在Word中插入表格并进行高级格式化:详细教程 在Word中,表格是一个非常常用的工具,能够帮助我们更好地组织和展示信息。除此之外,本文还将深入探讨如何实现冒号对齐、添加专业的下划线以及隐藏表格线等高级技巧。通过这些技巧…

微信小程序中如何监听元素进入目标元素

Page({onLoad: function(){// 如果目标节点(用选择器 .target-class 指定)进入显示区域以下 100px 时,就会触发回调函数。wx.createIntersectionObserver().relativeToViewport({bottom: 100}).observe(.target-class, (res) > {res.inter…

NC栈和排序

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 给你一个 1 到…

WGCLOUD 安装和基本使用

WGCLOUD官网下载安装包:www.wgstart.com 1、部署WGCLOUD运行的前置条件说明 WGCLOUD包括:server为服务端(或主控端),agent为客户端(探针端、被控端) WGCLOUD的server和agent,可以部…

LoRA微调基础知识点

LoRA(Low-Rank Adaptation) LoRA论文地址 LoRA微调模型结构可训参数和配置详解 一般理解就是在模型Linear层的输入增加两个权重矩阵A和B,代替原有参数矩阵W进行训练。 如果训练从左侧进行计算则需要 d d d \times d dd的参数量&#xff…

开篇: 为什么要做这个项目?

背景 最近工作中遇到一个需求需要实现一版在线的Web编辑器,类似 Vue Playground 的效果,但是Vue playground 整体体验下来不是很好,和本地 VSCode 编辑器开发体验差距较大(虽然理解在线编辑器没必要完全照着本地开发体验来)。 经过多方体验调…

Harmony OS DevEco Studio 如何导入第三方库(以lottie为例)?-- HarmonyOS自学2

在做鸿蒙开发时,离不开第三方库的引入 一.有哪些支持的Harmony OS的 第三方库? 第三方库下载地址: 1 tpc_resource: 三方组件资源汇总 2 OpenHarmony三方库中心仓 二. 如何加入到DevEco Studio工程 以 lottie为例 OpenHarmony-TPC/lot…

单链表的定义

一.单链表的定义: 相比于顺序表,单链表不可随机存取,因此单链表中查找数据必须是一个一个找-->查找效率低 二.用代码定义一个单链表: 单链表每一个节点有数据元素和存放该元素的指针,该指针指向下一个节点 GetEle…