LeCun数十年经验之谈:视觉是建立AGI的核心,视频理解难点在哪?语言模型技术为何难以复用于视觉?

news2024/11/26 8:25:52

文字来源 | 夕小瑶科技说 AI寒武纪

大语言模型(LLM)已经接近人类水平,但视觉理解在世界范围似乎尚未突破,那么为何不能直接将LLM技术用于视觉?让AI看视频的难点在哪?如果语言是AGI必要的能力,为何猫狗、幼儿不会说话似乎也比目前的AI更能理解现实世界?

这些问题非常关键,近日,LeCun 又一次来到 Lex Fridman 的播客,展开了一场接近三个小时的访谈,谈到了这些问题,内容涉及LLM 的局限性、视觉理解与语言理解的区别、通向 AGI 的道路等等,非常精彩。我们精选了一些观点,与大家分享。以下内容受限于篇幅,有删减无修改:

完整视频观看链接:
https://www.youtube.com/watch?v=5t1vTLU7s40

模型没有视觉输入,仅靠语言不会达到AGI

图片

推特原文:https://twitter.com/ylecun/status/1766498677751787723

访谈视频播出后LeCun在推特与网友开展讨论,补充了视觉信息的重要性,要点摘录:

  • 语言的信息带宽很低:每秒不到12字节。一个人每分钟可以阅读270个单词,即每秒4.5个单词,这相当于每秒12字节(假设每个Token占用2字节,每个Token对应0.75个单词)。一个现代的大语言模型(LLM)通常使用1x10^13个双字节Token进行训练,这相当于2x10^13字节。这将需要一个人花费大约10万年的时间来阅读(假设每天阅读12小时)

  • 视觉的信息带宽要高得多:大约每秒20MB。每条视神经有100万根神经纤维,每根每秒传输大约10字节。一个4岁的孩子总共醒着的时间是16,000小时,这相当于1x10^15字节

  • 文本是冗余的,视觉神经中的信号甚至更加冗余(尽管它们是视网膜中感光细胞输出的100倍压缩版本)。但数据中的冗余正是我们所需要的,以便自监督学习(SSL)能够捕捉数据的结构。冗余越多,对SSL越有利

  • 大部分人类知识(以及几乎所有动物知识)都来自我们对物理世界的感官体验。语言只是锦上添花。

  • 我们绝对没有任何办法在不使机器从高带宽感官输入(如视觉)中学习的情况下达到人类水平的AI。

十年经验谈:视频理解的难点

要点摘录:

Lex Fridman:能否建立一个对世界有深刻理解的模型?

Yann LeCun:能否通过预测来构建它,答案很可能是肯定的。但能通过预测单词来构建它(世界模型)吗?答案很可能是否定的因为语言在弱带宽或低带宽方面非常贫乏,没有足够的信息。因此,建立世界模型意味着要观察世界,了解世界为什么会以这样的方式演变,然后世界模型的额外组成部分就是能够预测你可能采取的行动会导致世界如何演变。

因此,一个真正的模型是:这是我对 T 时世界状态的想法,这是我可能采取的行动。在 T+1 时间,预测的世界状态是什么?现在,世界的状态并不需要代表世界的一切,它只需要代表与这次行动规划相关的足够多的信息,但不一定是所有的细节。

如果你愿意,可以做视频大模型。在 FAIR,我和我们的一些同事尝试已有 10 年之久,但你无法用与 LLM 相同的技术,因为 LLM,正如我所说,你无法准确预测哪一个单词会跟随一连串单词,但你可以预测单词的分布。现在,如果你去看视频,你要做的就是预测视频中所有可能帧的分布,而我们并不知道如何正确地做到这一点。

我们不知道如何以有用的方式来表示高维连续空间上的分布。这就是主要问题所在,我们之所以能做到这一点,是因为这个世界比文字复杂得多,信息丰富得多。文本是离散的,而视频是高维的、连续的。这里面有很多细节。因此,如果我拍摄了这个房间的视频,视频中的摄像机在四处转动,我根本无法预测在我四处转动时房间里会出现的所有东西。系统也无法预测摄像机转动时房间里会出现什么。也许它能预测到这是一个房间,里面有一盏灯,有一面墙,诸如此类的东西。它无法预测墙壁上的画是什么样子,也无法预测沙发的纹理是什么样子。当然也无法预测地毯的质地。所以我无法预测所有这些细节。

因此,一种可能的处理方法,也是我们一直在研究的方法,就是建立一个拥有所谓潜在变量的模型。潜在变量被输入到神经网络中,它应该代表所有你还没有感知到的关于这个世界的信息,你需要增强系统的预测能力,才能很好地预测像素,包括地毯、沙发和墙上画作的细微纹理。

我们试过直接的神经网络试过 GAN,试过 VAE试过各种正则化自动编码器。我们还尝试用这些方法来学习图像或视频的良好表征,然后将其作为图像分类系统等的输入。基本上都失败了。

所有试图从损坏版本的图像或视频中预测缺失部分的系统,基本上都是这样的:获取图像或视频,将其损坏或以某种方式进行转换,然后尝试从损坏版本中重建完整的视频或图像,然后希望系统内部能够开发出良好的图像表征,以便用于物体识别、分割等任何用途。这种方法基本上是完全失败的,而它在文本方面却非常有效。这就是用于 LLM 的原理。

Lex Fridman:失败究竟出在哪里?是很难很好地呈现图像,比如将所有重要信息很好地嵌入图像?是图像与图像、图像与图像之间的一致性形成了视频?如果我们把你所有失败的方式做一个集锦,那会是什么样子?

Yann LeCun:首先,我必须告诉你什么是行不通的,因为还有其他东西是行得通的。所以,行不通的地方就是训练系统学习图像的表征,训练它从损坏的图像中重建出好的图像

对此,我们有一整套技术,它们都是去噪自编码器的变体,我在 FAIR 的一些同事开发了一种叫做 MAE 的东西,即掩蔽自编码器。因此,它基本上就像 LLM 或类似的东西,你通过破坏文本来训练系统,但你破坏图像,从中删除补丁,然后训练一个巨大的神经网络重建。你得到的特征并不好,而且你也知道它们不好,因为如果你现在训练同样的架构,但你用标签数据、图像的文字描述等对它进行监督训练,你确实能得到很好的表征,在识别任务上的表现比你做这种自监督的再训练要好得多。

结构是好的,编码器的结构也是好的,但事实上,你训练系统重建图像,并不能使它产生良好的图像通用特征。那还有什么选择呢?另一种方法是联合嵌入。

JEPA(联合嵌入预测架构)

Lex Fridman:联合嵌入架构与 LLM 之间的根本区别是什么?JEPA 能带我们进入 AGI 吗?

Yann LeCun:首先,它与 LLM 等生成式架构有什么区别?LLM 或通过重构训练的视觉系统会生成输入。它们生成的原始输入是未损坏、未转换的,因此你必须预测所有像素,而系统需要花费大量资源来实际预测所有像素和所有细节。而在 JEPA 中,你不需要预测所有像素,你只需要预测输入的抽象表示。这在很多方面都要容易得多。因此,JEPA 系统在训练时,要做的就是从输入中提取尽可能多的信息,但只提取相对容易预测的信息。世界上有很多事情是我们无法预测的。树上的叶子会以一种你无法预测的方式移动,而你并不关心,也不想预测。因此,你希望编码器基本上能消除所有这些细节。它会告诉你树叶在动,但不会告诉你具体发生了什么。因此,当你在表示空间中进行预测时,你不必预测每片树叶的每个像素。这样不仅简单得多,而且还能让系统从本质上学习到世界的抽象表征,其中可以建模和预测的内容被保留下来,其余的则被编码器视为噪音并消除掉。

Lex Fridman:你是说语言,我们懒得用语言,因为我们已经免费得到了抽象的表述,而现在我们必须放大,真正思考一般的智能系统。我们必须处理一塌糊涂的物理现实和现实。而你确实必须这样做,从完整、丰富、详尽的现实跳转到基于你所能推理的现实的抽象表征,以及所有诸如此类的东西。

Yann LeCun:没错。那些通过预测来学习的自监督算法,即使是在表征空间中,如果输入数据的冗余度越高,它们学习到的概念也就越多。数据的冗余度越高,它们就越能捕捉到数据的内部结构。因此,在知觉、视觉等感官输入中,冗余结构要比文本中的冗余结构多得多。语言可能真的代表了更多的信息,因为它已经被压缩了。你说得没错,但这也意味着它的冗余度更低,因此自监督的效果就不会那么好。

Lex Fridman:有没有可能将视觉数据的自监督训练与语言数据的自监督训练结合起来?尽管你说的是 10 到 13 个 token,但其中蕴含着大量的知识。这 10 到 13 个 token 代表了我们人类已经弄明白的全部内容,包括 Reddit 上的废话、所有书籍和文章的内容以及人类智力创造的全部内容。

Yann LeCun:嗯,最终是的。但我认为,如果我们太早这样做,就有可能被诱导作弊。而事实上,这正是目前人们在视觉语言模型上所做的。我们基本上是在作弊,在用语言作为拐杖,帮助我们克服视觉系统的缺陷从图像和视频中学习良好的表征。

这样做的问题是,我们可以通过向语言模型提供图像来改进它们,但我们甚至无法达到猫或狗的智力水平或对世界的理解水平,因为它们没有语言。它们没有语言,但对世界的理解却比任何 LLM 都要好得多。它们可以计划非常复杂的行动,并想象一系列行动的结果。在将其与语言结合之前,我们如何让机器学会这些?显然,如果我们将其与语言相结合,会取得成果,但在此之前,我们必须专注于如何让系统学习世界是如何运作的。

结语

我们做视频理解多年,对LeCun谈到的难点有深刻体会,也非常赞同视觉等高维信息对于AI理解世界是至关重要的,这也许就是通向AGI的道路。不过,2024年2月19日,”人工智能教父“ Geoffrey Hinton在牛津大学的公开演讲上, 强调LLM具备真正的理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2207402.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flink 批作业如何在 Master 节点出错重启后恢复执行进度?

摘要:本文撰写自阿里云研发工程师李俊睿(昕程),主要介绍 Flink 1.20 版本中引入了批作业在 JM failover 后的进度恢复功能。主要分为以下四个内容: 背景解决思路使用效果如何启用 Tips:点击「阅读原文」跳转…

数据结构实验:用栈求解迷宫问题的所有路径及最短路径

用栈求解迷宫问题的所有路径及最短路径 题目描述 编写一个程序exp3-5.cpp,改进《教程》3.1.4节中的求解迷宫问题程序,要求输 如图3.9所示的迷宫的所有路径,并求第一条最短路径及其长度。 在本实验中用mg作为迷宫数组,用St数组作为顺序栈,Path数组保存一条迷宫径,将它们都设置为…

47 C 语言实战项目——家庭收支记账软件

目录 1 需求说明 1.1 菜单显示 1.2 登记收入 1.3 登记支出 1.4 显示收支明细 1.5 退出 2 流程分析 2.1 总流程图 2.2 登记收入流程图 2.3 登记支出流程图 2.4 收支明细流程图 2.5 退出流程图 3 代码实现 3.1 框架搭建 3.2 收支明细功能 3.3 登记收入功能 3.4 …

解决UOS操作系统vim内容鼠标选中后进入可视模式,无法复制问题

现象: 在 vim 插入模式中右键单击出现可视模式,如下图 解决方法: 1. 编辑文件 rootkylin-PC:~# vi /usr/share/vim/vim81/defaults.vim 改为

ANSYS Workbench多边形骨料及界面过渡区混凝土细观模型

混凝土细观模型是一种用来研究混凝土材料内部结构和性能的分析方法。它主要关注于混凝土中不同组分(如骨料、水泥浆体等)之间的相互作用以及这些相互作用如何影响整体材料的行为。在建立这样的模型时,考虑到多边形骨料及其与周围基质之间形成…

【含文档】基于Springboot+Android的环境保护生活App(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

Jenkins入门:流水线方式部署多模块Springboot项目

目录 一、环境准备 1. 搭建配置Jenkins (在上一篇基础上进行) 2. 安装mysql 3. 安装redis 4. 配置docker-componse 5. 启动docker-componse 二、脚本准备 1. Jenkinsfile 2. deploy.sh 3. Dockerfile 三、Jenkins流水线配置 新增版本号参数 流水线选择代码里面的Je…

ffmpeg面向对象——rtsp拉流探索(1)

目录 1.tcp创建及链接的流程图及对象图2.解析 标准rtsp协议的基石是tcp,本节探索下ffmpeg的rtsp拉流协议tcp的socket创建及链接。 1.tcp创建及链接的流程图及对象图 tcp创建及链接的流程图,如下: tcp创建及链接的对象图,如下&…

QD1-P15 HTML 文本标签(textarea、label)

本节学习 HTML 常用标签:textarea和label ‍ 本节视频 www.bilibili.com/video/BV1n64y1U7oj?p15 ‍ 知识点1:textarea标签的用途 可输入多行文本的控件 cols属性: 文本的可见宽度 rows属性: 文本的可见行数 HTML示例 &l…

Map父接口

通过API可以详细查看Map接口包含的具体方法。重点的方法包括: 案例一:Map接口的基本使用 package com.map;import java.util.HashMap; import java.util.Map; import java.util.Set;/*** Map接口的使用* 特点:存储键值对;键不能重…

【数据结构】零碎知识点(易忘 / 易错)总结回顾

一、数据结构的概念 数据结构(Data Structure)是计算机存储、组织数据的方式,指相互之间存在一种或多种特定关系的数据元素的集合。 二、算法 算法(Algorithm)就是定义良好的计算过程,它取一个或一组的值为…

Python、R语言Lasso、Ridge岭回归、XGBoost分析Airbnb房屋数据:旅游市场差异、价格预测|数据分享...

全文链接:https://tecdat.cn/?p37839 分析师:Kefan Yu 在大众旅游蓬勃发展的背景下,乡村旅游已成为推动乡村经济、社会和文化发展的关键力量。当前,乡村旅游接待设施主要以招待所、小宾馆和农家乐等形式存在。然而,一…

二叉树改良版——AVL树

为什么说是“改良”,其实标题的二叉树指的是搜索二叉树,它虽然可以缩短查找的效率,但如果数据已经有序或接近有序的话二叉树就会退化成单支树,这样查找元素的话反而会效率低下。因此,为了解决这个问题,AVL树…

zynq 添加lwip库

在自己的项目属性中. 就是在上一行的下面加了一行配置. 多了个 -llwip4 -Wl,--start-group,-lxil,-llwip4,-lgcc,-lc,--end-group

第十四届单片机嵌入式蓝桥杯

一、CubeMx配置 (1)LED配置 (1)LED灯里面用到了SN74HC573ADWR锁存器,这个锁存器有一个LE引脚,这个是我们芯片的锁存引脚(使能引脚),由PD2这个端口来控制的 (2&#xff…

Qt初识_通过代码创建hello world

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 Qt初识_通过代码创建hello world 收录于专栏【Qt开发】 本专栏旨在分享学习Qt的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 1.通过按…

魔珐出席INSIGHT金融洞察力峰会,共探AI内容生成新范式

2024年9月27日,2024INSIGHT金融洞察力在北京举行,来自银行、保险、期货、证券、基金等行业的业界翘楚,共商行业热点议题,为金融行业增进互信、扩大合作搭建闭门平台,贡献价值与力量。 魔珐科技AIGC业务负责人杜子航&a…

XUbuntu安装OpenSSH远程连接服务器

目录 打开终端。更新你的包索引安装OpenSSH服务器。在终端中输入以下命令:安装完成后,OpenSSH服务器会自动启动。查看主机 IP测试连接打开 cmd 终端SSH 连接虚拟机确认连接输入连接密码发现问题修改用户,尝试连接 打开终端。 更新你的包索引 …

候机时间计算(数学小题目,练习时间字符串“解析”)

时间字符串的简单处理,可自行解析也可以调库。 (笔记模板由python脚本于2024年10月10日 18:06:42创建,本篇笔记适合有基本编程逻辑的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free:大咖免费“…

MinIO 学习订阅服务

MinIO 的入门非常简单 — 只需几个简单的命令和一个 100 MB 的小二进制文件,您就可以立即启动并运行一个功能性开发环境。但是,为了在生产规模上利用 MinIO 的全部功能,我们鼓励专业人士更多地了解 MinIO 的广泛功能。我们推出了 MinIO 学习订…