走向计算机视觉的通用人工智能:从GPT和大型语言模型中汲取的经验教训 (下)...

news2025/1/14 9:36:56

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

5d012ac201b4b3403435e0a917e9bf54.gif

36e05586fc82b3efe02d004c665316d8.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

bc340888c5869602a77ae75d0a9c9bdd.png

论文地址:https://arxiv.org/pdf/2306.08641.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

人工智能界一直在追求被称为通用人工智能(AGI)的算法,这些算法适用于任何类型的现实世界问题。

继续上一篇,详细描述通用人工智能

f933dc343af57d7c07e2c4d3de733305.gif

03

总  述

简而言之,AGI就是学习一个广义函数a=π(s)。尽管形式很简单,但老式的人工智能算法很难使用相同的方法、算法甚至模型来处理所有这些问题。在过去的十年里,深度学习提供了一种有效而统一的方法:人们可以训练深度神经网络来近似函数a=π(s),而不知道它们之间的实际关系。强大的神经网络架构(如transformer)的出现甚至使研究人员能够为不同的数据模式训练一个模型。

实现AGI存在巨大困难,包括但不限于以下问题。

  • 数据的复杂性。真实世界的数据是多方面和丰富的。一些数据模态(例如,图像)可能具有相当高的维度,并且不同模态之间的关系可能是复杂和潜在的。

  • 人类智力的复杂性。AGI的目标不仅是解决问题,还包括计划、推理、对不同事件的反应等。有时,人类行为和目标之间的关系是模糊的,很难用数学形式表示。

  • 缺乏神经或认知理论。人类还不了解人类的智慧是如何实现的。目前,计算机算法提供了一种途径,但随着神经病学和/或认知学的未来研究,可能会出现更多的可能性。

a51886998a538a41a7e7dd821832f25b.gif

04

GPT

NLP中AGI的火花

在过去的一年里,ChatGPT3、GPT-4和其他人工智能聊天机器人,如Vicuna4,在AGI方面取得了重大进展。它们是为自然语言处理(NLP)开发的计算机算法。通过与人类的聊天程序,他们可以理解人类的意图,并完成广泛的任务,只要这些任务能够以纯文本呈现。特别是,GPT-4在通用问题解决方面有很强的能力,被认为是NLP领域AGI的早期火花。

56ded4baf849967b238df381bd57d9e3.png

尽管GPT-4尚未向公众开放视觉界面,但官方技术报告展示了几个关于多模式对话的奇特例子,即基于输入图像的聊天作为参考。这意味着GPT-4已经具备了将语言特征与视觉特征相结合的能力,因此它可以执行基本的视觉理解任务。正如我们稍后将看到的,视觉社区已经为相同的目的开发了几种替代品,关键在于使用ChatGPT或GPT-4来生成(指导)训练数据。此外,通过简单的提示,GPT-4还能够调用用于图像生成的外部软件(例如,Midtravel,如下图所示)和用于解决计算机视觉中复杂问题的外部库(例如,HuggingFace库)。

03fc55428bb694b0b36389b472baf6b8.png

这些人工智能聊天机器人是分两个阶段进行训练的。在第一阶段,使用自监督学习在大型文本数据库上预训练大型语言模型(LLM),其中大部分基于transformer架构。在第二阶段,预先训练的LLM由人工指令监督,以完成特定任务。如有必要,收集人类反馈并进行强化学习,以微调LLM,使其具有更好的性能和更高的数据效率。CV:AGI的下一个战场

c8396864ea33f185180093f82dbaa273.gif

05

AGI下一个战场

CV:AGI的下一个战场

人类基于多种数据模态感知世界。众所周知,我们所学的大约85%是通过我们的视觉系统完成的。因此,鉴于NLP社区已经显示出AGI的前景,自然会将计算机视觉(CV)或多模态(至少包括视觉和语言领域)视为AGI的下一个战场。

在此提供两项补充意见,以补充上述声明。首先,很明显,CV是NLP的超集,因为人类阅读文章首先识别捕获图像中的字符,然后理解内容。换句话说,CV中的AGI(或多模态)应涵盖NLP中AGI的所有能力。其次,我认为,在许多情况下,仅靠语言是不够的。例如,当人们试图找到关于未知物体(例如,动物、时尚等)的详细信息时,最好的方法是捕捉图像并将其用于在线搜索;单纯依赖文本描述可能会带来不确定性和不准确性。另一种情况是,正如我前面提及那样,在场景中引用细粒度语义(用于识别或图像编辑)并不总是容易的,而且以视觉友好的方式思考更有效,例如,使用点或框来定位目标,而不是说“穿着黑色夹克、站在黄色汽车前的人,和另一个人说话。”

理想与现实

希望有一种CV算法,可以通过与环境交互来解决一般任务。注意,该要求不限于识别所有内容或基于图像或视频剪辑执行对话。它应该是一个整体系统,从人类那里接收通用命令并产生期望的结果。但是,CV的现状还很初步。如下图所示,CV一直在为不同的视觉任务使用不同的模块甚至系统。

e316996be3bd99249ace994e53a7ac8e.png

统一是趋势

下面,我将最近关于CV统一的研究主题总结为五类。

  • Open-world Visual Recognition

4c1420977c9e81abb5692017fcb5b44d.png

在很长一段时间内,大多数CV算法只能识别训练数据中出现的概念,导致视觉概念的“封闭世界”。相反,“开放世界”的概念是指CV算法能够识别或理解任何概念的能力,无论它以前是否出现过。开放世界能力通常是由自然语言引入的,因为它是人类理解新概念的自然方式。这就解释了为什么图像字幕和视觉问答等与语言相关的任务促成了最早的视觉识别开放世界设置。

  • The Segment Anything Task

68ac022ff18a40c7c19b61019e1ba8de.png

Segment Anything任务是最近引入的一个通用模块,用于将原始图像像素聚类成组,其中许多像素对应于图像中的基本视觉单元。所提出的任务支持多种类型的提示,包括点、轮廓、文本等,并为每个提示或每个提示组合生成一些掩码和分数。在拥有约1000万张图像的大规模数据集上进行训练后,衍生模型SAM能够转移到广泛的分割任务中,包括医学图像分析、伪装对象分割、3D对象分割、对象跟踪,以及图像修复等应用场景。SAM还可以与最先进的视觉识别算法一起使用,例如将视觉基础算法产生的边界框细化为掩码,并将分割单元输入用于图像标记的开集分类算法。

  • Generalized Visual Encoding

63645a0ffd3b47d391842f5ad1e74174.png

统一CV任务的另一种方法是为它们提供通用的视觉编码。有几种方法可以实现这一目标。一个关键的困难在于视觉任务之间的巨大差异,例如,目标检测需要一组边界框,而语义分割需要对整个图像进行密集预测,这两者都与图像分类所需的单个标签非常不同。正如所有人都能理解的那样,自然语言提供了一种统一的形式来表示一切。一项名为pix2seq的早期研究表明,物体检测结果(即边界框)可以公式化为自然语言和坐标,然后转换为标记作为视觉模型的输出。在后来的版本pix2seq-v2中,他们对表示进行了概括,以目标检测、实例分割、关键点检测和图像字幕的输出。类似的想法也用于其他图像识别、视频识别和多模态理解任务。

  • LLM-guided Visual Understanding

b6f1ed1b0c36b37aee71bf48bb416894.png

视觉识别可能很复杂,尤其是当它涉及组成概念和/或视觉实例之间的关系时。端到端模型(用于视觉问答的视觉语言预训练模型)很难按照人类容易理解的程序产生答案。为了缓解这个问题,一种实用的方法是生成可解释的逻辑来帮助视觉识别。这个想法并不新鲜。几年前,在transformer架构出现之前,研究人员提出使用长短期记忆(LSTM)模型来生成程序,以便调用视觉模块作为复杂问题回答的模块。当时,LSTM的能力在很大程度上将这个想法限制在相对简单和模板化的问题范围内。

最近,大型语言模型(尤其是GPT系列)的出现使任意问题的转换成为可能。具体来说,GPT可以以不同的方式与人类相互作用。例如,它可以将基本识别结果总结为最终答案,或者生成代码或自然语言脚本来调用基本视觉模块。因此,视觉问题可以分解为基本模块。这对于逻辑问题尤其有效,例如询问对象之间的空间关系或取决于对象数量的问题。

  • Multimodal Dialog

多模式对话框将基于文本的对话框扩展到视觉领域。早期的工作涉及视觉问答,其中构建了具有简单问题的各种数据集。随着LLM的快速发展,通过将预先训练的视觉和语言模型一起微调,可以实现多轮问答。研究还表明,可以通过多模态的上下文学习或使用GPT作为逻辑控制器来回答广泛的问题。

182cb9c2cd4d731c6c6cd5dad56f459e.png

最近,GPT系列中开发的一种新范式,命名为指导学习,被继承来提高多模式对话的质量。其想法是从GT实况注释或识别结果中提供一些参考数据(例如,目标、描述),并要求GPT模型生成指令数据(即丰富的问答对)。通过对这些数据进行微调(无需参考),视觉和语言的基础模型可以通过轻量级网络模块(例如Q-former)相互交互。多模式对话为计算机视觉提供了一个初步的交互基准,但作为一项语言指导任务,它也有开放世界视觉识别中分析的弱点。我们希望丰富查询形式(例如,使用通用视觉编码方法)可以将多模式对话推向更高的水平。

d11cd1c64d2735dbd5f5b123a898cc3b.gif

06

未来

从环境中学习

An Imaginary Pipeline

106a048a9cf83a660df34cc067313f3c.png

上图显示了我们的想法。该管道包括三个阶段:第0阶段用于建立环境,第1阶段用于预训练,第2阶段用于微调。必要时,可以提示微调后的模型执行传统的视觉识别任务。

Comments on Research Directions

最后,对未来的研究方向进行了展望。随着主要目标从代理任务的性能转移到从环境中学习,许多流行的研究方向可能不得不调整其目标。这里有一个免责声明:以下所有声明都是我们的个人意见,可能是错误的。

论营造环境

一个明确的目标是继续增加虚拟环境的规模、多样性和保真度。有多种技术可以提供帮助。例如,新的3D表示形式(例如,neural rendering field, NeRF)在实现重建质量和开销之间的折衷方面可能更有效。另一个重要的方向是丰富的环境。定义新的、复杂的任务并将它们统一为一个提示系统是一项不平凡的任务。此外,人工智能算法可以从更好地模拟其他代理的行为中受益匪浅,因为它可以在很大程度上提高环境的丰富性,从而提高训练算法的稳健性。

论生成性预训练

主要有两个因素影响预训练阶段,即神经架构设计和代理任务设计。后者显然更为重要,前者应建立在后者的基础上。应修改现有的预训练任务,包括对比学习和掩蔽图像建模,以便在虚拟环境中进行有效探索。我们希望新设计的代理专注于数据压缩,因为视觉数据中的冗余比语言数据中的要重得多。新的预训练代理定义了神经架构的要求,例如,为了实现数据压缩和视觉识别之间的折衷,设计的架构应该具备根据请求提取不同级别(粒度)视觉特征的能力。此外,跨模态(例如,文本到图像)生成将成为衡量预训练性能的直接指标。当统一的标记化方法可用时,可以将其公式化为重建损失的多模式版本。

论指导微调

我们还没有进入新范式中定义任务的范围。由于现实世界中的任务可能非常复杂,我们推测可以首先定义和训练一些基本任务,以便将复杂的任务分解为它们。为此,应该设计一个统一的提示系统,并收集丰富的人工指令。作为一个合理的推测,指令数据的数量可能比为训练GPT和其他聊天机器人而收集的数据大几个数量级。这对CV来说是一个全新的故事。未来的道路充满了未知的困难和不确定性。目前我们看不到太多,但未来会出现清晰的道路。

© THE END 

转载请联系本公众号获得授权

3025087b3e821269368ee5e0a0e562d9.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

6439fed7504df3b946213d393bfcdc0d.png

往期回顾

01

|RestoreDet:低分辨率图像中目标检测

02

|ECCV | 数据高效的Transformer目标检测器

03

|改进的YOLO:AF-FPN替换金字塔模块提升目标检测精度

04

|走向CV的通用人工智能:从GPT和大型语言模型中汲取的经验教训 (上)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/679136.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Matlab预测模型-灰色预测模型

预测模型-灰色预测模型 灰色预测是对既含有已知信息又含有不确定信息的系统进行预测,就是对在一定范围内变化的、与时间有关的灰色过程进行预测。灰色预测对原始数据进行生成处理来寻找系统变动的规律,并生成有较强规律性的数据序列,然后建立…

Linux学习[19]管线命令详解1---cut, grep, sort, wc, uniq

文章目录 1. 何为管线2. 摘取命令:cut, grep2.1 cut2.2 grep 3. 排序命令sort,wc,uniq3.1 sort3.2 uniq3.3 wc 总结 1. 何为管线 管线命令和Linux学习18里面的连续执行指令少许不同。他是只有在前面指令执行正确的时候,才会执行管线命令。 即这个管线命…

基于Vue+Node.js的宠物领养网站的设计与开发-计算机毕设 附源码 83352

基于VueNode.js的宠物领养网站的设计与开发 摘 要 随着互联网大趋势的到来,社会的方方面面,各行各业都在考虑利用互联网作为媒介将自己的信息更及时有效地推广出去,而其中最好的方式就是建立网络管理系统,并对其进行信息管理。由…

彻底卸载mysql的详细步骤

目录 一、前言 二、操作步骤 (一) 停止mysql的服务 (二)控制面板卸载 (三)清除残留的文件 (四)删除注册表内容 (五)删除MySQL环境变量 一、前言 卸载…

spider-flow新手暴力入门

1.入口 链接跳转: spider-flow 或者本地有git软件直接输入gittt中的链接地址,回车键梭哈即可 2.环境部署,必备jdk8mysql idea打开项目,重点修改如下 mysql用小皮软件(phpstudy)自带的mysql5,navicat软件导入sql文…

SEO一般多久时间才会有效果?

💂 个人网站:【海拥】【游戏大全】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 目录 前言什么是SEOSEO的时间…

Sui x KuCoin Labs夏季黑客松第二批入围项目公布

Sui x KuCoin Labs夏季黑客松仍在如火如荼地进行中。自第一批入围项目名单公布后一周,第二批入围项目现已经过审核,入围最终Demo Day。 第二批入围名单 Vimverse Vimverse是一个基于Sui构建的创新生态金融平台,旨在释放去中心化储备货币协…

计算物理专题:主值积分

计算物理专题:主值积分 吴式枢理论 主值积分 设在以及上可积,其中为任意小的正数,当两者独立地趋于零,极限存在。如果,这个极限存在,则称它为瑕积分的主值,记作无界函数的改造则该瑕积分的主值…

使用鲁棒优化的定价策略进行微电网不平衡管理研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

童安格杀猪和金钥匙-UMLChina建模知识竞赛第4赛季第7轮

DDD领域驱动设计批评文集 欢迎加入“软件方法建模师”群 《软件方法》各章合集 参考潘加宇在《软件方法》和UMLChina公众号文章中发表的内容作答。在本文下留言回答。 本轮每题分数较少,需最先答对所有4题,才能获得本轮优胜。 所有题目的回答必须放…

Python 进阶(一):Python连接MySQL数据库和CRUD操作

MySQL数据库的连接和CRUD操作 前言Python连接MySQL的五种方式1. 安装mysql-connector-python2. 连接数据库3. 查询数据4. 插入数据5. 更新数据6. 删除数据 前言 本文基于MySQL8.x版本的学习,python版本基于当前最新的3.x,windows操作系统下mysql的安装流…

对骨架进行去毛刺处理

文章目录 0. 效果1. 基本内容2. 参考 0. 效果 红色:端点 绿色:节点 蓝色线条:毛刺(根据长度定义) 1. 基本内容 本文中的端点和节点的获取是依据论文《一种有效的骨架毛刺去除算法》中的内容提取的。 端点&#…

Chromium多进程架构,你知道多少?

一、前言 国内外主流的浏览器,大多采用的是谷歌的Chromium 浏览器内核,Chromium是一个多进程多线程架构的Web引擎,很多应用和底层开发者希望了解Chromium中的进程和线程的种类和用途,以便能利用相关信息提升应用的性能。为此&…

C++【一棵红黑树封装 set 和 map】

✨个人主页: 北 海 🎉所属专栏: C修行之路 🎃操作环境: Visual Studio 2019 版本 16.11.17 文章目录 🌇前言🏙️正文1、红黑树的完善1.1、修改默认成员函数1.1.1、默认构造1.1.2、析构 ---> …

nodejs 跳蚤市场网站-计算机毕设 附源码83381

nodejs 跳蚤市场网站 目 录 摘要 1 绪论 1.1选题背景与意义 1.2国内外发展情况 1.3node.js主要功能 1.4node.js功能模块 1.5论文结构与章节安排 2跳蚤市场网站系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1数据增加流程 2.3.2数据修改流程 2.3.3数据删除流程 …

django公交线路查询系统-计算机毕设 附源码85021

django公交线路查询系统 摘 要 本论文主要论述了如何使用django框架开发一个公交线路查询系统,本系统将严格按照软件开发流程进行各个阶段的工作,面向对象编程思想进行项目开发。在引言中,作者将论述该系统的当前背景以及系统开发的目的&…

售后商品破损回复话术

想必客服们最关注且最头疼的问题便是售后问题了吧,特别是一些商品破损类的问题,是客服们最不想面对的问题之一了,为此小编整理了一份商品破损回复话术提供给大家,希望能对大家有所帮助哦~ 一、询问与核实 1.对不起,由…

Linux系统编程:进程的状态和进程优先级

目录 一. Linux操作系统进程的状态 二. 进程状态的标识 2.1 运行状态R 2.2 睡眠状态S 2.3 前台进程和后台进程 2.4 磁盘睡眠状态D 2.5 暂停状态和调试状态T 2.6 僵尸状态Z 2.7 终止状态X 2.8 孤儿进程 三. 进程优先级 3.1 什么是优先级 3.2 进程优先级的修改和进…

一文带你了解Java的I O机制

Java I/O 一:故事背景二:什么是Java的I\O机制2.1 流2.1.2 字节流和字符流的区别2.1.3 输入流和输出流的区别 2.2 文件 I/O2.3 缓冲 I/O2.4 标准 输入/输出2.5 对象序列化与反序列化2.6 N I/O 三:画图表示Java I/O机制3.1 输入输入系统流程示意…

vue中响应式的数组方法

vue响应式的数组方法 1、push 在数组中追加元素 <div id"app"><ul><li v-for"item in arr">{{item}}</li></ul><button click "change">按钮</button> </div> <script src"js/vue.js&…