走向CV的通用人工智能:从GPT和大型语言模型中汲取的经验教训 (上)

news2024/9/20 20:41:57

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

942a599488afd2966776bfe4bb87fc8b.gif

2ef1fee6676da577886868dc9c36d805.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

9a99b43498e7ec85fdd34eff09559a2e.png

论文地址:https://arxiv.org/pdf/2306.08641.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

人工智能界一直在追求被称为通用人工智能(AGI)的算法,这些算法适用于任何类型的现实世界问题。

8471000828e1ea73c57b05bbf54d5b20.gif

01

总  述

最近,由大型语言模型(LLM)提供支持的聊天系统出现了,并迅速成为在自然语言处理(NLP)中实现AGI的一个有前途的方向,但在计算机视觉(CV)中实现AGI的道路仍不清楚。人们可能会将这种困境归因于视觉信号比语言信号更复杂,但我们有兴趣找到具体的原因,并从GPT和LLM中吸取经验来解决这个问题。

f8836d32544a51ffc1b6f8553fecffbc.png

在今天分享中,从AGI的概念定义开始,简要回顾了NLP如何通过聊天系统解决广泛的任务。该分析启发我们,统一是CV的下一个重要目标。但是,尽管在这个方向上做出了各种努力,CV仍然远远不是一个像GPT这样自然集成所有任务的系统。我们指出,CV的本质弱点在于缺乏从环境中学习的范式,而NLP已经完成了文本世界中的任务。然后,我们想象一个管道,将CV算法放在世界范围的可交互环境中,对其进行预训练,以预测其动作的未来帧,然后用指令对其进行微调,以完成各种任务。我们希望通过大量的研究和工程努力来推动这一想法并扩大其规模,为此我们分享了我们对未来研究方向的看法。

f4d130ac4e9be64289990ccc6789ef51.gif

02

背景

世界正在见证一场迈向通用人工智能(AGI)的史诗之旅,我们按照惯例将AGI定义为一种可以复制人类或其他动物所能完成的任何智力任务的计算机算法。具体来说,在自然语言处理(NLP)中,计算机算法已经发展到可以通过与人类聊天解决广泛任务的程度。一些研究人员认为,这些系统可以被视为AGI的早期火花。这些系统大多建立在大型语言模型(LLM)之上,并通过指令调优进行了增强。它们配备了外部知识库和专门设计的模块,可以完成解决数学问题、生成可视化内容等复杂任务,体现了其理解用户意图和执行初步思想链的强大能力。尽管在某些方面存在已知的弱点(例如,讲述科学事实和被点名的人之间的关系),但这些开创性的研究已经显示出一种明显的趋势,即将NLP中的大多数任务统一为一个系统,这反映了对AGI的追求。

8f45b978d0dff4bb1d114c9a455a35e6.jpeg

与NLP中统一的快速进展相比,计算机视觉社区还远远不是统一所有任务的目标。常规的CV任务,如视觉识别、跟踪、生成等,大多使用不同的网络架构/或专门设计的通道进行处理。研究人员期待着像GPT这样的系统,它可以通过统一的提示机制处理广泛的CV任务,但在实现单个任务的良好实践和在广泛的任务中推广之间存在权衡。例如,为了报告目标检测和语义分割中的高识别精度,最好的策略是在用于图像分类的强大主干上设计特定的头部模块,并且这种设计通常不会转移到其他问题。

因此,出现了两个问题:(1)为什么CV的统一如此困难?(2) 为了实现这一目标,可以从GPT和LLM中学到什么?

为了回答这些问题,重新审视GPT,并将其理解为在文本世界中建立一个环境,并允许算法从交互中学习。CV研究缺乏这样的环境。因此,算法无法模拟世界,因此它们对世界进行采样,并学会在所谓的代理任务中获得良好的性能。在经历了史诗般的十年深度学习之后,代理任务不再有意义地表明CV算法的能力;越来越明显的是,继续追求对它们的高精度可以使我们远离AGI。

39229f464140027e075e51439229a8f9.gif

03

通用人工智能

人工智能是一场用机器或一套数学算法复制人类智能的持久战。现代人工智能于1956年在Dartmouth研讨会上正式提出,社区为此开发了大量方法。实现人工智能至少有两种不同的途径:(i)符号人工智能,它试图将世界形成一个符号系统,并使用逻辑算法对其进行推理;(ii)统计人工智能,它试图建立一个数学函数来表述输入和输出之间的关系,但该函数可能是近似的,甚至是无法解释的。在过去的十年里,第二条道路占据了主导地位,特别是深度学习理论,这是连接主义方法思想的一部分。

简而言之,AGI就是学习一个广义函数a=π(s)。尽管形式很简单,但老式的人工智能算法很难使用相同的方法、算法甚至模型来处理所有这些问题。在过去的十年里,深度学习提供了一种有效而统一的方法:人们可以训练深度神经网络来近似函数a=π(s),而不知道它们之间的实际关系。强大的神经网络架构(如transformer)的出现甚至使研究人员能够为不同的数据模式训练一个模型。

实现AGI存在巨大困难,包括但不限于以下问题。

未完待续,请关注“计算机视觉研究院

© THE END 

转载请联系本公众号获得授权

8be632403b5ce7f066a6c19f824f62d2.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

ad061bf2a390d4dc6eef2f578055c1be.png

往期回顾

01

|ICLR 2023 | RevCol:大模型架构设计新范式

02

|清华大学提出LiVT,解决不平衡标注数据

03

|AI大模型落地不远了

04

|华为诺亚极简网络,靠13层就拿下83%精度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/674380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

交织技术详解

本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:https://github.com/timerring/information-theory 】或者公众号【AIShareLab】回复 信息论 获取。 文章目录 交织技术1.突发错误…

Linux系统:ulimit命令

目录 一、理论 1.ulimit命令 二、实验 1.打开的最大文件描述符的数量为65535 一、理论 1.ulimit命令 (1)概念 ulimit是一个计算机命令,用于shell启动进程所占用的资源,可用于修改系统资源限制,限制每个用户可使用…

资源有限的大型语言模型的全参数微调

文章目录 摘要1、简介2、相关工作3、方法3.1、重新思考optimizer的功能3.1.1、使用SGD3.1.2、隐式BatchSize 3.2、LOMO:低内存优化3.3、使用LOMO稳定训练3.3.1、梯度归一化和裁剪的替代方法3.3.2、缓解精度下降 4、实验4.1、内存配置4.2、吞吐量4.3、下游性能4.3.1、主要结果4.…

复杂的HANASQL 多行并入一行

点击蓝字 关注我们 一 前言 基于HANA的内存数据库的强大性能, SAP建议把业务逻辑下沉到HANA中计算.以便减去应用服务器的负担,让程序性能更好一些. SAP本身的一些复杂的业务逻辑比如MRP运算(MD01)也有了新的事务 MD01N (MRP LIVE) 报表类的数据分析程序尤其适用. 动态报表强化了…

PromptBench:大型语言模型的对抗性基准测试

PromptBench是微软研究人员设计的一个用于测量大型语言模型(llm)对对抗性提示鲁棒性的基准测试。这个的工具是理解LLM的重要一步,随着这些模型在各种应用中越来越普遍,这个主题也变得越来越重要。 研究及其方法论 PromptBench采用多种对抗性文本攻击&am…

阿里云服务器的存储容量和性能如何?是否支持多种存储类型?

阿里云服务器的存储容量和性能如何?是否支持多种存储类型?   本文由阿里云代理商[聚搜云]撰写   阿里云服务器作为业界领先的云计算服务提供商,其存储容量和性能一直受到广泛关注。本文将为您介绍阿里云服务器的存储容量、性能以及支持的…

《斯坦福数据挖掘教程·第三版》读书笔记(英文版)Chapter 12 Large-Scale Machine Learning

来源:《斯坦福数据挖掘教程第三版》对应的公开英文书和PPT Chapter 12 Large-Scale Machine Learning Algorithms called “machine learning” not only summarize our data; they are perceived as learning a model or classifier from the data, and thus dis…

Spring Boot 如何使用 @RequestParam 进行数据校验

Spring Boot 如何使用 RequestParam 进行数据校验 在 Web 应用程序中,用户提交的数据通常以请求参数的形式传递。在 Spring Boot 中,可以使用 RequestParam 注解来获取请求参数。但是,如何确保这些请求参数的有效性呢?在本文中&a…

Webots介绍

Webots介绍 1 介绍1.1 概述1.2 应用1.3 入门要求1.4 技术支持1.5 仿真步骤世界(webots定义)控制器超级控制器 1.6 平台能力三维建模能力物理引擎外设支持 2 软件使用启动webots用户界面文件菜单编辑菜单查看菜单模拟菜单构建菜单叠加菜单工具菜单帮助菜单…

ROS:文件系统以及命令

目录 一、ROS文件系统二、package.xml三、CMakelists.txt四、ROS文件系统命令4.1增4.2删4.3查4.4改4.5roscode4.6rosrun4.7roslaunch 一、ROS文件系统 ROS文件系统级指的是在硬盘上ROS源代码的组织形式,其结构大致如下图所示: WorkSpace --- 自定义的…

在DailyMart中是如何支持多种登录方式的?

欢迎回来,我是飘渺。今天继续更新DDD&微服务的系列文章。 1. 理解DDD中的领域模型职责 在我们开始今天的主题之前,让我们先回答一些读者的疑问。 在上一篇文章 [[DailyMart05:通过用户注册呈现一个完整的DDD开发流程]] 发布以后&#xf…

团体程序设计天梯赛-练习集L1篇①

🚀欢迎来到本文🚀 🍉个人简介:Hello大家好呀,我是陈童学,一个与你一样正在慢慢前行的普通人。 🏀个人主页:陈童学哦CSDN 💡所属专栏:PTA 🎁希望各…

SpringBoot多线程异步任务:ThreadPoolTaskExecutor + CompletableFuture

SpringBoot多线程异步任务 需求 在 SpringBoot 项目中,一个任务比较复杂,执行时间比较长,需要采用 多线程异步 的方式执行,从而缩短任务执行时间。 多线程异步 将任务拆分成多个独立的子任务,每个子任务在独立子线…

Linux基础服务2——NFS

文章目录 一、基本了解二、NFS工作机制2.1 示例 三、NFS配置文件3.1 指定客户端3.2 指定权限3.2.1 访问权限3.2.2 用户映射选项3.2.3 其他选项 四、测试案例4.1 安装nfs服务4.2 客户端查看nfs共享策略4.3 客户端挂载nfs共享目录4.3.1 手动挂载4.3.2 自动挂载4.3.3 exportfs重新…

字符数据的表示

目录 1、 英文字符与字符串的表示 2、中文字符 1、 英文字符与字符串的表示 英文字符:用ASCII码(128个字符)表示 每个英文字符的ASCII码为一个字节,其中低7位有效,最高位为0,该位可用于别的目的&#x…

云原生下一代-服务治理

服务治理 在这里插入图片描述 目录 什么是服务治理如何防止外部突发流量冲垮服务 限制请求的QPS和并发请求数按照调用方进行限流通过中间件访问限流和提前通知下线节点 如何处理服务超时和限流的问题 设置超时时间并对错误进行分类处理启用服务限流控制请求的流量 如何处理服…

【kubernetes】部署网络组件Calico与CoreDNS

前言:二进制部署kubernetes集群在企业应用中扮演着非常重要的角色。无论是集群升级,还是证书设置有效期都非常方便,也是从事云原生相关工作从入门到精通不得不迈过的坎。通过本系列文章,你将从虚拟机配置开始,到使用二进制方式从零到一搭建起安全稳定的高可用kubernetes集…

【每天40分钟,我们一起用50天刷完 (剑指Offer)】第三天

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

Web安全——DIV CSS基础

DIV CSS基础 一、DIV和CSS样式二、样式表类型2.1 嵌入样式表2.2 外部样式2.3 内联样式 三、注释四、样式选择器组合选择器 五、背景六、边框七、文字属性八、文本属性九、列表十、超链接十一、盒子模型十二、Border 边框margin padding 十三、float 脱离文档流浮动十四、块级元…

算法-双指针-秋招算法冲刺

秋招冲刺算法 双指针 数组划分,数组分块 常⻅的双指针有两种形式,⼀种是对撞指针,⼀种是左右指针。 快慢指针 基本思想:使用两个移动速度不同的指针在数组或链表等序列结构上移动。通常处理结构类型:环形链表或数组…