ChatGPT只算L1阶段,谷歌提出AGI完整路线图

news2024/12/25 23:50:42

按照谷歌这个标准来看,大多数已有AI产品其实都分别进入了不同的AGI阶段,但只仅限于在技能水平上——要谈及通用性,目前只有ChatGPT等模型完全合格。

AGI应该如何发展、最终呈什么样子?

现在,业内第一个标准率先发布:

AGI分级框架,来自谷歌DeepMind。

图片

该框架认为,发展AGI必须遵循6个基本原则:

  • 关注能力,而非过程
  • 同时衡量技能水平和通用性
  • 专注于认知和元认知任务
  • 关注最高潜力,而非实际落地水平
  • 注重生态有效性
  • 关注整条AGI之路的发展,而非单一的终点

在此原则之上,AGI将呈现6大发展阶段,每个阶段都有对应的深度(性能)和广度(通用性)指标。

图片

我们当前的AI产品走到哪一阶段了?这里也有答案。

详细来看。

6项基本原则

什么是AGI?

对于这个问题,许多科学家、研究机构都给出了自己的理解。

比如图灵提出的图灵测试认为机器是否能“思考”就是一个衡量指标;强人工智能的概念提出者则认为,AGI是一个拥有意识的系统;还有人说AGI一定是能在复杂性和速度上与人脑一样甚至超越人脑……

谷歌认为,这些定义都不全面。

像图灵测试,一些LLM已经可以通过,但我们能称那些模型为AGI吗?

像类人脑说法,Transformer架构的成功就已表明,严格基于大脑的思考过程对于AGI来说并不是必须的。

通过分析这些定义(一共9种,详情可翻阅原文)的优缺点,谷歌重新理出了6项基本原则:

1、关注能力,而非过程

这可以帮助我们去除一些不一定是实现AGI的必备要求:

比如AGI不一定要用类似人类的方式思考或理解,也不意味着系统必须具有主观意识等能力(主要是这种能力无法也通过固定的方法去测量)。

2、注重通用性和技能水平

目前所有的AGI定义都强调了通用性,这一点不必多说。但谷歌强调,性能也是AGI的关键组成部分(也就是可以达到人类的几分水平)。在后面的具体阶段制定中,主要也是根据这俩指标进行分类的。

3、专注于认知和元认知任务

前者目前基本为共识,即AGI可以执行各种非体力任务。不过谷歌在此强调,AI系统执行物理任务的能力也需要加强,因为它对于认知能力是有推动作用的。

此外,元认知能力,如学习新任务或知道何时向人类寻求帮助,是系统走向通用性的关键先决条件。

4、关注最高潜力,而非实际落地水平

证明一个系统可以在给定的标准上完成任务,就足以宣布该系统为AGI,我们不要求一定得在开放世界中完全部署出水平相同的系统。

因为,这可能会面临一些非技术阻碍,比如法律和社会考虑、潜在道德问题。

5、注重生态有效性

所谓生态有效性,谷歌指的是选择真正有用的现实任务去benchmark系统的进步,这些任务不仅包括经济价值也包括社会和艺术价值,要避开那些容易自动匹配和量化的传统AI指标。

6、关注整条AGI之路的发展,而非单一的终点

这也是为什么谷歌要制定我们接下来将要看到的6个发展阶段。

6大必经阶段

AGI之路的6个阶段由深度指标(即技能水平,与人类相比)和广度指标(通用性)进行划分。

第零阶段为“No AI”,计算软件、编译器等属于该范畴,在通用性上只能执行human-in-the-loop任务。

第一阶段为“涌现级”(Emerging),技能相当于或略比没有相关技能的人类要强。

ChatGPT、Bard和Llama 2等大模型就属于该阶段,并且已经满足了该阶段要达到的通用性。

第二阶段可理解为“刚刚合格级”(Competent),可以达到正常成年人50%的水平。

像语音助手Sir、能在短文写作/简单编码等任务中达到SOTA水平的大模型都属于这一阶段。

不过,它们都只是在技能指标上合格了,通用性还够不上,也没有其它能够达到这一阶段通用性水平的AI产品。

图片

第三阶段为“专家级”(Expert),可达到正常成年人90%的水平。

谷歌认为,拼写和语法检查器如Grammarly、图像生成模型Imagen等可以划为该阶段,主要也是在技能水平上达标了,通用性还不够。

第四阶段为“大师级”(Virtuoso),可达到正常人类99%的水平。

深蓝、AlphaGo等都属于。同样,还没有哪个AI产品可以达到属于这一级别的通用能力。

最后一阶段为“超人级”(Superhuman),在技能指标上,已经可以超越顶尖科学家的AlphaFold、AlphaZero也可划入该阶段。

毫无疑问,具备超人智能级通用性的AI还没诞生。

图片

从中我们看出,按照谷歌这个标准来看,大多数已有AI产品其实都分别进入了不同的AGI阶段,但只仅限于在技能水平上——要谈及通用性,目前只有ChatGPT等模型完全合格。

但它们也只还处于最底层的“一级AGI”阶段。

不过,正如原则2所说,评价AGI就是要看这技能水平和通用性这两个指标,这样划分也算说得过去。

值得一提的是,我们可以看到,像DALLE-2这样的图像生成模型已经可以归类于“三级AGI”。

谷歌给出的理由是,因为它生成的图像已经比大多数人都要强了(也就是超越90%人类)。

这一划分并未考虑大多数用户由于提示技巧不佳,无法达成最佳性能的情况。

因为遵循原则4,我们只需要关注一个系统的潜力到了就够了。

另外,对于最终阶段的AGI,谷歌畅想,它除了蛋白质结构预测,还可能能同时进行与动物交流、分析大脑信号、进行高质量预测等各种人类难以企及的任务,这样才不枉费我们的期待。

最后,对于这个层级划分,谷歌也承认还有很多事情要做:

比如在通用性维度上,应该用哪些标准任务集进行测量?完成多大比例的任务才行?有哪些任务是一定要满足的?

这些问题一时都不大可能全部摸清。 

你同意谷歌提出的这些原则和阶段划分吗? 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1209016.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux网络】ssh服务与配置,实现安全的密钥对免密登录

目录 一、SSH基础 1、什么是ssh服务器 2、对比一下ssh协议与telnet协议 3、常见的底层为ssh协议的软件: 4、拓展 二、SSH软件学习 1、ssh服务软件学习 2、sshd公钥传输的原理: 3、ssh命令学习: 4、学习解读sshd服务配置文件&#x…

spring cloud-注册中心(Eureka)

一、服务注册中心组件(*) 定义:服务注册中心就是在整个微服务架构单独抽取一个服务,该服务不做项目中任何业务功能,仅用来在微服务中记录微服务、对微服务进行健康状态检查,及服务元数据信息存储常用的注册中心:eurek…

【JAVA学习笔记】70 - 反射

项目代码 https://github.com/yinhai1114/Java_Learning_Code/tree/main/IDEA_Chapter23/src 反射 一、反射的引出 package com.yinhai.reflection.question;import com.yinhai.Cat;import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IO…

双点重发布+路由策略实验

一、双点重发布实验 1、实验拓扑图 2、各路由器IP地址、环回地址配置 R1 R2 R3 R4 3、启动RIP和OSPF 4、双向重发布 5、查看路由信息 6、更改网络类型 6、抓取流量 二、路由策略实验 1、实验拓扑图 2、各路由器IP地址的配置 3、启动RIP和OSPF 3、重发布 4、抓取流量 5、创建…

【算法练习Day48】回文子串最长回文子序列

​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:练题 🎯长路漫漫浩浩,万事皆有期待 文章目录 回文子串最长回文子序列总结…

C#几种截取字符串的方法

在C#编程中,经常需要对字符串进行截取操作,即从一个长字符串中获取所需的部分信息。本文将介绍几种常用的C#字符串截取方法,并提供相应的示例代码。 目录 1. 使用Substring方法2. 使用Split方法3. 使用Substring和IndexOf方法4. 使用Regex类…

Zabbix 5.0部署(centos7+server+MySQL+Apache)

环境 系统IPZABBIX版本主机名centos7192.168.231.2195.0zabbix-server 安装zabbix 我选择版本是zabbix-5.0 zabbix的官网是Zabbix :: The Enterprise-Class Open Source Network Monitoring Solution 安装Zabbix软件源 rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/…

关于Flume-Kafka-Flume的模式进行数据采集操作

测试是否连接成功: 在主节点flume目录下输入命令: bin/flume-ng agent -n a1 -c conf/ -f job/file_to_kafka.conf -Dflume.root.loggerinfo,console # 这个file_to_kafka.conf文件就是我们的配置文件 然后在另一台节点输入命令进行消费数据: kafka-cons…

Java Stream 的使用

Java Stream 的使用 开始中间操作forEach 遍历map 映射flatMap 平铺filter 过滤limit 限制sorted 排序distinct 去重 结束操作collect 收集toList、toSet 和 toMapCollectors.groupingByCollectors.collectingAndThen metch 匹配find 查询findFirst 与 findAny 的使用Optional …

下载免费商用字体,就上这6个网站。

我不允许还有人不知道,这些可以免费下载商用字体的网站,必须收藏好了,有了这6个网站,再也不用担心字体侵权了。 1、字体搬运工 https://font.sucai999.com/ 一个免费可商用字体搬运工,实时跟新市面上免费商用的字体。…

No204.精选前端面试题,享受每天的挑战和学习

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云课上架的前后端实战课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入…

java程序中为什么经常使用tomcat

该疑问的产生场景: 原来接触的ssm项目需要在项目配置中设置tomcat,至于为什么要设置tomcat不清楚,只了解需要配置tomcat后项目才能启动。接触的springboot在项目配置中不需要配置tomcat,原因是springboot框架内置了tomcat&#xf…

1、 图像和像素

像素我们不陌生,图像我们更不陌生。 学习计算机视觉,我觉得第一步就是要了解我们要处理的对象,就像上一篇说到的,计算机视觉任务中,图像(像素)是原材料,算法是菜谱。 了解了图像的特征,才可以更好的完成更多图像处理任务,比如对一张图片进行分类,或者对一张图片画…

CNN进展:AlexNet、VGGNet、ResNet 和 Inception

一、说明 对于初学者来说,神经网络进展的历程有无概念?该文综合叙述了深度神经网络的革命性突破,从AlexNet开始,然后深度VGG的改进,然后是残差网络ResNet和 Inception,如果能讲出各种特色改进点的和改进理由…

【Python】【应用】Python应用之一行命令搭建http、ftp服务器

🐚作者简介:花神庙码农(专注于Linux、WLAN、TCP/IP、Python等技术方向)🐳博客主页:花神庙码农 ,地址:https://blog.csdn.net/qxhgd🌐系列专栏:Python应用&…

MQ四大消费问题一锅端:消息不丢失 + 消息积压 + 重复消费 + 消费顺序性

RabbitMQ-如何保证消息不丢失 生产者把消息发送到 RabbitMQ Server 的过程中丢失 从生产者发送消息的角度来说,RabbitMQ 提供了一个 Confirm(消息确认)机制,生产者发送消息到 Server 端以后,如果消息处理成功&#xff…

【python 生成器 面试必备】yield关键字,协程必知必会系列文章--自己控制程序调度,体验做上帝的感觉 2

这篇文章要解决的问题:How to Pass Value to Generators Using the “yield” Expression in Python ref:https://python.plainenglish.io/yield-python-part-ii-e93abb619a16 1.如何传值 yield 是一个表达式!!!! yi…

WebGl-Blender:建模 / 想象成形 / 初识 Blender

一、理解Blender 欢迎来到Blender!Blender是一款免费开源的3D创作套件。 使用Blender,您可以创建3D可视化效果,例如建模、静态图像,3D动画,VFX(视觉特效)快照和视频编辑。它非常适合那些受益于…

【Python图像超分】Real-ESRGAN图像超分模型(超分辨率重建)详细安装和使用教程

1 前言 图像超分是一种图像处理技术,旨在提高图像的分辨率,使其具有更高的清晰度和细节。这一技术通常用于图像重建、图像恢复、图像增强等领域,可以帮助我们更好地理解和利用图像信息。图像超分技术可以通过多种方法实现,包括插值…

【每日一题】阈值距离内邻居最少的城市

文章目录 Tag题目来源题目解读解题思路方法一:多源最短路 写在最后 Tag 【多源最短路】【数组】【2023-11-14】 题目来源 1334. 阈值距离内邻居最少的城市 题目解读 题目翻译过来是这样的:一共 n 个城市,统计在每个城市 dt 距离范围内所有…