全能通人工智能的能力评估框架-Levels of AGI: Operationalizing Progress on the Path to AGI

news2024/11/15 9:02:48
  • 译自’Levels of AGI: Operationalizing Progress on the Path to AGI’,有所删节.
  • 笔者能力有限,敬请勘误。

摘要

Google DeepMind提出一种针对通用人工智能 (Artificial General Intelligence, 简称AGI) 框架,该框架用于评估AGI的模型及早期版本的能力和表现。该分类框架详细阐述了AGI性能、适用范围及自治力(autonomy) 的不同层次。Google希望该框架能和自动驾驶技术等级框架一样有用,为AGI提供一套通用语言便于对AGI进行模型比较、风险评估及跟踪其发展进展。

Google分析了目前AGI的定义,提炼出兼具深度(能力-performance)与广度(适用性)的6大原则作为AIG评估框架的分类体系。

原始信息

image.png

  • 地址:arxiv.org/pdf/2311.02…

引言

通用人工智能(Artificial General Intelligence, 简称:AGI) 是计算研究中重要又有争议的一个概念,它用于描述在大部分至少可以拥有与人类一样能力的人工智能系统。 得益于机器学习(Machine Learning ,ML) 模型的飞速发展,AGI的概念已经从哲学争论走到具体实践。目前有人认为AGI已出现在近代的大语言模型中(large language models,LLMs) ,有人预言AI将在10年人赶超人类,甚至有人直言现有的LLMs就是AGI。

关于AGI的定义100个AI领域的专家有会有到100种不同但又有联系的答案,事实上AGI概念的重要性源于它与AI的目标、预测与风险相关。

对许多领域的人来说,达到人类水平的“智能"是隐而不言的唯一目标。1955的达特茅斯人工智能会议(Dartmouth Artificial Intelligence Conference) 为研究AI技术的企业开创了人工智能的领域, 这些公司的使命宣言中包含了诸如“确保变革性的人工智能帮助到人类与社会"和"确保通用人工智能的目标是造福人类"等条款。

AGI的概念与它是否走向拥有更强、更接近或超越人类的通用性有关。 AGI通常是和"涌现"的概念交织在一块。这些涌现的能力包括与人类的技能形成互补的能力, 而这些能力有可能带动与AGI有关的新型互动等类型的新产业。同时对AGI能力的预测演变成了对社会影响的预测,比如,AGI可能会带来重大经济影响,是否达到广泛劳动力替代的必要标准;以及地缘政治的影响(AGI可能带来的经济优势或军事相关等)

AGI被某些人认为是一种极端风险的概念。这些人认为AGI系统可能会实施欺骗、操纵,实行自我资源的积累,推进目标及代理某人的行为,在大部分的领域智力超过人类,在关键角色上取代人类以及有可能进行自我学习与提升。

"涌现"能力是指开发人员未明确预期但AI系统在运行时突然出现的能力

AGI定义:9个案例研究

许多人工智能的人员与组织已提出了AGI的定义。在本节中,我们列出9个有代表性的案例并分析了这些定义的优劣。这份分析为我们随后引入的AGI能力评估框架的二维分层法提供了分析依。

案例1: 图灵测试 - The Turing Test

图灵在1950年提出的图灵测试应该是最著名的将AGI概念付诸实践的最著名的尝试。图灵的"模仿游戏"是一种测试机器是否具备人类智能的方法,即要求人类以交互的方式来分辨文字的另一端是人还是机器。 最初的测试框架是一个思想试验,遭到很多的的批判。 在实际的测试中,这个测试通常在强调如何更好的骗过人类而不是在强调机器的"智能化"程度。 考虑到现阶段的LLM已经过了某些图灵框架的测试, 这更加证明“图灵测试"的这一标准并不能作为AGI的评判标基准。

Googlle认为图灵机器是否能“思考"是一个有趣哲学和科学问题,但AGI要以能力来定义而非过程(processes)。

**案例2: 强人工智能 - Strong AI - Systems Possessing Consciousness **

哲学家John Searle提出: “根据’强人工智能’,计算机不仅仅一个研究大脑的工具, 相反,一个编写了程序的计算机实际上是一种人的思维(思维 mind), 从这个意义上来说,给定正确程序的计算机可以说成是具有他人意识”。虽然强人工智能可能是一种通向AGI的路径,但就确定机器是否拥有强人工智能的属性(比如意识)的方法上并没有科学共识。

案例3: 类比人脑 - Analogies to the Human Brain

最初使用"通用人工智能"这一术语是在1997年的Mark Gubrud的一个军事技术的文章中,在该文章中AGI被定义为"在复杂性与速度上超过了人类大脑,它可用于知识获取,操纵和推理,适用于任何需要人工智能的工业或军事行动的任何阶段上"的智能系统。 这个早期定义除了强调AI的能力还强调过程(复杂度媲美人类)。 虽然现代机器学习(modern ML)下的神经网络架构是受人脑的启发而生, 但基于transformer架构体系的成功并不依赖于类人的学习, 因此对于AGI来说是否具有严格人类大脑的思维过程和基准并不是必须的。

案例4:人类认知任务的表现 - Human-Level Performance on Cognitive Task

2001年Legg和Goertzel在计算机科学家间推广’AGI’这一术语,将AGI描述为一个 能够执行人类可完成的认知任务 的机器。 这个定义关注点在了非物理任务上(即无需一个机器人作为AGI的实体)。 和许多AGI的定义一样,这个框架在"做什么任务"和 "哪些人"的选择上存在歧义。

案例5:学习任务的能力 - Ability to Learn Tasks

在《技术奇点》(The Technological Singularity)一书中,Shanahan提出了AGI的定义:AGI是指“并不是要专门完成某一特定任务,而是可以学习和执行人类的广泛任务”的人工智能。这个框架有一个很重要的属性,就是它强调了包括元认知任务(学习)对实现AGI要求的重要性。

案例6:经济价值的工作 - Economically Valuable Work

OpenAI的章程对AGI的的定义是: “一个最具经济价值的工作过胜过人类的高度自治的系统”。这个定义具有优势,它强调"能力而非过程"这一标准,得点关注了系统的能力而非不是其底层机制;而且这个定义提供了一个潜在的衡量标准,即经济价值。

该定义的缺点是他并没有涵盖"通用智能"的所有的标准。许多与智力相关的任务(如艺术创造力与情感智商等)虽没有直接经济价值,但也有间接的价值(比如艺术创造力产出书籍或电影,情商有可能与能否成为一名出色的CEO的能力有关)。

从经济价值来定义AGI的带来的另个问题就是框架必须经过实施部署,而能力关注的焦点应该是AGI执行一个任务的潜力。

案例7:灵活性与通用性 - Flexible and General

Flexible and General – The “Coffee Test” and Related Challenges

Marcus认为AGI是 “任务灵活性与通用性的简写,其智能水平与可靠性和人类相当甚至超越”。 这个定义涵盖了 通用性和能力, 且它提到的"灵活性"是很有价值的,像Shanahan的公式一样,这个提议涵盖了如学习新技能的元认知任务的AGI能力,只有具备元认知任务的AGI才能足够的通用。

而且Marcus通过5项具体的任务来测试他定义(理解电影,理解小说内容,烹饪,写一个无bug的1万行程序,将自句语言的数学证明转为了符号形式)。但对于该评测系统是否将AGI的状态全部纳入Google表示并未知晓。

案例8:人工能力的智能 - Artificial Capable Intelligence

《在即将到来的浪潮》一书中,Suleyman提出了“人工能力的智能(Artificial Capable Intelligence ACI)”,并提出AI系统是指是一个具有足够能力和通用性的人工智能系统,在现实世界中可以完成复杂且多步骤的任务。具体来说,Suleyman提出了一个基于经济的ACI技能定义,被认为是“现在图灵测试”,即给定人工智能10万美元的资本要求其在10个月内将其升值为100万美元。

这个框架比OpenAI的经济价值工作的定义更狭窄,它有一个额外的缺点就是只以财务利润为目标会会潜在引入结盟的风险。然而,Suleyman概念的优势在专注在人类重视的执行一个复杂的表多步骤的任务,这些任务比当前AI的基准测试更具生态有效性。Marcus的上述五项灵活性和通用性测试似乎也符合ACI的精神。

案例9: SOTA的通才 - SOTA LLMs as Generalists

SOTA LLMs as Generalists

Agüera y Arcas and Norvig 提出了最新的LLMs(GPT-4, Bard, Llama 2 和 Claude)就是AGI。他们认为通用性是AGI的关键属性, 因为语言模型可以讨论很多主题,执行许多任务,处理多模态的输入与输出,以多语言的方式操控及及可以零样本和少样本的学习,这些足以达到通用性的标准。

Google认为该定义只有通用性这一AGI的重要特征,执行力(performance)并没过多的提及。

AGI定义-六大原则

聚焦能力而不是过程: 该原则让我们可以将以下两点排除在外:

  1. AGI的实现并不意味着系统一定盯以人类的方式思考或理解(这是关注过程的重要表现)
  2. AGI的实现并不意味着系统具有主观意识或感知能力等品质(这些品质不仅在关注过程而且目前无法进行科学测量)

保证通用性与能力(Performance)

AGI是否需要领域通用以及在某一领域执行如何两者同样重要,缺一不可。

重视认知与元认知任务

元认知能力(诸如学习新任务的任务或何时需要向人类澄清和协助的能力)是一个AI系统是否具有通用性的关键且必要条件。

是否需要一个机器人身体作为定义AGI的准标一定是一个充满争议的问题。目前大多数定义都聚集在认知任务上,也就是我们说的非物理任务。

核心在于潜力而非部署

只要一个系统在有能力执行给定能力的任务,就可以证明他拥有AGI的能力。因为是否在现实世界中部署这么一套系统需要考虑的因素很多(法律、道德、安全等等)不该作为定义AGI的必要条件。

关注生态有效性

选择与人类真实世界(即生态有效)的价值一致的任务非常重要(这些任不仅是经济价值,还有社会价值与艺术价值等)。我们要避开传统的人工智能指标,因为后者虽然容易自然化与量化但可能无法捕促到人们看重的AGI技能。

关注AGI路径而非单一终端

我们计划为每一层次的AGI设定一组明确的指标或基准,为每一级别引入可识别的风险,并由此改变人工智能的交互范式。

这种基于层级的AGI定义有利于与许多著名的公式与之共存,例如,Aguera y Arcas和Norvig的定义属于我们的"新兴AGI"类别,而OpenAI的劳动力替代阈值更符合"Virtuoso AGI", 其他的对于AGI的许多现有定义(例如Legg、Shanahan和Suleyman的公式等)我们归属这些分类至"合格AGI"水平。

AGI能力水平分类框架(二维分层法) - Levels of AGI -

Level0: No AI

  • 专用(Narrow): 计算机软件;编译器
  • 通用(General):人机回圈计算,比如亚马逊土耳其机器人

Level1: 新兴(Emerging)

  • 专用(Narrow):新兴IA。GOFA。GOFAI4; 简单的基于规则系统。simple rule-based systems, e.g., SHRDLU
  • 通用(General):新兴AGI:** ChatGPT(OpenAI, 2023), Bard (Anil et al., 2023), Llama 2 (Touvron et al., 2023)

Level2: 熟练(Competent)

  • 专用(Narrow): 恶意评估检测器,如Jigsaw;智能扬声器,如Siri;Alexa或Google助手,VQA系统,如PaLI;Watson; SOTA LLMs的子任务(例如,短文写作、简单编码等)
  • 通用(General):还没达到

Level3: 专家(Expert)

  • 专用(Narrow): 拼写与语法检查,如法语; 图像生成如Imagen 或 Dall-E 2
  • 通用(General):还未达成

Level4: 大师(Virtuoso)

  • 专用(Narrow): Deep Blue(深蓝),AlphaGo
  • 通用(General): 还没达到

Level5: 超人类(Superhuman)

  • 专用(Narrow): AlphaFold,AlphaZero,StockFish
  • 通用(General):还没达到
  • 人机回圈(Human-in-the-loop, HITL) 是一种人与机器的交互方式。
  • Amazon Mechanical Turk: 亚马逊土耳其机器人
  • GOFAI (Good Old-Fashioned Artificial Intelligence) 有效的老式人工智能(狭义人工智能)
  • SHRDLU : 一种早期的自然语言理解计算机程序
  • Stockfish: 国际象棋引擎

原表

image.png

总结

共享AGI的概念与含义将有助于:

  • 模型比较,风险评估与应对策略(mitigation strategies);
  • 明确政策制定者与监管机构的标准;
  • 确定研发的目标、预期(predictions) 和风险,
  • 以及理解我们现在通话AIG道路上的所处位置。

附录: 达特茅斯人工智能会议-Dartmouth Artificial Intelligence Conference

会议内容有:

  • C.E香农(C.E. Shannon)的研究提案
  • M.L.明斯基(M.L.Minsky)的研究提案
  • N.罗切斯特(N.Rochester)的研究提案
  • 约翰·麦卡锡JohnMcCarthy)的研究提案
  • 对人工智能问题感兴趣的人

如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖
👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码关注免费领取【保证100%免费】🆓
请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

请添加图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2163484.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CAPL—on signal到底该怎么玩?

总结:一个前提,两种形式,一个注意,外加一个很不常用的知识点 1:一个前提:必须是DBC或其他数据库文件中定义的信号,且这个数据库已经添加到工程中去了。 2:使用格式 on signal&…

如何修改音频的音量增益

一、前言 在开发音频相关的功能(比如说语音通话、播放音乐)时,经常会遇到音量太小的问题,这时候就需要我们对原始数据进行处理。本文将介绍如何通过修改原始音频数据来增加增益,本文包含如下内容: 1.音频数…

3D Slicer医学图像全自动AI分割组合拳-MONAIAuto3DSeg扩展

3D Slicer医学图像全自动AI分割组合拳-MONAIAuto3DSeg扩展 1 官网下载最新3D Slicer image computing platform | 3D Slicer 版本5.7 2 安装torch依赖包: 2.1 进入安装目录C:\Users\wangzhenlin\AppData\Local\slicer.org\Slicer 5.7.0-2024-09-21\bin&#xff0…

PostgreSQL技术内幕12:PostgreSQL事务原理解析-锁管理

0.简介 本文介绍PG中的锁技术,主要包括PG中两阶段锁的介绍和PG中各种不同级别的锁,死锁问题介绍,以及如何去查看锁。 1.PG中两阶段锁 1.1 需要锁机制的原因 PG中的隔离性是通过MVCC和两阶段锁实现的,有了MVCC为什么还要使用悲…

python全栈学习记录(十八)re、os和sys、subprocess

re、os和sys、subprocess 文章目录 re、os和sys、subprocess一、re1.正则字符2.正则表达式的使用3.group的使用4.贪婪匹配与惰性匹配5.其他注意事项 二、os和sys1.os2.sys 三、subprocess四、打印进度条 一、re python中的re模块用来使用正则表达式,正则就是用一系…

基于Springboot企业员工人事管理系统JAVA|VUE|SSM计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

源代码数据库LW文档(1万字以上)开题报告答辩稿 部署教程代码讲解代码时间修改教程 一、开发工具、运行环境、开发技术 开发工具 1、操作系统:Window操作系统 2、开发工具:IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…

研一上课计划2024/9/23有感

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、需要认真上课的1.应用数理统计(开卷考试)2.最优化方法(开卷考试)3.跨文化交际(主题演讲20课堂讨…

基于SpringBoot和Vue的餐饮管理系统

基于springbootvue实现的餐饮管理系统 (源码L文ppt)4-078 第4章 系统设计 4.1 总体功能设计 一般个人用户和管理者都需要登录才能进入餐饮管理系统,使用者登录时会在后台判断使用的权限类型,包括一般使用者和管理者,一…

手写SpringMVC(简易版)

在上一篇博客中说到这里我们要进行手写SpringMVC,因此最好是将上一篇博客中的SpringMVC源码分析那一块部分搞懂,或者观看动力节点老杜的SpringMVC源码分析再来看这里的书写框架。 首先我们要知道对于一个完整系统的参与者(即一个完整的web项…

Spring Cloud :Hystrix实现优雅的服务容错

目录 Hystrix概述:第一个Hystrix程序步骤1:创建父工程hystrix-1步骤2:改造服务提供者步骤3:改造服务消费者为Hystrix客户端(1)添加Hystrix依赖(2)添加EnableHystrix注解(…

共享单车轨迹数据分析:以厦门市共享单车数据为例(六)

副标题:.基于POI数据的站点功能混合度探究——以厦门市为例 为了保证数据时间尺度上的一致性,我们从互联网上下载了2020年的POI数据,POI数据来源于高德地图 API平台,包括名称、大小类、地理坐标等。并将高德地图 POI数据的火星坐标 系 GCJ-0…

轻松搭建企业报修平台,零代码解决方案

在当今竞争激烈的商业环境中,企业的高效运营离不开稳定的设备和设施。而当设备出现故障时,一个高效的维修报修平台就显得至关重要。那么,如何零代码搭建企业内部维修报修平台呢? 一、明确需求与目标 在搭建维修报修平台之前&…

Apache APISIX学习(2):安装Grafana、prometheus

一、Grafana安装 1、介绍 Grafana 是一个监控仪表系统,它是由 Grafana Labs 公司开源的的一个系统监测 (System Monitoring) 工具。它可以大大帮助你简化监控的复杂度,你只需要提供你需要监控的数据,它就可以帮你生成各种可视化仪表。同时它…

day01——通过git进行管理项目

新建仓库 IDEA新建本地仓库,并上传本地代码将代码上传到远程仓库 不同版本的idea,方式不同,自行摸索

鸿蒙界面开发——组件(10):单选框Radio复选框checkbox 下拉框select 多条件筛选Filter

单选框Radio 单选框一直会有这个圆圈,在选中和未选中之间切换状态。 Radio通过调用接口来创建,接口调用形式如下: Radio(options: RadioOptions) Radio(options: {value: string, group: string ,indicatorType:RadioIndicatorType,(新增) …

基于SSM的家政服务网站【附源码】

基于SSM的家政服务网站(源码L文说明文档) 目录 4 系统设计 4.1 系统概述 4.2 系统结构 4.3. 数据库设计 4.3.1 数据库实体 4.3.2 数据库设计表 4.4 数据表 第5章 系统详细设计 5.1管理员功能模块 5.2用户功能模块 5.3前…

STM32F407单片机编程入门(二十四) USB口介绍及CDC类虚拟串口通讯详解及源码

文章目录 一.概要二.USB2.0基本介绍及虚拟串口介绍三.STM32F407VET6单片机USB模块框图四.STM32单片机USB从机模式五.STM32F407VET6 USB设备CDC类六.CubeMX配置一个USB虚拟串口收发例程七.CubeMX工程源代码下载八.小结 一.概要 STM32F407VET6 USB虚拟串口是一种采用STM32F407VE…

【测试】什么是需求?

测试的概念:验证软件的特性是否满足用户的需求。软件测试领域:软件测试工程师、软件测试开发工程师 需求的概念 在企业中,经常会听到俩个词:用户需求和软件需求。 例如:开发人员与产品人员出现冲突... 产品同学要求开…

ROG NUC:重塑未来,从“芯”开始

ROG NUC以令人惊叹的紧凑身形、强大配置,从“芯”出发,重塑我们对科技生活的想象,让玩家感受由微缩主机带来的性能风暴。 至强“芯”脏,性能巅峰 ROG NUC至高搭载英特尔酷睿Ultra9处理器,采用先进的制程工艺&#xff…

【C++】STL详解之string类

目录 什么是STL STL的版本 STL的六大组件 STL的缺陷 一.string的定义方式 二. string的插入 1.使用push_back进行尾插 2.使用insert插入 三.string的拼接 四.string的删除 1.使用pop_back进行尾删 2.使用erase进行删除 五.string的查找 1.使用find正向搜索第一个…