人工智能的第一性原理

news2025/1/21 12:19:48

今天跟大家分享一篇

北师大 - 图像处理研究中心主任

郭平教授的一篇文章

通过“四个问题”,

解释了人工智能的第一性原理

提出了如何运用第一性原理思维

来解决人工智能缺乏基本常识的问题

并且他建议将最小作用量原理

作为人工智能的第一性原理


在这里插入图片描述

什么是第一性原理

说到第一性原理

大家估计会想到“钢铁侠”埃隆·马斯克(Elon Musk)

在一次TED采访

他告诉大家他成功的秘密

就是运用了第一性原理思维

简单来说

就是用物理学的角度看待世界

一层层拨开事物表象

看到里面的本质

再从本质一层层往上走


今天我们就来看看AI领域的第一性原理应该是什么

以下是我整理的文章核心内容

希望对大家有帮助


首先第一个问题是

人工智能领域存在第一性原理吗?

古希腊哲学家亚里士多德

将第一性原理表述为

在每一个系统的探索中,存在第一性原理

这是一个最基本的命题或假设,不能被省略或删除,也不能被违反

在20世纪以前

第一性原理主要用于哲学、数学和理论物理


在数学中

第一性原理是一个或几个公理

而且不能从系统内的任何其他公理中推导出来


在理论物理中

第一性原理是指一个计算直接从物理定律建立

不经过经验模型拟合参数等假设


生物学的第一性原理是达尔文提出的“物竞天择、适者生存”理论


在近代社会

第一性原理已经扩展到许多学科

包括生命科学、化学、经济、社会科学


不过随着人类认知的发展

有些学科已不再使用“第一性原理”这个术语

而采用同义词来表述

比如在哲学中采用了“先验原理”(priori-principle)

数学中统一使用了规范术语“公理”(axioms)

而物理学则沿用了“第一性原理”

1 - AI是否存在第一性原理

AI领域是否存在第一性原理

这是个有争议的话题

有人认为不存在

理由是第一性原理是在哲学、数学或物理规则定义的域内

定义了问题空间的边界

而AI领域的第一性原理需要在明确定义了什么是“智能”之后

才有意义

由于目前对“智能”还没有明确定义

因此对AI还没有一个精确的、人们普遍可以接受的定义


在学界有两个定义可供参考

一个是斯坦福大学人工智能研究中心尼尔斯·约翰·尼尔逊(Nils J

Nilsson)教授提出的

AI是关于知识的学科

怎样表示知识、怎样获得知识并使用知识的科学

二是麻省理工学院帕特里克·温斯顿(Patrick Winston)教授提出的

AI就是研究如何使计算机

去做过去只有人类能做的智能工作

在尼尔逊教授撰写的《人工智能原理》(Principles of Artificial Intelligence)一书中

他认为AI目前没有通用理论

也就是说,目前AI不存在第一性原理

而只是衍生了一些与工程目标相关的原理

智能是许多过程并行发生和相互作用的结果

而这些过程无法轻易地追溯到一个基本的物理原理


从他的角度来看

应该是把AI看作是一种技术,或者说

是把AI看作一种类似于建立在实验基础上的学科


当然,这本书已经出版了40余年

随着我们思维认知水平的提高

现在应该重新考虑AI是否存在第一性原理这个问题了


物理学家张首晟在一次演讲时

提到了第一性原理的思维方式

在20世纪以前

第一性原理的概念属于人脑的归纳、演绎产生的逻辑自洽学科

包括数学、哲学和理论物理

理论体系的基石都可称之为第一性原理

它们可以明显区别于化学、生物等建立在实验基础上的学科


中国工程院院士李国杰认为

AI与计算机科学在本质上是一门学科

AI系统就是用计算机技术对信息加工和处理的系统

既然是一个系统,那么依据定义

每一个系统中都应该存在第一性原理


我们知道

AI的基础研究是建立在数学和物理基础之上的

北京交通大学教授于剑曾经出版过一本书《机器学习:从公理到算法》

实际上是把数学的第一性原理应用到了机器学习上


而从物理方面来看

物理的第一性原理也被称为“从头计算”(ab initio)

只使用最基本的物理学定律

不使用经验参数

仅用电子质量、光速、质子、中子质量等少数实验数据去做量子计算


既然我们研究基于物理的AI

那么AI的第一性原理也可以借用物理的第一性原理

“从头计算”应用到AI

可以将它视为AI的第一性原理

但是**“从头计算”是狭义的第一性原理**

对应的广义第一性原理应该是“最小作用量原理”(the least action principle)

2 - 基于物理的AI

第二个问题是

为什么是基于物理的人工智能?

数学、物理不但是其他学科的基础

更是AI的基础

为什么要基于物理学来研究AI基础理论呢?

这是因为物理学是研究物质运动最一般规律和物质基本结构的学科

是自然科学的带头学科

其他各自然科学学科的研究基础

都建立在物理学科之上

而且哲学与物理的关系也非常紧密


著名物理学家斯蒂芬·霍金(Stephen Hawking)在他的论著《大设计》(The Grand Design)第一页上

就语出惊人地宣称“哲学已死”

认为哲学跟不上科学

特别是物理学现代发展的步伐


杨立昆2018年国际人工智能联合会议上也指出

由于目前AI存在的缺点

未来AI的研究需要一种新型的理论

从而构建一个可以实现的世界模型

基于物理的AI

可能是最有希望实现这个理论的方式

3 - 如何让AI具有常识

对于AI缺乏常识的问题

基于物理的AI框架也可能会提供一种解决思路

要想将常识赋予AI

首先需要搞清楚什么是常识

通俗地讲

常识就是大部分人都知道的普通知识

普通知识就是一个生活在社会中的、心智健全的人所应该具备的基本知识

包括生存技能、基本劳作技能、基础的自然科学以及人文社会科学知识

关于常识的另一种较为专业的释义

是一般指从事各项工作以及进行学术研究所需具备的相关领域内的基础知识

这些知识来源于对自然规律、自然现象或者人类社会活动的归纳总结

那么这就引出了第三个问题

如何让人工智能具有常识?

杨立昆曾经解释过AI为什么没有常识

因为如果AI要掌握常识

需要搞清楚物理世界的运作方式并做出合理决定

所以它们必须能够获取大量的背景知识、了解世界的运行规律

进而做出准确的预测和计划

不难看出

本质上这是归纳性的思维方式

而我们的常识

大多数是运用归纳法获得的

为什么让AI具有常识这么难?

数十年来进展甚微,可能的原因之一

就是没有按照第一性原理去思考


一提到AI没有常识

大多数学者都会潜意识地认为

AI的常识包括了所有领域的基础知识

其实,常识是与领域相关的

有生活常识、基本劳作技能

还有基础的自然科学常识等等

如果上来就想赋予AI具有所有的、没有分类的常识

不考虑常识的领域相关性

这显然是按照AGI来要求的

但是主流AI学界的努力方向

从来就不是朝着AGI方向的

现有技术的发展也不会让AGI自动成为可能


目前可以实现的都是在考虑某种特定类型的智能行为

也就是所谓的“弱人工智能”。

实际上,我们完全有理由认为

采用类比思维

即使能精确地观察和仿制出神经细胞的行为

无法还原产生出智能行为


因此,依据第一性原理思维

在复杂的现象中找到最根本的原理

才能解决根本的问题


按照第一性原理思维,需要从头计算

先训练AI

学习基础的自然科学常识

这也就是新加坡国立大学教授颜水成所提出的婴儿学习(baby learning)方法

即模拟婴儿自主学习

逐步获取知识的方法

为了让AI拥有常识

我们需要化繁为简

把常识限定到特定的领域

例如将掌握物理科学常识

作为现阶段的首要目标

第一性原理的思维方式

基于物理的科学常识灌输给AI


因此,我们需要转变一下思维方式

从纯数据处理逻辑迈向某种形式的“常识”

即从基本物理原理出发

让AI先掌握科学常识,从而学习推理


为什么先让AI学习基础的自然科学常识

而不是生活常识或其他领域的常识呢?

因为基础的自然科学常识背后的物理原理

是有明确定义的

而且可以用数学公式描述的


第一性原理是通过少数的几个公理演绎出事物目前的状态

物理的定律往往是用偏微分方程来描述的


牛顿的《自然哲学的数学原理》一书

为经典力学定义了一套基本概念

提出了力学的三大定律和万有引力定律

从而使经典力学成为一个完整的理论体系

从物理定律出发

牛顿力学的公式演绎出各种运动现象

至少能使AI具有用经典力学可以解释的自然现象的科学常识


实际上这方面已经有了先例

AAAI 2017的最佳论文《基于物理和领域知识的神经网络无标签监督》

就是基于万有引力定律推算出枕头的运动轨迹

利用网络的输出必须满足物理定律的约束来训练神经网络

从而实现了神经网络的无标签监督学习

这里面的常识就是

一个物体如果没有其他外力作用

例如桌面的支撑力

那么就应该在万有引力作用下做自由落体运动


基于第一性原理思维需要花费更多的精力

而基于第一性原理构建世界模型要比模仿计算

可能需要更大的计算量

一方面

目前我们还没有足够的算力让机器去学习庞大的背景知识

但是只学习基础的自然科学背景知识还是有可能的

另一方面是运用物理思维做合理的近似

简化问题复杂度

把不可计算的问题约减为可计算的问题

数学家总是想精确求解问题

而物理学家会在无法精确求解的情况下采用近似方法

追求和谐、统一与完美是物理学家的最高境界

这也是AI科学家以及所有科学家追求的境界

AI的第一性原理也应该是对完美追求的典范

物理学中的最小作用量原理就是一个非常简单而优雅的原理

可以看作是整个物理学的第一性原理

这个原理是现代物理学和数学的核心

热力学、流体力学、相对论、量子力学、粒子物理学和弦理论都有广泛的应用

从具有可操作性的角度考虑

我们认为应该将最小作用量原理作为AI的第一性原理

作为AI领域的基石


4 - 为什么用第一性原理和如何用第一性原理

最后一个问题

为什么要用第一性原理

以及如何应用第一性原理?

近几百年来

哥白尼、牛顿、爱因斯坦、达尔文等科学巨匠

他们共同的思维方式

都是简洁而优美的第一性原理


而第一性原理的本质是逻辑学中的演绎性思维

机器学习的一个局限是无法解释因果关系

因果关系也称为“因果律”

哲学上有一种对第一性原理的说法

第一性原理是超越因果律的第一因

而且是唯一因

同时第一性原理一定是抽象的

由于第一性原理思维与因果律关系紧密

或许将帮助我们解决AI无法解释因果关系的问题


如果我们以第一性原理思维出发

来看GPT-3

那么首先

一个AI系统从宏观上看是由软件和硬件组成的系统

软件是AI系统的灵魂

硬件是物理实体

从硬件角度来看

GPT-3所用的计算机仍然是冯·诺伊曼体系结构

计算机的数制采用二进制

计算机按照人的指令编写好的程序顺序执行

现有的AI芯片

只是把人们设计的算法硬件化

AI的核心算法并没有得到突破

硬件化后也并不是真正的智能芯片


从软件的角度来看

软件是计算机程序+文档及数据

程序包含了算法

在AI算法上

GPT-3采用了与GPT-2同样的Transformer架构

不同之处是它融合了一种稀疏自注意力机制

有效提高了训练速度

改善了循环神经网络(RNN)学习速度慢的缺点

因此

在冯·诺伊曼体系结构与目前深度学习算法下

依据“无限猴子定理”

需要无限长时间才有可能完成一部《红楼梦》,

有限时间内能让GPT-3产生一部类似《红楼梦》的著作的概率也是无限小

即使产生了一部人们可以读懂的著作

但是GPT-3也完全不可理解其内容是什么含义

所以在当前的架构下

GPT-3不会迈向AGI

不会出现“硅基文明的崛起”。

这就是基于第一性原理思维得出的结论


目前关于AI未来的辩论的核心是

我们究竟是使用当前的工具来构建AGI

还是需要进行新的基础发现?

AI从业者对于这个问题现在分成了两大阵营

一个阵营说

计算机必须先了解因果关系等事物

然后才能接近人类的智能

另一个阵营则说

AI的问题可以通过向它们投入更多的数据和提高计算机的处理能力来解决


OpenAI显然是属于后者

他们一直认为巨大的计算力配合强化学习

是通往AGI必经之路

但是大多数AI学者

包括约书亚·本吉奥(Yoshua Bengio)杨立昆

基本上是属于前一阵营的

认为AGI是不可能创造出来的

从第一性原理出发

我们得到的结论也是不可能实现AGI

对此,我们应有非常清醒的认知

受物理规律的制约

深度学习框架的天花板很快就会来临

如果在基础理论方面没有突破

基于深度学习的框架

就不可能发展成为硅基文明的AGI


所谓的硅基文明是科学幻想

不是科学事实

GPT-3没有产生技术革命

只是在应用上取得了重大的突破

未来我们还需要从第一性原理出发

重新构建AI基础理论框架

才能够赋予AI常识

发展具有可解释性的AI


清华大学张钹院士说过

在探索通往AGI的道路上

现在呢走的并不远

在出发点的附近

如果我们能以第一性原理作为出发点

先让AI具有基于物理规律的科学常识

让人工智能不再是人工智障

可能才是通往AGI的正确道路


好了以上就是文章的核心内容

郭平教授将物理学中的最小作用量原理

作为人工智能的第一性原理

进而推导出现有的GPT模型是不会走向AGI的

显然呢它是更倾向于杨立昆的世界模型理论

我个人认为呢有一定道理

但是理论和实际有非常大的差异

我们到现在除了以Transformer架构为主的大语言模型

还没有看到其他能够让AI产生智能的可大规模应用的办法

更何况呢

Transformer本身也是对知识的一种压缩

大力出奇迹有时候可能反而是一种更直接有效的手段

毕竟如果说世界上只有一种算法那就是穷举


那关于什么是AI的第一性原理

我觉得每个人可能都会有自己的一个理解

短时间内呢我觉得业界也不会有一个共识

郭教授呢是从物理学的角度

有的人呢可能也会从数学的角度

那大家觉得AI的第一性原理是什么呢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1344461.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript系列——正则表达式

文章目录 需求场景正则表达式的定义创建正则表达式通过 / 表示式/ 创建通过构造函数创建 编写一个正则表达式的模式使用简单模式使用特殊字符常用特殊字符列表特殊字符组和范围 正则表达式使用代码演示 常用示例验证手机号码合法性 小结 需求场景 在前端开发领域,在…

Java注解学习,一文掌握@Autowired 和 @Resource 注解区别

🏆作者简介,普修罗双战士,一直追求不断学习和成长,在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验,历任核心研发工程师,项目技术负责人。 🎉欢迎 👍点赞✍评论…

【AI导师】利用Coding Agent完成AIGC编程

利用Coding Agent完成AIGC编程 一、前言二、Coding Agent三、1024code四、AI导师README项目初版功能定义代码结构设计方案函数方法设计方案迭代记录 一、前言 AI产品的发展确实在过去两年年中取得了显著进展,尤其是在编程领域。一开始,ChatGPT和类似的语…

Android 13 默认关闭 快速打开相机

介绍 在设置菜单的手势界面里,快速打开相机是默认开启的,此功能当开启时连续点击两次电源键会打开相机,现在客户需要默认关闭。 效果展示 修改 这里一开始想到的就是配置文件,在路径下果然找到了,从注释中看使我们需要的&#x…

纯CSS3制作优惠券线性UI效果

纯CSS3制作优惠券线性UI效果-遇见你与你分享

MIT线性代数笔记-第33讲-复习三

目录 33.复习三打赏 33.复习三 已知 d u ⃗ d t A u ⃗ [ 0 − 1 0 1 0 − 1 0 1 0 ] u ⃗ \dfrac{d \vec{u}}{dt} A \vec{u} \begin{bmatrix} 0 & -1 & 0 \\ 1 & 0 & -1 \\ 0 & 1 & 0 \end{bmatrix} \vec{u} dtdu ​Au ​010​−101​0−10​ ​…

对DataFrame各列数据进行描述性统计分析 DataFrame.describe()

【小白从小学Python、C、Java】 【计算机等级考试500强双证书】 【Python-数据分析】 对DataFrame各列数据 进行描述性统计分析 DataFrame.describe() [太阳]选择题 请问以下代码返回的统计性信息中不包括哪个选项? import pandas as pd df pd.DataFrame( {A:…

力扣LeetCode第80题 删除有序数组中的重复项 II

一、题目 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 示…

两种汇编的实验

week04 一、汇编-1二、汇编-2 一、汇编-1 1 通过输入gcc -S -o main.s main.c -m32 将下面c程序”week0401学号.c“编译成汇编代码 int g(int x){ return x3; } int f(int x){ int i 学号后两位; return g(x)i; } int main(void){ return f(8)1; } 2. 删除汇编代码…

【年度征文】回顾2023,迎接2024

转眼一年~~2023又到年底了,CSDN年度征文如约而至!不知不觉又在CSDN平台写了488篇博文,非常感谢CSDN提供的平台,同时也感谢关注和支持博主的粉丝们,在马上到来新的一年里,我会继续努力!也非常感谢…

基于立锜RTQ7882,支持全协议及DP显示功能的PD快充方案

在上一篇文章【基于RTQ7882的车载PD快充方案 - 大大通 (wpgdadatong.com)】中,已经对立锜科技(Richtek)及主打产品RTQ7882的基本功能作了介绍。 本文将分享RTQ7882近期新增的功能,以及其Cost Down版本。 旨…

2023年终总结

前言: 嘻嘻,12月底广州降温了又到了写年终总结的时间,这也是我第二年写年终总结。今年的年终总结主要记录了我大三下学期和大四上学期这两个时间段的学习和收获,也是我尝试走出校园,接触社会的第一年(感触…

k8s:kubernets

自动部署、自动扩展和管理的容器化部署的应用程序的一个开源系统 k8s负责自动化运维管理多个容器化程序的集群,是一个功能强大的容器编排工具 可以以分布式和集群化的方式进行容器管理 1.18版本,目前最多的是1.20版本,最新的是1.29版本&am…

链表总结(2)

theme: fancy 又是链表专题啦,老样子,标题就是leetcode链接,在这里只放我的代码答案和注释 141环形链表 public class Solution {public boolean hasCycle(ListNode head) {if(head null || head.next null) return false;if(head.nex…

视频编辑与制作,视频尺寸修改器

你是否曾因为视频尺寸与平台不匹配无法上传而烦恼?这个时候一款视频尺寸修改工具,就能帮你轻松搞定。不论是为了适应不同的平台要求,还是为了获得不一样的观看体验,【视频剪辑高手】都能为你提供完美的解决方案。 所需工具&#…

Linux之定时任务调度

crond crond是Linux系统中的一个守护进程,主要用于周期性地执行某种任务或等待处理某些事件。而crondtab是配套的工作,用于定时任务的设置。 语法 crontab [选项]常用选项 入门案例 执行crontab -e命令输入任务到调度文件中 */1 * * * * ls -l /et…

竞赛保研 基于卷积神经网络的乳腺癌分类 深度学习 医学图像

文章目录 1 前言2 前言3 数据集3.1 良性样本3.2 病变样本 4 开发环境5 代码实现5.1 实现流程5.2 部分代码实现5.2.1 导入库5.2.2 图像加载5.2.3 标记5.2.4 分组5.2.5 构建模型训练 6 分析指标6.1 精度,召回率和F1度量6.2 混淆矩阵 7 结果和结论8 最后 1 前言 &…

数据库——创建存储过程、函数和触发器安装phpmyadmin

1.实验内容及原理 1. 在 Windows 系统中安装 VMWare 虚拟机,在 VMWare 中安装 Ubuntu 系统,并在 Ubuntu 中搭建 LAMP 实验环境。 2. 使用 MySQL 进行一些基本操作: (1)登录 MySQL,在 MySQL 中创建用户,…

基于ssm的二手商品交易平台+vue论文

摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古…

NFC物联网智慧校园解决方案

近场通信(Near Field Communication,NFC)又称近距离无线通信,是一种短距离的高频无线通信技术,允许电子设备之间进行非接触式点对点数据传输交换数据。这个技术由免接触式射频识别(RFID)发展而来,并兼容 RFID,主要用于…