物理学如何推动生成式 AI 的发展

news2025/4/22 2:06:16

一、说明

        许多尖端的生成式 AI 模型都受到物理学概念的启发。在本指南中,我们将从高层次上了解物理学如何推动人工智能的进步。不同的领域经常交叉授粉重要概念,这有助于推动其进步。数学概念为物理学的进步奠定了基础;物理学中的概念经常启发经济学的框架。

        人工智能 (AI) 也加入了这一行列,从物理学中汲取灵感,开发最先进的模型,并告知它们在基础层面上是如何工作的。虽然物理学的思想以前已经被整合到人工智能中,但直到最近,这些模型才以如此不屈不挠的方式超越了其他方法,如DALL-E 2和Stable Diffusion等模型。

        在本文中,我们将从高层次上了解这些最新进展,并展示来自物理学两个不同子领域(静电学和热力学)的概念如何将生成式 AI 模型的性能提升到一个新的梯队。

使用静电原理生成人脸图像的生成式 AI 模型(由 PFGM 作者提供)

        本文面向任何对这些强大模型如何工作的高级概念感兴趣的人。我们不会涉及特定的数学细节,因此解释应该对人工智能所有经验水平的读者都有帮助。

二、静电学和热力学的教训

        我们将要研究的这两种情况最常应用于图像的生成式 AI。对于静电学,将概率密度处理为电荷密度是该方法的核心,其中可以利用根据物理定律的电子运动来生成新颖的图像。

        在热力学的第二种情况下,将图像中的像素视为原子是该方法的核心,其中这些原子在时间上向前和向后的自然运动同样可以被利用来生成图像。

现在让我们来看看第一个案例。

三、具有静电的生成式 AI

        静电学可以看作是对电荷的研究。电荷密度是连续物体,在不同区域具有不同的电荷量。与电荷密度的区域相比,高电荷密度的地方会以更大的力排斥(或吸引)电子。

这种带电的棒在棒上的不同点具有不同的电荷量(电子数)

        我们可以绘制出该杆的电荷密度 - 对于杆上的每个点,我们绘制出该点的“多少”电荷。正如我们所看到的,中间有很多电荷,在杆的两端逐渐减少到较低的电荷。

在杆上的每个点上,曲线的高度指定了电荷密度

        另一方面,也有概率密度。这些曲线显示了某物每个值的可能性。下面,我们显示了人类男性身高的概率密度曲线。正如我们所看到的,身高为 5 英尺 11 英寸(71 英寸,180 厘米)的男性是相当可能的,而比这更高或更矮的身高不太可能。

人类男性的身高分布可以用类似的方式绘制

        您可能已经注意到,这些曲线看起来非常相似。一类特定的生成式 AI 模型 - 泊松流生成模型 (PFGM) - 也观察到了这一点。PFGM 的工作原理是将概率密度视为电荷密度

        具体来说,为了生成数据,我们需要从该类型数据的概率分布中抽样。如果我们想生成一个逼真的人类样本(只考虑身高和体重),他们不太可能看起来像这样:

        这种不太可能的身高和体重形成更不可能的组合,并且更不可能一起作为三元组样本

        特别是,不太可能出现那么高那么瘦,或者那么矮那么宽的人,更不用说同时拥有 3 个这样的极端的样本了。我们需要能够根据身高和体重组合的可能性从分布中进行采样,以便生成更真实的新颖数据,如下所示:

仅考虑身高和体重,这个男性样本比上述样本要现实得多

        通过生成式 AI,我们尝试使用一组示例数据点来了解可能有哪些组合来生成真实的数据。这组示例数据点称为训练数据,它决定了我们将生成哪种类型的数据。例如,如果我们的训练数据是人脸图像,那么我们将训练模型以生成人脸图像。

这与静电有什么关系?

3.1 作为电荷分布的数据分布

通常,学习生成类似于训练数据的样本可能很困难。PFGM 没有尝试直接做到这一点,而是利用静电的巧妙技巧来规避这个问题。

PFGM 不再将数据视为概率分布,而是改变视角并将此分布视为电荷分布。更有可能的数据点(更高的概率密度)被认为具有更多的电荷(更高的电荷密度)。

就其本身而言,这并没有多大帮助 - 但PFGM利用了一个关键事实:当被视为电荷分布时,该分布将自我排斥。随着时间的流逝,这种排斥力会“膨胀”,并逐渐将分布转变为一个大的均匀半球。我们可以在下面看到这个过程的视频:

当被视为电子时,训练数据会随着时间的推移自行排斥形成一个均匀的半球(由 PFGM 作者提供)

我们看到,示例心形分布通过在每个点上遵循轨迹(如下面的黑色曲线所示)而演变为半球分布。

对于数据中随机选择的几个点(心形),我们看到将它们映射到半球的轨迹(黑色曲线)(来源)

        这个过程对我们有什么帮助?我们之前说过,很难从数据分布中抽样,这是我们的最终目标。从这个均匀的半球取样并不困难。由于它是如此均匀和规则,我们只需随机选择其上的任何点即可从半球采样。

        让我们利用这个事实:我们不是尝试直接对数据分布进行建模并直接从中采样,而是在均匀半球上对一个点进行采样,然后使用物理场将其映射回数据分布。泊松流生成模型的目标是学习轨迹曲线,如上图所示。这些曲线由物理定律产生,提供了两个分布之间的映射

        由于正常的正向时间物理学将数据沿轨迹映射到半球,因此我们使用 PFGM 在时间上向后映射到另一个方向。我们没有尝试直接对数据的概率分布进行建模,而是对复杂概率分布和简单半球分布之间的转换进行建模,我们可以轻松地从中选择点。

我们了解物理定律如何在数据分布之间映射,以便从易于采样的数据中生成新颖的图像

        整个过程如上图所示。总结一下:

  1. 我们的最终目标是新数据。我们无法通过直接从数据分布中采样来达到目的,因为直接采样太复杂了。
  2. 物理定律将这种复杂的数据分布转化为简单的半球分布
  3. 我们的 PFGM 为我们特定的训练数据集学习这种转换(即轨迹)。
  4. 然后我们从半球取样,这很容易做到
  5. 一旦我们有了这个样本,我们就会反向运行物理,沿着我们刚刚学到的这些轨迹向后移动,得出数据分布,从而生成新的数据

        如果这令人困惑,请不要担心 - 这是一个难以理解的概念。重要的部分是,物理学在我们想要的(新数据)和我们可以轻松获得的(半球数据)之间架起了一座桥梁

        想了解更多关于PFGM的信息吗?

查看我们的专用指南,其中更深入地解释了它们的工作原理。

一探究竟

我们也可以在其他领域利用这种方法——现在让我们来看看我们如何利用热力学来做到这一点。

3.2 具有热力学的生成式 AI

        热力学可以看作是对随机性的研究。例如,如果我们随机地将一堆硬币扔在地上,我们可以问其中 50% 的单挑着地的概率与 100% 的单挑着地的概率相比如何。

        让我们看一下四枚硬币的情况。其中 100%(四个)单挑着陆的概率小于其中只有 50%(两个)单挑着陆的概率。这是因为只有两枚硬币有六种方式可以正面朝上,而所有四种硬币只有一种方式可以正面朝上。

        只有两枚硬币正面朝上有更多方法,因为在两枚硬币正面朝上方面有灵活性,而在四枚硬币的情况下没有这种灵活性——所有硬币都必须正面朝上

        在这种情况下,我们看到 50% 的硬币被单挑的可能性是 100% 的 6 倍。如果我们将同样的思想实验扩展到十个硬币,那么 50%(五个)硬币单挑落地的可能性是 100%(十个)硬币单挑落地的可能性的 252 倍。如果我们将其扩展到仅 50 个硬币,那么这个因素的可能性就会增加 126 万亿倍。如果我们将这个概念扩展到数十亿个硬币呢?

3.3 从硬币到原子:扩散

        热力学将原子铸造为“硬币”,并研究上述现象在物理系统中的后果。例如,如果将一滴食用色素放入一杯水中,食用色素会扩散开来,最终在玻璃杯中形成均匀的颜色。为什么会这样?

随着时间的流逝,食用色素会自然扩散,从而在玻璃杯中形成均匀的颜色(来源)

        均匀的颜色是食用色素原子随时间扩散的结果。数十亿个原子在不同的地方比所有原子在同一个地方的方式要多得多,就像50%的硬币比100%的硬币有更多的方式。当所有原子都集中在一滴中时,它们可以被认为是“100%单挑”;当原子均匀分布时,它们可以被认为是“50%的单挑”。

        请记住,“50%的单挑”状态更有可能发生,并且只会随着硬币数量的增加而变得更有可能 - 只有50个硬币的可能性要高出126万亿倍。当我们将原子视为硬币时,我们必须记住,仅一滴食用色素中就有数万亿个原子。有了这么多的原子,它们最终扩散的可能性就变得比集中的液滴要大得多。因此,只需通过随机运动,当液滴接近这种 50% 的均匀颜色状态时,液滴就会随着时间的推移而扩散开来。

        这个过程被称为扩散,它启发了 DALL-E 2 和 Stable Diffusion 等模型。

3.4 从原子到像素:生成式人工智能中的扩散

        正如热力学将原子视为硬币一样,扩散模型将图像的像素视为原子。与食用色素的随机运动总会导致颜色均匀类似,像素的“随机运动”总会导致“电视静态”,即均匀食用色素的图像等价物。

        原子的随机运动总是会导致均匀的颜色,而像素的随机运动(即稍微改变它们的值)总是会导致电视静止

        重要的是,无论我们在哪里放置最初的食用色素滴,随着时间的推移,所有可能的起始位置都会产生相同的均匀颜色的最终状态。

随着时间的流逝,所有起始掉落都接近相同的最终状态

        特别要注意的是,不可能向后走,找出这种均匀状态的初始下降位置,因为所有初始状态都会导致它。缺乏注入性使得一般情况下不可能倒退。

        由于所有可能的下降都会导致相同的最终状态,因此在仅查看最终状态时不可能知道初始下降的位置。

        我们总是知道液滴在正向时间内如何扩散,但由于注入性问题,我们不知道如何反向扩散均匀着色。但是,如果我们将关注点归结为一个特定的下降点,那么我们可以在时间上向前向后模拟这个过程。

        如果我们只考虑一个初始滴点位置,那么我们可以成功地模拟随时间向前和向后的扩散过程

        扩散模型在图像域中使用相同的原理。特别是,扩散模型的不同“液滴”对应于不同类型的图像。例如,这些水滴可以对应于的图像、人类的图像和手写数字的图像。

每种类型的图像(狗脸、人脸、数字)都类似于液体中不同的初始“滴”

        通过只选择一种类型的图像,比如狗的图像,扩散模型可以学会为这种类型的图像及时倒退,就像我们如何通过只选择一滴来学习从统一的颜色中倒退一样。

通过只选择一种类型的图像,在本例中为狗的图像,我们可以学会从电视静态到狗的图像的时间倒退

3.5 使用扩散模型生成图像

        可能还不清楚我们为什么要这样做——如果我们有一个狗的图像数据集,我们为什么要像这样前进和后退?答案在于,正上方的图略带欺骗性——狗的特定图像与食用色素的滴度不同——它是狗的整个类别的图像类似于食用色素的滴落。

        狗的特定图像实际上类似于食用色素滴中的特定原子。从上面回想一下,将我们的关注点归结为最初的一滴,使我们能够在时间上向前向后模拟扩散过程。

        从上面,我们看到,专注于一个特定的起始落点可以让我们对正向和反向时间的动态进行建模

        了解扩散过程在逆时中是如何工作的,使我们能够将单个原子追溯到它们在液滴中的起点。特别是,我们从均匀的食用色素中随机挑选一个原子,然后逆转时间,看看它从哪里开始

        选择一滴可以让我们在相反的时间内模拟扩散,这使我们能够将单个原子追溯到它们的起始位置

        我们用扩散模型来模拟这个过程。类似地,我们随机选择一张电视静态图像(“原子”),然后通过时间倒流来找出它在数据分布中的起点(“初始下降”)。也就是说,我们确定哪个狗的图像导致了该电视静态图像。

        图像就像原子 - 我们使用一组特定类型(例如狗)的示例(训练数据)来了解扩散过程如何适用于该类型的任何特定图像。然后,我们随机选择一张电视静态图像(不在训练数据中),并利用这些知识生成新颖的图像。

        想了解更多关于扩散模型的信息吗?

        查看我们的专用指南,其中更深入地解释了它们的工作原理。

        这个过程与PFGM非常相似。借助 PFGM,我们对将数据分布映射到均匀半球的物理场进行了建模。由于半球很容易采样,我们在上面选择一个点,并在逆时运行物理场以生成新图像。通过扩散模型,我们对将数据分布映射到电视静态的物理场进行建模。由于电视静态很容易生成,因此我们随机选择一张电视静态图像,并在逆时运行物理以生成新图像。

从数据分布中采样是困难的,但从电视静态分布中采样则不然。注意到物理学将前者转化为后者,我们使用反时间物理学将后者的样本转换为前者的样本。

扩散模型是生成式人工智能在图像领域取得很大进展的基础。像 Imagen 和 DALL-E 2 这样的文本到图像模型增强了这一过程,使我们能够告诉模型我们希望生成的图像是什么样子。

四、最后的话

        人工智能的许多最新进展都受到物理学思想的启发。正如我们所看到的,这些高级思想是生成式人工智能现代方法的基础,为最新一代的人工智能模型提供动力。

        如果您喜欢这篇文章,请随时查看我们的其他一些文章,以了解大型语言模型的涌现能力或 ChatGPT 的实际工作原理。或者,请随时订阅我们的时事通讯,以便在我们发布此类新内容时随时了解情况。

参考资料:How physics advanced Generative AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1382902.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode讲解篇之90. 子集 II

文章目录 题目描述题解思路题解代码 题目描述 题解思路 初始化一个变量start表示当前从哪里开始遍历nums 搜索过程的数字组合加入结果集 从start开始遍历nums 如果当前元素和前一个元素相等,前一个元素没被使用,则触发剪枝去重操作,跳过当…

如何在海洋cms添加广告

1:下载广告代码,注意广告中的图片要放在自己的server上,图片地址要改为自己的实际图片地址,图片存放位置,存在模板的image里面 2在海洋cms后台添加广告管理,只需要广告index.html代码,转换成js代码 广告名…

GAMES101-Assignment6

一、问题总览 需要加速结构来加速光线与场景的交点,本次练习中,重点关注物体划分算法Bounding Volume Hierarchy (BVH)。本练习要求实现Ray-Bounding Volume求交与BVH查找。 需要从上一次编程练习中引用以下函数: Render() in Renderer.cpp: 将你的光线…

抖音矩阵云混剪系统源码多平台多账号一站式管理(免授权版)

抖音矩阵云混剪系统源码 短视频矩阵营销系统V2.2.1(免授权版) 中网智达矩阵营销系统多平台多账号一站式管理,一键发布作品。智能标题,关键词优化,排名查询,混剪生成原创视频,账号分组,意向客户自动采集,智能回复,多账号评论聚合回复,免切换,免登陆发布….助力您在…

浅谈对Mybatis的理解

一、Mybatis的概述 MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,由谷歌托管,并且改名为MyBatis 。2013年11月迁移到Github。 MyBatis是支持普通SQL查询,存储过程和高级映射的优…

PLC-IoT 网关开发札记(2):Xamarin Forms 工程获取App当前的版本号

代码实现 在构建 Android App 时,写了一个 AboutPage。在 AboutPage 上显示 App 的当前版本号是常见的做法。使用 Xamarin.Foms 获取当前版本号的方法是使用 Xamarin.Forms 的 VersionTracking 类。 如下,我写了一个非常简单的 AboutPage,其…

1.单表查询

作业要求 素材: 表名:worker-- 表中字段均为中文,比如 部门号 工资 职工号 参加工作 等 CREATE TABLE worker ( 部门号 int(11) NOT NULL, 职工号 int(11) NOT NULL, 工作时间 date NOT NULL, 工资 float(8,2) NOT NULL, 政治面貌 varc…

使用lodash原地起飞,总结了几个常用的lodash方法

前言 📫 大家好,我是南木元元,热爱技术和分享,欢迎大家交流,一起学习进步! 🍅 个人主页:南木元元 目录 什么是lodash lodash的按需引入 数组操作 求交集 求合集 求差集 求总和…

2024美赛数学建模思路 - 复盘:校园消费行为分析

文章目录 0 赛题思路1 赛题背景2 分析目标3 数据说明4 数据预处理5 数据分析5.1 食堂就餐行为分析5.2 学生消费行为分析 建模资料 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 赛题背景 校园一卡通是集…

SystemC学习笔记 - Hello systemc world

Hello Systemc World 码农老规矩,先写一个hello world并输出,语法什么的后面再说,先能编译运行再说。 目录配置 使用examples里的配置,在examples/sysc目录下创建test目录,其下创建第一个test1的目录,如…

功能权限篇

文章目录 1. 如何设计一套权限系统1.1 目标1.2 权限模型1.2.1 模型一RBAC1.2.2 模型二ABAC 2.如何实现菜单的创建?2.1 表结构2.2 前端实现2.3 后端实现 3. 如何实现角色的创建?4.如何给用户分配权限 —— 将菜单赋予角色?5.如何给用户分配权限…

Linux学习之网络编程3(高并发服务器)

写在前面 Linux网络编程我是看视频学的,Linux网络编程,看完这个视频大概网络编程的基础差不多就掌握了。这个系列是我看这个Linux网络编程视频写的笔记总结。 高并发服务器 问题: 根据上一个笔记,我们可以写出一个简单的服务端…

您与此网站之间建立的连接不安全

连接不安全的主要原因之一是使用不安全的通信协议。在互联网传输中,如果使用的协议不加密,那么数据就容易受到窃听和篡改。另一个可能的原因是网站没有正确配置其安全证书,使得用户的连接没有得到适当的加密保护。 解决方法: 采用…

Android jar包编译及集成

Jar包编译和集成有两种编译方式,mk和bp,Android 7版本之后逐渐采用bp格式编译,目前14版本还是兼容mk方式编译,具体写法入下: Android jar包编译 mk: 如果需要打包到systemimg,则需要将此jar包添…

Ribbon学习思维导图

参考资料 1、OpenFeign与Ribbon源码分析总结与面试题 2、万字剖析OpenFeign整合Ribbon实现负载均衡的原理 3、扒一扒Nacos、OpenFeign、Ribbon、loadbalancer组件协调工作的原理 4、OpenFeign原来是这么基于Ribbon来实现负载均衡的

Gaara靶机练习

渗透测试 一.信息收集1.确定IP地址2.nmap扫描3.目录扫描 二.hydra爆破1.ssh连接2.信息探索 三.提权gdb提权提权 一.信息收集 1.确定IP地址 ┌──(root㉿kali)-[~/kali/web] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:10:3c:9b, IPv4: 192.168.9.10 S…

鸿蒙Harmony--AppStorage--应用全局的UI状态存储详解

无所求必满载而归,当你降低期待,降低欲望,往往会得到比较好的结果,把行动交给现在,用心甘情愿的态度,过随遇而安的生活,无论结果如何,都是一场惊喜的获得! 目录 一,定义 …

YOLOv7基础 | 手把手教你简化网络结构之yolov7.yaml(包括源码+封装步骤+网络结构图)

前言:Hello大家好,我是小哥谈。通过下载YOLOv7源码可知,原始的yolov7.yaml文件是拆开写的,比较混乱,也不好理解,并且为后续改进增添了很多困难。基于此种情况,笔者就给大家介绍一种将yolov7.yam…

算法训练day13Leetcode144 145 94 二叉树的前(中)(后)序遍历

今日学习的文章和视频链接 https://www.bilibili.com/video/BV1Hy4y1t7ij/?vd_source8272bd48fee17396a4a1746c256ab0ae 二叉树的种类 在我们解题过程中二叉树有两种主要的形式:满二叉树和完全二叉树。 满二叉树 满二叉树:如果一棵二叉树只有度为0的…

宝塔nginx部署前端页面刷新报404

问题: 当我们使用脚手架打包前端项目的时候,如果前端项目并没有静态化的配置,如以下 当我们刷新页面,或进行路由配置访问的时候就会报404的错误 原因: 这是因为通常我们做的vue项目属于单页面开发。所以只有index.html…