以下是看Attention Is All You Need这篇文章的一点随想。
说实话,我没看懂transformer是咋回事,但突然一个类比念头,让我感觉有点概念了,虽然所有的类比都是不完备的。
学习随想记录如下,仅供查考:
物理世界 | 高维AI数据 | 一维数据 |
---|---|---|
物理对象 | n维矩阵向量,Word2vec | 一维数组 |
观察与实验 | 数据采集与标注 | 数据输入 |
学习 | 模型训练 | 排序 |
推理 | 模型推理 | 查找 |
大脑神经元运行原理 | transformer(用于训练与推理) | 比较函数(用于排序和查找) |
知识简化、降维 | 数据蒸馏 | 剔除重复数据 |
输入知识 | 训练用数据 | 排序用数据 |
人脑 | 训练后的数据(数字大脑) | 排序后的有序数据 |
已知世界的子集 | 有限的训练用数据 | 有限的排序用数据 |
无法言传身教的知识,语言的边界 | 非完整高维数据 | 非完整数据映射 |
学习知识的速度 | 不同大模型的训练速度 | 不同算法的排序速度 |
运用知识解决问题的速度 | 不同大模型的推理速度 | 不同算法的检索速度 |
概念抽象化的速度 | 梯度下降的速度 | 排序中某步的速度 |
概念理解偏差 | 模型局部失真 | 一维数据局部非单调有序 |
… | … | … |
以下是一点随想:
- 未来大模型的创新和竞争,本质上等价于当年的排序算法的创新。
- 如何用严谨的数理逻辑去定量定性描述大模型算法需要数学专业人士去突破定义。
- 目前大模型竞争更侧重于工程实现,这种实现目前还带有一些迷雾中摸索的感觉。
- 维特根斯坦认为语言的边界就是思维的边界。同理,真实物理世界的数字化能力决定了AGI的能力上限。
- 所以,不完备的数据映射决定了AGI永远无法完全替代人类,但是,AGI可以极大的帮助人类进化,能力上限难以估量。
- GPU等硬件扩展了图灵机的能力,相应的,可被处理的数据模型也变大了,这使得AGI有了实现基础。
以下是附加的一点概念(以前的一点理解或者随想):
真实物理世界与图灵机(一维数据处理等价于高维数据处理):
关于图灵机
可以理解为一个c函数 out function(int in, int * all_data){…}
all_data是当前图灵机的所有数据,对应无限长磁带及存储在磁带上的数据,当前数据状态q是Q状态集合中的一个元素(一个确定状态)
当输入数据int in进来时(图灵机中的in也存储在all_data中,且是下一个被读入的数据),图灵机就像一个函数function δ,δ(q,x)= (q’,x’,L)此处x等价in,L等价返回值out