chatgpt，神经网络与拥塞控制

chatgpt 是一个巨大的带答案的完形填空题库，它可以回答几乎所有的文字类问题，不保证完全正确，但大致正确。它是怎么做到的？

它怎么知道我要问什么，如果它知道我要问什么，那么问题的不同表达形式它也一定知道是同一个意思，比如 “TCP 是什么？”，“TCP 是什么协议？”，“TCP 如何工作？”，… 多一个字，少一个修饰语，即使问题非常简单，问法也是海量，总要有个地方存放这些问题及问题的答案，这个地方在哪？

很遗憾，没有这个地方。因为 chatgpt 采用人的方式而不是计算机的方式被构建。

将数据作为输入，经过数据无关的算法加工，获得输出，这是如今通用的冯诺依曼存储执行计算机的方式，背后的模型就是图灵机。但显然人不是这样思考问题的。

“猫” 这个概念保存在我们大脑的哪个位置，如果确实有这个位置，把这个位置用挖耳勺挖掉，我们就不认识猫了，是这样吗？显然不是。人更像是将信息编码进了大脑结构本身：

猫的外观，叫声第一次通过视觉，听觉进入大脑，激发大脑产生某些结构性变化，当再次看到同样的外观，或听到同样叫声时，这些信息经过结构固化的大脑后会得到一个输出，“这是一只猫”。

人自出生就通过视觉，听觉，触觉不停接收信息，这些信息不停对大脑神经元结构进行塑造，触发它们不停发生变化，所有的记忆由所有神经元状态的集合决定，记忆不是在某处保存了某数据，记忆只是一个状态集。

chatgpt 是一个类似大脑的结构，由数(千)亿神经元组成，每个神经元输出连接其它神经元输入，携若干参数作为输入权重。chatgpt 主动阅读互联网上的文字信息，这些信息触发神经元的权重发生改变，以获取更合理输出。比如当它读到 “浙江温州皮鞋湿” 这句名诗时，它会尝试改变某些神经元权重，使接下来获得 “下雨进水不会胖” 的概率更高，这是个不停 “学习” 的过程。某个时刻，chatgpt 就摆在那里，除错综复杂的神经元结构之外，不存在任何存储数据的地方，此时你问它 “皮鞋没有蹬上” 的下句是什么，它会回答 “露着白袜子”，因为前面那些字经过 chatgpt 的神经元网络后，指向 “露着白袜子” 的概率更高，没有为什么，只因它曾经读到过这句完整的话，它的神经元结构记住了这句话。

所有这一切都是神经元结构决定的。chatgpt 神经元参数的数量与所有文字，词，短语，长句的数量在一个量级，神经元网络规模与训练数据规模如此相似，恰好说明内容被分布式编码在结构中。

这种方式好处多多。

明显的好处是它天然并行化，整个结构没有通路互斥，没有全局变量，不存在某个地方只能有一条执行流通过的情况，因为根本就没有执行流，逻辑全在结构本身。

以此为背景，我觉得 chatgpt 的方式(不仅仅指 chatgpt 本身)非常适合 “记忆调取” 而不是作为工具被使用。拥塞控制就是这类场景的实例。

同一对端之间数据传输是一件屡次发生的事，昨天发生过，前天发生过，且发生时刻就在今天的此时刻。结合人类行为学，背后的事实是网络流量很大程度上相对固定且有规律。比如每个人每天固定时间会有固定行为(比如每晚 10 点 10 分会刷B站)，这给了 “学习” 以依据，只要有足够数据训练模型，整个互联网流量画像就能被刻画出来。

传输大模型只需调出曾经生效过的记忆中的传输配置，而不是生成一个新的配置，这与作为工具对数据的加工方式完全不同。人没必要把四则混合运算的结果记在脑子里，但却有必要把尽可能多的动植物的外观气味记在脑子里，大致就是这个意思。拥塞只能避免不能对抗，记住疯猫，野狗，毒虫的外观和气味就是想要避开它们，而不是用 “算法” 对抗它们。

拥塞信号只是通知你善后，不是征求你的处理意见。一旦拥塞实际发生，额外的动作只会弄巧成拙，传输大模型的目标是不让拥塞发生，不产生拥塞信号，也就不需要善后(比如 AIMD 等内生反应式算法，而反应式算法的代价也是内置的，比如周期锯齿，即使 bbr 也有 probertt 锯齿)了。初到一个城市最容易遭遇堵车，随着时间流逝，就不会堵车了，没什么高尚的 “算法”，只是你记住了堵车的时间或路段，绕开了而已。

读书读得多了，遣词造句水平自然就高，自然就会写了，并不是人变聪明了，而是读书使你 “学会了” 很多字词句的固定搭配，段落自然就流出来了。当一个数据传输系统 “学会了” 一小时，一天，一周，… 的每个时刻的链路画像时，它自然就知道使用什么配置参数进行拥塞避免了。

与此相对，别指望启发式闭环算法，滞后反馈的本质决定了这种算法的精度和上限，当未来注定无法预测时，能利用的只有历史。

简单说一下神经网络原理。

神经网络由大量神经元连接而成，每个神经元的输出对应下一个神经元的输入，一个简单的神经元如下：
在这里插入图片描述

它可将一条直线分割为若干部分，每个部分表示一种元特征展现或不展现。

更多的神经元便可刻画多个元特征组合，比如识别平面上某点位于 a，b，…i 中的哪个区域内，如下图所示：
在这里插入图片描述

如果这些区域之间的边界是模糊的，那么输出将会携带概率。

所谓训练就是不断用真实 case 供上述结构来学习，比如 (1,2)->b，(5,1)->e，(1,3.5)->80%b + 20%a，在获得输出的过程中调节神经元激发条件，使其最终获得越来越正确的输出。学习过程是个对神经元激发条件硬编码的过程。

当完成足够的训练，所有神经元的激发条件均被调节到 “恰到好处”，当你用 (5,1) 作为输入，这个结构会输出 e，虽然这个结构里没有任何地方保存 “(5,1) 对应的区域是 e” 这种信息，但它确实得到了正确答案，就像它亲眼看到了一样。它确实亲眼看过，并记住了。

由简入繁，所有概念，记忆，文字都可抽象成上述对特定区域的识别，比如 “浙江温州皮鞋湿” 对应点 A，那么 “下雨进水不会胖” 这个点就在离 A 非常近的位置，于是 chatgpt 就把这句话拎出来接话了，这并不意味着 chatgpt 理解这两句名诗前后的逻辑联系，事实上作者本人也不理解。

实际操作中，chatgpt 是结合初始上下文一个字一个字递归往外崩的：

输入问题：“浙江温州皮鞋湿”
chatgpt 获得了一个可能的 “下一个字”：“抱”，新的输入为：“浙江温州皮鞋湿抱”
chatgpt 获得了一个可能的 “下一个字”：“歉”，新的输入为：“浙江温州皮鞋湿抱歉”
chatgpt 获得了一个可能的 “下一个字”：“，我”，新的输入为：“浙江温州皮鞋湿抱歉，我”
…

“获得一个可能的‘下一个字’” 的方法类似于 “在一个平面上找一个距离已知点最近的点”，如果每一个字，每一个词，每一个常见词组或句子都被表示成平面上的点，chatgpt 的训练过程就是确定所有这些点的位置，让有意义的组合距离更近：
在这里插入图片描述

当 chatgpt 遇到 “浙江温州皮” 时，显然距离它最近的点就是 “鞋”，紧接着距离 “浙江温州皮鞋” 最近的点就是一个字 “湿”，于是就连起来了。当 chatgpt 爬遍了整个互联网，它获得的 “知识” 是巨量的，这一切不能说被保存在一张巨大的神经网络中，而要说这一切就是这张网络本身。

无论多么复杂的概念，都能用不停的一般疑问句二分拆解，每个一般疑问句均可以对应一个神经元，每个回答改变一个神经元，类比雕塑，就是 “刻一刀”，对概念进行 “理解” 和 “记忆” 的过程是一个雕刻的过程，整座雕塑完成了，理解和记忆就完成了，而整个神经网络就是这座雕塑本身。

谈谈大模型的训练，模型是已完成的雕塑，一共需要刻多少刀决定模型的规模。但任何类比都比不上模型训练的数学描述。模型就是确定了参数系数的数学方程，而模型的训练就是待定系数的过程。

我们在小学时就接触过模型的训练，即 “待定系数法求方程”。

L: y = a*x + b

已知 A(1,2)，B(3,4) 在直线 L 上，请确定该直线。我们用 A 和 B 两点训练该模型，即可求解 a，b 两个参数，L 就确定了。

如果把直线 L 换成一只猫呢？虽然猫不是直线，但它可用直线画出来，素描就这么干。这无非是一道更复杂的待定系数法的题目：

Cat: y = a1*(a2*(…) + b2) + b1 + an*x + bn…

用猫足够多的特征训练上述方程，即可求解出 a1，a2，…an，…bn 等所有参数，Cat 的方程就确定了。现在拿一组数据喂给这个方程问这是不是一只猫，这个方程根据这些数据和 Cat 方程的拟合程度便可给出答案，就像它见过一样，它确实见过。

一只猫的方程，将每一个 f(x) = a*x + b 看作一个神经元，需要多少神经元？100 个？1000 个？还是 1 亿个？需要待定的系数的个数决定了模型的规模，模型规模越大越精确。

所谓大模型，说的就是需要待定的系数数量非常多，动辄以亿记。像 chatpgt 这类描述字词句搭配的文字信息模型，大概有数千亿需要调节的系数。

…

还是秀一下秀了很多次的代码：

int get_cwnd(...) 
{
    ...
    if (src = inet_addr("123.100.10.19")) {
       cwnd = 12073; 
       pacing = 0;
    } else if (src = inet_addr("80.12.3.40") && time < 9_PM) {
        cwnd = 1000;
        pacing = 1;
    }
    ...
}

这些数据哪来的？学来的。

这种方式和闭环算法之间有本质差异，没有任何算法能解释为什么是 12073，就算有这个算法也没有找到它的必要，只要知道 12073 曾经使用过，效果还不错就够了，背后没什么原理，大量数据佐证，便可量大出奇迹。

仍以 chatgpt 为例，它的内部结构绝不是文字信息简单堆砌塑造而成，而是表现出一定的结构，训练数据较少时，这种结构不明显，看起来就是堆砌的噪声，随着训练数据增多，好看的结构便涌现出来，这可能是语言本身的结构，也可能是人类逻辑的本质展现，但没人能解释这种涌现到底是什么，就像没人能解释意识是什么一样，它就在那里。

“没人能解释，但它就在那里”，这句话总让人觉得不负责任，特别是对那些研究拥塞控制算法的人而言，AI 驱动的拥塞避免总不被看好，被认为是噱头，但我认为恰恰相反，拥塞控制本就不属于公理体系和逻辑范畴，它恰恰就是 “就在那里”，换句话说，策略不是推导出来的，而是尝试出来的。好像生活本身，它是由大量经验塑造出来的，没人会论证生活本身的内在逻辑，这样做也是无益的。

当你已经知道链路只有 100Mbps，当你知道当前带宽已经 99Mbps，明知道继续 additive-increase 很快就会 multiplicative-decrease，你还会继续 cwnd ++ 吗？明明你有足够多的信息，可你就是不用，偏偏选择吃三堑长一智。

皮鞋没有蹬上，露着白袜子。

浙江温州皮鞋湿，下雨进水不会胖。