读AI新生：破解人机共存密码笔记14逆强化学习算法

1. 数学保证

1.1. 如果我们要沿着新的路线重建人工智能，那么它的基础必须是坚实的

1.2. 通过精确的定义和一步步的严格数学证明来提供无可辩驳的保证

1.3. 希望证明一个定理：设计人工智能系统的一种特殊方式可以确保它们对人类有益

1.4. 定理不过是断言的一个花哨的名称，它要表述得足够精确，以便在任何具体情况下都能检验其真实性

1.4.1. 定理的好坏取决于它所包含的假设

1.5. 最著名的定理是费马大定理，它由法国数学家费马（Pierre de Fermat）在1637年提出，经过357年的努力，安德鲁·怀尔斯（Andrew Wiles）终于在1994年证明了该定理（并非全部由怀尔斯完成）

1.5.1. 这个定理可以用一行写完，但是证明它需要100多页密密麻麻的数学计算

1.6. 证明始于公理，公理是假定为真的断言

1.6.1. 公理是真实的，因为我们是这样认为的

1.6.2. 公理通常只是定义

1.6.2.1. 费马大定理所需的整数、加法和求幂的定义

1.6.2.2. 罗素定理和费马大定理揭示的真理都已经包含在公理中

1.6.2.3. 数学是我们定义的抽象对象

1.6.2.3.1. 数字、集合等

1.6.3. 证明从公理开始，通过逻辑上无可争议的步骤，添加新的断言，直到定理本身作为其中一个步骤的结果而被确定

1.6.3.1. 证明不过是使隐含的东西变得明确罢了

1.6.3.2. 证明的过程可长可短，但是它们没有增加任何新东西

1.7. 像这样设计的人工智能系统不会故意杀死你，那么你的公理必须在现实世界中是正确的

1.7.1. 如果它们不正确，那么你就证明了一个假想世界中的东西

1.7.2. 科学和工程学拥有证明假想世界结果的悠久而光荣的传统

2. 结构工程

2.1. 假设AB是一根刚性梁

2.1.1. 刚性这个词在这里并不是指“由像钢铁这样坚硬的东西制成”，它的意思是“无限坚固”，所以它完全不会弯曲

2.1.2. 刚性梁并不存在，所以这是一个假想的世界

2.1.3. 关键是要知道它偏离现实世界的程度，那就仍能获得有用的结果

2.1.4. 如果“刚性梁假设”允许工程师计算出这个结构中的力，并且这些力足够小，只能使真正的梁发生很小程度的弯曲，那么工程师可以合理地相信，把想象世界中的分析转移到现实世界中也会成立

2.1.5. 如果梁处于压缩状态，其两端都受到巨大的力的挤压，那么即使很小的弯曲也会导致更大的侧向力，从而导致更大的弯曲，以此类推，最终导致灾难性的失败

2.2. 假设AB是一根刚度为K的柔性梁

2.2.1. 真实的梁并不具有均匀的刚度

2.2.1.1. 它们有微小的缺陷，如果梁反复弯曲，这些缺陷会使裂缝产生

2.3. 移除不现实的假设的过程会持续下去，直到工程师非常确信剩余的假设在现实世界中足够站得住脚

2.4. 工程系统可以在现实世界中进行测试，但测试结果仅限于此

2.4.1. 它们不能证明相同的系统在其他情况下仍然有效

2.4.2. 不能证明系统的其他实例会按照与原始系统相同的方式运行

3. 网络安全

3.1. 在该领域，人们需要进行大量的数学分析来证明某些数字协议的安全性

3.2. 在真实的物理世界中运行

3.2.1. 通过监听键盘的声音或测量为笔记本电脑供电的电线的电压，攻击者可以“听到”你的密码或观察到处理过程中发生的加密与解密计算

3.2.2. 网络安全界现在正在应对这些所谓的侧信道攻击，例如，编写一种加密代码，不管加密的是什么消息，代码都会产生相同的电压波动

4. 有益机器定理

4.1. 假设一台机器具有组件A、B、C，它们彼此以某种方式连接在一起，并同环境以某种方式连接在一起，且使用内部学习算法lA、lB、lC来优化内部反馈奖励rA、rB、rC，以及一些其他条件……那么很有可能，机器的行为在（对人类的）价值上将非常接近在任何具有相同计算能力和物理能力的机器上可以实现的最佳可能行为

4.2. 无论组件变得多么智能，这样的定理都应该成立，也就是说，证明无懈可击，机器永远对人类有益

4.3. 我们不能试图证明机器代表我们产生最优（或接近最优）的行为，因为我们几乎可以肯定，这在计算上是不可能的

4.4. 我们说“很有可能……非常接近”，因为这通常是机器学习所能做到的最好的结果

4.4.1. 如果机器正在学习帮我们玩轮盘赌，球连续40次落在“0”的位置上，机器可能会合理地判断赌桌被操纵了，并相应地下注

4.5. 人工智能中也有类似的侧信道攻击

4.5.1. 区分智能体（做决策的程序）和环境（智能体执行操作的地方）

4.5.2. 与侧信道攻击一样，认为程序在数字系统中运行的假设是不正确的

4.5.3. 虽然学习算法在本质上不能通过数字手段重写自己的代码，但它仍可能学会说服人类对其进行“脑部手术”，以此来违反智能体和环境的区分，并通过物理手段改变代码

4.6. 我们对那些最终将成为“可证明有益的人工智能”（Provably Beneficial AI）定理基础的假设知之甚少

4.6.1. “可证明有益”是一种愿望，而非承诺，但这是正确的愿望

4.6.2. 在现实中没有完全理性的人

4.6.2.1. 情况可能更糟，因为人类甚至还没有接近理性

4.6.3. 我们必须非常小心地检查我们的假设

4.7. 当安全性被成功证明时，我们需要明白它不会真的成为现实，因为我们做出了不切实际的强假设，或是因为安全的定义太弱

4.8. 当安全性被证明失败时，我们需要抵制诱惑，不去增强假设以使证明通过，例如添加程序代码保持不变的假设

4.8.1. 我们需要加强人工智能系统的设计，例如确保它没有修改自己代码的关键部分的动机

4.9. “OWMAWGH”假设

4.9.1. “否则我们还不如回家”（otherwise we might

as well go home）

4.9.2. 如果这些假设是错误的，那么游戏就结束了，我们没有什么可做的了

5. 从行为中学习偏好

5.1. 经济学家通过为人类受试者提供选择来套取他们的偏好

5.1.1. 该技术广泛应用于产品设计、营销和交互式电子商务系统中

5.1.2. 另一个重要应用是在医学领域，肿瘤学家在考虑截肢的可能性时，可能需要评估病人在行动能力和预期寿命之间的偏好

5.1.3. 套取偏好通常只考虑在多个对象之间做出的单一选择，我们假设这些对象的价值对受试者而言是显而易见的

5.2. 利用强化学习来训练机器人或模拟昆虫，以此重现这些复杂的行为是可能的

5.2.1. 不知道使用什么奖励信号，不知道苍蝇和蟑螂在优化什么

5.2.2. 没有这些信息，就无法应用强化学习来训练虚拟昆虫，所以陷入了困境

5.3. 当强化学习从奖励中产生行为时，我们实际上想要的恰恰相反：学习给定行为的奖励

5.3.1. 我们已经有了由苍蝇和蟑螂产生的行为，我们想知道这种行为所优化的具体奖励信号

6. 逆强化学习算法

6.1. 马尔科夫决策过程的结构式估计方法

6.1.1. IRL

6.1.2. 这是诺贝尔奖得主汤姆·萨金特（Tom Sargent）在20世纪70年代末开创的一个领域

6.2. 这样的算法不仅可以解释动物的行为，还可以预测它们在新环境下的行为

6.3. 这些算法可以获得足够多的关于实体偏好的信息，使之能够像观察到的实体一样成功地行动，因此可以从某种程度上保证算法的有效性

6.4. 理解逆强化学习算法的最简单方法

6.4.1. 观察者从对真实的奖励函数的一些模糊估计开始，然后随着观察到更多的行为而细化这个估计，使之更精确

6.4.2. 用贝叶斯的理论来解释：从可能的奖励函数的先验概率开始，然后随着证据的增加来更新奖励函数的概率分布

6.5. 学习直升机特技飞行方面

6.5.1. 试图复制人类行为的结果并不太好，因为条件无法完全再现：在不同情况下重复相同的控制序列可能会导致灾难

6.5.2. 相反，该算法以它能够实现的轨迹约束的形式，来学习人类飞行员想要的东西

6.5.2.1. 这种方法实际上产生的结果甚至比人类专家所做的还要好，因为人类的反应更慢，并且会不断地犯小错误并纠正错误