Exercise 1 绪论

Q：用您自己的话来定义：（a）智能，（b）人工智能，（c）智能体，（d）理性，（e）逻辑推理。

A：
智能：
人工智能：(artificial intelligence，AI)领域不仅涉及理解，还涉及构建智能实体。这些智能实体机器需要在各种各样新奇的情况下，计算如何有效和安全地行动。（我们研究的智能偏向理性智能体）
智能体：某种能够采取行动的东西；
理性：
逻辑推理：

Q：阅读图灵关于 AI Turing:1950 的原始论文。在论文中，他讨论了对他提出的企业和他的智能测试的几点反驳意见。哪些反对意见仍然有分量？他的反驳是否有效？你能想到自从他写这篇论文以来，事态发展引发的新的反对意见吗？在论文中，他预测到2000年，计算机将有30%的几率通过五分钟的图灵测试，而不需要熟练的询问器。你认为今天电脑有什么机会？再过50年？

A：存在问题：（1）来自神学的意义；（2）“鸵鸟”式的异议；（3）来自数学的异议；（4）来自意识的论点；（5）来自各种能力限制的论点；（6）Lovelace夫人的异议；（7）来自神经系统连续性的论点；（8）来自行为非形式化的论点；（9）来自超感官认知的论证。

参考文献: 论文原文、论文翻译、

Q：每年的罗布纳奖(Loebner Prize)都会颁发给最接近通过图灵测试的程序。调研最新的罗布纳奖得主。它使用什么技术？它如何推动人工智能的发展？注：勒布纳奖已在2020年停止颁发

A：2020年为Mitsuku；

Q：反射动作（例如从热炉中退缩）是否合理？他们智能吗？

A：是一种合理的反应，同样是一种理性的智能行为。

Q：有一些众所周知的问题是计算机难以解决的，还有一些问题是无法确定的。这是否意味着人工智能是不行的？

A：人工智能的诞生（1943-1956），起步发展期（1956-1969），反思发展期（1966-1973），应用发展期-专家系统（1969-1986），神经网络的回归（1986-现在），概率推理和机器学习（1987-现在），大数据（2001-现在），深度学习（2011-现在），人工智能一步步的发展速度正赶上人类。

Q：假设我们扩展了Evans的SYSTEM程序，使其在标准智商测试中可以获得200分。那么我们会有一个比人类更聪明的程序吗？

A：程序能在某一方面优于人类，例如计算机能很快计算加减乘除，但不能说计算机程序优于人类。

Q：sea slug Aplysis 的神经结构得到了广泛的研究(首先是由诺贝尔奖获得者埃里克·坎德尔(Eric Kandel)进行的)，因为它只有大约2万个神经元，其中大多数都很大，很容易操纵。假设Aplysis神经元的周期时间与人类神经元大致相同，那么就每秒内存更新而言，与图中描述的高端计算机相比，其计算能力如何?

在这里插入图片描述

A：单从计算周期上比超级计算机低六个数量级，速度远远慢于高端计算机。

Q：自省——对一个人内心想法的报告——怎么会不准确呢?我的想法会不会是错的?请讨论。

A：人的思想带有不理智的因素，受限于成长环境、认知等方方面面，如果没有一种系统性，或别人帮助的情况下很难做到绝对的客观。

Q: 中文翻译：以下计算机系统实例是否是人工智能的例子。
超市条码扫描器。
网络搜索引擎。
语音激活的电话菜单。
对网络状态作出动态反应的互联网路由算法。

A：超市条码不是人工智能，网络搜索引擎是人工智能，语音激活的电话菜单是人工智能，网络状态作出动态反应的互联网路由算法是人工智能。

Q: 为什么进化会倾向于形成做事理性的系统？这样的系统是为了实现什么目标而设计的呢?

A: 这些系统在进化后会理性地行动，因为它们将学习如何适应情况，而无需自行决定程序。该系统将演变成一个系统，一些人如何拥有自己的思想。它将开始人性化地行动。进化系统的目标是在赋予的任何特定任务中实现良好的性能。

Q：人工智能是科学，还是工程?或者两者都不是?解释一下。

A：人工智能是科学和工程的结合，工程是对某一科研成果的应用，科研是为工程提供技术支持。

Q: “当然，计算机不可能是智能的，他们只能按照程序员的指示去做。”后一种说法是正确的吗？这是否意味着前者也是正确的？

A: 后一种说法略显片面，这并不意味着前一种说法，因为计算机可以在没有程序员告诉他们该怎么做的情况下适应和进化到他们的环境。

Q: “动物当然不可能是聪明的，它们只能按照基因的指示行事。”后一种说法是正确的吗？这是否意味着前者也是正确的？

A: 相对片面，因为动物会适应它们所處的状况。适者生存发生在动物身上，谁能适应和改变生活，而其他无法适应生存的动物就会消失

Exercise 2 智能体

Q: 假设性能指标只关注环境的前 $T$ 时间步，而忽略之后的所有内容。说明理性智能体的动作可能不仅取决于环境状况，还取决于它到达的时间步。

A: 在不同的时间步，环境的状态可能不同，于是不同的动作会带来不同的奖励。假设在任何状态下都有两个动作a和b可以选择，并考虑两种情况：智能体在时间T或时间T-1时处于状态s。在状态s时，动作a到达状态s′，可以获得的奖励为0，而动作b则再次到达状态s，奖励为1；在状态s′时，任何一个动作都可以获得奖励10。在时间T-1，在s状态下做a是理性的，在时间结束前预期总回报为10；但在时间T，动作b是理性的，预期总回报为1，因为在时间结束前无法获得10的回报。例如在考试时，最开始（时间步）题目全都没做（状态）时，通常是按照试卷顺序做题（动作）。在考试后半段（时间步），当剩余时间不多但所剩题目较多时（状态），通常会选择性跳过一些非常难或者非常耗时的题目，先做简单、更容易得分的题（动作），以获得最好的成绩（奖励）。而不是按照试卷的顺序去做，导致丢失了部分简单题的分数。

Q: 对于以下每个断言，说明其真假，并酌情用示例来支持您的答案。

一个只感知到状态部分信息的智能体不可能是完全理性的。 - 错误。完全理性是指根据收到的传感器信息做出良好决策的能力。
存在任何纯反射智能体都无法完成理性动作的任务环境。
存在一个每个智能体都理性的任务环境。 - 正确，纯反射智能体会忽略之前的理解，因此无法在部分可观测的环境中获得最佳状态估计。
智能体程序的输入，和智能体函数的输入相同。 - 错误。智能体程序将当前感知作为输入，智能体函数可能依赖整个感知历史。
任何智能体函数都可以通过一些程序/机器组合实现。- 错误。例如，需要在恒定时间内解决任意大小的棘手问题实例的智能体函数。
假设智能体从可能的操作集中均匀地随机选择操作。存在一个确定性任务环境，在这个环境中该智能体是理性的。 - 正确。这是（3）的特殊情况；如果采取哪种动作都无关紧要，那么随机选择是合理的。
在两种不同的任务环境中，特定的智能体可能都是完全理性的。 - 正确。只要为两个不同的环境建立同样的价值映射就可以。
在不可观察的环境中，每个智能体都是理性的。 - 错误。智能体可以拥有环境的先验信息，因此可以事先知道不同动作的奖励。
一个完全理性的扑克智能体永远不会输。- 错误。因为牌是随机发放的，除非智能体手里的牌完全比对方好，否则还是可能会输。他只能让他手中的牌的收益最大化，但不一定会赢。一手烂牌给谁都赢不了。