sheng的学习笔记-【中】【吴恩达课后测验】Course 3 - 结构化机器学习项目

课程3_第2周_测验题

要解决的问题

① 为了帮助你练习机器学习的策略，本周我们将介绍另一个场景，并询问你将如何行动。

② 我们认为这个在机器学习项目中工作的“模拟器”将给出一个任务，即领导一个机器学习项目可能是什么样的！

③ 您受雇于一家初创公司，制造自动驾驶汽车。

④ 您负责检测图像中的道路标志（停车标志、人行横道标志、施工先行标志）和交通信号（红绿灯）。

⑤ 目标是识别每张图像中的这些对象。例如，上面的图像包含人行横道标志和红色交通灯。

在这里插入图片描述

第一题

① 您的100,000张带标签的图片是使用您汽车的前置摄像头拍摄的，这也是你最关心的数据分布，您认为您可以从互联网上获得更大的数据集，即使互联网数据的分布不相同，这也可能对训练有所帮助。你刚刚开始着手这个项目，你做的第一件事是什么？假设下面的每个步骤将花费大约相等的时间（大约几天）。

A. 【】花几天时间去获取互联网的数据，这样你就能更好地了解哪些数据是可用的。

B. 【】花几天的时间检查这些任务的人类表现，以便能够得到贝叶斯误差的准确估计。

C. 【】花几天的时间使用汽车前置摄像头采集更多数据，以更好地了解每单位时间可收集多少数据。

D. 【】花几天时间训练一个基本模型，看看它会犯什么错误。

答案：

D.【 √ 】花几天时间训练一个基本模型，看看它会犯什么错误。

第二题

① 您的目标是检测道路标志（停车标志、行人过路标志、前方施工标志）和交通信号（红灯和绿灯）的图片，目标是识别这些图片中的哪一个标志出现在每个图片中。您计划在隐藏层中使用带有ReLU单位的深层神经网络。

② 对于输出层，使用Softmax激活将是输出层的一个比较好的选择，因为这是一个多任务学习问题，对吗？

A. 【】对

B. 【】不对

答案：

B.【 √ 】不对

第三题

① 你正在做误差分析并计算错误率，在这些数据集中，你认为你应该手动仔细地检查哪些图片（每张图片都做检查）？

A. 【】随机选择10,000图片

B. 【】随机选择500图片

C. 【】500张算法分类错误的图片

D. 【】10,000张算法分类错误的图片

答案：

C.【 √ 】500张算法分类错误的图片

第四题

① 在处理了数据几周后，你的团队得到以下数据：

100,000 张使用汽车前摄像头拍摄的标记了的图片。
900,000 张从互联网下载的标记了道路的图片。

② 每张图片的标签都精确地表示任何的特定路标和交通信号的组合。

③ 例如 $y^{(i)}$ 表示图片包含了停车标志和红色交通信号灯。

$y^{(i)}=\begin{bmatrix} 1\\ 0\\ 0\\ 1\\ 0 \end{bmatrix}$

④ 因为这是一个多任务学习问题，你需要让所有 $y^{(i)}$ 向量被完全标记。如果一个样本等于

$\begin{bmatrix} 1\\ ?\\ 0\\ 1\\ ? \end{bmatrix}$

⑤ 那么学习算法将无法使用该样本，是正确的吗？

A. 【】对

B. 【】不对

答案：

B.【 √ 】不对

第五题

5.你所关心的数据的分布包含了你汽车的前置摄像头的图片，这与你在网上找到并下载的图片不同。如何将数据集分割为训练/验证/测试集?

A. 【】将10万张前摄像头的图片与在网上找到的90万张图片随机混合，使得所有数据都随机分布。将有100万张图片的数据集分割为：有60万张图片的训练集、有20万张图片的验证集和有20万张图片的测试集。

B. 【】将10万张前摄像头的图片与在网上找到的90万张图片随机混合，使得所有数据都随机分布。将有100万张图片的数据集分割为：有98万张图片的训练集、有1万张图片的验证集和有1万张图片的测试集。

C. 【】选择从互联网上的90万张图片和汽车前置摄像头的8万张图片作为训练集，剩余的2万张图片在验证集和测试集中平均分配。

D. 【】选择从互联网上的90万张图片和汽车前置摄像头的2万张图片作为训练集，剩余的8万张图片在验证集和测试集中平均分配。

答案：

C.【 √ 】选择从互联网上的90万张图片和汽车前置摄像头的8万张图片作为训练集，剩余的2万张图片在验证集和测试集中平均分配。

第六题

6.假设您最终选择了以下拆分数据集的方式:

在这里插入图片描述

① 您还知道道路标志和交通信号分类的人为错误率大约为0.5％。以下哪项是对的?（选出所有正确项）

A. 【】由于开发集(验证集)和测试集的错误率非常接近，所以你过拟合了开发集(验证集)。

B. 【】你有很大的数据不匹配问题，因为你的模型在训练-开发集(训练-验证集)上比在开发集(验证集)上做得好得多。

C. 【】你有很大的可避免偏差问题，因为你的训练集上的错误率比人为错误率高很多。

D. 【】你有很大的方差问题，因为你的训练集上的错误率比人为错误率要高得多。

E. 【】你有很大的方差问题，因为你的模型不能很好地适应它从来没有见过，但是来自训练集同一分布的数据

答案：

B.【 √ 】你有很大的数据不匹配问题，因为你的模型在训练-开发集(训练-验证集)上比在开发集(验证集)上做得好得多。

C.【 √ 】你有很大的可避免偏差问题，因为你的训练集上的错误率比人为错误率高很多。

第七题

① 根据上一个问题的表格，一位朋友认为训练数据分布比验证/测试分布要容易得多。你怎么看？

A. 【】你的朋友是对的。（即训练数据分布的贝叶斯误差可能低于验证/测试分布）。

B. 【】你的朋友错了。（即训练数据分布的贝叶斯误差可能比验证/测试分布更高）。

C. 【】没有足够的信息来判断你的朋友是对还是错。

D. 【】无论你的朋友是对还是错，这些信息都对你没有用。

答案：

C.【 √ 】没有足够的信息来判断你的朋友是对还是错。

第八题

8.您决定将重点放在验证集上, 并手动检查是什么原因导致的错误。下面是一个表, 总结了您的发现：

验证集总误差 14.3%
由于数据标记不正确而导致的错误 4.1%
由于雾天的图片引起的错误 8.0%
由于雨滴落在汽车前摄像头上造成的错误 2.2%
其他原因引起的错误 1.0%

① 在这个表格中，4.1％、8.0％这些比例是占总验证集的比例（不仅仅是您的算法错误标记的样本），即大约8.0 / 14.3 = 56％的错误是由于雾天的图片造成的。

② 从这个分析的结果意味着团队最先做的应该是把更多雾天的图片纳入训练集，以便解决该类别中的8%的错误，对吗？

A. 【】错误，因为这取决于添加这些数据的容易程度以及您要考虑团队认为它会有多大帮助。

B. 【】是的，因为它是错误率最大的类别。正如视频中所讨论的，我们应该对错误率进行按大小排序，以避免浪费团队的时间。

C. 【】是的，因为它比其他的错误类别错误率加在一起都大(8.0 > 4.1+2.2+1.0)。

D. 【】错误，因为数据增强(通过清晰的图像+雾的效果合成雾天的图像)更有效。

答案：

A.【 √ 】错误，因为这取决于添加这些数据的容易程度以及您要考虑团队认为它会有多大帮助。

第九题

9.你可以买一个专门设计的雨刮，帮助擦掉正面相机上的一些雨滴。根据上一个问题的表格，您同意以下哪些陈述？

A. 【】对于挡风玻璃雨刷可以改善模型的性能而言，2.2％是改善的最大值。

B. 【】对于挡风玻璃雨刷可以改善模型的性能而言，2.2％是改善最小值。

C. 【】对于挡风玻璃雨刷可以改善模型的性能而言，改善的性能就是2.2％。

D. 【】在最坏的情况下，2.2%将是一个合理的估计，因为挡风玻璃刮水器会损坏模型的性能。

答案：

A.【 √ 】对于挡风玻璃雨刷可以改善模型的性能而言，2.2％是改善的最大值。

第十题

10.您决定使用数据增强来解决雾天的图像，您可以在互联网上找到1,000张雾的照片，然后拿清晰的图片和雾来合成雾天图片，如下所示：
在这里插入图片描述

① 你同意下列哪种说法？（选出所有正确项）

A. 【】只要你把它与一个更大（远大于1000）的清晰/不模糊的图像结合在一起，那么对雾的1000幅图片就没有太大的过拟合的风险。

B. 【】将合成的看起来像真正的雾天图片添加到从你的汽车前摄像头拍摄到的图片的数据集对与改进模型不会有任何帮助，因为它会引入可避免的偏差。

C. 【】只要合成的雾对人眼来说是真实的，你就可以确信合成的数据和真实的雾天图像差不多，因为人类的视觉对于你正在解决的问题是非常准确的。

答案：

C.【 √ 】只要合成的雾对人眼来说是真实的，你就可以确信合成的数据和真实的雾天图像差不多，因为人类的视觉对于你正在解决的问题是非常准确的。

第十一题

10.在进一步处理问题之后，您已决定更正验证集上错误标记的数据。您同意以下哪些陈述？（选出所有正确项）

A. 【】您不应更正训练集中的错误标记的数据, 因为这不值得

B. 【】您应该更正训练集中的错误标记数据, 以免您训练集与验证集差距更大

C. 【】您不应该更正测试集中错误标记的数据，以便验证和测试集来自同一分布

D. 【】您还应该更正测试集中错误标记的数据，以便验证和测试集来自同一分布

答案：

A.【 √ 】您不应更正训练集中的错误标记的数据, 因为这不值得

D.【 √ 】您还应该更正测试集中错误标记的数据，以便验证和测试集来自同一分布

第十二题

12.到目前为止，您的算法仅能识别红色和绿色交通灯，该公司的一位同事开始着手识别黄色交通灯（一些国家称之为橙色光而不是黄色光，我们将使用美国的黄色标准），含有黄色灯的图像非常罕见，而且她没有足够的数据来建立一个好的模型，她希望你能用迁移学习帮助她。

① 你告诉你的同事怎么做？

A. 【】她应该尝试使用在你的数据集上预先训练过的权重，并用黄光数据集进行进一步的微调。

B. 【】如果她有10,000个黄光图像，从您的数据集中随机抽取10,000张图像，并将您和她的数据放在一起，这可以防止您的数据集“淹没”她的黄灯数据集。

C. 【】你没办法帮助她，因为你的数据分布与她的不同，而且缺乏黄灯标签的数据。

D. 【】建议她尝试多任务学习，而不是使用所有数据进行迁移学习。

答案：

A.【 √ 】她应该尝试使用在你的数据集上预先训练过的权重，并用黄光数据集进行进一步的微调。

第十三题

13.另一位同事想要使用放置在车外的麦克风来更好地听清你周围是否有其他车辆。例如，如果你身后有警车，你就可以听到警笛声。但是，他们没有太多的训练这个音频系统，你能帮忙吗？

A. 【】从视觉数据集迁移学习可以帮助您的同事加快步伐，多任务学习似乎不太有希望。

B. 【】从您的视觉数据集中进行多任务学习可以帮助您的同事加快步伐，迁移学习似乎不太有希望。

C. 【】迁移学习或多任务学习可以帮助我们的同事加快步伐。

D. 【】迁移学习和多任务学习都不是很有希望。

答案：

D.【 √ 】迁移学习和多任务学习都不是很有希望。

第十四题

14.要识别红色和绿色的灯光。

① 你一直在使用这种方法：将图像 $x$ 输入到神经网络，并直接学习映射以预测是否存在红光(和/或)绿光。

② 一个队友提出了另一种两步的方法：先要检测图像中的交通灯（如果有），然后确定交通信号灯中照明灯的颜色。

③ 在这两者之间，方法B更多的是端到端的方法，因为它在输入端和输出端有不同的步骤，这种说法正确吗？

A. 【】对

B. 【】不对

答案：

B.【 √ 】不对

第十五题

15.上一题中，A方法似乎比B方法更有效，如果你有一个__

A. 【】大训练集

B. 【】多任务学习的问题

C. 【】偏差比较大的问题

D. 【】高贝叶斯误差的问题

答案：

A.【 √ 】大训练集