Datawhale AI 夏令营（第五期）李宏毅苹果书 Task 1 《深度学习详解（入门）》- 1.1 通过案例了解机器学习

预测本频道观看人数（上） - 机器学习基本概念简介_哔哩哔哩_bilibili

1 隐藏任务：找出本篇中形如回归（regression）加粗字体的术语，并用自己的话进行解释，列成表格

术语	解释
机器学习（Machine Learning，ML）	机器学习（Machine Learning，简称 ML）是人工智能（Artificial Intelligence，简称 AI）的一个分支，主要研究如何让计算机通过数据和算法来模拟人类学习过程，从而在没有明确编程的情况下提高其处理任务的准确性。机器学习的核心是利用大量数据训练算法，使算法能够识别数据中的模式和关系，进而进行预测或决策
深度学习（Deep Learning，DL）	深度学习（Deep Learning，简称 DL）是机器学习（Machine Learning，简称 ML）的一个子领域，同时也是人工智能（Artificial Intelligence，简称 AI）的一个重要分支。深度学习的核心在于使用多层人工神经网络（Artificial Neural Networks）来模拟人类学习过程，并执行各种复杂的任务，如物体检测、语音识别、语言翻译等
回归（regression）	回归（Regression）是一种统计方法，用于评估和分析两个或多个变量之间的关系。在回归分析中，目的是通过一个或多个自变量（解释变量）来预测因变量（响应变量）的值。简而言之，回归分析就是用来寻找变量之间的依赖关系，并通过数学模型来表示这种关系，以便进行预测或估计。
分类（classification ）	分类（Classification）是一种监督学习任务，它旨在根据给定的输入数据将其分配到预定义的类别或标签中。在分类问题中，算法通过学习从输入特征到类别标签的映射关系，从而能够在新的、未见过的数据点上预测类别标签。分类常用于诸如垃圾邮件检测、图像识别、情感分析等领域，其中目标是识别数据点所属的特定类别。
参数（parameter）	在统计学和机器学习中，参数是指模型中的变量，其值在模型训练过程中通过数据学习得到，用于描述数据的特性。在数学模型中，参数是用于定义模型的具体数值。
模型（model）	模型是对现实世界某一过程或系统的简化表示，通常用于预测或解释现象。在机器学习中，模型是指根据训练数据构建的数学函数或算法，用于对新的输入数据进行预测。
特征（feature）	特征是数据中的一个属性或变量，用于描述数据点的某些方面。在机器学习中，特征是模型用来进行预测或分类的输入变量。
权重（weight）	在机器学习中，权重是模型参数之一，它决定了输入特征对模型输出的影响程度。在神经网络中，权重是连接各个神经元之间的数值。
偏置（bias）	偏置是机器学习模型中的一个参数，它用于调整模型的输出，使其更好地适应数据。在神经网络中，偏置是加在神经元激活函数之前的常数。
平均绝对误差（Mean Absolute Error， MAE）	平均绝对误差是预测值与实际值之间差异的绝对值的平均数，用于衡量预测的准确性。
均方误差（Mean Squared Error， MSE）	均方误差是预测值与实际值之间差异的平方的平均数，用于评估模型的性能，尤其是在回归问题中。
交叉熵（cross entropy）	交叉熵是衡量两个概率分布之间差异的一种方法，常用于分类问题中，特别是用于评估分类模型的性能。
误差表面（error surface）	误差表面是指在机器学习中，将模型的参数空间映射到损失函数值的三维或更高维度的图形表示。
梯度下降（gradient descent）	梯度下降是一种优化算法，用于寻找函数的局部最小值。在机器学习中，它用于最小化损失函数，从而找到最佳的模型参数。
学习率（learning rate）	学习率是梯度下降算法中的一个参数，它决定了在优化过程中参数更新的步长大小。
超参数（hyperparameter）	超参数是在开始学习过程之前设置好的参数，而不是通过学习数据得到的。它们通常用于指导学习过程或模型复杂度。
全局最小值（global minima）	全局最小值是指函数在整个定义域上取得的最小值。在机器学习中，全局最小值指的是损失函数在整个参数空间中的最小值。
局部最小值（local minima）	局部最小值是指函数在某一局部区域内取得的最小值，但在整个定义域上不是最小的。在机器学习中，局部最小值指的是损失函数在参数空间中的某个区域内的最小值。

2 隐藏任务：整理出本篇中所有的公式，手动摘录，并尝试理解。

详见书中解答

3 隐藏任务：找出机器学习找函数的3个步骤！并查找资料，交叉佐证这些步骤。

机器学习寻找函数的三个基本步骤可以概括为：

定义函数集合：在机器学习中，首先需要定义一个函数集合，这相当于确定可能解决问题的范围和方法。这个集合包含了所有可能的函数形式，机器学习的目标是从这个集合中找出最合适的函数。
判断函数的好坏：这一步骤涉及到评估每个函数的性能。通常通过定义一个损失函数（如均方误差或交叉熵）来衡量预测结果与实际结果之间的差异。损失函数的值越小，表示函数的性能越好。
选择最好的函数：在评估了所有候选函数的性能后，选择损失函数值最小的函数作为最佳模型。这个最佳函数将被用于实际的预测或决策任务。

这三个步骤是机器学习的基本流程，贯穿于各种机器学习算法和应用中。通过这个过程，机器学习算法能够从数据中学习并找到一个能够有效解决特定问题的函数。

以上内容得到了以下资料的佐证和支持：

CSDN博客中关于机器学习的“三板斧”方法论。什么是机器学习？_使用机器学习方法解决问题的目的是为了获得一个复杂函数,怎么理解这句话?-CSDN博客
另一篇CSDN博客中详细讨论了机器学习是寻找函数的艺术，并解释了为什么机器学习可以被视为寻找函数的过程。什么是机器学习？_使用机器学习方法解决问题的目的是为了获得一个复杂函数,怎么理解这句话?-CSDN博客
百度云平台上的一篇文章，深入探讨了机器学习从数据中寻找智慧函数的本质、任务以及如何找到函数的过程。机器学习：从数据中寻找智慧的函数

4 隐藏任务：归纳梯度下降的步骤。

梯度下降是一种用于寻找函数最小值的优化算法，常用于机器学习和深度学习中的模型训练。以下是梯度下降的基本步骤：
1. **初始化参数**：首先，随机选择一个参数的初始值或者基于某些启发式方法设定初始值。
2. **计算梯度**：计算损失函数关于参数的梯度。梯度是损失函数在当前参数值处的斜率，指向损失增加最快的方向。在机器学习中，通常使用反向传播算法来计算梯度。
3. **更新参数**：根据梯度和学习率对参数进行更新。学习率决定了在梯度方向上更新的步长大小。参数更新的公式通常是：
$\theta = \theta - \alpha \cdot \nabla_\theta J(\theta)$
其中， $\theta$ 是参数， $\alpha$ 是学习率， $\nabla_\theta J(\theta)$ 是损失函数 $J$ 关于参数 $\theta$ 的梯度。
4. **重复迭代**：重复步骤2和步骤3，直到满足停止条件。停止条件可以是梯度变得非常小（接近0），或者达到预定的迭代次数，或者损失函数的值低于某个阈值。
5. **输出结果**：当算法停止时，输出最终的参数值，这些参数值通常是损失函数的最小值对应的参数。
总结一下，梯度下降的步骤可以归纳为：
1. 初始化参数。
2. 计算损失函数的梯度。
3. 使用梯度更新参数。
4. 重复迭代直到满足停止条件。
5. 输出最终参数。
这个过程确保了模型参数能够逐渐接近损失函数的全局最小值或局部最小值，从而优化模型的性能。

5 隐藏任务：为什么局部最小是一个假问题，局部最小怎么解决？真正的难题是什么？

局部最小值通常被称作“假问题”的原因在于，在许多实际应用中，局部最小值与全局最小值之间的差距可能并不显著，或者局部最小值处的模型性能已经足够好，可以满足实际需求。以下是一些关于局部最小值和真正难题的讨论：
为什么局部最小是“假问题”？
1. 实际影响有限：在很多实际问题中，局部最小值处的损失函数值与全局最小值非常接近，因此对模型的预测性能影响不大。
2. 复杂度考虑：在高度非线性的优化问题中，找到全局最小值可能非常困难且计算成本高昂，而局部最小值通常已经足够好。
3. 问题的性质：对于某些问题，多个局部最小值可能具有类似的性能，使得寻找单一的全局最小值变得不那么重要。

局部最小值的解决方法：
1. 初始化策略：使用不同的初始参数值多次运行梯度下降，以增加找到不同局部最小值的机会。
2. 动量方法：引入动量可以帮助算法跳出局部最小值，如带动量的梯度下降（Momentum）。
3. 自适应学习率：使用自适应学习率算法，如Adam或RMSprop，它们可以在训练过程中自动调整学习率，有助于逃离局部最小值。
4. 随机梯度下降（SGD）：通过引入随机性，SGD可以在一定程度上帮助跳出局部最小值。
5. 使用其他优化算法：如模拟退火、遗传算法等，这些算法设计用来避免陷入局部最小值。

真正的难题：
1. 高原问题（Flat Minima）：在损失函数的某些区域，梯度非常小，导致参数更新缓慢，这可能是由于参数空间中的“高原”区域造成的。
2. 鞍点问题：在高维空间中，鞍点（即某些维度上梯度为零，而其他维度上梯度非零的点）比局部最小值更常见，且更难逃离。
3. 过拟合：模型可能过于复杂，以至于在训练数据上达到非常低的损失值，但在未见过的数据上表现不佳。
4. 计算效率：对于大规模数据集和复杂模型，找到最小值所需的计算资源可能非常庞大。
5. 泛化能力：即使找到了损失函数的最小值，模型也可能没有良好的泛化能力，无法很好地处理新的数据。
总的来说，虽然局部最小值在某些情况下可能不是主要问题，但上述提到的其他难题在机器学习和深度学习中更为关键，需要更多的关注和解决策略。

这篇文章写得不错，可以参考