Machine Learning Specialization 学习笔记（1）

文章目录

前言
一、监督学习
二、无监督学习
三、一些基本概念
- 线性回归模型
- - 简单线性回归
  - 多元线性回归
  - 模型训练
  - 模型评估
  - 应用
- 损失函数（cost function）
- 梯度下降（gradient descent）
- 多类特征（multiple features）
- 特征缩放（feature scaling）

前言

博客仅记录个人学习进度和一些查缺补漏。
学习内容：BV1Bq421A74G

一、监督学习

-Supervised Learning (rapid advacements used most in real-world applications)
监督学习是机器学习中的一种常见方法，它使用标记的训练数据来训练模型，以便模型能够预测或决定未见过数据的标签。在监督学习中，每个训练样本都有一个与之相关的输出标签，模型的目标是学习输入数据和输出标签之间的关系。以下是监督学习的一些关键特点和常见任务：

分类：预测离散标签的任务。例如，根据电子邮件的内容判断其是否为垃圾邮件，或者根据图像识别图像中的对象。.
回归：预测连续值的任务。例如，根据房屋的特征预测其价格，或者根据病人的医疗记录预测其住院时间。
标记：在文本、图像或视频数据中识别和分类实体或对象。例如，命名实体识别（NER）可以识别文本中的人名、地点和组织名。
排序：预测数据点的相对顺序。例如，搜索引擎中的网页排名。
多任务学习：同时学习多个相关任务，以提高模型的泛化能力。

监督学习的过程通常包括以下步骤：

数据收集：收集带有标签的数据集。
数据预处理：清洗数据，处理缺失值，进行特征工程等。
选择模型：根据问题类型选择合适的机器学习算法。
训练模型：使用训练数据集来训练模型。
评估模型：使用验证集或测试集来评估模型的性能。
调优模型：通过调整模型参数或使用更复杂的模型来提高性能。
部署模型：将训练好的模型部署到生产环境中，以对新数据进行预测。

监督学习算法的例子包括：

决策树：通过树状图结构进行决策。
支持向量机（SVM）：在高维空间中寻找最优分割超平面。
随机森林：集成多个决策树以提高预测准确性。
梯度提升机（GBM）：集成多个弱预测模型以提高预测准确性。
神经网络：模仿人脑的神经元网络，可以用于复杂的模式识别任务。
线性回归：预测连续值，模型输出是输入特征的线性组合。
逻辑回归：用于二分类问题，尽管名字中有“回归”，但它是一个分类算法。

监督学习在许多领域都有应用，如金融、医疗、自动驾驶、语音识别等。

二、无监督学习

-Unsupervised Learning
无监督学习是机器学习中的一种方法，它与监督学习相对。在无监督学习中，训练数据不带有标签，算法需要自行发现数据中的结构和模式。

在这里插入图片描述

无监督学习通常用于以下几类任务：

聚类：将数据集中的样本根据相似性分组，使得同一组内的样本相似度高，不同组之间的样本相似度低。常见的聚类算法包括K-means、层次聚类、DBSCAN等。
降维：减少数据的维度，同时尽可能保留原始数据的重要信息。这有助于去除噪声和冗余信息，提高数据处理的效率。常用的降维技术包括主成分分析（PCA）、线性判别分析（LDA）、t-SNE等。
关联规则学习：在大规模数据集中寻找变量之间的有趣关系。例如，在市场篮子分析中，可以发现顾客购买某些商品时也倾向于购买其他特定商品。Apriori算法和FP-Growth算法是这类任务中常用的方法。
异常检测：识别数据集中的异常或不寻常的模式。这对于信用卡欺诈检测、网络安全等领域非常重要。
密度估计：估计输入数据的概率分布，这在概率建模和生成模型中非常有用。
生成模型：学习数据的生成过程，以便能够生成新的数据实例。例如，自编码器和生成对抗网络（GANs）可以用于生成新的图像、文本或其他类型的数据。

无监督学习在数据探索和发现隐藏信息方面非常有用，尤其是在数据集很大且难以手动标注的情况下。

三、一些基本概念

线性回归模型

线性回归是监督学习中的一种基本且广泛使用的方法，用于预测连续数值。它假设输入变量（自变量）和输出变量（因变量）之间存在线性关系。线性回归模型可以是简单线性回归（一个自变量）或多元线性回归（多个自变量）。
和分类的区别在于，分类只会输出离散的有限的可能输出，而回归问题中，可能会输出无限范围的数值。
在这里插入图片描述

简单线性回归

在这里插入图片描述

多元线性回归

在这里插入图片描述

模型训练

线性回归模型的训练涉及找到最佳参数β 值，使得模型预测值与实际值之间的差异最小。这通常通过最小化损失函数来实现，最常用的损失函数是均方误差（MSE）：
在这里插入图片描述

模型评估

评估线性回归模型的性能通常使用以下指标：

均方误差（MSE）：预测值与实际值差的平方的平均值。
均方根误差（RMSE）：MSE的平方根。
决定系数（R²）：表示模型解释的变异量占总变异量的比例。

应用

线性回归在许多领域都有应用，包括：

经济预测：预测经济指标，如GDP增长率。
金融市场分析：预测股票价格或市场趋势。
医疗研究：预测疾病的发展或患者的生存时间。
工程问题：预测材料的强度或机械的性能。

线性回归模型简单、直观，易于理解和实现，是许多数据分析和预测任务的起点。然而，它也有局限性，比如不能很好地处理非线性关系，对异常值敏感等。在面对更复杂的数据关系时，可能需要考虑使用更高级的模型。

损失函数（cost function）

在机器学习中，代价函数（Cost Function）或损失函数（Loss Function）是用来衡量模型预测值与实际值之间差异的函数。它是一个非常重要的概念，因为它指导了模型的训练过程。通过最小化代价函数，模型可以学习到数据中的模式，并做出更准确的预测。

以下是一些常见的代价函数：

均方误差（Mean Squared Error, MSE）：

额外除2是为了让后面的计算结果更整洁
均方根误差（Root Mean Squared Error, RMSE）：
平均绝对误差（Mean Absolute Error, MAE）：
交叉熵损失（Cross-Entropy Loss）：
对数损失（Log Loss）：
- 与交叉熵损失相同，通常用于评估分类模型的性能。
0-1损失（0-1 Loss）：
Hinge Loss：
自定义代价函数：
- 在某些特定问题中，可能需要根据问题的特性设计自定义的代价函数。

代价函数的选择取决于问题类型、数据特性和模型目标。在训练过程中，通过优化算法（如梯度下降）不断调整模型参数，以最小化代价函数的值，从而提高模型的预测性能。

梯度下降（gradient descent）

梯度下降（Gradient Descent）是机器学习和优化算法中用来寻找函数局部最小值的一种迭代方法。它主要用于训练模型，通过优化目标函数来调整模型参数。
在这里插入图片描述

在这里插入图片描述

梯度下降算法的基本思想是：

初始化：随机选择一个参数的初始值。
计算梯度：计算目标函数关于每个参数的梯度（即导数），梯度指示了函数增长最快的方向。
更新参数：按照梯度的反方向更新参数，因为反方向是函数下降最快的方向。更新的步长由学习率（learning rate）决定。
迭代：重复步骤2和3，直到满足某个停止条件，比如梯度足够小、达到预设的迭代次数或目标函数值的改善小于某个阈值。

梯度下降算法有几种变体，包括：

批量梯度下降（Batch Gradient Descent）：每次迭代使用全部数据来计算梯度和更新参数。
随机梯度下降（Stochastic Gradient Descent, SGD）：每次迭代随机选择一个样本来更新参数，这种方法可以加快收敛速度，但可能不如批量梯度下降稳定。
小批量梯度下降（Mini-batch Gradient Descent）：介于批量和随机梯度下降之间，每次迭代使用一小批数据来更新参数。

梯度下降算法的关键点包括：

学习率：学习率决定了每次迭代参数更新的幅度，如果太大可能会导致算法在最小值附近震荡，太小则收敛速度慢。

学习率的选择：

注意当损失函数增加的时候，也可能在提示学习率应该为负数
‘’
一些常用的学习率：
收敛性：梯度下降算法可能不会总是收敛到全局最小值，特别是当目标函数是非凸的时候，它可能会收敛到局部最小值或鞍点。
特征缩放：为了加快梯度下降的收敛速度，通常需要对特征进行缩放，使得它们具有相似的尺度。

梯度下降是许多机器学习算法，如线性回归、逻辑回归、神经网络等的基础优化方法。

但是遇到局部最低点的时候，由于梯度下降算法的自更新机制，会导致参数w卡死在局部最低点

在这里插入图片描述

所以最好选择凸函数作为损失函数，因为它只会收敛到全局最小值
在这里插入图片描述

BATCH
在使用梯度下降算法时，“batch”通常指的是批量大小（batch size），它表示在每次迭代中用于计算梯度和更新模型参数的样本数量。

不同的梯度下降变体对批量大小有不同的处理方式：

批量梯度下降（Batch Gradient Descent）：在这种变体中，整个训练集（所有样本）被用作一个批次来计算梯度并更新模型参数。这意味着每次参数更新都是基于整个数据集的。这种方法确保了每次更新都是精确的，但计算成本很高，尤其是在大数据集上。（课程中就是采用了这种方式来训练w、b）

随机梯度下降（Stochastic Gradient Descent, SGD）：与批量梯度下降相反，SGD每次只使用一个样本来计算梯度并更新模型参数。这种方法的计算成本较低，收敛速度快，但更新过程中的噪声较大，可能会导致参数更新路径较为曲折。

小批量梯度下降（Mini-batch Gradient Descent）：这是批量梯度下降和随机梯度下降的折中方案。在小批量梯度下降中，每次迭代使用一小批样本（例如32、64或128个样本）来计算梯度并更新模型参数。这种方法在计算效率和更新稳定性之间提供了一个平衡。

选择适当的批量大小对于算法的性能和模型的收敛速度有重要影响。太小的批量大小可能导致算法收敛速度慢且不稳定，而太大的批量大小则可能增加计算负担并需要更多的内存。通常，批量大小的选择需要根据具体问题和可用资源进行调整。

特征工程：结合已有的特征，创造新的特征

多类特征（multiple features）

**“multiple features”**指的是用于训练模型的数据集中的多个变量或属性。特征是数据集中的单个可测量的属性，它们被用来描述数据集中的每个实例。在机器学习中，特征通常用来从数据中学习模式，以便进行预测或分类。
在这里插入图片描述

例如，如果你正在构建一个用于预测房价的模型，那么可能的特征包括：

房屋的大小（平方米）
房屋的卧室数量
房屋的浴室数量
房屋的年龄
房屋的位置（如城市、街区）
周边设施（如学校、医院、交通）
这些特征可以是数值型的（如房屋大小），也可以是类别型的（如房屋的位置）。在机器学习中，特征的选择和处理对于模型的性能至关重要。特征工程是机器学习中的一个关键步骤，它涉及到选择最有信息量的特征，以及可能的特征转换和特征组合，以提高模型的准确性和效率
在这里插入图片描述

需要注意的是，对于多特征的梯度下降，每次用于计算梯度的函数是包括w1~wn的全参数fxb(x)，去减去对应的y。而后面乘上的那个x1是数而不是向量，这很容易理解，因为此时是对w1求偏导，而w1偏导前面的系数就是x1，实际上预测函数是一个关于w,b,x的多元函数fwb(x)，此时系数可以当成未知数，来预测两个系数的具体值。
在这里插入图片描述

特征缩放（feature scaling）

如果没有特征缩放，各特征之间的比例尺会变得很奇怪。
在这里插入图片描述
在梯度下降的时候，参数会反复回弹，行驶缓慢。如果经过缩放处理，梯度下降可以找到一条更直接的路径到达全局最小值
**特征缩放（Feature Scaling）**是机器学习中的一项技术，用于将所有特征的尺度调整到相似的范围。这样做的目的是为了优化算法的性能，特别是对于那些对变量尺度敏感的算法，如支持向量机（SVM）、K-最近邻（K-NN）和主成分分析（PCA）等。