机器学习基本算法：算法流程和算法分类

news2026/2/12 12:25:14

机器学习的过程是一个完整的项目周期，其中包括数据的采集、数据的特征提取与分类，之后采用何种算法去创建机器学习模型从而获得预测数据。

从上图可以看出一个完整的机器学习项目包含以下这些内容：

输入数据：通过自然采集的数据集，包含被标识的和未被标识的部分，作为机器学习的最基础部分。
特征提取：通过多种方式对数据的特征值进行提取，一般而言，包含特征越多的数据，机器学习设计出的模型就越精确，处理难度也越大。因此合适地寻找一个特征大小的平衡点是非常重要的。
模型设计：模型设计是机器学习中最重要的部分，根据现有的条件，选择不同的分类，采用不同的指标和技术。模型的训练更多的是依靠数据的收集和特征的提取，这一点需要以上各部分的支持。
数据预测：通过对已训练模式的认识和使用，使得学习机器能够用于研究开发、模拟和扩展人的多重智能的理论、方法和技术。

根据输入的不同数据和对数据的处理要求，机器学习会选择不同种类的算法对模型进行训练，一般来说算法的训练没有固定的模式，只需考虑输入数据的形式和复杂度以及使用模型者的经验，以此为为参考进行算法训练，最终到达最好的学习效果。

根据算法模式的不同，将算法分成以下几类：

无监督学习：完全黑盒训练的一种训练方法，对于输入的数据在运行结束前没有任何区别和标识，也无法进行分类。完全由机器对数据进行识别和分类，形成特有的分析模型。训练过程完全没有任何指导，分析结果也是不可控的。
有监督学习：输入的数据被人为地分类，被人为地标记和识别。通过对人为标识的数据进行学习，不断修正和改进模型，使模型能够对给定的标识后的数据进行正确分类，达到分类的标准。
半监督学习：通过混合有标识数据和无标识数据，并创建同一模型对数据进行分析和识别，算法的运行介于有监督和无监督之间，最终使得全部输入数据能够被区分。半监督学习主要是用于有特征值缺失的数据分析。
强化学习：通过输入不同的标识数据，使用已有的机器学习数据模型，通过不同的数据进行学习、反馈和修正现有模型，从而建立一个新的能够识别输入数据的模型算法。