1、算法流程
机器学习的过程是一个完整的项目周期,其中包括数据的采集、数据的特征提取与分类,之后采用何种算法去创建机器学习模型从而获得预测数据。
从上图可以看出一个完整的机器学习项目包含以下这些内容:
- 输入数据:通过自然采集的数据集,包含被标识的和未被标识的部分,作为机器学习的最基础部分。
- 特征提取:通过多种方式对数据的特征值进行提取,一般而言,包含特征越多的数据,机器学习设计出的模型就越精确,处理难度也越大。因此合适地寻找一个特征大小的平衡点是非常重要的。
- 模型设计:模型设计是机器学习中最重要的部分,根据现有的条件,选择不同的分类,采用不同的指标和技术。模型的训练更多的是依靠数据的收集和特征的提取,这一点需要以上各部分的支持。
- 数据预测:通过对已训练模式的认识和使用,使得学习机器能够用于研究开发、模拟和扩展人的多重智能的理论、方法和技术。
2、算法分类
根据输入的不同数据和对数据的处理要求,机器学习会选择不同种类的算法对模型进行训练,一般来说算法的训练没有固定的模式,只需考虑输入数据的形式和复杂度以及使用模型者的经验,以此为为参考进行算法训练,最终到达最好的学习效果。
根据算法模式的不同,将算法分成以下几类:
- 无监督学习:完全黑盒训练的一种训练方法,对于输入的数据在运行结束前没有任何区别和标识,也无法进行分类。完全由机器对数据进行识别和分类,形成特有的分析模型。训练过程完全没有任何指导,分析结果也是不可控的。
- 有监督学习:输入的数据被人为地分类,被人为地标记和识别。通过对人为标识的数据进行学习,不断修正和改进模型,使模型能够对给定的标识后的数据进行正确分类,达到分类的标准。
- 半监督学习:通过混合有标识数据和无标识数据,并创建同一模型对数据进行分析和识别,算法的运行介于有监督和无监督之间,最终使得全部输入数据能够被区分。半监督学习主要是用于有特征值缺失的数据分析。
- 强化学习:通过输入不同的标识数据,使用已有的机器学习数据模型,通过不同的数据进行学习、反馈和修正现有模型,从而建立一个新的能够识别输入数据的模型算法。
总结
对于机器学习来说,最重要的部分就两个,一是数据的收集,二是算法的设计。在实际应用中,数据收集一般要求有具体的格式和要求,因此对其限制较多。而对于算法的选择则较为灵活,可以根据需要选择适合数据流程的算法,基本都可以较好的实现学习目的。