机器学习

机器学习：致力于研究如果通过计算的手段，利用经验来改善系统自身的性能

在计算机系统中，“经验” 通常以 “数据” 形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生 ”模型“ (model) 的算法，即 ”学习算法“ (learning algorithm).

有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时，模型会给我们提供相应的判断.

典型的机器学习过程

在这里插入图片描述

基本术语

要进行机器学习，先要有数据. 假定我们收集了一些关于西瓜的数据，如下表所示：

色泽	根蒂	敲声	好瓜
青绿	蜷缩	浊响	是
乌黑	蜷缩	浊响	是
青绿	硬挺	清脆	否
乌黑	稍缩	沉闷	否

示例 (instance)：表中每一行是一条记录，每条记录是关于一个事物或对象的描述，称为一个 ”示例“
属性 (attribute)：反应事物或对象在某方面的表现或性质的事项，例如表中 ”色泽“、”根蒂“ 称为属性或特征 (feature)；属性上的取值，例如 ”青绿“、”乌黑“ ，称为属性值 (attribute value)
属性空间 (attribute space)：属性张成的空间称为 ”属性空间“ 、”样本空间“ 或”输入空间“. 例如我们把 “色泽”、“根蒂”、“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置
学习(learning)、训练(training)：从数据中学得模型的过程称为学习或训练，这个过程通过执行某个学习算法来完成。
假设(hypothesis)：学得模型对应了关于数据的某种潜在的规律，亦称假设；这种潜在规律自身，则称为 “真相” 或 “真实”，学习过程就是为了找出或逼近真相
标记(label)：训练样本中关于结果的信息，例如 “好瓜”
分类(classification)：若我们预测的是离散值，例如“好瓜”、“坏瓜”，此类学习任务称为分类
回归(regression)：若预测的是连续值，例如西瓜的成熟度0.95、0.56，此类学习任务称为回归
聚类(clustering)：将训练集中的数据分为若干组，每组称为一个簇(cluster)，这些簇可能对应一些潜在的概念划分；在聚类学习过程中使用的训练样本通常不具有标记信息
监督学习(supervised learning)|无监督学习(unsupervised learning)：根据训练数据是否拥有标记信息，学习任务可大致分为监督学习和无监督学习.分类和回归是前者的代表，聚类是后者的代表.
泛化(generalization)：学得模型适用于新样本的能力，称为泛化能力.
版本空间(version space)：现实问题中我们常面临很大的假设空间，但学习过程是基于有限样本训练的，因此，可能有多个假设与训练集一致，即存在着一个与训练集一致的 “假设集合”，称之为版本空间