目录
监督学习(Supervised Learning)
应用1:数据回归拟合
应用2:分类
无监督学习(Unsupervised Learning)
监督学习和无监督学习的区别
练习:
监督学习(Supervised Learning)
通过正确的输入和输出来进行学习的一种模型。输入x和正确的输出y作为训练的label。
应用1:数据回归拟合
模型完成训练后会对训练样本做数据回归拟合。当输入一个之前从来没有输入过的x时,模型会更新这个拟合函数,输出结果。
例如,对房价的判断,训练样本为过去2年不同面积的房子的价格,输入x为面积,输出y为房子价格。训练完成之后可以对各种面积的房子价格进行预判。下面是两种数据拟合方式:一种曲线,更加精确;另外一种是直线。
应用2:分类
与应用1 数据回归预测有多种不同的输出不同,分类的输出只有两种:是 or 不是。例如判断一幅图是不是包含小猫,输出为:“有小猫”和“没小猫”。
无监督学习(Unsupervised Learning)
与监督学习不同的是,无监督学习不需要指定y作为正确的label来训练模型,模型可以自己根据样本集的特征将样本集中的数据划分为不同的类群。因此无监督学习,只有输入x,没有标记为正确结果的输出y.
无监督学习主要的应用是:聚类算法(Clustering),异常检测(Anormaly detection),降维(Dimensionality reduction)
监督学习和无监督学习的区别
下图中可以看出左边的监督学习是把数据分为正确的和错误的,而右边仅仅是把相似的数据放在一起,形成了两个不同的数据集。
练习:
下面四个选项中,哪几个是无监督学习算法(多选):
正确答案:选项2,3。
选项1:标记垃圾邮件,需要在训练集中指定哪些邮件是垃圾邮件,因此是监督学习
选项2:在互联网上寻找新闻,并没有指定新闻必须要按哪几类来分组,所以是无监督学习
选项3:没有指定客户要被分成具体的哪几类,因此是无监督学习
选项4:将病人分为两类:有糖尿病和无糖尿病的,因此是监督学习,属于监督学习中的分类应用