目录
📚关于机器学习
📚监督学习和无监督学习
🐰监督学习
🐰无监督学习
👀小结
📚关于机器学习
🌈在计算机中,“经验”通常以数据的形式存在。机器学习最主要的一项工作就是基于数据产生“训练模型”,产生训练模型的过程就是机器学习算法实现的过程。和冒泡排序这类给定输入就能确定输出的算法不同,机器学习算法靠的是“猜”。机器学习会根据“猜”的结果,不断优化模型,从而得到正确率最高的模型。
- 模型:模型相当于一个“许愿池”,你向它许愿(输入数据),它就会帮你实现愿望(输出预测结果)。训练出一个优质的“许愿池”,使它能尽量精准地实现你许的“愿望”,这就是机器学习的目的。
- 数据集:数据集是承载数据的集合。如果说“模型”是“许愿池”,那么“数据集”就是“许愿池”里的水。没有数据集,那么模型就没有存在的意义。数据集可划分为“训练集”和“测试集”,它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要作用。
- 训练集&假设:训练过程中使用的数据称为“训练数据”,其中每一个样本称为“训练样本”,由训练样本组成的集合称为“训练集”。学得模型对应了关于数据的某种潜在的规律,因此亦成为“假设”。这种潜在的规律自身,又称为“真相”。学习的过程就是为了找出或逼近真相。
- 测试集:在获得“训练模型”后,我们还需要知道用该模型预测其他情况的结果的效果好不好,所以需要引入“测试集”,如果该模型也能够很好地预测出“测试集”的结果,那么我们可以认为“训练模型”非常接近“真相”。
- 分类&回归:若我们欲预测的结果是离散值,例如“好人”“坏人”,此类学习任务称为“分类”,若欲预测的是连续值,例如及格率为0.95,0.93,此类学习称为“回归”。
- 聚类:我们可以对数据进行“聚类”,相关算法将自动将训练集中的数据分成若干组,每组称为一个“簇”。这些自动形成的簇可能对应一些潜在的划分。
📚监督学习和无监督学习
🌈机器学习算法最主要的两个分类就是监督学习和无监督学习。此外,强化学习也叫半监督模型。
🐰监督学习
从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可根据这个函数预测结果。通俗来讲就是我们给计算机一组正确答案,计算机由这些正确答案学明白一个知识点,然后给它一个没做过的题,让他把题解出来。
监督学习的基本思想是对于数据集中的每个数据,都有相应的正确的答案,算法就是基于这些来预测的。我们知道输出应该是什么样子的。监督学习可分为回归问题与分类问题。
- 房价问题是回归问题,通过回归来预测一个连续值输出。
- 肿瘤问题是分类问题,它的目标是预测离散值输出。
🐰无监督学习
我们给算法大量的数据,希望它自动找出数据之间的耦合
无监督学习关键在于,它不是告诉计算机怎么做,而是让它自己去学习怎样做事情。输入数据没有被标记,也没有确定的结果,样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类)试图使类内差距最小化,类间差距最大化。注意:聚类只是无监督学习中的一种。
👀小结
机器学习的主要任务:
1.监督学习的用途:k-近邻算法,线性回归,朴素贝叶斯算法,局部加权线性回归,支持向量机,Ridge回归,决策树,Lasso最小回归系数估计,
2.非监督学习的用途:K-均值,最大期望算法,DBSCAN,Parzen窗设计
- 监督学习必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该数据集内寻找规律。
- 有监督学习就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由待标签的样本组成。
- 非监督学习只有要分析的数据集本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类。
参考博客
机器学习是什么?
监督学习与无监督学习
be happy——