1.吴恩达机器学习课程笔记:监督学习、无监督学习
吴恩达机器学习系列课程:监督学习
吴恩达机器学习系列课程:无监督学习
仅作为个人学习笔记,若各位大佬发现错误请指正
机器学习的学习算法:监督学习、无监督学习、半监督学习(监督与无监督的结合)、强化学习
监督学习与无监督学习的根本区别:监督学习的数据既有特征又有标签,而非监督学习的数据中只有特征而没有标签。(例如:身高属于特征,标签是高或矮)
左侧为监督学习针对有标签的数据、右侧为监督学习针对无标签的数据
1.1 监督学习(Supervised Learning)
监督学习是从标记的训练数据来推断一个功能的机器学习任务。摘自:监督学习
监督学习主要解决回归问题、分类问题
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
常见回归算法:线性回归、多项式回归、逐步回归、岭回归、套索回归
分类是根据现有数据中对用户或者产品等的类别特征,抽象归纳为模型,并能为新的用户或者产品等进行类别预测的过程 摘自:分类分析
常用分类算法:逻辑回归、支持向量机(SVM)、决策树
分类和回归的区别在于输出变量的类型。
定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测; 摘自:分类和回归的区别
回归问题例子:房价预测
对数据集进行拟合得到一个函数,向此函数输入值,最终得到预测值
分类问题例子:癌症肿瘤的恶性or良性,分类之后可以对未知肿瘤进行程度预判
一个特征(肿瘤大小)对肿瘤的良性或恶性进行预测
两个特征(肿瘤大小和年龄)对肿瘤的良性或恶性进行预测
若有无穷多个特征,则可以使用支持向量机(SVM)来处理
1.2 无监督学习(Unsupervised Learning)
根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。摘自:无监督学习
无监督学习主要解决聚类问题、降维问题
聚类问题例子:将关于同一个话题的网址链接放在一起
课程中没有涉及降维问题,先了解一下为什么要降维?
1.它有助于消除冗余的特征和噪声误差因素,最终增强给定数据集的可视化。
2…由于降低了维度,可以表现出优秀的内存管理。
3.通过从数据集中删除不必要的特征列表来选择正确的特征,从而提高模型的性能。
4.更少的维度(强制性的维度列表)需要更少的计算效率,更快地训练模型,提高模型的准确性。
5.大大降低了整个模型及其性能的复杂性和过拟合 摘自:终于有人把降维讲明白了