以下内容,皆为原创,实属不易,请各位帅锅,镁铝点点赞赞和关注吧!
好戏开场了。
一.什么是机器学习
机器学习就是从数据中自动分析获取模型(总结出的数据),并训练模型,去预测数据。
内心独白:就好比我们人从日常生活中,归纳总结得出经验。利用总结的经验去得出最佳策略。 举个例子:机器从数据(大量的猫狗图片)中自动分析得到模型(辨别猫狗的规律),从而使得猫狗拥有辨别猫狗的能力。懂??比如这就是一个猫。哈哈哈。
二.数据集构成
结构:特征值+目标值(一般最后一列就是目标值)
注:每一行数据作为样本。 有些数据集可以没有目标值。
三.机器学习算法分类
我这里是按照目标值的不同分的,简单看看就行,下面我仔细给大家分类一下。
监督学习(有目标值,预测):
目标值:类别(是猫还是狗)-----分类问题
目标值:预测连续型的数据--------回归问题(线性回归等等)
目标值:无-----------------------------无监督学习
- 监督学习
-
定义:输入数据是有特征值和目标值组成。函数的输出可以是一个连续的值(成为回归)。或者是输出是有限个离散值(成为分类)
-
分类:k-紧邻算法,贝叶斯分类,决策树和随机森林,逻辑回归
-
回归:线性回归,岭回归
-
- 无监督学习
- 定义:输入数据是由输入特征值组成
- 聚类:k-means
四.机器学习开发流程
- 获取数据(有数据你才能得到模型啊)
- 数据预处理(把那些无用的数据删掉,比如:空值,无意义的,乱码)
- 特征工程(对特征值进行处理)
- 机器学习算法训练--模型
- 模型评估(如果模型不行的话,从第二步开始重新看看,再优化一下,直到模型评估良好)
- 应用(模型好了,我们才能应用)
内心独白:很简单啊,机器学习不就是从数据中自动分析获取模型并预测数据嘛,一句话的事。机器学习开发的流程也还可以吧~~。首先,你肯定要有数据,对数据进行预处理,然后训练模型,模型评估。如果评估差了,就重新从数据预处理看看,还有哪些还可以优化的地方。