1 基本概念
回归模型
线性
线性模型
非线性模型
线性回归
逻辑回归
Log Loss(损失函数)
分类临界值
2 效率预测
回归问题是预测一个持续的值,主要是用于解决不确定性的问题,例如,一个商品在未来可能的价格或者一件事情在未来发生的可能性。而分类问题是预测多个分类中的所属分类,主要是用于解决确定性的问题,例如,一幅画中包括多种成熟度不同的水果,预测图中那种水果是成熟的(分为成熟或者不成熟两种类别)。
本章节主要是使用Auto MPG数据集合预测燃油车的燃油效率,燃油车的参数主要包括一台车的汽缸的数量、汽缸的排量、马力以及重量。
如上所示,安装基本类库、导入keras组件以及其他工具。
如上所示,下载AUTO MPG数据集合以及显示部分数据集,MPG是燃油效率、Cylinders是汽缸数量、Displacement是汽缸的排量、Horsepower是马力、Weight是重量、Acceleration是加速能、Model Year是型号年份、Origin是产地的标识。
如上所示,统计非数字的非法值,删除非法值,其中,Horsepower存在6数据行的非法值。
如上所示,将产地origin转换成具体的列,其中,1标识USA美国,2标识Europe欧洲,3标识Japan日本。
如上所示,将原始数据集分割成训练数据集以及测试数据集,其比例是8比2,其中,train_dataset是训练数据集,train_dataset是测试数据集。
如上所示,使用数据集的MPG、Cylinders、Displacement、Weight列值进行kde绘图,kde统计分析方法主要是用于探索数据以及检测数据的分布。
如上所示,AUTO MPG数据集燃油汽车各种参数的统计分析,其中,cout是记录数,mean是均值、std标准差、min是最小值、max是最大值、min与max之间是数据区间的递增的幅度。
如上所示,从数据集中分离特征与标签,参数MPG是待预测的标签,其他参数是用于训练的特征,其中,train_features是训练特征集、test_features是测试特征集、train_labels是训练标签集、test_labels是测试标签集。
如上所示,对输入的特征数据集进行标准的处理,转换成-1到1或者0到1的范围内。
如上所示,仅使用horsepower马力参数进行标准化转换以及构建机器学习模型,其中,horsepower_models是构建的只有一层全连接层的机器学习模型。
如上所示,使用horsepower_models模型进行机器学习前的预测。
如上所示,使用horsepower_models模型进行机器学习,其中,将train_features、train_labels数据集按照8比2的比例分割成训练数据集以及验证数据集,这些数据集作为机器学习的输入,loss表示训练数据集的损失值,val_loss表示验证数据集的损失值,epoch表示训练的迭代次数。
如上所示,使用图形统计分析对比loss损失值与val_loss验证损失值。
如上所示,使用测试数据集进行评估、用图形显示逻辑回归的预测结果,其中,test_features是测试特征数据集,test_labels是测试标签数据集。
(未完待续)