说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
蚁狮优化(Ant Lion Optimizer,ALO)算法是Mirjalili于2015提出的一种新型元启发式群智能算法[1]。由于引入了随机游走、轮盘赌策略及精英策略,使得 ALO 算法成为一种种群多样、寻优性能强、调节参数少、易于实现的搜索技术。
本项目通过ALO蚁狮优化算法寻找最优的参数值来优化支持向量机分类模型。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:
数据详情如下(部分展示):
3.数据预处理
3.1 用Pandas工具查看数据
使用Pandas工具的head()方法查看前五行数据:
关键代码:
3.2数据缺失查看
使用Pandas工具的info()方法查看数据信息:
从上图可以看到,总共有8个变量,数据中无缺失值,共1000条数据。
关键代码:
3.3数据描述性统计
通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。
关键代码如下:
4.探索性数据分析
4.1 y变量柱状图
用Matplotlib工具的plot()方法绘制柱状图:
4.2 y=1样本x1变量分布直方图
用Matplotlib工具的hist()方法绘制直方图:
4.3 相关性分析
从上图中可以看到,数值越大相关性越强,正值是正相关、负值是负相关。
5.特征工程
5.1 建立特征数据和标签数据
关键代码如下:
5.2 数据集拆分
通过train_test_split()方法按照80%训练集、20%测试集进行划分,关键代码如下:
6.构建ALO蚁狮优化算法优化支持向量机分类模型
主要使用ALO蚁狮优化算法优化SVC算法,用于目标分类。
6.1 算法介绍
说明:ALO算法介绍来源于网络,供参考,需要更多算法原理,请自行查找资料。
(1)算法原理:
ALO算法核心思想是模拟蚁狮捕猎蚂蚁的狩猎机制以实现全局寻优。蚁狮在捕猎前会在在沙质土中利用其巨大的下颚挖出一个漏斗状的陷阱,并藏在陷阱底部等待猎物到来。一旦随机游走的蚂蚁落入陷阱时,蚁狮迅速将其捕食,随后重新修缮陷阱等待下一次捕猎。ALO 算法通过数值模拟实现蚂蚁和蚁狮之间的相互作用将问题优化:引入蚂蚁的随机游走实现全局搜索,通过轮盘赌策略和精英策略保证种群的多样性和算法的寻优性能。蚁狮相当于优化问题的解,通过猎捕高适应度的蚂蚁实现对近似最优解的更新和保存。
蚂蚁的随机游走:
蚂蚁在自然界中随机游走寻找食物的过程可以看作各搜索代理搜寻可行域的过程。随机游走的过程在数学上可以表示为:
式中:X(t)为蚂蚁随机游走的步数集;cumsum 为计算累加和;t为随机游走的步数(本文取最大迭代次数);r(t)为一个随机函数,定义为:
式中:rand为[0,1]的随机数。
由于可行域存在边界,不能直接用式(1)更新蚂蚁的位置。为确保蚂蚁在可行域范围内随机游走,需根据式(3)对其进行归一化:
式中: ai 为第i维变量随机游走的最小值;bi 为第i维变量随机游走的最大值;cit 为第i维变量再第t次迭代的最小值;dit 为第i维变量在第t次迭代最大值。
蚁狮对蚂蚁随机游走的影响:
蚁狮制造的陷阱会影响蚂蚁随机游走的路线,为对此假设进行数学建模,提出:
式中: Ct 为所有变量在第t次迭代的最小值; dt 为所有变量在第t次迭代的最大值; Aljt 为被选定的第j只蚁狮在第t次迭代的位置。
自适应机制:
通过轮盘赌策略选择某只蚂蚁具体被哪只蚁狮捕食,每只蚂蚁只能被一只蚁狮捕食,而适应度越高的蚁狮捕获蚂蚁的概率越大。另外,蚂蚁一旦落入蚁狮制造的陷阱,蚁狮就会向陷阱边缘抛沙以防止蚂蚁逃脱。此时,蚂蚁随机游走的范围将急剧缩小。通过下列方程模拟这种现象:
式中: I为比例系数;T为最大迭代次数;v为一个随着迭代次数增大而变化的数。当蚂蚁的适应度值比蚁狮小时,则认为蚁狮将其捕获,此时蚁狮会根据蚂蚁的位置来更新位置:
式中: Antit 为第i只蚂蚁在第t次迭代的位置; f为适应度函数。
精英策略:
每次迭代后,选择适应度最好的蚁狮作为精英蚁狮。第t只蚂蚁在第t+1次迭代的位置由式(8)确定:
式中: RAt(l) 为蚂蚁在一只由轮盘赌在第t次迭代选择到的蚁狮周围随机游走第l步产生的值; REt(l) 为蚂蚁在第t代的精英蚁狮周围随机游走第l步产生的值。l为蚂蚁随机游走步数内的任何值。
(2)算法步骤
(1)数据初始化。确定蚂蚁和蚁狮的数量以及变量维数,在可行域内随机初始化它们的位置,并计算相应的适应度值。
(2)确定精英蚁狮。选择初始化后蚁狮种群中适应度最好的作为精英蚁狮。
(3)通过轮盘赌为每只蚂蚁选择一只蚁狮,根据蚁狮位置更新ct ,dt ,cit ,dit 的值,并使该蚂蚁按照式(1)、式(3)在蚁狮及精英蚁狮附近随机游走,最后按式(8)取平均值作为蚂蚁的位置。
(4) 每次迭代后重新计算蚂蚁和蚁狮适应度值,根据蚂蚁的位置和适应度更新蚁狮位置,适应度最好的位置为新精英蚁狮的位置。
(5)判断是否到达最大迭代次数,若到达则输出结果并结束迭代,否则重复步骤(3)。
6.2 ALO蚁狮优化算法寻找最优参数值
关键代码:
迭代过程数据(部分截图):
误差曲线图:
最优参数:
6.3 最优参数值构建模型
7.模型评估
7.1评估指标及结果
评估指标主要包括准确率、查准率、查全率、F1分值等等。
从上表可以看出,F1分值为0.8641,说明模型效果良好。
关键代码如下:
7.2 查看是否过拟合
从上图可以看出,训练集和测试集分值相当,无过拟合现象。
7.3 分类报告
从上图可以看出,分类为0的F1分值为0.86;分类为1的F1分值为0.86。
7.4 混淆矩阵
从上图可以看出,实际为0预测不为0的 有12个样本;实际为1预测不为1的 有16个样本,整体预测准确率良好。
8.结论与展望
综上所述,本文采用了ALO蚁狮优化算法寻找支持向量机SVC算法的最优参数值来构建分类模型,最终证明了我们提出的模型效果良好。此模型可用于日常产品的预测。
本次机器学习项目实战所需的资料,项目资源如下:
项目说明:
链接:https://pan.baidu.com/s/1c6mQ_1YaDINFEttQymp2UQ
提取码:thgk