B题相关优秀论文+问题一数据预处理代码分享链接:
https://pan.baidu.com/s/1wpNZYW5v8jf2iM0uB7pDEA
提取码:sxjm
B题 钢铁产品质量优化
研究现状
冷轧带钢是钢铁企业的高附加值产品,其产品质量稳定性对于钢铁企业的经 济效益具有非常重要的影响。在实际生产中,冷连轧之后的带钢需要经过连续退 火处理来消除因冷轧产生的内应力并提高其机械性能。连续退火的工艺流程如图 1 所示,一般包括加热、保温、缓冷、快冷、过时效、淬火等加工阶段。首先, 带钢在加热炉中被加热到指定的温度,然后在均热炉中进行保温使得带钢内外的 温度一致;接着,带钢依次穿过缓冷炉、快冷炉、过时效炉、淬火炉等阶段,以 实现带钢内部金属组织的再结晶,达到需要的力学性能。处理完成后的板卷会通 过实验室对其机械性能进行离线检测,如果性能不达标则会产生经济损失。由于连续退火工序中各阶段的工艺参数之间存在耦合性(加热炉的温度设定 会影响后续均热与冷却温度的设定,以及带钢穿行速度),导致难以建立该工序 的机理模型,从而为在线的产品质量控制与优化带来挑战。
问题1分析:哪些参数对于带钢的机械性能具有显著影响?
思路:如何确定重要影响参数
1.数据预处理:
(1)检查数据是否有缺失值或异常值,进行必要的清洗和处理。
(2)标准化或归一化各参数,以消除量纲的影响。
2.相关性分析
(1)计算每个参数与硬度之间的皮尔逊相关系数【可选】,初步筛选出相关性较高的参数
(2)使用热力图可视化相关性矩阵
3.特征选择
(1)运用多元线性回归分析,确定每个参数的回归系数和显著性
(2)使用逐步回归(前向、后向或双向)进一步筛选重要参数
(3)采用LASSO回归等正则化方法进行特征选择。
比较复杂的方法,也可以采用因子分析、PCA、随机森林等
一、数据预处理
(1)导入带钢的规格数据。
(2)检查数据的基本情况,包括数据维度、缺失值和异常值,并处理缺失值和异常值。
首先我们绘制缺失值数量的条形图,如图1所示,可以看到我们的训练数据是没有缺失值的。
然后对属性进行箱型图可视化,如图2,可视化每个属性的箱线图(最小值、第一四分位数、中位数、第三四分位数、最大值)以及异常值)。)从图2可以看到,带钢厚度数据主要集中在8000到8500之间,有一些较小和较大的异常值。带钢宽度数据较为集中在190到200之间,有一些显著的异常值。碳含量数据主要集中在300到400之间,有一些小于200和大于400的异常值。硅含量数据主要集中在6到10之间,有一些显著的异常值。带钢速度数据主要集中在540到550之间,分布较为均匀,没有明显的异常值。加热炉温度数据主要集中在720到740之间,有一些小于700的异常值。均热炉温度数据集中在680到700之间,存在较多的异常值。缓冷炉温度、过时效炉温度、快冷炉温度、淬火炉温度,存在较多的异常值。平整机张力数据集中在2000到2400之间,有一些小于2000和大于2500的异常值。从图中我们还是可以看到有不少异常值的,针对此情况,采用Z-score将异常值删除。z-score规范化(零均值规范化)是将属性A的值根据其平均值和标准差进行规范化。
二、相关性分析
(1)计算每个指标与带钢硬度之间的相关系数。
计算各指标与带钢硬度之间的相关系数,使用热力图(heatmap)可视化相关矩阵,突出高相关性和低相关性的指标。很显然上图每个指标分布可知,几乎所有的指标都处于一个非正态分布的状态,因此在这里我们采用的是Spearman相关系数。
(2)使用热力图可视化相关矩阵。
二、特征选择
(1)采用随机森林的方法进行指标重要性影响分析,为了提高准确率,在随机森林基础上进行了一个剪枝操作。为什么剪枝(噪声、离群点)
“剪枝”是决策树学习算法对付“过拟合”的主要手段,可通过“剪枝”来一定程度避免因决策分支过多,以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的过拟合。
后剪枝:后剪枝是在决策树构建完成后,通过剪掉部分节点或子树来减少过拟合。先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
图5是采用随机森林剪枝得出来了特征重要性分析。
(1)采用因子分析,首先求出来了因子载荷矩阵
因子重要性条形图显示了每个因子的相对重要性,因子4和因子5具有最高的重要性,均在0.21左右。因子3、因子2和因子1的重要性较低,但也较为接近。因子载荷矩阵热图显示了各个因子在原始特征上的载荷情况。载荷的绝对值越大,表明该因子对相应特征的解释力越强。X10在因子1中的载荷最高,显示出因子1对该特征的解释力最强。因此,x10是最重要的指标之一。x6 (因子1和因子2):该特征在因子1和因子2中的载荷均较高,表明这两个因子对x6有较强的解释力。因此,x6 也是重要指标。x2 (因子3和因子5):该特征在因子3和因子5中的载荷较高,表明这两个因子对x2有较强的解释力。因此,x2 也是重要指标。x7 (因子1和因子4):该特征在因子1和因子4中的载荷较高,表明这两个因子对x7有较强的解释力。因此,x7也是重要指标。x12 (因子2):特征在因子2中的载荷较高,表明因子2对x12有较强的解释力,因此,x12也是重要指标。
综合因子重要性和因子载荷矩阵,可以得出最重要的指标是x10,x6,x2,x7,x12;次重要指标x1,x3,x4。
问题2分析:在线监测模型
问题2:请帮助现场操作人员建立一个数据驱动的带钢产品质量在线检测模型, 并分析该模型的性能。
思路:建立一个预测带钢硬度的在线检测模型,并分析其性能
1.数据分割:
将数据集分为训练集和测试集,常见比例为8:2
2.模型选择:线性回归、决策树、随机森林、支持向量机和神经网络
3.模型训练与评估:在训练集上训练模型,调节参数以获得最佳性能。在测试集上评估模型性能,计算均方误差(MSE)、平均绝对误差(MAE)等指标。使用回归模型的决定系数评价模型拟合效果。
4.模型解释:分析模型的重要特征,解释各参数对硬度的影响
决策树原理:决策树是一个树状分类结构模型,每个非叶子节点表示一个特征属性,每个分支边代表着这个特征属性在某个值域上的输出,每个叶子节点存放一个类别。
决策过程:从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
决策树通过一系列的二分决策将样本逐步分类到不同的叶节点。每个叶节点包含了预测值(即目标变量的值)、样本数量及误差信息。决策树的分割深度适中,没有过度复杂,这有助于防止过拟合。从数的结构来看,决策树模型根据特征值的不同将数据集划分为多个子集,最终形成一个树状结构,根节点分割条件是 x9≤0.352,这意味着特征x9是最重要的特征之一。如图9可以知道哪些特征对模型的影响较高,说明它们对目标变量y硬度有较大的影响。
问题3分析:带钢工艺参数优化
问题3:现场操作人员通常是根据个人经验对带钢产品的工艺参数进行设定,你 能否帮助他们建立一个带钢工艺参数优化的解决方案?
思路:带钢工艺参数优化
1.目标函数
设定优化目标,如最小化硬度误差或最大化硬度一致性。
2.约束条件:考虑实际生产中的约束条件,如工艺参数的取值范围
3.优化算法:
使用遗传算法、粒子群优化等全局优化算法进行参数优化
通过模拟退火、梯度下降等局部优化算法进一步微调参数
4.模型验证:在优化后的参数设置下,使用已建立的在线检测模型预测硬度,验证优化效果
为了优化带钢生产工艺参数以提高产品质量,我们将使用全局优化算法(遗传算法、粒子群优化)和局部优化算法(模拟退火、梯度下降)进行参数优化。
采用了遗传算法、粒子群算法、模拟算法进行优化,最终进行一个比较。
该问题只是一个简单的思路,目前正在代码的优化以及全篇论文的写作。具体完整代码与完整论文稍后全部完成会进行发布。