基于机器学习的薄板屈服强度与制耳率建模分析
苗海宾, 向朝建, 张志阔, 刘胜楠, 黄东男, 吴永福*
(1.中铝材料应用研究院有限公司,北京 102209;
2.北京科技协作中心,北京 100195)
系列铝合金板材具有优良的导电性、导热性、塑性、成形性和高耐蚀性,广泛用于制造化工仪器、薄板加工件、深拉或旋压凹形器皿、电容器、热交换器等[1]。由于1070铝合金板材后续加工过程中,多采用深冲变形,因此板材的制耳率和屈服强度是影响产品质量和成品率的重要性能指标。所以,如何降低制耳率、提高屈服强度稳定性,是满足高端产品需求所面临的重要课题。1070薄板的制耳率和屈服强度与多种因素有关,一般的线性建模技术难以描述成分—工艺—性能之间的复杂关系。所以,本文采用具有强大非线性建模能力的机器学习算法进行研究。
机器学习的基本原理是使用算法解析数据来自动建立模型,即采用数据驱动的方式建立自变量到因变量的非线性映射关系,然后对未知场景进行预测[2]。该方法现已广泛应用于电力、医疗、电商、金融、电信等领域。现在也越来越多地用于制造业领域,在轧制、焊接、冲压、冶炼等方向的材料开发和工艺优化均有广泛应用[3-8]。通过建立成分—工艺—性能模型来预测新成分、新工艺下的性能,进而实现工艺优化和质量控制。该研究方法在轧制过程板形控制、轧制力预报、缺陷预测、性能预报方面取得了良好的效果[9-13]。然而,现有研究多集中于算法结构优化与模型预测精度的提升[14-18],但是,机器学习算法决策过程带有“黑箱”属性[19-21],模型的决策过程难以直观呈现出来,所以对模型提供良好的可解释性显得十分必要。
因此,本文充分利用机器学习的非线性建模能力,基于企业生产所积累的历史数据,建立成分—工艺—性能模型,通过引入Shap值概念提升模型的可解释性,以分析各工艺参数对性能影响的规律,从而找出影响制耳率、屈服强度的关键因素及其影响规律,最终实现性能预报和工艺优化。
1.1 数据的描述性统计
选取某厂生产1070铝合金薄板过程中的重点参数进行机器学习建模和分析。1070铝合金的成分配比为(质量分数,%)Al:99.70,Si:≤0.20,Cu:≤0.03,Mg:≤0.03,Zn:≤0.04,Mn:≤0.03,Ti:≤0.03,Fe≤0.250。板材厚度为0.37~1.1 mm,宽度为1 200 mm,工艺生产流程为:铣面—加热—热轧—冷轧—中间退火—冷轧。去除生产过程中未有变动的铣面、加热、退火等变量,选取可能对性能有显著影响的自变量为:合金成分、热终轧厚度、热终轧温度、冷轧率等成分变量和工艺变量。因变量为:制耳率、屈服强度,因变量均为性能变量。经过去除重复值、空值、异常值等数据清洗手段处理后,得到有效数据总量为489组,通过均值、标准差、最小值、中位数、最大值等参量对原始数据的分布状况做基本的描述统计,结果见表1。
表1 原始数据的描述性统计Table 1 Statistical description of the original data
1.2 建模及模型评价
机器学习包含神经网络、支持向量机、随机森林等多种算法。建模过程包括模型训练、评估、优化、验证等。在此次建模过程中,首先将数据随机分为2部分,其中训练集占80%,测试集占20%。在训练集上对模型进行训练。训练完成后,将测试集的自变量输入模型,得到预测的因变量,然后将预测的因变量与实际值进行对比,利用拟合优度(R2值)量化评价模型预测的效果,同时,将模型预测结果的标准误差(RMSE)、平均绝对误差(MAE)等指标一并列出,相应的计算公式为:
式(1)、式(2)、式(3)中:yi是第i个样本的真实值;
是第i个样本的预测值;
是测试集中y的平均值;
n为样本数量。
式(1)中:分子代表残差平方和,表征模型未解释的变化;
分母代表总平方和,表征因变量的总变化量。式(1)总体表征模型所能解释的变化与总变化量之比。R2越高,说明模型所能解释的变化越多,建模效果越好。为了寻找到最适合本数据集的建模方法,尝试线性回归、支持向量机、随机森林、BP神经网络4种方法进行建模,结果见表2。从表2中可以看出,随机森林算法在强度和制耳率数据集上的建模效果均优于其他算法,所以本研究选择随机森林算法进行建模分析。
表2 不同算法建模效果对比Tabl e 2 Comparison of model performances with different algorithms
随机森林算法泛化能力强、不易过拟合、对异常值不敏感,并且模型本身具有一定的可解释性,适用于高维小样本数据。它是一种组合算法,选择决策树作为弱分类器,将所有决策树结果通过一定的集成机制来整合,得到随机森林的最终输出结果。决策树是由信息论中熵的概念发展而来。根据信息熵表征事物的不确定性的特点,信息熵的定义如下:
式(4)中:H(X)为信息熵;
n代表变量X的取值数量;
pi代表了变量X取到各个值的概率。相应的条件熵如下:
式(5)中:H(X|Y)为条件熵;
yj为变量Y的取值;
p(yj)为Y取yj的概率。H(X)表示X的不确定性,而条件熵H(X|Y)则表示在给定Y条件下X的不确定性,因而H(X)-H(X|Y)可以用来度量Y的信息对X的不确定性减少的程度,称为信息增益。信息增益越大,变量Y对确定变量X的作用越显著。
将模型的预测值和实际值分别作为横轴和纵轴,绘制出y=x的对比线,如果预测值与实际值相等,则该点会落在y=x的对比线上,若预测值与实际值有差异,则差异越大,离y=x的对比线越远。本文所建立的随机森林模型经过训练和优化后,对屈服强度和制耳率的预测结果如图1所示。模型对屈服强度和制耳率预测的R2值分别为0.75和0.87,即模型解释了75%的屈服强度变化和87%的制耳率变化。
图1 模型对屈服强度和制耳率的预测效果Fig.1 The performance of yield strength model and earing ratio model
2.1 变量权重系数分析
确定成分—工艺—性能关系模型之后,通过分析各个自变量关于因变量的信息增益总量,可以定量评价各变量的重要性。将信息增益归一化之后的值定义为自变量的变量权重系数。变量权重系数越大,说明该自变量对因变量的影响越显著。
各自变量对屈服强度和制耳率影响的变量权重系数如图2所示。从图2中可以看出,对屈服强度影响最显著的参数为冷轧率,变量权重系数在0.25以上,其他变量如Fe含量,热终轧温度对强度也有一定影响;
对制耳率的影响,Fe含量起到了决定性的作用,Fe含量的变量权重系数在0.6以上,终轧温度的变量权重系数在0.1以上,而其余变量对制耳率的影响较小,变量权重系数均在0.1以下。
图2 各变量对屈服强度和制耳率影响的变量权重系数Fig.2 Feature importance of variables on yield strength and earing ratio
2.2 Shap值分析
通过变量权重系数,可以判断各自变量对因变量影响程度大小,但是不能给出具体的影响趋势。为此,采用Shap值来表征各自变量对因变量的影响趋势和程度。Shap值描述的是对于任意一个预测结果,各个特征值的贡献情况。对于特定样本的预测值,Shap值就是该样本中每个特征对预测值的贡献[22]。Shap值服从以下等式:
式(6)中:yi为模型对第i个样本的预测值;
ybase为整个模型的基线(通常是所有样本的目标变量的均值);
xi为第i个样本,xi,j为第i个样本的第j个特征;
f(xi,j)为xi,j的Shap值。
Shap值为正时表示该特征的取值倾向于增大因变量的值,Shap值大小即为增加的量;
Shap值为负时表示该特征的取值倾向于减小因变量的值,Shap值大小即为减小的量。在全样本空间内各变量关于屈服强度和制耳率的Shap值如图3,红色点代表该自变量取较大值,蓝色点代表该自变量取较小值,与之对应的横坐标是不同的自变量取值下,Shap值大小。从图3中可以看出,冷轧率取值较大时,屈服强度Shap值为正,即增大冷轧率可以提高屈服强度。而对制耳率来说,Fe含量较高时,制耳率的Shap值为负,意味着Fe含量的升高可以降低制耳率。
图3 各变量关于屈服强度和制耳率的Shap值Fig.3 Shap values of variables on yield strength and earing ratio
以上讨论是从数据挖掘层面得出的规律,根据这些规律可以快速定位影响性能的关键因素,从而进一步分析其内在机理。对于强度影响较为显著的是冷轧率和热终轧温度,这是由于1070铝合金的主要强化方式为加工硬化,所以冷轧率会直接影响强度,而Fe含量和热终轧温度分别影响硬质相数量和再结晶过程,所以也会对强度有一定影响。影响1070铝合金薄板制耳率的机理较为复杂,Fe含量、Si含量、冷轧率、终轧温度等多种因素均可能对制耳率产生影响。但是通过以上建模分析可以确定,在本文数据样本变量范围内,Fe含量起主导作用。这可能是由于1070铝合金的再结晶织构主要是立方织构,倾向于形成0°和90°制耳,合金中的Fe有利于形成R织构,进而有利于形成45°制耳,而且,所生成的FeAl3化合物周围会形成混乱织构,这都降低了板材的各向异性,从而降低了制耳率。
2.3 性能预报与工艺优化
对于给定的一组工艺,可以基于Shap值的概念对模型预测结果进行解析,以获取各自变量在模型输出值决策中的贡献。各自变量的基值(模型输出值的期望)+Shap值=输出值(见表3),基于此,可实现对板材强度和制耳率的定量预报。以某产品供货条件要求屈服强度波动≤±2.5,制耳率≤4.0为例进行工艺优化。分别以屈服强度目标和制耳率目标搜索关键工艺参数范围,二者取交集确定关键工艺的波动区间,使输出值尽量同时满足上述要求,优化如下:Fe∈(0.16,0.20),冷轧率∈(91%,94%),热终轧温度∈(278,285),Si∈(0.025,0.04),Fe/Si∈(4.25,5.88)。优化前后屈服强度和制耳率分布对比如图4,可以看出,优化后屈服强度标准偏差由4.3降至2.5,制耳率均值由3.7降至2.9,屈服强度和制耳率指标均有较大提升。
图4 优化前后屈服强度和制耳率分布对比Fig.4 The distribution of yield strength and earing ratio before and after optimization
表3 各变量关于屈服强度和制耳率输出值决策中的贡献Tab l e 3 Contributions of variables during yield strength and earing ratio output decision-making process
1)基于生产数据,对不同算法建立的“成分—工艺—性能”模型进行了对比,发现随机森林算法在本数据集上表现较好,所获得的屈服强度模型精度为0.75,制耳率模型精度为0.87。
2)通过对模型的解析,发现对屈服强度影响最为显著的因素为冷轧率,二者呈正相关关系;
对制耳率影响最为显著的因素为Fe含量,二者呈负相关关系。提高屈服强度稳定性,关键是控制每批次冷轧率的稳定;
而降低制耳率,可以适当提高Fe含量。
3)对于给定工艺,所建立的模型可以基于Shap值原理给出每个因素对性能的贡献值,用于薄板性能的定量预报。工艺优化后,屈服强度标准偏差由4.3降至2.5,制耳率均值由3.7降至2.9,屈服强度和制耳率指标均有较大提升。
猜你喜欢因变量屈服建模调整有限因变量混合模型在药物经济学健康效用量表映射中的运用中国药房(2022年7期)2022-04-14牙被拔光也不屈服的史良大律师秘书红岩春秋(2022年1期)2022-04-12联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例中学生数理化(高中版.高考理化)(2020年11期)2020-12-14求距求值方程建模初中生世界·九年级(2020年2期)2020-04-10The Classic Lines of A Love so Beautiful意林(绘英语)(2018年2期)2018-11-29基于PSS/E的风电场建模与动态分析电子制作(2018年17期)2018-09-28偏最小二乘回归方法文理导航(2017年20期)2017-07-10谈谈如何讲解多元复合函数的求导法则卷宗(2017年6期)2017-06-06精心设计课堂 走进学生胸膛课程教育研究·新教师教学(2016年23期)2017-04-10百折不挠小天使·二年级语数英综合(2015年11期)2015-11-11热门文章:
- 酒店总经理年度工作总结8篇2024-12-07
- 2023年度大一上学期期末个人总结800字10篇(完整)2024-12-07
- 2023年高三综评期末总结8篇2024-12-07
- 四年级科学的教学总结6篇【精选推荐】2024-12-06
- 期末颁奖总结3篇(范文推荐)2024-12-06
- 医院客服年终个人总结7篇2024-12-06
- 2023年度高校寒假安全教育主题班会总结12篇(2023年)2024-12-06
- 2023年有关学生期末个人总结7篇(范文推荐)2024-12-06
- 2023年度公司业务部年终总结10篇2024-12-06
- 园林绿化有限公司年度工作总结5篇【完整版】2024-12-06
相关文章:
- 数学建模论文格式,菁选2篇(完整)2023-02-11
- 最新大学生数学建模论文3000(3篇)(全文)2023-04-11
- 混合式教学在《数据建模技术》课程教学中的应用分析2023-09-25
- 2023年度三维建模实训心得3篇2023-11-13
- 数学建模优秀论文范文10篇2024-11-12