专利可解释集成学习的间歇过程质量在线预测方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111176711.0 (22)申请日 2021.10.09 (65)同一申请的已公布的文献号申请公布号 CN 113807606 A (43)申请公布日 2021.12.17 (73)专利权人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人孙衍宁　谭润芝　王无印　许鸿伟　秦威　 (74)专利代理机构上海交达专利事务所 31201 专利代理师王毓理　王锡麟 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/04(2012.01)G06F 30/27(2020.01) G06K 9/62(2022.01) G06F 111/08(2020.01) (56)对比文件 CN 110298611 A,2019.10.01 US 2020097858 A1,2020.0 3.26 CN 111144017 A,2020.0 5.12 审查员王平 (54)发明名称可解释集成学习的间歇过程质量在线预测方法 (57)摘要一种可解释集成学习的间歇过程质量在线预测方法，通过传感器采集的间歇过程历史数据集建立最终产品质量模型，经数据预处理得到候选输入变量；分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序，选取Copula 熵最大的前M个候选输入变量作为关键变量；根据最终产品质量模型设计堆叠集成随机森林算法，训练该堆叠集成随机森林算法后，利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。本发明显著提升了质量预测的可解释性，可以帮助现场工程师准确地把握生产运行状态和产品质量信息，进而为间歇过程的控制决策提供有用参考。权利要求书2页说明书5页附图4页 CN 113807606 B 2022.07.22 CN 113807606 B 1.一种可解释集成学习的间歇过程质量在线预测方法，其特征在于，通过传感器采集的间歇过程历史数据集建立最终产品质量模型，经数据预处理得到候选输入变量；分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序，选取Copula熵最大的前M 个候选输入变量作为关键变量；根据最终产品质量模型设计堆叠集成随机森林算法，训练该堆叠集成随机森林算法后，利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测；所述的间歇过程历史数据集包括：时段无关变量Vu，时段相关变量Vr,k，最终产品质量指标Y；所述的最终产品质量模型，即时段无关变量Vu以及时段相关变量Vr在每个时间点产生影响的加权叠加：其中： Y为某一批次的最终产品质量， Q0、 Qk 分别表示Vu和Vr对最终产品质量的局部影响， ω0、 ωk分别表示局部影响的权值；考虑间歇过程的多时段特性，在每个时段提取时段相关变量的时序特征，从时段无关变量和每个时段的时序特征中选择最终产品质量的关键变量集Su,Sr,p，其中p＝1,2, …,P表示P个时段， k ＝1,2,…,K表示K个时间间隔；所述的时段无关变量产生的影响记为时段0，则最终产品质量模型公式化为所述的堆叠集成随机森林算法，首先采用随机森林算法学习不同时段对最终产品质量的局部影响Qp，然后采用线性回归算法学习不同时段局部影响的权重ωp，通过最终产品质量模型输出质量预测值；所述的间歇过程质量在线预测方法，具体包括：步骤A：获取传感器采集的间歇过程历史数据集：分析数据集中3种类型的原始数据，构建最终产品质量模型，其中时段无关变量数目为8 6个，时段相关变量数目为22个，最终产品质量指标为3维产品尺寸Size 1、 Size 2和Size 3；步骤B：数据预处理：针对22个时段相关变量，在注塑成型过程的11个关键生产时段：合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退，分别提取22个时段相关变量的6个时序特征，即每个生产时段衍生出132个候选输入变量；步骤C： Copula熵关键变量选择：针对86个时段无关变量，依次计算每个变量与最终产品质量指标的Copula熵，并按照大小进行排序，选择Copula熵最大的前30个变量定义为生产时段p＝0的关键变量集Su；针对每个生产时段，计算每个候选输入变量与最终产品质量指标的Cop ula熵，并按照大小进行排序，选择Cop ula熵最大的前30个变量定义为生产时段p ＝1,2,…P的关键变量集Sr,p，采用K近邻方法估计Copula熵时， kN的取值为3；步骤D：训练堆叠集成随机森林算法，获得不同时段对最终产品质量的局部影响以及不同时段局部影响的权重；随机森林算法的树的数量ntree取值为100，和每次分裂随机特征的数量mtry的取值为2，以数据集中的9960个样本作为训练集，其余样本作为测试集，采用均方根误差和决定系数R2作为性能评价指标，具体为：其中： NT为测试集中的样本数， yi为第i个样本的真实值，为质量预测方法的估计值，为所有估计值的平均值；权　利　要　求　书 1/2 页 2 CN 113807606 B 2步骤E：输入在线数据或测试集样本，进行间歇过程最终产品质量的在线预测：采用测试集数据模拟质量在线预测的过程，并选择线性回归、 K近邻回归作为基准方法进行了对比实验。 2.根据权利要求1所述的可解释集成学习的间歇过程质量在线预测方法，其特征是，所述的数据预处理是指在每个时段提取时段相关变量的6个时序特征，包括：均值方差极差max(xj)‑min(xj) ，中位数median(xj) ，偏度和峰度其中：表示变量xj的第k个样本点， N表示样本点的数目，表示N个样本点的均值。 3.根据权利要求2所述的可解释集成学习的间歇过程质量在线预测方法，其特征是，所述的候选输入变量与最终产品质量之间的Cop ula熵通过K近邻方法进行近似估计，具体为：其中： kN为邻居数，为双伽马函数， εi为第i 个样本到最近邻的欧氏距离， cD＝πD/[2Г(1+0.5D)],D＝Q+1为u的维数，为修正项， u＝[u0,u1,…,uQ]表示候选输入变量与最终产品质量的边际累积密度函数，通过秩统计量来估计，具体为：其中： i＝1, …,I表示I个批次运行的数据样本， q＝1, …,Q表示Q个最终产品质量指标， χ为秩统计量。 4.一种实现根据权利要求1～3中任一所述方法的可解释集成学习的间歇过程质量在线预测系统，其特征在于，包括：数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块，其中：数据采集和预处理模块直接采集工业现场仪表得到的历史数据，并进行数据去噪、空值和异常值检测处理，得到关键变量选择及质量预测建模所需历史数据集；关键变量选择模块根据历史数据信息，选择与质量变量关系密切的变量集合，从而剔除冗余信息、降低质量预测建模难度和模型复杂度；质量预测模型构建模块综合考虑历史数据和应用对象，选定预测方法建立模型；模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势，对质量预测模型进行在线校正，以保证模型预测的准确性和可靠性。权　利　要　求　书 2/2 页 3 CN 113807606 B 3

专利 可解释集成学习的间歇过程质量在线预测方法

专利可解释集成学习的间歇过程质量在线预测方法