专利 一种高鲁棒性的大气污染物浓度综合预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211269650.7 (22)申请日 2022.10.18 (71)申请人安徽工业大学地址 243002 安徽省马鞍山市湖东路59号 (72)发明人陶陶　汪福生　张思涵　孙晨　郑啸　薛希玲　 (74)专利代理机构安徽知问律师事务所 34134 专利代理师平静 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06Q 50/26(2012.01) G01N 33/00(2006.01) (54)发明名称一种高鲁棒性的大气污染物浓度综合预测方法 (57)摘要本发明公开了一种高鲁棒性的大气污染物浓度综合预测方法，属于污染物浓度预测技术领域。本发明以气象环境监测站获取的多种环境数据为原始数据，采用K ‑means思想和平滑填补法处理缺失值和异常值，使数据在填补影响下依然具备高准确性；采用特征工程进行训练数据的特征筛选；并行训练神经网络算法和具有随机性的随机森林、迭代决策树算法并产生初始预测结果；以真实数据为标准，动态搜索随机森林、迭代决策树、神经网络预测结果的最优组合权重；以最优组合权重组合预测结果，得到最后综合预测模型的污染物预测结果。本发明可以保证在原始数据质量存在缺失污染时，通过数据清洗和组合方法仍可以产生一个高精度的预测结果。权利要求书2页说明书7页附图2页 CN 115526298 A 2022.12.27 CN 115526298 A 1.一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于，其步骤为：步骤1、获取预测空间范围内的环境属性原始数据，一个时间点对应一条数据，每一条数据用P＝[p1， p2，……， pn]表示，其中n 为数据中属性个数， p1到pn为具体属性；步骤2、清洗原始数据，采用不同方法处理原始数据中异常值和缺失值；步骤3、在经过数据清洗后，计算数据中所有属性特征的方差值，移除方差低于指定阈值的属性特征，得到每一条数据为m个属性的数据集P＝[p1， p2，……， pm]，其中m＜n；步骤4、使用步骤3得到的训练集并行训练随机森林、迭代决策树、神经网络模型，确定模型参数并产生初步预测结果；步骤5、选取真实数据为数据标准，绝对平均误差为评判标准，以最小化绝对平均误差为目标进行由权重0到1的权重网格搜索，从而确定随机森林、迭代决策树、神经网络模型各自组合权重；步骤6、按照网格搜索到的最优权重对随机森林、迭代决策树和神经网络进行组合，从而产生综合预测模型下的预测结果。 2.根据权利要求1所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤2中，将数据属性值中小范围的异常值，使用线性平滑方法进行修正；对于同一监测站点的大片异常值分布，通过线性映射函数将其修正至正常范围；对于小范围的空缺值，采用临近值填补和回归填补两种方法完成对数据的补充。 3.根据权利要求1或2所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤2中，采用k均值聚类算法处理连续大片空缺值和异常值的情况，具体过程为：对于任意监测点的一个空缺属性，取该监测点其他存在值的属性作为一个高维向量，并由该向量代表该时间下的监测点记录，向量记为其中t代表记录时间， j代表监测点ID；随后对所有其余监测站点均生成一个对应向量，记为计算出待补记录对应的向量和其他监测站同时间记录的向量的欧式距离其公式如下：式中，和为两个向量同一属性下的数值；在计算完待补记录和所有其他监测点的欧式距离后，将其从小到大排序，并选取 10％到20％监测点数量的欧式距离最小的其他监测点，计算这些监测点同时间记录下待补属性值的求和并取平均的结果，此时若有个别监测点在待补属性上也有空缺则舍弃或拿其他欧式距离较小的候补监测点进行替换，最后以该结果作为填补的数值。 4.根据权利要求3所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，训练随机森林的过程为：在训练集中有放回的随机选择N个数据样本，利用该N个样本来训练一个决策树，作为决策树根节点处的样本；每个样本有Q个属性，在决策树的每个节点需要分裂时，随机从这Q 个属性中选取出q个属性，满足条件q<<Q；然后从这q个属性选择1个信息增益大的属性作为该节点的分裂属性，信息增益的程度用信息熵的变化程度来衡量；选取在该节点上的最优特征进行分裂，从而对训练集不断分裂直至生成一颗完整的决策树；重复上述步骤，直到产权　利　要　求　书 1/2 页 2 CN 115526298 A 2生指定数量的决策树，将这些树组合便形成了最后的随机森林模型。 5.根据权利要求4所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，训练迭代决策树模型的过程为：在训练集中初始化f0(x)的取值，这个值可以使得第0步模型的损失函数取最小值；在决策树个数从1到T过程中计算残差Rt，在得到残差Rt后，拟合学习出一颗决策回归树，得到第t 个决策树的参数θt，使得损失函数最小化；不断更新模型，直到产生T个决策树；得到最后的迭代决策模型。 6.根据权利要求5所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，训练神经网络模型的过程为：将训练数据传入BN层进行处理，接着数据由输出层传入隐含层的线性层，其包含12个神经元，对应数据预处理过程后数据保留的特征数量；采用ReLU激活函数层对数据进行处理，之后连接了一个包含60个神经元的线性层，输出层获得隐含层传入的三维数据并使用 ReLU激活函数进行再处理，输出预测结果。 7.根据权利要求6所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤4中，对随机森林和迭代决策树模型采用网格搜索方法找到效果最好的树的数量和单棵树的深度参数设置。 8.根据权利要求7所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤5中，确定随机森林、决策迭代树、神经网络模型各自权重，使用真实数据对三种模型的加权权重在0 ‑1范围进行动态搜索，并在每次对三种模型取好权重后，计算该次权重分配下的平均绝对误差 MAE，确定 MAE分数最低的权重为综合预测模型的权重组成。 9.根据权利要求8所述的一种高鲁棒性的大气污染物浓度综合预测方法，其特征在于：所述步骤6中，将随机森林、决策迭代树、神经网络模型组合，按照搜索到的最优权重配比进行加权，综合预测模型公式表达为： H＝w1h1+w2h2+w3h3 其中， h1为随机森林模型， h2为迭代决策树模型， h3为神经网络模型， w1、 w2、 w3为模型各自的权重。权　利　要　求　书 2/2 页 3 CN 115526298 A 3

专利 一种高鲁棒性的大气污染物浓度综合预测方法

专利一种高鲁棒性的大气污染物浓度综合预测方法