说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211269650.7 (22)申请日 2022.10.18 (71)申请人 安徽工业大学 地址 243002 安徽省马鞍山市湖东路59号 (72)发明人 陶陶 汪福生 张思涵 孙晨  郑啸 薛希玲  (74)专利代理 机构 安徽知问律师事务所 34134 专利代理师 平静 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06Q 50/26(2012.01) G01N 33/00(2006.01) (54)发明名称 一种高鲁棒性的大气污染物浓度综合预测 方法 (57)摘要 本发明公开了一种高鲁棒性的大气污染物 浓度综合预测方法, 属于污染物浓度预测技术领 域。 本发明以气象环境监测站获取的多种环境数 据为原始数据, 采用K ‑means思想和平滑填补法 处理缺失值和异常值, 使数据在填补影 响下依然 具备高准确性; 采用特征工程进行训练数据的特 征筛选; 并行训练神经网络算法和具有随机性的 随机森林、 迭代决策树算法并产生初始预测结 果; 以真实数据为标准, 动态搜索随机森 林、 迭代 决策树、 神经网络预测结果的最优组合权重; 以 最优组合权重组合预测结果, 得到最后综合预测 模型的污染物预测结果。 本发明可以保证在原始 数据质量存在缺失污染时, 通过数据清洗和组合 方法仍可以产生 一个高精度的预测结果。 权利要求书2页 说明书7页 附图2页 CN 115526298 A 2022.12.27 CN 115526298 A 1.一种高鲁棒 性的大气污染物浓度综合预测方法, 其特 征在于, 其 步骤为: 步骤1、 获取预测空间范围内的环境属性原始数据, 一个时间点对应一条数据, 每一条 数据用P=[p1, p2,……, pn]表示, 其中n 为数据中属性个数, p1到pn为具体属性; 步骤2、 清洗原 始数据, 采用不同方法处 理原始数据中异常值和缺失值; 步骤3、 在经过数据清洗后, 计算数据中所有属性特征的方差值, 移除方差低于指定阈 值的属性特 征, 得到每一条 数据为m个属性的数据集P=[p1, p2,……, pm], 其中m<n; 步骤4、 使用步骤3得到的训练集并行训练随机森林、 迭代决策树、 神经网络模型, 确定 模型参数并产生初步预测结果; 步骤5、 选取真实数据为数据标准, 绝对平均误差为评判标准, 以最小化绝对平均误差 为目标进 行由权重0到1的权重网格搜索, 从而确定随机森林、 迭代决策树、 神经网络模型各 自组合权 重; 步骤6、 按照网格搜索到的最优权重对随机森林、 迭代决策树和神经网络进行组合, 从 而产生综合预测模型 下的预测结果。 2.根据权利要求1所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在于: 所述步骤2中, 将数据属 性值中小范围的异常值, 使用线性平滑方法进行修正; 对于同一监 测站点的大片异常值分布, 通过线性映射函数将其修正至正常范围; 对于小范围的空缺值, 采用临近值 填补和回归填补两种方法完成对数据的补充。 3.根据权利要求1或2所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在 于: 所述步骤2中, 采用k均值聚类算法处理连续大片空缺值和异常值的情况, 具体过程为: 对于任意监测 点的一个空缺属 性, 取该监测点其他存在值的属 性作为一个高维向量, 并由 该向量代表该时间下的监测点记录, 向量记为 其中t代表记录时间, j代表监测点ID; 随后 对所有其余监测站点均生成一个对应向量, 记为 计算出待补记录对应的向量 和其他监 测站同时间记录的向量 的欧式距离 其公式如下: 式中, 和 为两个向量同一属性下的数值; 在计算完待补记录和所有其他监测点的欧式距离 后, 将其从小到大排序, 并选取 10%到20%监测点数量的欧式距离最小的其他监测点, 计算这些监测点同时间记录下待补 属性值的求和并取平均的结果, 此时若有个别监测点在待补属性上也有空缺则舍弃或拿其 他欧式距离较小的候补监测点进行替换, 最后以该 结果作为 填补的数值。 4.根据权利要求3所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在于: 所述步骤4中, 训练随机森林的过程 为: 在训练集中有放回的随机选择N个数据样本, 利用该N个样本来训练一个决策树, 作为 决策树根节 点处的样 本; 每个样本有Q个属性, 在决策树的每个节 点需要分裂时, 随机从这Q 个属性中选取出q个属性, 满足条件q<<Q; 然后从这q个属性选择1个信息增益大的属性作为 该节点的分裂属 性, 信息增 益的程度用信息熵的变化程度来衡量; 选取在该节点上 的最优 特征进行分裂, 从而对训练集不断分裂直至生 成一颗完整的决策树; 重复上述步骤, 直到产权 利 要 求 书 1/2 页 2 CN 115526298 A 2生指定数量的决策树, 将这些树组合便形成了最后的随机森林模型。 5.根据权利要求4所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在于: 所述步骤4中, 训练迭代决策树模型的过程 为: 在训练集中初始化f0(x)的取值, 这个值可以使得第0步模型的损失函数取最小 值; 在决 策树个数从1到T过程中计 算残差Rt, 在得到残差Rt后, 拟合学习出一颗决策回归树, 得到第t 个决策树的参数θt, 使得损失函数最小化; 不断更新模型, 直到产生T个决策树; 得到最后的 迭代决策模型。 6.根据权利要求5所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在于: 所述步骤4中, 训练神经网络模型的过程 为: 将训练数据传入BN层进行处理, 接着数据由输出层传入隐含层的线性层, 其包含12个 神经元, 对应数据预处理过程后数据保留的特征数量; 采用ReLU激活函数层对数据进行处 理, 之后连接了一个包含60个神经元 的线性层, 输出层获得隐含层传入的三维数据并使用 ReLU激活函数进行 再处理, 输出预测结果。 7.根据权利要求6所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在于: 所述步骤4中, 对随机森林和迭代决策树模型采用网格搜索方法找到效果最好的树的数量 和单棵树的深度参数设置 。 8.根据权利要求7所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在于: 所述步骤5中, 确定随机森林、 决策迭代树、 神经网络模型各自权重, 使用真实数据对三种模 型的加权权重在0 ‑1范围进行动态搜索, 并在每次对三种模 型取好权重后, 计算该次权重 分 配下的平均绝对误差 MAE, 确定 MAE分数最低的权 重为综合预测模型的权 重组成。 9.根据权利要求8所述的一种高鲁棒性的大气污染物浓度综合预测方法, 其特征在于: 所述步骤6中, 将随机森林、 决策迭代树、 神经网络模型 组合, 按照搜索到的最优权重配比进 行加权, 综合预测模型公式表达为: H=w1h1+w2h2+w3h3 其中, h1为随机森林模型, h2为迭代决策树模型, h3为神经网络模型, w1、 w2、 w3为模型各 自的权重。权 利 要 求 书 2/2 页 3 CN 115526298 A 3

PDF文档 专利 一种高鲁棒性的大气污染物浓度综合预测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种高鲁棒性的大气污染物浓度综合预测方法 第 1 页 专利 一种高鲁棒性的大气污染物浓度综合预测方法 第 2 页 专利 一种高鲁棒性的大气污染物浓度综合预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。