专利 隧道围岩级别识别方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111557315.2 (22)申请日 2021.12.18 (71)申请人中国铁道科学研究院集团有限公司电子计算技术研究所地址 100081 北京市海淀区大柳树路2号申请人北京经纬信息技术有限公司　中国铁道科学研究院集团有限公司　中国国家铁路集团有限公司 (72)发明人王同军　黎庶　吴川　解亚龙　宋树宝　梁策　鲍榴　郝蕊　王泽彦　李飞　孙安培　刘红峰　邵磐　 (74)专利代理机构北京金咨知识产权代理有限公司 11612 专利代理师宋教花(51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06F 119/14(2020.01) (54)发明名称隧道围岩级别识别方法和装置 (57)摘要本发明提供一种隧道围岩级别识别方法和装置，方法包括：获取不同隧道围岩级别的数据样本来形成包含训练样本的训练集，训练样本包括电脑型凿岩台车采集的钻爆法施工隧道的随钻参数；将获取的训练样本的数据进行特征的向量化，采用基于人工少数类过采样法的自适应综合过采样法进行样本数均衡；利用随机森林算法将样本数平衡的样本集中的特征按重要程度进行排序；基于特征排序结果按照重要程度从高到低的顺序提取样本数平衡的样本集中样本的预定数量的特征，基于提取的特征来训练预定的机器模型；采集不同隧道围岩级别的待测试数据样本，基于特征排序结果提取预定数量的特征生成特征向量，输入至已训练的机器模型，输出隧道围岩级别识别。权利要求书2页说明书16页附图2页 CN 115017791 A 2022.09.06 CN 115017791 A 1.一种隧道围岩级别识别方法，其特征在于，该方法包括以下步骤：获取不同隧道围岩级别的数据样本来形成包含训练样本的训练集，所述训练样本包括电脑型凿岩台车采集的钻爆法施工隧道的随钻参数，所述随钻参数包括实时运行参数和循环日志数据；将获取的训练样本的数据进行特征向量化，并在各隧道围岩级别间的样本不平衡度不符合预定的样本平衡条件的情况下，采用基于人工少数类过采样法SMOTE的自适应综合过采样法进行样本数均衡，以得到样本数平衡的样本集；利用随机森林算法将样本数平衡的样本集中的特征按重要程度进行排序，获得特征排序结果；基于所述特征排序结果按照重要程度从高到低的顺序选择样本数平衡的样本集中样本的预定数量的特征，将选择的特征作为输入特征来训练预定的机器模型；采集不同隧道围岩级别的待测试数据样本，基于所述特征排序结果提取预定数量的特征生成特征向量，输入至已训练的机器模型，输出隧道围岩级别识别结果。 2.根据权利要求1所述的方法，其特征在于，所述在各隧道围岩级别间的样本不平衡度不符合预定的样本平衡条件的情况下，采用基于人工少数类过采样法SMOTE的自适应综合过采样法进行样本数均衡，以得到样本数平衡的样本集，包括：对训练集的数据样本进行归一化和标准化处理，并删除异常值；针对训练集中的每一隧道围岩级别的训练样本，计算不平衡度；在不平衡度不满足预定的样本平衡条件的情况下，基于训练集中当前少数类和多数类的数量确定当前少数类样本要生成的合成样本数量；对于每个属于当前少数类的样本实例，查找最近的邻居，基于查找的最近的邻居中属于多数类的实例数计算每个少数类样本需要生成的合成样本的数量；对于每个少数类样本，执行与合成样本的数量对应的样本合成操作，在每次样本合成操作中通过从当前少数类样本的最近邻居中选择一个少数类样本并基于选择的少数样本来生成一个合成样本。 3.根据权利要求2所述的方法，其特征在于，所述基于训练集中当前少数类和多数类的数量确定当前少数类样本要生成的合成样本数量包括以下步骤：基于当前少数类实例和多数类实例的数量以及平衡指示参数计算需要为少数类样本生成的合成样本的数量；所述对于每个属于当前少数类的样本实例，查找最近的邻居，基于查找的最近的邻居中属于多数类的实例数计算每个少数类样本需要生成的合成样本的数量，包括：对于每一个属于少数类的样本示例，基于其特征空间中的欧式距离找到最近的邻居，并基于最近的邻居计算密度分布参数；基于计算的密度分布参数来计算每个少数类样本实例需要生成的合成样本的数量。 4.根据权利要求3所述的方法，其特征在于，基于如下公式计算需要为少数类样本生成的合成样本的数量： G＝(ml‑ms)*β；其中， G表示需要生成的合成样本的数量， ms表示当前少数类实例的数量， ml表示当前多数类实例的数量， β 为指示合成数据生成后所需的平衡水平的参数；权　利　要　求　书 1/2 页 2 CN 115017791 A 2基于如下公式计算密度分布参数；其中， ri表示密度分布， K表示当前属于少数类的样本示例的特征空间中的欧式距离找到最近的邻居， Δi是K个最近邻中的属于多数类的实例数；基于如下公式来计算每个少数类样本实例需要生成的合成样本的数量：其中， gi为每个少数类样本实例需要生成的合成样本的数量， 5.根据权利要求3所述的方法，其特征在于，所述通过从当前少数类样本的最近邻居中选择一个少数类样本并基于选择的少数样本来生成一个合成样本包括：基于如下公式来生成合成样本： si＝xi+(xzi‑xi)* λ；其中， si表示第i个少数类样本xi的一个合成样本， xzi表示从当前少数类样本的最近邻居中选择的一个少数类样本， λ是随机数。 6.根据权利要求1所述的方法，其特征在于，所述实时状态数据包括以下数据中的部分或全部：推进压力、推进速度、冲击压力、回转压力、水压力、水流量、当前工作状态、整机总电流、总电压。 7.根据权利要求1所述的装置，其特征在于，在将获取的训练样本的数据进行特征向量化之前，所述方法还包括：对获取的不同隧道围岩级别的训练样本中的特征变量进行数据清洗预处理，以剔除低相关性数据和冗余特征；对数据清洗预处理后的样本的数据进行标准化处理以消除量纲影响。 8.根据权利要求1所述的装置，其特征在于，所述预定的机器模型为XGBoost机器学习模型或者所述预定的机器模型包括XGBoost、 BPNN和AdaBoost机器学习模型在内的多个机器学习模型；在所述预定的机器模型包括多个机器学习模型的情况下，所述训练集还包括验证样本；所述方法还包括：利用验证样本来获得已训练的多个机器模型的准确率，基于获得的准确率来选择一个机器模型作为用于进行测试的机器模型。 9.根据权利要求8所述的装置，其特征在于，所述方法还包括：利用网络搜索法进行对XGBo ost机器学习模型进行参数寻优。 10.一种隧道围岩级别识别装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如权利要求1至9中任一项所述方法的步骤。 11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115017791 A 3

专利 隧道围岩级别识别方法和装置

专利隧道围岩级别识别方法和装置