专利基于态势表示和行为模仿的管制指令智能生成方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111226683.9 (22)申请日 2021.10.21 (71)申请人南京莱斯信息技术股份有限公司地址 210014 江苏省南京市秦淮区永智路8 号 (72)发明人詹伶俐　沈德仁　邬秋香　李翠霞　王蓓蓓　张翰文　 (74)专利代理机构江苏圣典律师事务所 32 237 代理人贺翔 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/30(2012.01) G08G 5/00(2006.01)G09B 9/00(2006.01) (54)发明名称基于态势表示和行为模仿的管制指令智能生成方法及系统 (57)摘要本发明公开了一种基于态势表示和行为模仿的管制指令智能生成方法及系统，包括：构建飞机表示向量的状态空间；构建对综合态势自感知表示学习的数据集；构建综合态势自感知表示学习网络；构建管制指令生成网络的主干网络；采用两阶段训练策略对管制指令生成网络进行训练；级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络，输入民航自动化系统数据，依据管制指令生成网络输出的指令动作概率，进行采样，输出管制指令。本发明通过对真实扇区综合态势下管制行为的重演数据进行模仿学习，充分利用了人类已有的优秀经验策略指导指令生成网络的训练，弥补了模拟环境中人为定义奖励函数的局限性。权利要求书2页说明书5页附图1页 CN 113987928 A 2022.01.28 CN 113987928 A 1.一种基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，步骤如下： 1)构建飞机表示向量的状态空间； 2)构建对综合态势自感知表示学习的数据集； 3)构建综合态势自感知表示学习网络； 4)构建管制指令生成网络的主干网络； 5)采用两阶段训练策略对管制指令生成网络进行训练； 6)级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络，输入民航自动化系统数据，依据管制指令生成网络输出的指令动作概率，进行采样，输出管制指令。 2.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤1)具体包括：依据民航管制规则，提取出综合态势中与管制决策行为的强关联项，经过数值化处理后，得到第i个飞机的表示向量如下： 3.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤2)具体包括：综合态势自感知表示学习的数据集由民航管制模拟机中提取出管制训练的模拟情景剧本，及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点 ID的标注信息构成。 4.根据权利要求3所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤2)中的标注通过对历史数据中管制员的操作记录，或通过4D 轨迹预测推演、冲突检测来完成，以实现自动标注。 5.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤3)具体包括：综合态势自感知表示学习网络为： φ(Vo)→f， C1(vo i， vo j， ...)， C2(vo k， vo d， ...)， ...CN(vo m， vo n， ...) 式中， Vo表示网络的输入，即管制扇区内飞机表示向量的集合；网络的输出包含两部分：第一部分为当下综合态势的隐式表达，记为向量f；第二部分为基于f给出的分类结果，记为 C1(vo i， vo j， ...)， C2(vo k， vo d， ...)， ...CN(vo m， vo n， ...)，其中， N为管制扇区航路交叉点个数，表示第i个飞机的表示向量，表示第j个飞机的表示向量， vo k表示第k个飞机的表示向量， vo d表示第d个飞机的表示向量， vo m表示第m个飞机的表示向量， vo n表示第n个飞机的表示向量；网络主干由多层神经网络构成，利用所述步骤2)中构建的综合态势自感知表示学习数据集，对综合态势自感知表示学习网络进行训练，得到其主干网络神经节点的参数值。 6.根据权利要求5所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤4)具体包括：以步骤3)中综合态势自感知表示学习网络的输出，作为管制指令生成网络的输入；管制指令生成网络的输出为管制指令动作的概率；管制指令生成网络的主干网络包含底层的图神经网络和高层的管制指令动作概率预测网络；底层的图神经网络计算子问题的图表示，记为： subgraph{(vi,vj,...),(vk,vd,...),...(vm,vn,...)}，其中， concat为向量拼接算子，高层的管制指令动作概率预测网络采用多层全连接神经网络，输入输出管制指令动作的概率。 7.根据权利要求6所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤5)具体包括：第一阶段采用强化学习算法进行训练，其结果用于网络模型参权　利　要　求　书 1/2 页 2 CN 113987928 A 2数初始化；第二阶段采用模仿学习进行网络参数调优。 8.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤5)中模仿学习具体包含：建立行为模仿学习数据集，从空管中心自动化系统重演数据中提取出管制历史重演数据，包含历史综合态势和对应的管制指令，构成数据集。 9.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤5)中采用模仿学习进行网络参数调优具体为：以模仿学习数据集为训练数据集，利用专家策略与第一阶段训练得到的管制指令生成网络输出策略，训练系统奖励函数判别器；判别器和管制指令生成网络进行对抗训练，从而对管制指令生成网络进行参数调优。 10.一种基于态势表示和行为模仿的管制指令智能生成系统，其特征在于，包括：状态空间构建模块，用于构建飞机表示向量的状态空间；数据集构建模块，用于构建对综合态势自感知表示学习的数据集；感知网络构建模块，用于构建综合态势自感知表示学习网络；生成网络构建模块，用于构建管制指令生成网络的主干网络；训练模块，用于采用两阶段训练策略对管制指令生成网络进行训练；管制指令生成模块，用于级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络，输入民航自动化系统数据，依据管制指令生成网络输出的指令动作概率，进行采样，输出管制指令。权　利　要　求　书 2/2 页 3 CN 113987928 A 3

专利 基于态势表示和行为模仿的管制指令智能生成方法及系统

专利基于态势表示和行为模仿的管制指令智能生成方法及系统