全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111226683.9 (22)申请日 2021.10.21 (71)申请人 南京莱斯信息技 术股份有限公司 地址 210014 江苏省南京市秦淮区永智路8 号 (72)发明人 詹伶俐 沈德仁 邬秋香 李翠霞  王蓓蓓 张翰文  (74)专利代理 机构 江苏圣典律师事务所 32 237 代理人 贺翔 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/30(2012.01) G08G 5/00(2006.01)G09B 9/00(2006.01) (54)发明名称 基于态势表示和行为模仿的管制指令智能 生成方法及系统 (57)摘要 本发明公开了一种基于态势表示和行为模 仿的管制指令智 能生成方法及系统, 包括: 构建 飞机表示向量的状态空间; 构建对综合态势自感 知表示学习的数据集; 构建综合态势自感知 表示 学习网络; 构建管制指令生成网络的主干网络; 采用两阶段训练策略对管制指令生成网络进行 训练; 级联综合态势自感知 表示学习的主干网络 和管制指令生成的主干网络, 输入民航自动化系 统数据, 依据管制指令生 成网络输出的指令动作 概率, 进行采样, 输出管制指令。 本发明通过对真 实扇区综合态势下管制行为的重演数据进行模 仿学习, 充分利用了人类已有的优秀经验策略指 导指令生 成网络的训练, 弥补了模拟环境中人为 定义奖励函数的局限性。 权利要求书2页 说明书5页 附图1页 CN 113987928 A 2022.01.28 CN 113987928 A 1.一种基于态 势表示和行为模仿的管制指令智能生成方法, 其特 征在于, 步骤如下: 1)构建飞机表示向量的状态空间; 2)构建对综合态 势自感知表示学习的数据集; 3)构建综合态 势自感知表示学习网络; 4)构建管制指令生成网络的主干网络; 5)采用两阶段训练策略对管制指令生成网络进行训练; 6)级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络, 输入民航自 动化系统数据, 依据管制指令生成网络 输出的指令动作概 率, 进行采样, 输出 管制指令 。 2.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述步骤1)具体包括: 依据民航管制规则, 提取出综合态势中与管制决策行为的强关 联项, 经过数值化处理后, 得到第i个飞机的表示向量 如下: 3.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述步骤2)具体包括: 综合态势自感知表示学习的数据集由民航管制模拟机中提取 出管制训练的模拟情景剧本, 及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点 ID的标注信息构成。 4.根据权利要求3所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述步骤2)中的标注通过对历史数据中管制员的操作 记录, 或通过4D 轨迹预测推演、 冲突检测来完成, 以实现自动标注。 5.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述 步骤3)具体包括: 综合态 势自感知表示学习网络为: φ(Vo)→f, C1(vo i, vo j, ...), C2(vo k, vo d, ...), ...CN(vo m, vo n, ...) 式中, Vo表示网络的输入, 即管制扇区内飞机表示向量的集合; 网络的输 出包含两部分: 第一部分为当下综合态势的 隐式表达, 记为向量f; 第二部 分为基于f给出的分类结果, 记 为 C1(vo i, vo j, ...), C2(vo k, vo d, ...), ...CN(vo m, vo n, ...), 其中, N为管制扇区航 路交叉点个 数, 表示第i个飞机的表示向量, 表示第j个飞机的表示向量, vo k表示第k个飞机的表示向 量, vo d表示第d个飞机的表 示向量, vo m表示第m个飞机的表 示向量, vo n表示第n个飞机的表示 向量; 网络主干由多层神经网络构成, 利用所述步骤2)中构建的综合态势自感知表示学习 数据集, 对综合态 势自感知表示学习网络进行训练, 得到其主干网络神经节点的参数值。 6.根据权利要求5所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述步骤4)具体包括: 以步骤3)中综合态势自感知表 示学习网络的输出, 作为管制指 令生成网络的输入; 管制指令生成网络的输出为管制指令动作的概率; 管制指令生成网络 的主干网络包含底层的图神经网络和高层的管制指 令动作概率预测网络; 底层的图神经网 络计算子 问题的图表示, 记为: subgraph{(vi,vj,...),(vk,vd,...),...(vm,vn,...)}, 其 中, concat为向量拼接算子, 高层的管制指令动作概率预测网络采用多 层全连接神经网络, 输入 输出管制指令动作的概 率。 7.根据权利要求6所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述步骤5)具体包括: 第一阶段采用强化学习算法进 行训练, 其结果用于网络模型参权 利 要 求 书 1/2 页 2 CN 113987928 A 2数初始化; 第二阶段采用模仿学习进行网络参数调优。 8.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述步骤5)中模仿学习具体包含: 建立行为模仿学习数据集, 从空管中心自动化系统 重演数据中提取 出管制历史重演数据, 包 含历史综合态 势和对应的管制指令, 构成数据集。 9.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法, 其特征 在于, 所述步骤5)中采用模仿学习进行网络参数调优具体为: 以模仿学习数据集为训练数 据集, 利用专家策略与第一 阶段训练得到的管制指令生成网络输出策略, 训练系统奖励函 数判别器; 判别器和管制指令生成网络进行对抗训练, 从而对管制指令生成网络进行参数 调优。 10.一种基于态 势表示和行为模仿的管制指令智能生成系统, 其特 征在于, 包括: 状态空间构建模块, 用于构建飞机表示向量的状态空间; 数据集构建模块, 用于构建对综合态 势自感知表示学习的数据集; 感知网络构建模块, 用于构建综合态 势自感知表示学习网络; 生成网络构建模块, 用于构建管制指令生成网络的主干网络; 训练模块, 用于采用两阶段训练策略对管制指令生成网络进行训练; 管制指令生成模块, 用于级联综合态势自感知表示学习的主干网络和管制指令生成的 主干网络, 输入民航自动化系统数据, 依据管制指 令生成网络输出的指令动作概率, 进行采 样, 输出管制指令 。权 利 要 求 书 2/2 页 3 CN 113987928 A 3

.PDF文档 专利 基于态势表示和行为模仿的管制指令智能生成方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于态势表示和行为模仿的管制指令智能生成方法及系统 第 1 页 专利 基于态势表示和行为模仿的管制指令智能生成方法及系统 第 2 页 专利 基于态势表示和行为模仿的管制指令智能生成方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:45:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。