专利基于分布式强化学习的无人机智能仿真训练方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111136487.2 (22)申请日 2021.09.27 (65)同一申请的已公布的文献号申请公布号 CN 113886953 A (43)申请公布日 2022.01.04 (73)专利权人中国人民解放军军事科学院国防科技创新研究院地址 100071 北京市丰台区东大街5 3号院 (72)发明人徐新海　李翔　张拥军　李渊　刘逊韵　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师王宇杨 (51)Int.Cl. G06F 30/15(2020.01)G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员张驰 (54)发明名称基于分布式强化学习的无人机智能仿真训练方法及装置 (57)摘要本发明提供一种基于分布式强化学习的无人机智能仿真训练方法及装置，方法包括：构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括： N个普通学习者节点、 M个行动者节点和一个参数服务器学习者节点， N≥2， M≥2；在所述无人机智能仿真训练框架下，对无人机智能体进行仿真训练。本发明提供了一种多学习者与多行动者相结合的分布式训练框架，在这种分布式训练框架下，所有计算节点都无需相互等待，从而使得计算资源能够最大限度地被调度起来，大大提升了无人机仿真智能训练效率。权利要求书3页说明书11页附图3页 CN 113886953 B 2022.07.19 CN 113886953 B 1.一种基于分布式强化学习的无人机智能仿真训练方法，其特征在于，包括：构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括： N 个普通学习者节点、 M个行动者节点和一个参数服务器学习者节点， N≥2， M≥2；在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：步骤1，普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；步骤2，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；步骤3，普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；步骤4，行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；步骤5，重复上述步骤1至步骤4，直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。 2.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法，其特征在于，所述无人机仿真经验样本数据包括：无人机仿真环境的当前状态、决策动作、无人机仿真在所述当前状态下执行所述决策动作所得到的奖励值和后续状态。 3.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法，其特征在于，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度，包括：根据下面第一模型，确定各普通学习者的所述强化学习神经网络模型当前梯度；其中，所述第一模型为：其中，为第i个普通学习者所述强化学习神经网络模型当前梯度， f为强化学习神经网络函数， d为无人机仿真经验样本数据， wt为第i个普通学习者从参数服务器获取的强化学习神经网络模型的最新模型参数。 4.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法，其特征在于，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，包括：根据下面第二模型，对当前接收的普通学习者节点发送的强化学习神经网络模型梯度权　利　要　求　书 1/3 页 2 CN 113886953 B 2进行滞后补偿，得到补偿后的强化学习神经网络模型梯度；其中，所述第二模型为：其中，为补偿后的强化学习神经网络模型梯度，为当前接收的强化学习神经网络模型梯度， wt为所述强化学习神经网络模型的最新模型参数，为普通学习者i最近一次获取的强化学习神经网络模型参数，为根据泰勒展开公式近似得到的梯度补偿量。 5.一种基于分布式强化学习的无人机智能仿真训练装置，其特征在于，包括：第一处理模块，用于构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括： N个普通学习者节点、 M个行动者节点和一个参数服务器学习者节点， N ≥2， M≥2；第二处理模块，用于在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；当训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。 6.根据权利要求5所述的基于分布式强化学习的无人机智能仿真训练装置，其特征在于，所述无人机仿真经验样本数据包括：无人机仿真环境的当前状态、决策动作、无人机仿真在所述当前状态下执行所述决策动作所得到的奖励值和后续状态。 7.根据权利要求5所述的基于分布式强化学习的无人机智能仿真训练装置，其特征在于，所述第二处理模块，具体用于：根据下面第二模型，对当前接收的普通学习者节点发送的强化学习神经网络模型梯度进行滞后补偿，得到补偿后的强化学习神经网络模型梯度；其中，所述第二模型为：权　利　要　求　书 2/3 页 3 CN 113886953 B 3

专利 基于分布式强化学习的无人机智能仿真训练方法及装置

专利基于分布式强化学习的无人机智能仿真训练方法及装置