全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111136487.2 (22)申请日 2021.09.27 (65)同一申请的已公布的文献号 申请公布号 CN 113886953 A (43)申请公布日 2022.01.04 (73)专利权人 中国人民解 放军军事科学院国防 科技创新研究院 地址 100071 北京市丰台区东大街5 3号院 (72)发明人 徐新海 李翔 张拥军 李渊  刘逊韵  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 王宇杨 (51)Int.Cl. G06F 30/15(2020.01)G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员 张驰 (54)发明名称 基于分布式强化学习的无人机智能仿真训 练方法及装置 (57)摘要 本发明提供一种基于分布式强化学习的无 人机智能仿真训练方法及装置, 方法包括: 构建 基于强化学习的无人机智能仿真训练框架; 所述 无人机智能仿真训练框架包括: N个普通学习者 节点、 M个行动者节点和一个参数服务器学习者 节点, N≥2, M≥2; 在所述无人机智能仿真训练框 架下, 对无人机智 能体进行仿真训练。 本发明提 供了一种多学习者与多行动者相结合的分布式 训练框架, 在这种分布式训练框架下, 所有计算 节点都无需相互等待, 从而使得计算资源能够最 大限度地被调度起来, 大大提升了无人机仿真智 能训练效率。 权利要求书3页 说明书11页 附图3页 CN 113886953 B 2022.07.19 CN 113886953 B 1.一种基于分布式强化学习的无 人机智能仿真训练方法, 其特 征在于, 包括: 构建基于强化学习的无人机智能仿真训练框架; 所述无人机智能仿真训练框架包括: N 个普通学习者节点、 M个行动者节点和一个参数服 务器学习者节点, N≥2, M≥2; 在所述无 人机智能仿真训练框架下, 无 人机智能体 基于以下步骤进行仿真训练, 包括: 步骤1, 普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验 样本数据, 以及, 向参数服务器学习者节点 发送最新模型参数请求, 以获取所述强化学习神 经网络模型的最 新模型参数; 步骤2, 普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络 模型的最 新模型参数, 确定所述强化学习神经网络模型当前梯度; 步骤3, 普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服 务器学习者节点, 以使所述参数服务器学习者节 点在接收到所述 强化学习神经网络模型当 前梯度后, 根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务 器中的最新参数, 对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿, 得到补偿后的强化学习神经网络模型梯度, 并根据补偿后的强化学习神经网络模型梯度对 强化学习神经网络模型的模型参数进行 更新; 步骤4, 行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经 网络模型最新模型参数, 以使根据最新的模型参数对应的代理算法控制仿 真无人机在无人 机智能仿真环境中进行交互, 积累 无人机仿真经验样本数据, 并将所述无人机仿真经验样 本数据发送至所述重放缓存中进行存 储; 步骤5, 重复上述步骤1至步骤4, 直至训练时间满足预设标准或无人机控制算法在仿真 环境中体现出的智能化水平不再提升时, 无 人机智能仿真训练结束。 2.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法, 其特征在 于, 所述无人机仿真经验样本数据包括: 无人机仿真环境的当前状态、 决策动作、 无人机仿 真在所述当前状态下 执行所述决策动作所 得到的奖励值和后续状态。 3.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法, 其特征在 于, 普通学习者节点根据所述无人机仿 真经验样本数据和所述强化学习神经网络模型的最 新模型参数, 确定所述强化学习神经网络模型当前梯度, 包括: 根据下面第一模型, 确定各普通学习者的所述强化学习神经网络模型当前梯度; 其中, 所述第一模型为: 其中, 为第i个普通学习者所述强化学习神经网络模型当前梯度, f为强化学习神经 网络函数, d为无人机仿真经验样本数据, wt为第i个普通学习者从参数服务器获取的强化 学习神经网络模型的最 新模型参数。 4.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法, 其特征在 于, 根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的 最新参数, 对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿, 得到补 偿后的强化学习神经网络模型梯度, 包括: 根据下面第 二模型, 对当前接收的普通学习者节点发送的强化学习神经网络模型梯度权 利 要 求 书 1/3 页 2 CN 113886953 B 2进行滞后补偿, 得到补偿后的强化学习神经网络模型梯度; 其中, 所述第二模型为: 其中, 为补偿后的强化学习神经网络模型梯度, 为当前接收的强化学习神经网络 模型梯度, wt为所述强化学习神经网络模型的最新模型参数, 为普通学习者i最近一次 获取的强化学习神经 网络模型参数, 为根据泰勒展开公式近似得到的 梯度补偿量。 5.一种基于分布式强化学习的无 人机智能仿真训练装置, 其特 征在于, 包括: 第一处理模块, 用于构建基于强化学习的无人机智能仿真训练框架; 所述无人机智能 仿真训练框架包括: N个普通学习者节点、 M个行动者节点和一个参数服务器学习者节点, N ≥2, M≥2; 第二处理模块, 用于在所述无人机智能仿真训练框架下, 无人机智能体基于以下步骤 进行仿真训练, 包括: 普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数 据, 以及, 向参数服务器学习者节点 发送最新模型参数请求, 以获取所述 强化学习神经网络 模型的最 新模型参数; 普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的 最新模型参数, 确定所述强化学习神经网络模型当前梯度; 普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学 习者节点, 以使 所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度 后, 根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的 最新参数, 对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿, 得到补 偿后的强化学习神经网络模型梯度, 并根据补偿后的强化学习神经网络模 型梯度对强化学 习神经网络模型的模型参数进行 更新; 行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模 型最新模型参数, 以使根据最新的模型参数对应的代理算法控制仿 真无人机在无人机智能 仿真环境中进行交互, 积累 无人机仿真经验样本数据, 并将所述无人机仿真经验样本数据 发送至所述重放缓存中进行存 储; 当训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再 提升时, 无 人机智能仿真训练结束。 6.根据权利要求5所述的基于分布式强化学习的无人机智能仿真训练装置, 其特征在 于, 所述无人机仿真经验样本数据包括: 无人机仿真环境的当前状态、 决策动作、 无人机仿 真在所述当前状态下 执行所述决策动作所 得到的奖励值和后续状态。 7.根据权利要求5所述的基于分布式强化学习的无人机智能仿真训练装置, 其特征在 于, 所述第二处 理模块, 具体用于: 根据下面第 二模型, 对当前接收的普通学习者节点发送的强化学习神经网络模型梯度 进行滞后补偿, 得到补偿后的强化学习神经网络模型梯度; 其中, 所述第二模型为: 权 利 要 求 书 2/3 页 3 CN 113886953 B 3

.PDF文档 专利 基于分布式强化学习的无人机智能仿真训练方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于分布式强化学习的无人机智能仿真训练方法及装置 第 1 页 专利 基于分布式强化学习的无人机智能仿真训练方法及装置 第 2 页 专利 基于分布式强化学习的无人机智能仿真训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:44:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。