全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111200399.4 (22)申请日 2021.10.15 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市 凌工路2 号 (72)发明人 刘宇 张现杰 赵哲焕 单世民  (74)专利代理 机构 辽宁鸿文知识产权代理有限 公司 21102 代理人 苗青 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 3/00(2006.01) G06N 5/04(2006.01) G06N 20/00(2019.01) G06F 30/27(2020.01)G06Q 10/10(2012.01) (54)发明名称 基于变分循环网络模型的信念一致多智能 体强化学习方法 (57)摘要 本发明提供一种基于变分循环网络模型的 信念一致多智能体强化学习方法, 该方法启发于 人类团队之间的可以产生默契合作的现象, 即通 过共同的信念在任务上达成一致性共识。 与人类 社会群体类似, 分布式学习系统中的智能体也可 以受益于一致的信念, 在有限的通信条件下实现 协作。 在本文中, 我们展示了在分散式协作任务 中智能体 之间的一致性信念的作用。 我们提出了 一种新的基于值的方法——一致性信念多智能 体强化学习方法, 它使用变分模 型来学习智能体 之间的信念。 我们还利用与变分模 型结合的循环 网络模型(RNN)充分利用智能体历史行为轨迹。 我们的算法使智能体能够学习一致的信念, 以优 化完全分散的策略。 我们在两个网格世界游戏以 及星际争霸II微观管理基准上验证了该方法。 我 们的实验结果表明, 该方法学习到的共同信念可 以有效提高离散和连续状态下的智能体的协作效果。 权利要求书3页 说明书6页 附图6页 CN 114037048 A 2022.02.11 CN 114037048 A 1.基于变分循环模型的信念一 致多智能体强化学习方法, 其特 征在于, 步骤如下: (1)变分模型对分布式部分观测马尔科 夫过程(Dec ‑POMDP)建模 在变分模型VAE中, 潜变量z用于预测可观察变量x; 难以处理的真实后验p(z|x)由易于 处 理 的 分 布 q (z | x) 逼 近 , 然 后 在 对 数 似 然 上 最 大 化 证 据 下 限 (E L B O) : 变分循环网络(V RNN)是VAE的扩展, 用于处理序列数据; 将VRNN推广到多智能体顺序决 策设置; 在Dec ‑POMDP设置中有N个智能体; 对于每个智能体, 状态转换函数p(oi, t+1|oi, t, ai, t)和奖励函数很容易地嵌入到图形模型 中; 将奖励r与智能体i的部分观察oi拼接为一个 整体xi=(oi, r); 初始分布和先验分布分别是pθ(zi, 1)和pθ(zi, t|zi, t‑1, xi, t‑1, ai, 1: t‑1); 在生成模型中, 未来的观测是通过其潜在变量 来预测的, pθ(xi, t|zi, 1: t, xi, 1: t‑1); 在推理模型中: 潜在变量zi, t由推理模型近似qφ(zi, t|zi, 1: t‑1, xi, 1: t, ai, 1: t‑1); 从对数似然上最大化证据下 限(ELBO)扩展, 智能体i的潜在变量模型的对数似然重写 为: 最大化ELBO相当于最小化损失函数 分别将qφ(zi, t|zi, 1: t‑1, xi, 1: t, ai, 1: t‑1)命名为 编码器, 将pθ(xi, t|zi, 1: t, xi, 1: t‑1)命名为解码器; 请注意, 表示损失函数的小批量版 本; 变分模型与门控循环单元(GRU)网络相结合, 该网络是高度灵活的函数逼近器; 每个智 能体的隐藏层变量可以通过递推方程更新: di, t=GRU(di, t‑1; zi, t, xi, t) (2)利用高斯分布对其中分布进行重参数化近似 生成模型 变分模型以GRU的隐藏层变量di , t为条件; 根据历史信息得到一个先验分布, 具有对角协方差结构I由于面临高维连续状态空间的问题, 使用高 斯分布作为输出; 参数化的对角高斯分布如下: 其中 和 是参数化的先验分布, θprior(·)是先验分布的神经网络参数; 给定内 部状态 通过生成模型 预测未来观察结果): 其中 和 是参数化的预测观测分布, θp(·)是神经网络参数; 推理模型 智能体i的一致信念zi, t参数化为高斯分布 给定变量xi, t:权 利 要 求 书 1/3 页 2 CN 114037048 A 2其中 和 表示参数化的高斯后验分布, φq(·)是后验分布的神经网络参数; 给定以上模 型, 计算出 中的两项; 第一项是生成模型 这是自动 编码器术语中的负重构误差; 对于每 个智能体i, 有以下公式: 其中xi, t是从重放缓冲区采样的原始状态和奖励, 是基于历史信息和潜在变量的重 构变量, 基于等式 假设 属于参数 化高斯分布, 均值为 方差为 得到参数化的 其中∈是辅助噪声 变量 第二项是KL散度; 类似地, qφ(zi, t|zi, 1: t‑1, xi, 1: t, ai, 1: t‑1)和pθ(zi, t|zi, t‑1, xi, t‑1, ai, 1: t‑1) 参数化为高斯分布, 这两个分布之间的KL散度如下 所示: 生成模型和推理模型 是联合训练的, 目标 是优化参数使得最大化ELBO; (3)智能体之间形成一 致性信念 每个智能体推断关于全局状态s的潜在变量; 给定先验分布p(zt|st), 使用DKL(qφ(zi, t| zi, 1: t‑1, xi, 1: t, ai, 1: t‑1)||p(zt|st))来推断一致信念; 让智能体之间的变分分布相互近似, 以 实现智能体之间的信念一 致性; 上述损失LCB将使智能体i的信念qφ(zi, t|zi, 1: t‑1, xi, 1: t, ai, 1: t‑1)与智能体j的信念qφ (zj, t|zj, 1: t‑1, xj, 1: t, aj, 1: t‑1)接近, 这意味着智能体i和j 将实现一 致信念; (3)构建强化学习损失函数和变分模型损失函数: CBMA的训练基于QMIX系列算法, 通过并行最小化时序差分损失和变分模型损失; 时序差分损失: 使用时序差分损失的梯度更新每个智能体的Q网络θQ和混合网络θm; 对于每个智能体的 Q‑network Qi, 输入是(oi, ai, di), 然后每个单独的效用被送入混合网络, 用于计算全局动 作值Qtot; 网络由以下等式更新: 其中ytot=r+γmaxa′Qtot(o′, d′, a′, s′; ξ‑), 智能体的Q网络和混合网络参数表示为ξ= (θQ, θm)和ξ‑是目标网络的参数; 包含每个智能体的部分可观察信息, 是变分模型计算的内部状态;权 利 要 求 书 2/3 页 3 CN 114037048 A 3

.PDF文档 专利 基于变分循环网络模型的信念一致多智能体强化学习方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于变分循环网络模型的信念一致多智能体强化学习方法 第 1 页 专利 基于变分循环网络模型的信念一致多智能体强化学习方法 第 2 页 专利 基于变分循环网络模型的信念一致多智能体强化学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:44:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。