专利基于变分循环网络模型的信念一致多智能体强化学习方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111200399.4 (22)申请日 2021.10.15 (71)申请人大连理工大学地址 116024 辽宁省大连市凌工路２号 (72)发明人刘宇　张现杰　赵哲焕　单世民　 (74)专利代理机构辽宁鸿文知识产权代理有限公司 21102 代理人苗青 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 3/00(2006.01) G06N 5/04(2006.01) G06N 20/00(2019.01) G06F 30/27(2020.01)G06Q 10/10(2012.01) (54)发明名称基于变分循环网络模型的信念一致多智能体强化学习方法 (57)摘要本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法，该方法启发于人类团队之间的可以产生默契合作的现象，即通过共同的信念在任务上达成一致性共识。与人类社会群体类似，分布式学习系统中的智能体也可以受益于一致的信念，在有限的通信条件下实现协作。在本文中，我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法，它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念，以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明，该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。权利要求书3页说明书6页附图6页 CN 114037048 A 2022.02.11 CN 114037048 A 1.基于变分循环模型的信念一致多智能体强化学习方法，其特征在于，步骤如下： (1)变分模型对分布式部分观测马尔科夫过程(Dec ‑POMDP)建模在变分模型VAE中，潜变量z用于预测可观察变量x；难以处理的真实后验p(z|x)由易于处理的分布 q (z | x) 逼近，然后在对数似然上最大化证据下限 (E L B O) ：变分循环网络(V RNN)是VAE的扩展，用于处理序列数据；将VRNN推广到多智能体顺序决策设置；在Dec ‑POMDP设置中有N个智能体；对于每个智能体，状态转换函数p(oi， t+1|oi， t， ai， t)和奖励函数很容易地嵌入到图形模型中；将奖励r与智能体i的部分观察oi拼接为一个整体xi＝(oi， r)；初始分布和先验分布分别是pθ(zi， 1)和pθ(zi， t|zi， t‑1， xi， t‑1， ai， 1： t‑1)；在生成模型中，未来的观测是通过其潜在变量来预测的， pθ(xi， t|zi， 1： t， xi， 1： t‑1)；在推理模型中：潜在变量zi， t由推理模型近似qφ(zi， t|zi， 1： t‑1， xi， 1： t， ai， 1： t‑1)；从对数似然上最大化证据下限(ELBO)扩展，智能体i的潜在变量模型的对数似然重写为：最大化ELBO相当于最小化损失函数分别将qφ(zi， t|zi， 1： t‑1， xi， 1： t， ai， 1： t‑1)命名为编码器，将pθ(xi， t|zi， 1： t， xi， 1： t‑1)命名为解码器；请注意，表示损失函数的小批量版本；变分模型与门控循环单元(GRU)网络相结合，该网络是高度灵活的函数逼近器；每个智能体的隐藏层变量可以通过递推方程更新： di， t＝GRU(di， t‑1； zi， t， xi， t) (2)利用高斯分布对其中分布进行重参数化近似生成模型变分模型以GRU的隐藏层变量di ， t为条件；根据历史信息得到一个先验分布，具有对角协方差结构I由于面临高维连续状态空间的问题，使用高斯分布作为输出；参数化的对角高斯分布如下：其中和是参数化的先验分布， θprior(·)是先验分布的神经网络参数；给定内部状态通过生成模型预测未来观察结果)：其中和是参数化的预测观测分布， θp(·)是神经网络参数；推理模型智能体i的一致信念zi， t参数化为高斯分布给定变量xi， t：权　利　要　求　书 1/3 页 2 CN 114037048 A 2其中和表示参数化的高斯后验分布， φq(·)是后验分布的神经网络参数；给定以上模型，计算出中的两项；第一项是生成模型这是自动编码器术语中的负重构误差；对于每个智能体i，有以下公式：其中xi， t是从重放缓冲区采样的原始状态和奖励，是基于历史信息和潜在变量的重构变量，基于等式假设属于参数化高斯分布，均值为方差为得到参数化的其中∈是辅助噪声变量第二项是KL散度；类似地， qφ(zi， t|zi， 1： t‑1， xi， 1： t， ai， 1： t‑1)和pθ(zi， t|zi， t‑1， xi， t‑1， ai， 1： t‑1) 参数化为高斯分布，这两个分布之间的KL散度如下所示：生成模型和推理模型是联合训练的，目标是优化参数使得最大化ELBO； (3)智能体之间形成一致性信念每个智能体推断关于全局状态s的潜在变量；给定先验分布p(zt|st)，使用DKL(qφ(zi， t| zi， 1： t‑1， xi， 1： t， ai， 1： t‑1)||p(zt|st))来推断一致信念；让智能体之间的变分分布相互近似，以实现智能体之间的信念一致性；上述损失LCB将使智能体i的信念qφ(zi， t|zi， 1： t‑1， xi， 1： t， ai， 1： t‑1)与智能体j的信念qφ (zj， t|zj， 1： t‑1， xj， 1： t， aj， 1： t‑1)接近，这意味着智能体i和j 将实现一致信念； (3)构建强化学习损失函数和变分模型损失函数： CBMA的训练基于QMIX系列算法，通过并行最小化时序差分损失和变分模型损失；时序差分损失：使用时序差分损失的梯度更新每个智能体的Q网络θQ和混合网络θm；对于每个智能体的 Q‑network Qi，输入是(oi， ai， di)，然后每个单独的效用被送入混合网络，用于计算全局动作值Qtot；网络由以下等式更新：其中ytot＝r+γmaxa′Qtot(o′， d′， a′， s′； ξ‑)，智能体的Q网络和混合网络参数表示为ξ＝ (θQ， θm)和ξ‑是目标网络的参数；包含每个智能体的部分可观察信息，是变分模型计算的内部状态；权　利　要　求　书 2/3 页 3 CN 114037048 A 3

专利 基于变分循环网络模型的信念一致多智能体强化学习方法

专利基于变分循环网络模型的信念一致多智能体强化学习方法