全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111211621.0 (22)申请日 2021.10.18 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 祝豪瑜 尹本顺 陈智勇 宋利  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 代理人 胡晶 (51)Int.Cl. G06F 30/27(2020.01) G06F 111/06(2020.01) (54)发明名称 基于强化学习的多目标优化方法及系统 (57)摘要 本发明提供了一种基于强化学习的多目标 优化方法及系统, 包括如下步骤: 步骤S1: 基于强 化学习对多目标优化, 获得优化的帕累托前沿及 对应的优化的帕累托解集; 步骤S2: 根据需求应 用优化的帕累托前沿与对应的优化的帕累托解 集。 本发明基于强化学习技术, 将多目标优化问 题中的每个目标利用强化学习算法取得针对该 目标的子 策略, 并将所有子策略和当前策略综合 得到新策略, 经过迭代可以获得该多目标优化问 题的更好的帕累托最优前沿及对应的帕累托最 优解集。 权利要求书2页 说明书8页 附图3页 CN 113947018 A 2022.01.18 CN 113947018 A 1.一种基于强化学习的多目标优化方法, 其特 征在于, 包括如下步骤: 步骤S1: 基于强化学习对多目标优化, 获得优化的帕累托前沿及对应的优化的帕累托 解集; 步骤S2: 根据需求应用优化的帕累托前沿与对应的优化的帕累托 解集。 2.根据权利要求1所述的基于强化学习的多目标优化方法, 其特征在于, 所述步骤S1包 括如下步骤: 步骤S1.1: 根据多目标优化问题定义环境和智能体, 且定义智能体在环境中的状态、 动 作和获得的目标的奖励; 步骤S1.2: 建立初始为空的缓存和初始为空的结果 集合; 步骤S1.3: 根据当前策略, 将一个或若干个回合中智能体在环境中所经历的状态、 所执 行的动作和所获得的目标的奖励作为样本存入缓存, 并将每个回合的动作序列和每个目标 的结果存 入结果集合; 步骤S1.4: 根据缓存中的样本, 针对多目标优化问题中的每 个目标优化若干个子策略; 步骤S1.5: 根据得到的优化的子策略和当前 策略, 综合得到总策略; 步骤S1.6: 清除缓存中的样本, 并将总策略作为下一次获取样本时智能体的当前策略; 如果未达成训练停止条件, 则并回到步骤S1.3; 步骤S1.7: 根据结果集合中的每个回合的结果作为一个结果点, 进行非支配点排序, 得 到帕累托前沿及对应的帕累托 解集。 3.根据权利要求2所述的基于强化学习的多目标优化方法, 其特征在于, 在所述步骤 1.2中, 输入初始策略; 在第一次到达步骤S1.3时, 当前策略为初始策略; 在第二次和第二次以后到达步骤 S1.3时, 当前 策略为得到的总策略。 4.根据权利要求2所述的基于强化学习的多目标优化方法及系统, 其特征在于, 在所述 步骤1.2中, 输入子策略学习率和总策略学习率; 子策略学习率和总策略学习率在步骤S1.4和步骤S1.5中作为子策略和总策略的优化 器中的迭代参数使用。 5.根据权利要求2所述的基于强化学习的多目标优化方法, 其特征在于, 在所述步骤 1.3中, 所 执行的动作构成动作序列, 每 个目标对应的奖励累加构成每 个目标的结果。 6.根据权利要求2所述的基于强化学习的多目标优化方法, 其特征在于, 在所述步骤 S1.4中, 使用任何基于策略的强化学习中的优化算法, 包括但不限于策略梯度和 近端策略 优化。 7.根据权利要求1所述的基于强化学习的多目标优化方法, 其特征在于, 在所述步骤 S1.5中, 总策略与子策略的差距及总策 略与当前策 略的差距的和, 差距使用多种方式进行 衡量。 8.根据权利要求1所述的基于强化学习的多目标优化方法, 其特征在于, 在所述步骤 S1.6中, 训练停止条件 包括但不限于训练次数小于预定值和两次训练的差距小于门限。 9.一种基于强化学习的多目标优化系统, 其特 征在于, 包括如下模块: 模块M1: 基于强化学习对多目标优化, 获得优化的帕累托前沿及对应的优化的帕累托 解集;权 利 要 求 书 1/2 页 2 CN 113947018 A 2模块M2: 根据需求应用优化的帕累托前沿与对应的优化的帕累托 解集。 10.根据权利要求9所述的基于强化学习的多目标优化系统, 其特征在于, 所述模块M1 包括如下模块: 模块M1.1: 根据多目标优化问题定义环境和智能体, 且定义智能体在环境中的状态、 动 作和获得的目标的奖励; 模块M1.2: 建立初始为空的缓存和初始为空的结果 集合; 模块M1.3: 根据当前策略, 将一个或若干个回合中智能体在环境中所经历的状态、 所执 行的动作和所获得的目标的奖励作为样本存入缓存, 并将每个回合的动作序列和每个目标 的结果存 入结果集合; 模块M1.4: 根据缓存中的样本, 针对多目标优化问题中的每 个目标优化若干个子策略; 模块M1.5: 根据得到的优化的子策略和当前 策略, 综合得到总策略; 模块M1.6: 清除缓存中的样本, 并将总策略作为下一次获取样本时智能体的当前策略; 如果未达成训练停止条件, 则并回到模块M1.3; 模块M1.7: 根据结果集合中的每个回合的结果作为一个结果点, 进行非支配点排序, 得 到帕累托前沿及对应的帕累托 解集。权 利 要 求 书 2/2 页 3 CN 113947018 A 3

.PDF文档 专利 基于强化学习的多目标优化方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的多目标优化方法及系统 第 1 页 专利 基于强化学习的多目标优化方法及系统 第 2 页 专利 基于强化学习的多目标优化方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:45:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。