专利基于强化学习的多目标优化方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111211621.0 (22)申请日 2021.10.18 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人祝豪瑜　尹本顺　陈智勇　宋利　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 代理人胡晶 (51)Int.Cl. G06F 30/27(2020.01) G06F 111/06(2020.01) (54)发明名称基于强化学习的多目标优化方法及系统 (57)摘要本发明提供了一种基于强化学习的多目标优化方法及系统，包括如下步骤：步骤S1：基于强化学习对多目标优化，获得优化的帕累托前沿及对应的优化的帕累托解集；步骤S2：根据需求应用优化的帕累托前沿与对应的优化的帕累托解集。本发明基于强化学习技术，将多目标优化问题中的每个目标利用强化学习算法取得针对该目标的子策略，并将所有子策略和当前策略综合得到新策略，经过迭代可以获得该多目标优化问题的更好的帕累托最优前沿及对应的帕累托最优解集。权利要求书2页说明书8页附图3页 CN 113947018 A 2022.01.18 CN 113947018 A 1.一种基于强化学习的多目标优化方法，其特征在于，包括如下步骤：步骤S1：基于强化学习对多目标优化，获得优化的帕累托前沿及对应的优化的帕累托解集；步骤S2：根据需求应用优化的帕累托前沿与对应的优化的帕累托解集。 2.根据权利要求1所述的基于强化学习的多目标优化方法，其特征在于，所述步骤S1包括如下步骤：步骤S1.1：根据多目标优化问题定义环境和智能体，且定义智能体在环境中的状态、动作和获得的目标的奖励；步骤S1.2：建立初始为空的缓存和初始为空的结果集合；步骤S1.3：根据当前策略，将一个或若干个回合中智能体在环境中所经历的状态、所执行的动作和所获得的目标的奖励作为样本存入缓存，并将每个回合的动作序列和每个目标的结果存入结果集合；步骤S1.4：根据缓存中的样本，针对多目标优化问题中的每个目标优化若干个子策略；步骤S1.5：根据得到的优化的子策略和当前策略，综合得到总策略；步骤S1.6：清除缓存中的样本，并将总策略作为下一次获取样本时智能体的当前策略；如果未达成训练停止条件，则并回到步骤S1.3；步骤S1.7：根据结果集合中的每个回合的结果作为一个结果点，进行非支配点排序，得到帕累托前沿及对应的帕累托解集。 3.根据权利要求2所述的基于强化学习的多目标优化方法，其特征在于，在所述步骤 1.2中，输入初始策略；在第一次到达步骤S1.3时，当前策略为初始策略；在第二次和第二次以后到达步骤 S1.3时，当前策略为得到的总策略。 4.根据权利要求2所述的基于强化学习的多目标优化方法及系统，其特征在于，在所述步骤1.2中，输入子策略学习率和总策略学习率；子策略学习率和总策略学习率在步骤S1.4和步骤S1.5中作为子策略和总策略的优化器中的迭代参数使用。 5.根据权利要求2所述的基于强化学习的多目标优化方法，其特征在于，在所述步骤 1.3中，所执行的动作构成动作序列，每个目标对应的奖励累加构成每个目标的结果。 6.根据权利要求2所述的基于强化学习的多目标优化方法，其特征在于，在所述步骤 S1.4中，使用任何基于策略的强化学习中的优化算法，包括但不限于策略梯度和近端策略优化。 7.根据权利要求1所述的基于强化学习的多目标优化方法，其特征在于，在所述步骤 S1.5中，总策略与子策略的差距及总策略与当前策略的差距的和，差距使用多种方式进行衡量。 8.根据权利要求1所述的基于强化学习的多目标优化方法，其特征在于，在所述步骤 S1.6中，训练停止条件包括但不限于训练次数小于预定值和两次训练的差距小于门限。 9.一种基于强化学习的多目标优化系统，其特征在于，包括如下模块：模块M1：基于强化学习对多目标优化，获得优化的帕累托前沿及对应的优化的帕累托解集；权　利　要　求　书 1/2 页 2 CN 113947018 A 2模块M2：根据需求应用优化的帕累托前沿与对应的优化的帕累托解集。 10.根据权利要求9所述的基于强化学习的多目标优化系统，其特征在于，所述模块M1 包括如下模块：模块M1.1：根据多目标优化问题定义环境和智能体，且定义智能体在环境中的状态、动作和获得的目标的奖励；模块M1.2：建立初始为空的缓存和初始为空的结果集合；模块M1.3：根据当前策略，将一个或若干个回合中智能体在环境中所经历的状态、所执行的动作和所获得的目标的奖励作为样本存入缓存，并将每个回合的动作序列和每个目标的结果存入结果集合；模块M1.4：根据缓存中的样本，针对多目标优化问题中的每个目标优化若干个子策略；模块M1.5：根据得到的优化的子策略和当前策略，综合得到总策略；模块M1.6：清除缓存中的样本，并将总策略作为下一次获取样本时智能体的当前策略；如果未达成训练停止条件，则并回到模块M1.3；模块M1.7：根据结果集合中的每个回合的结果作为一个结果点，进行非支配点排序，得到帕累托前沿及对应的帕累托解集。权　利　要　求　书 2/2 页 3 CN 113947018 A 3

专利 基于强化学习的多目标优化方法及系统

专利基于强化学习的多目标优化方法及系统