专利一种基于分层深度强化学习的电动汽车充电引导策略方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111414488.9 (22)申请日 2021.11.25 (71)申请人福建船政交通职业学院地址 350007 福建省福州市仓山区首山路 112号 (72)发明人詹华　江昌旭　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 代理人冯炳辉 (51)Int.Cl. G06F 30/27(2020.01) G06N 7/00(2006.01) G06F 111/06(2020.01) (54)发明名称一种基于分层深度强化学习的电动汽车充电引导策略方法 (57)摘要本发明公开了一种基于分层深度强化学习的电动汽车充电引导策略方法，包括步骤： S1、构建考虑多种不确定因素的电动汽车充电引导两层随机优化模型； S2、将该两层随机优化模型转换为未知转移概率的马尔科夫决策过程； S3、在给定马尔科夫决策过程基础上提出一种改进的分层深度强化学习算法，并对其进行训练，得到最终的电动汽车充电引导策略。该方法使用了一种改进的分层深度强化学习算法，包含两层强化学习，上层强化学习用于对电动汽车充电引导目的地的优化，下层强化学习用于对电动汽车充电引导路径的优化。该方法能够在线实时对电动汽车进行充电引导，能够有效降低电动汽车充电旅途费用和充电费用，并且当环境改变后具有快速的自适应性能。权利要求书6页说明书12页 CN 114117910 A 2022.03.01 CN 114117910 A 1.一种基于分层深度强化学习的电动汽车充电引导策略方法，其特征在于，包括以下步骤： S1、构建考虑多种不确定因素的电动汽车充电引导两层随机优化模型； S2、将该两层随机优化模型转换为未知转移概率的马尔科夫决策过程； S3、在给定马尔科夫决策过程基础上提出一种改进的分层深度强化学习算法，并对其进行训练，得到最终的电动汽车充电引导策略；其中，改进的分层深度强化学习算法包含两层强化学习，上层强化学习用于对电动汽车充电引导目的地的优化，在此基础上，下层强化学习用于对电动汽车充电引导路径的优化。 2.根据权利要求1所述的一种基于分层深度强化学习的电动汽车充电引导策略方法，其特征在于，所述步骤S1包括以下步骤： S101、建立考虑多种不确定因素的电动汽车充电引导随机优化模型电动汽车充电引导策略目标为最小化电动汽车充电总费用，该费用包括前往充电站的旅途费用和充电站中充电费用两部分，表达如下数学模型： s.t. k∈D,L∈Ω (8) 式中，表示电动汽车前往充电站k通过路径L的旅途费用；表示电动汽车在充电站k充电时的费用； l∈L表示充电路径上的一段道路；表示电动汽车前往充电站k通过道路l的花费的电量费用；表示电动汽车前往充电站k通过道路l所需的时间； β 表示单位时间成本；表示电动汽车在充电站k时充电的电量费用；表示电动汽车在充电站k时的充电等待时间，本模型中其表示为随机变量；表示平均电价； α 表示单位距离平均耗电量，本模型中其表示为随机变量； dk,l和vk,l表示电动汽车前往充电站k时道路l的距离和行驶速度；表示充电站k的实时电价； SOCdecide和分别表示电动汽车决策时和到达充电站k时的剩余电量； Emax表示电池的容量； λ表示单位距离的平均耗电量，即λ＝α /Emax； D和Ω表示充电站集合和前往充电站所有路径集合；以上数学模型，式(1)表示充电引导的目标函数，即最小化电动汽车前往充电站的旅途费用和充电费用；式(2)表示电动汽车旅途费用，由两部分组成：一是在路径 L上消耗电量的权　利　要　求　书 1/6 页 2 CN 114117910 A 2费用即式(4)所示，二是通过路径L所需要的时间费用即式(5)所示；式(3)表示电动汽车充电费用，由两部分组成：一是在充电站k时充电电量费用即式(6)所示，二是充电等待时间的成本；式(7)表示电动汽车剩余电量SOC变化情况； S102、建立考虑多种不确定因素的电动汽车充电引导两层随机优化模型从步骤S101中能够得出，电动汽车充电引导模型其实能够划分为两层随机优化，即当电动汽车由于电量低需要进行充电时，电动汽车用户首先需要根据当前的车况、交通和充电站状态选定某个目标充电站；然后，在充电目的地已经明确的前提下，寻找一条最优的行驶路线，使得电动汽车尽快到达充电目的地，同时期望充电时的花费尽可能小；建立考虑多种不确定因素的电动汽车充电引导两层随机优化模型如下： s.t. k∈D,L∈Ω (15) 式中，表示电动汽车前往充电站k时选择路径L的最小花费；上层目标为式(9)所示，其表示电动汽车选择充电站k以使得电动汽车在充电站中的费用和式(10)表示的下层充电旅途费用之和最小。 3.根据权利要求1所述的一种基于分层深度强化学习的电动汽车充电引导策略方法，其特征在于，所述步骤S2包括以下步骤： S201、构建马尔科夫决策过程MDP的状态st模型电动汽车充电引导策略包括充电目的地和充电路径决策；电动汽车目的地优化主要涉及到电动汽车和充电站两大主体，而电动汽车充电路径决策主要涉及电动汽车和交通网络两大主题，因此其MD P状态也将不一样，具体构建为：式中，为电动汽车充电目的地决策状态，其主要与电动汽车位置nt、剩余电量SOCt、各充电站电价各充电站预计等待时间和时间t相关；表示电动汽车充电路径决策状态，其主要与电动汽车位置nt、目的地位置CSi、剩余电量SOCt和时间t相关； S202、构建马尔科夫决策过程MDP的行为at模型权　利　要　求　书 2/6 页 3 CN 114117910 A 3

专利 一种基于分层深度强化学习的电动汽车充电引导策略方法

专利一种基于分层深度强化学习的电动汽车充电引导策略方法