专利基于深度强化学习的双时间尺度新能源电网电压优化方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111217697.4 (22)申请日 2021.10.19 (65)同一申请的已公布的文献号申请公布号 CN 113807029 A (43)申请公布日 2021.12.17 (73)专利权人华北电力大学（保定）地址 071003 河北省保定市莲池区永华北大街619号华北电力大学一校区 (72)发明人李鹏　姜磊　王加浩　夏辉　高一航　李建宜　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师杜文茹 (51)Int.Cl. G06F 30/27(2020.01)H02J 3/18(2006.01) H02J 3/24(2006.01) G06F 111/04(2020.01) G06F 113/04(2020.01) (56)对比文件 CN 113408962 A,2021.09.17 US 2020033933 A1,2020.01.3 0 审查员王雅雪 (54)发明名称基于深度强化学习的双时间尺度新能源电网电压优化方法 (57)摘要一种基于深度强化学习的双时间尺度电网电压优化方法，包括：分别对双时间尺度方法中的长时间尺度间隔和短时间尺度间隔进行划分；基于DQN算法进行长时间尺度电网电压优化，得到长时间尺度并联电容器组投切计划；基于DDPG 算法进行短时间尺度无功电压优化，得到短时间尺度连续无功补偿装置出力计划。本发明实现各类无功补偿装置的优势互补，具备更强的无功电压优化能力，可在一天内各优化时刻点对电容器投切计划进行统筹安排，有效实现快速优化。权利要求书5页说明书7页附图5页 CN 113807029 B 2022.07.29 CN 113807029 B 1.一种基于深度强化学习的双时间尺度新能源电网电压优化方法，其特征在于，包括如下步骤： 1)分别对双时间尺度方法中的长时间尺度间隔和短时间尺度间隔进行划分：将一天分割成Kl个相同的长时间间隔，在一天内每个长时间间隔的初始时刻分别为τ＝ 0,…,Kl‑1，再将每个长时间间隔细分为Ks个相同的短时间间隔，在一个长时间间隔内每个短时间间隔的初始时刻分别为t＝0, …,Ks‑1； 2)基于DQN算法进行长时间尺度电网电压优化，包括：建立长时间尺度电网电压优化模型，利用隶属函数对多目标进行整合，针对长时间尺度电网电压优化模型设计奖励函数，以及运用DQN算法对长时间尺度电网电压优化模型进行求解，得到长时间尺度并联电容器组投切计划；所述的长时间尺度电网电压优化模型，包括： (1)长时间尺度电网电压优化模型目标函数 Fl(T)为： min Fl(T)＝|f1(T),f2(T)| 其中， T为全部并联电容器组投切状态向量， f1(T)和f2(T)分别为目标函数Fl(T)的第一个子目标和第二个子目标； T( τ )表示τ 时刻全部并联电容器组投切状态向量，各个并联电容器组的投切状态由投切档位表示； N为电网中节点的数量； vp表示中枢节点对应的电压幅值； vref为中枢节点对应电压参考值； pij表示节点i流向节点j的有功功率； Kl表示一天内长时间间隔的数量； (2)考虑电网运行潮流约束以及电压约束：其中， pi表示注入节点i的有功功率； qi为表示注入节点i的无功功率； vi表示节点i的电压幅值；和分别表示节点i的电压幅值上限和下限； Gij表示节点i和节点j间的电导； Bij表示节点 i和节点j间的电纳； ωij表示节点 i和节点j间的电压相角差； (3)第m台并联电容器组的投切受到投切档位Tm上下限和的限制： (4)并联电容器组一天内的投切次数上限设置为其中， Cm表示第m台并联电容器组一天内的投切次数； 3)基于DDPG算法进行短时间尺度无功电压优化，包括：建立短时间尺度电网电压优化权　利　要　求　书 1/5 页 2 CN 113807029 B 2模型，针对短时间尺度电网电压优化模型设计奖励函数，以及运用DDPG算法对短时间尺度电网电压优化模型进行求解，得到短时间尺度连续无功补偿装置出力计划。 2.根据权利要求1所述的基于深度强化学习的双时间尺度新能源电网电压优化方法，其特征在于，步骤2)中所述的利用隶属函数对多目标进行整合，是采用如下公式：其中，表示第β 个子目标对应的单一维度上可能的最优值，其中β ＝1,2； δβ为子目标 fβ取值的容忍度，用来划定目标函数能够到达的边界，对于任意子目标，当对应目标值位于容忍范围内，隶属函数 μ(fβ)将则子目标fβ取值映射到[0,1]之间，在子目标fβ取值的容忍度外时隶属函数取值置0，当发现新的子目标最优值时隶属函数取值置1；采用隶属函数映射后的新目标函数为： min[‑μ(Fl)]＝k1μ(f1)+k2μ(f2) 其中， μ(Fl)表示与目标函数Fl对应的隶属函数； f1和f2分别表示目标函数的第一个子目标和第二个子目标； k1和k2分别为两个目标的权重系数。 3.根据权利要求1所述的基于深度强化学习的双时间尺度新能源电网电压优化方法，其特征在于，步骤2)中所述的针对长时间尺度电网电压优化模型设计奖励函数rl( τ )：其中， μ(Fl)表示与目标函数Fl对应的隶属函数； σl为长时间尺度电压越限以及电容器投切次数越限的惩罚因子； vi( τ )表示t时刻节点i的电压幅值； Cm( τ )表示t时刻第m台并联电容器组一天内的投切次数。 4.根据权利要求1所述的基于深度强化学习的双时间尺度新能源电网电压优化方法，其特征在于，步骤2)中所述的运用DQN算法对长时间尺度电网电压优化模型进行求解，得到长时间尺度并联电容器组投切计划，包括： (1)计算DQ N网络损失函数L( θ )：其中， rl( τ )表示长时间尺度电网电压优化模型的奖励函数； s( τ )和s( τ ‑1)分别表示智能体在时刻τ和时刻τ ‑1的状态，由信息矩阵集合{v,p,q,T,C,Q}组成， v、 p、 q分别为各节点电压幅值向量、各节点注入有功功功率向量和无功功率向量， T、 C、 Q分别为全部并联电容器组投切状态向量、全部并联电容器组一天内已投切次数向量以及全部连续无功补偿装置的无功出力向量； A为智能体的动作空间； al表示智能体所选择的动作； al(t)＝T(t)是智能体基于τ‑1时刻的状态s( τ ‑1)实施策略得出的； qπ由估计价值网络输出；由一个与估计价值网络形式相同的目标网络输出，该目标网络参数由估计价值网络每隔固定步长传入，因此目标网络相对估计价值网络具有一定滞后， θ和 θtarget分别为估计价值网络和目标网络参权　利　要　求　书 2/5 页 3 CN 113807029 B 3

专利 基于深度强化学习的双时间尺度新能源电网电压优化方法

专利基于深度强化学习的双时间尺度新能源电网电压优化方法