(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111217697.4
(22)申请日 2021.10.19
(65)同一申请的已公布的文献号
申请公布号 CN 113807029 A
(43)申请公布日 2021.12.17
(73)专利权人 华北电力大 学 (保定)
地址 071003 河北省保定市莲池区永华北
大街619号 华北电力大 学一校区
(72)发明人 李鹏 姜磊 王加浩 夏辉
高一航 李建宜
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 杜文茹
(51)Int.Cl.
G06F 30/27(2020.01)H02J 3/18(2006.01)
H02J 3/24(2006.01)
G06F 111/04(2020.01)
G06F 113/04(2020.01)
(56)对比文件
CN 113408962 A,2021.09.17
US 2020033933 A1,2020.01.3 0
审查员 王雅雪
(54)发明名称
基于深度强化学习的双时间尺度新能源电
网电压优化方法
(57)摘要
一种基于深度强化学习的双时间尺度电网
电压优化方法, 包括: 分别对双时间尺度方法中
的长时间尺度间隔和短时间尺度间隔进行划分;
基于DQN算法进行长时间尺度电网电压优化, 得
到长时间尺度并联电容器组投切计划; 基于DDPG
算法进行短时间尺度无功电压优化, 得到短时间
尺度连续无功补偿装置出力计划。 本发明实现各
类无功补偿装置的优势互补, 具备更强的无功电
压优化能力, 可在一天内各优化时刻点对电容器
投切计划进行统筹 安排, 有效实现快速优化。
权利要求书5页 说明书7页 附图5页
CN 113807029 B
2022.07.29
CN 113807029 B
1.一种基于深度强化学习的双时间尺度新能源电网电压优化方法, 其特征在于, 包括
如下步骤:
1)分别对双时间尺度方法中的长时间尺度间隔和短时间尺度间隔进行划分:
将一天分割成Kl个相同的长时间间隔, 在一天内每个长时间间隔的初始时刻分别为τ=
0,…,Kl‑1, 再将每个长时间间隔细 分为Ks个相同的短时间间隔, 在一个长时间间隔内每个
短时间间隔的初始时刻分别为t=0, …,Ks‑1;
2)基于DQN算法进行长时间尺度电网电压优化, 包括: 建立长时间尺度电网电压优化模
型, 利用隶属函数对多目标进 行整合, 针对长时间尺度电网电压优化模型设计奖励函数, 以
及运用DQN算法对长时间尺度电网电压优化模型进行求解, 得到长时间尺度并联电容器组
投切计划; 所述的长时间尺度电网电压优化模型, 包括:
(1)长时间尺度电网电压优化模型目标函数 Fl(T)为:
min Fl(T)=|f1(T),f2(T)|
其中, T为全部并联电容器组投切状态向量, f1(T)和f2(T)分别为目标函数Fl(T)的第一
个子目标和 第二个子目标; T( τ )表示τ 时刻全部并联电容器组投切状态向量, 各个并联电容
器组的投切状态由投切档位表示; N为电网中节点的数量; vp表示中枢节点对应的电压幅
值; vref为中枢节点对应电压参考值; pij表示节点i流向节点j的有功功率; Kl表示一天内长
时间间隔的数量;
(2)考虑电网运行潮流约束以及电压约束:
其中, pi表示注入节点i的有功功率; qi为表示注入节点i的无功功率; vi表示节点i的电
压幅值;
和
分别表示节点i的电压幅值上限和下限; Gij表示节点i和节点j间的电导;
Bij表示节点 i和节点j间的电纳; ωij表示节点 i和节点j间的电压相角差;
(3)第m台并联电容器组的投切受到投切档位Tm上下限
和
的限制:
(4)并联电容器组一天内的投切次数 上限设置为
其中, Cm表示第m台并联电容器组一天内的投切次数;
3)基于DDPG算法进行短时间尺度无功电压优化, 包括: 建立短时间尺度电网电压优化权 利 要 求 书 1/5 页
2
CN 113807029 B
2模型, 针对短时间尺度电网电压优化模型设计奖励函数, 以及运用DDPG算法对短时间尺度
电网电压优化模型进行求 解, 得到短时间尺度连续无功补偿装置出力计划。
2.根据权利要求1所述的基于深度强化学习的双时间尺度新能源电网电压优化方法,
其特征在于, 步骤2)中所述的利用隶属函数对多目标进行整合, 是采用如下公式:
其中,
表示第β 个子目标对应的单一维度上可能的最优值, 其中β =1,2; δβ为子目标
fβ取值的容忍度, 用来划定目标函数能够到达的边 界, 对于任意子目标, 当对应目标值位于
容忍范围内, 隶属函数 μ(fβ)将则子目标fβ取值映射到[0,1]之间, 在子目标fβ取值的容忍度
外时隶属函数 取值置0, 当发现新的子目标最优值时隶属函数 取值置1;
采用隶属函数映射后的新目标函数为:
min[‑μ(Fl)]=k1μ(f1)+k2μ(f2)
其中, μ(Fl)表示与目标函数Fl对应的隶属函数; f1和f2分别表示目标函数的第一个子目
标和第二个子目标; k1和k2分别为两个目标的权 重系数。
3.根据权利要求1所述的基于深度强化学习的双时间尺度新能源电网电压优化方法,
其特征在于, 步骤2)中所述的针对长时间尺度电网电压优化模型设计奖励函数rl( τ ):
其中, μ(Fl)表示与目标函数Fl对应的隶属函数; σl为长时间尺度电压越限以及电容器
投切次数越限的惩罚因子; vi( τ )表示t时刻节点i的电压幅值; Cm( τ )表示t时刻第m台并联电
容器组一天内的投切次数。
4.根据权利要求1所述的基于深度强化学习的双时间尺度新能源电网电压优化方法,
其特征在于, 步骤2)中所述的运用DQN算法对长时间尺度电网电压优化模型进 行求解, 得到
长时间尺度并联电容器组 投切计划, 包括:
(1)计算DQ N网络损失函数L( θ ):
其中, rl( τ )表示长时间尺度电网电压优化模型的奖励函数; s( τ )和s( τ ‑1)分别表示智
能体在时刻τ和时刻τ ‑1的状态, 由信息矩阵集合{v,p,q,T,C,Q}组成, v、 p、 q分别为各节点
电压幅值向量、 各节 点注入有功功功 率向量和无功功 率向量, T、 C、 Q分别为全部并联电容器
组投切状态向量、 全部并联电容器组一 天内已投切次数向量以及全部连续无功补偿装置的
无功出力向量; A为智能体的动作空间; al表示智能体所选择的动作; al(t)=T(t)是智能体
基于τ‑1时刻的状态s( τ ‑1)实施策略得出的; qπ由估计价值网络输出;
由一个与估计价
值网络形式相同的目标网络输出, 该目标网络参数 由估计价值网络每隔固定步长传入, 因
此目标网络相对估计价值网络具有一定滞后, θ和 θtarget分别为估计价值网络和目标网络参权 利 要 求 书 2/5 页
3
CN 113807029 B
3
专利 基于深度强化学习的双时间尺度新能源电网电压优化方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:45:23上传分享