全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111171899.X (22)申请日 2021.10.08 (71)申请人 中国科学院电工 研究所 地址 100190 北京市海淀区中关村北二条6 号 (72)发明人 尹靖元 叶泽雨 师长立 韦统振  霍群海 韩立博 彭祥华 张桐硕  (74)专利代理 机构 北京瀚仁知识产权代理事务 所(普通合伙) 11482 代理人 屠晓旭 宋宝库 (51)Int.Cl. H02J 7/00(2006.01) H01M 10/44(2006.01) G06F 30/27(2020.01) G06N 3/08(2006.01) (54)发明名称 基于强化学习的可重构电池组均衡模型的 训练方法及系统 (57)摘要 本发明涉及电池控制技术领域, 具体提供一 种基于强化学习的可重构电池组均衡模型的训 练方法及系统, 旨在解决在确保可重构电池组中 电池单体的电量均衡效果的基础上, 如何避免频 繁的开关动作的问题。 为此目的, 本发明根据每 个电池组串中电池单体的荷电状态偏差和开关 器件的开关动作的次数, 获取对电池组串中电池 单体的接入状态进行控制的智能体输出的实际 奖励值, 根据实际奖励值和目标奖励值计算智能 体的损失值并计算智能体的梯度, 反向传播更新 智能体的参数, 实现对智 能体的训练。 确保可重 构电池组中电池单体的荷电状态满足均衡要求 同时, 减少开关器件的开关动作的次数, 减少对 母线电压的影 响, 提升可重构电池组的稳定性和 安全性。 权利要求书3页 说明书13页 附图3页 CN 113964897 A 2022.01.21 CN 113964897 A 1.一种基于强化学习的可重构电池组均衡模型的训练方法, 其特征在于, 所述可重构 电池组均衡模型包括多个智能体, 所述可重构电池组包括多个电池组串, 所述多个电池组 串之间并联连接, 每个电池组串包括多个串联连接的电池单体支路, 每个所述电池单体支 路包括电池单体和两个开关器件, 所述电池单体与一个开关器件串联形成串联支路, 所述 串联支路与另一个开关器件并联; 每个所述智能体分别被配置成根据所述可重构电池组中 不同电池组串的电池单体的荷电状态控制相应电池组串中的所述开关器件的开关动作, 以 控制所述电池单体的接入状态, 实现电池单体接入电池组串或将电池单体从电池组串中切 除; 所述训练方法包括: 在每个迭代训练中, 针对每个电池组串, 获取所述电池组串中所有的 电池单体的荷电 状态, 并获取 所述电池单体在上一个迭代训练以及当前迭代训练的接入状态; 根据所述荷电状态获取对应的电池组串的电池单体的荷电状态偏差; 根据所述电池单体在上一个迭代训练以及当前迭代训练 的接入状态, 获取对应电池组 串中的所述 开关器件的开关动作的次数; 根据所述荷电状态偏差和所述开关动作的次数, 获取所述电池组串对应的智能体输出 的实际奖励值; 根据所述实际奖励值与目标奖励值计算所述智能体的损失值, 根据所述损失值计算所 述智能体的梯度, 根据所述梯度反向传播更新所述智能体的参数, 以实现对所述智能体的 训练。 2.根据权利要求1所述的训练方法, 其特征在于, “根据所述荷电状态偏差和所述开关 动作的次数, 获取所述电池组串对应的智能体输出 的实际奖励值 ”的步骤包括通过以下公 式获取所述实际奖励值: R=α1F1+α2F2 其中, R为实际奖励值, α1和α2为预设的奖励系数, F1为所述电池单体的荷电状态偏差, F2 为所述电池组串的开关动作的次数。 3.根据权利要求2所述的训练方法, 其特征在于, “根据所述荷电状态获取对应的 电池 组串的电池单体的荷电状态偏差 ”的步骤包括通过以下公式获取所述电池 单体的荷电状态 偏差: 其中, SOCmax为所述电池组串中荷电状态最大的电池单体 的荷电状态, SOCmin为所述电 池组串中荷电状态最小的电池单体的荷电状态, SOCmean为所述电池组串中所有电池单体的 荷电状态的平均值, SOCend为所述电池单体充电或放电结束时的荷电状态。 4.根据权利要求3所述的训练方法, 其特征在于, “根据所述电池单体在上一个迭代训 练以及当前迭代训练的接入状态, 获取对应电池组串中的所述开关器件的开关动作 的次 数”的步骤包括通过以下公式获取电池组串中的所述 开关器件的开关动作的次数:权 利 要 求 书 1/3 页 2 CN 113964897 A 2其中, N为所述电池组串中所述电池单体的数量, 为第t个迭代训练中电池单体i的接 入状态, 当电池单体i接入所述电池 组串时, 的取值为1, 当所述电池单体i从所述电池 组 串中被切除时, 的取值为0; 为第t‑1个迭代训练中电池单体i的接入状态。 5.根据权利要求1所述的训练方法, 其特征在于, 所述方法还包括在每个迭代训练内, 针对每个电池组串, 根据下列步骤确定下一个迭代训练内所述电池组串中所述电池单体的 接入状态: 控制智能体采用贪心算法概率并根据 所述实际奖励值, 确定在下一个迭代训练内所述 电池单体的接入状态, 以便在下一个迭代训练内能够根据所述接入状态确定开关器件的开 关动作的次数对智能体进行迭代训练; 其中, 所述 开关动作包括将电池单体接入电池组串或将电池单体从电池组串中切除。 6.一种基于强化学习的可重构电池组均衡模型的训练系统, 其特征在于, 所述可重构 电池组均衡模型包括多个智能体, 所述可重构电池组包括多个电池组串, 所述多个电池组 串之间并联连接, 每个电池组串包括多个串联连接的电池单体支路, 每个所述电池单体支 路包括电池单体和两个开关器件, 所述电池单体与一个开关器件串联形成串联支路, 所述 串联支路与另一个开关器件并联; 每个所述智能体分别被配置成根据所述可重构电池组中 不同电池组串的电池单体的荷电状态控制相应电池组串中的所述开关器件的开关动作, 以 控制所述电池单体的接入状态, 实现电池单体接入电池组串或将电池单体从电池组串中切 除; 所述训练系统包括: 电池单体接入状态获取模块, 其被配置为在每个迭代训练中, 针对每个电池组串, 获取 所述电池组串中所有的电池单体的荷电状态, 并获取所述电池单体在上一个迭代训练以及 当前迭代训练的接入状态; 荷电状态偏差获取模块, 其被配置为根据 所述荷电状态获取对应的电池组串的电池单 体的荷电状态偏差; 开关动作次数获取模块, 其被配置为根据 所述电池单体在上一个迭代训练以及 当前迭 代训练的接入状态, 获取对应电池组串中的所述 开关器件的开关动作的次数; 实际奖励值获取模块, 其被配置为根据所述荷电状态偏差和所述开关动作的次数, 获 取所述电池组串对应的智能体输出的实际奖励值; 智能体训练模块, 其被配置为根据 所述实际奖励值与目标奖励值计算所述智能体的损 失值, 根据所述损失值计算所述智能体的梯度, 根据所述梯度反向传播更新所述智能体的 参数, 以实现对所述智能体的训练。 7.根据权利要求6所述的训练系统, 其特征在于, 所述实际奖励值获取模块被进一步配 置为通过以下公式获取 所述实际奖励值: R=α1F1+α2F2权 利 要 求 书 2/3 页 3 CN 113964897 A 3

.PDF文档 专利 基于强化学习的可重构电池组均衡模型的训练方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的可重构电池组均衡模型的训练方法及系统 第 1 页 专利 基于强化学习的可重构电池组均衡模型的训练方法及系统 第 2 页 专利 基于强化学习的可重构电池组均衡模型的训练方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:45:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。