全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111173027.7 (22)申请日 2021.10.08 (71)申请人 中国科学院电工 研究所 地址 100190 北京市海淀区中关村北二条6 号 (72)发明人 叶泽雨 尹靖元 师长立 韦统振  罗彦 韩立博 彭祥华 张桐硕  (74)专利代理 机构 北京瀚仁知识产权代理事务 所(普通合伙) 11482 代理人 屠晓旭 宋宝库 (51)Int.Cl. G06F 30/27(2020.01) H02J 7/00(2006.01) G06F 111/04(2020.01) (54)发明名称 电池组均衡控制模型的训练方法、 装置及介 质 (57)摘要 本发明涉及电池控制技术领域, 具体提供一 种电池组均衡控制模型的训练方法、 装置及介 质, 旨在解决确保电池组正常工作的前提下, 有 效提升电池 单体的寿命和安全性, 并确保母线电 压的稳定性的问题。 为此目的, 本发明能够根据 电池组中每个电池单体的荷电状态偏差、 开关器 件的开关动作的次数以及母线电压波动偏差对 控制电池单体接入状态的智能体进行有效训练, 以使智能体在对电池组中的电池单体的接入状 态进行控制时, 尽量减少开关器件的开关动作的 次数以及开 关动作对于母线电压的影 响, 提升了 开关器件的使用寿命以及母线电压的稳定性, 也 就提升了电池组的性能和安全性。 权利要求书3页 说明书14页 附图4页 CN 113987921 A 2022.01.28 CN 113987921 A 1.一种电池组均衡控制模型的训练方法, 其特征在于, 所述电池组均衡控制模型包括 智能体, 所述电池组包括多个串联连接的电池单体支路, 每个所述电池单体支路包括电池 单体和两个开关器件, 所述电池单体与一个开关器件串联形成串联支路, 所述串联支路与 另一个开关器件并联; 所述智能体被配置为根据电池组中电池单体的荷电状态控制所述开 关器件的开关动作, 以控制所述电池单体的接入状态, 实现电池单体接入所述电池组或将 电池单体从所述电池组中切除, 所述电池组与负载连接, 形成为所述负载进行供电的供电 回路; 所述训练方法包括: 在每个迭代训练中, 获取所述电池组中所有电池单体的荷电状态, 电池单体在当前迭 代训练以及下一个迭代训练的接入状态, 以及所述供电回路的母线电压; 根据所述电池单体的荷电状态, 获取 所述电池单体的荷电状态偏差; 根据所述电池单体在当前迭代训练以及下一个迭代训练 的接入状态, 获取所述电池组 中的所述 开关器件的开关动作的次数; 根据所述供电回路的母线电压, 获取 所述供电回路的母线电压波动偏差; 根据所述荷电状态偏差、 所述开关动作的次数以及所述母线电压波动偏差, 获取所述 智能体输出的实际奖励值; 应用梯度下降法, 根据所述实 际奖励值计算所述智能体的参数的梯度值, 根据所述梯 度值反向传播更新所述智能体的参数, 以实现对所述智能体的训练。 2.根据权利要求1所述的训练方法, 其特征在于, “根据所述荷电状态偏差、 所述开关动 作的次数以及所述母线电压波动偏差, 获取所述智能体输出 的实际奖励值 ”的步骤包括通 过以下公式获取 所述实际奖励值: R=α1(ΔV‑T1)+α2F+α3(ΔSOC‑T2) 其中, R表示所述实际奖励值, ΔV表示所述母线电压波动偏差, F表示所述开关动作的 次数, ΔSOC表示所述荷电状态偏差, T1表示预设的母线电压波动偏差的阈值, T2表示预设的 荷电状态偏差的阈值, α1、 α2、 α3表示预设的奖励系数。 3.根据权利要求2所述的训练方法, 其特征在于, “根据所述电池单体的荷电状态, 获取 所述电池单体的荷电状态偏差 ”的步骤包括通过以下公式获取所述电池单体的荷电状态偏 差: 其中, SOCBAT_max表示所述电池组中荷电状态最大的电池单体的荷电状态, SOCBAT_min表示 所述电池组中荷电状态最小的电池单体的荷电状态, SOCend表示所述电池单体充电或放电 结束时的荷电状态, SOC ′表示所述电池组中所有电池单体的荷电状态的平均值。 4.根据权利要求3所述的训练方法, 其特征在于, “根据所述电池单体在当前迭代训练 以及下一个迭代训练的接入状态, 获取所述电池组中的所述开关器件的开关动作的次数 ” 的步骤包括通过以下公式获取 所述电池组中的所述 开关器件的开关动作的次数 F:权 利 要 求 书 1/3 页 2 CN 113987921 A 2其中, N表示所述电池组中所述电池单体的数量, 表示第t个迭代训练中电池单体i的 接入状态, 当电池单体i接入所述电池组时, 的取值为1, 当所述电池单体i从所述电池组 中被切除时, 的取值为0; 表示第t+1个迭代训练内电池单体i的接入状态。 5.根据权利要求4所述的训练方法, 其特征在于, “根据所述供电回路的母线电压, 获取 所述供电回路的母线电压波动 偏差”的步骤包括通过以下公式获取所述母线电压波动 偏差 ΔV: 其中, VB表示所述供电回路的母线电压, VR表示所述母线电压的额定值。 6.根据权利要求1所述的训练方法, 其特征在于, “应用梯度 下降法, 根据 所述实际奖励 值计算所述智能体的参数 的梯度值, 根据所述梯度值反向传播更新所述智能体的参数, 以 实现对所述智能体的训练 ”的步骤包括通过以下公式更新所述智能体的参数: 其中, θt表示第t个迭代训练中所述智能体的参数, θt+1表示第t+1个迭代训练中所述智 能体的参数, St表示第t个迭代训练中所述电池单体的状态的集合, 所述电池单体的状态包 括电池单体的接入状态和荷电状态, At表示第t个迭代训练中所述开关器件的动作集合, Q (St, At; θt)表示第t个迭代训练中动作集合At的价值函数, 表示所述智能体输出的奖 励的目标值, α 表示预设的学习率, 表示第t个迭代训练 中根据所述价值函 数计算得到的参数θt的梯度值。 7.根据权利要求6所述的训练方法, 其特征在于, 所述方法还包括通过以下公式获取所 述智能体输出的奖励的目标值 其中, Rt+1表示第t+1个迭代训练所述智能体输出的实际奖励值, γ表示预设的折扣因 子, 表示第t个迭代训练中所述开关器件的动作集合中价值最大 的开关器件的动作, St+1表示第t+1个迭代训练中所述电池单体的状态的集合, Q(St+1, a; θt) 表示第t+1个迭代训练中所述开关器件执行动作a时的价值函数, θt‑表示第t个迭代训练中 所述智能体包 含的目标网络的参数。 8.一种控制装置, 包括处理器和存储装置, 所述存储装置适于存储多条程序代码, 其特 征在于, 所述程序 代码适于由所述处理器加载并运行以执行权利要求 1至7中任一项 所述的 电池组均衡控制模型的训练方法。 9.一种计算机可读存储介质, 其中存储有多条程序代码, 其特征在于, 所述程序代码适 于由处理器加载并运行以执行权利要求1至7中任一项所述的电池组均衡控制模型 的训练权 利 要 求 书 2/3 页 3 CN 113987921 A 3

.PDF文档 专利 电池组均衡控制模型的训练方法、装置及介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 电池组均衡控制模型的训练方法、装置及介质 第 1 页 专利 电池组均衡控制模型的训练方法、装置及介质 第 2 页 专利 电池组均衡控制模型的训练方法、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:46:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。