专利基于强化学习的可重构电池组均衡模型的训练方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111171899.X (22)申请日 2021.10.08 (71)申请人中国科学院电工研究所地址 100190 北京市海淀区中关村北二条6 号 (72)发明人尹靖元　叶泽雨　师长立　韦统振　霍群海　韩立博　彭祥华　张桐硕　 (74)专利代理机构北京瀚仁知识产权代理事务所(普通合伙) 11482 代理人屠晓旭　宋宝库 (51)Int.Cl. H02J 7/00(2006.01) H01M 10/44(2006.01) G06F 30/27(2020.01) G06N 3/08(2006.01) (54)发明名称基于强化学习的可重构电池组均衡模型的训练方法及系统 (57)摘要本发明涉及电池控制技术领域，具体提供一种基于强化学习的可重构电池组均衡模型的训练方法及系统，旨在解决在确保可重构电池组中电池单体的电量均衡效果的基础上，如何避免频繁的开关动作的问题。为此目的，本发明根据每个电池组串中电池单体的荷电状态偏差和开关器件的开关动作的次数，获取对电池组串中电池单体的接入状态进行控制的智能体输出的实际奖励值，根据实际奖励值和目标奖励值计算智能体的损失值并计算智能体的梯度，反向传播更新智能体的参数，实现对智能体的训练。确保可重构电池组中电池单体的荷电状态满足均衡要求同时，减少开关器件的开关动作的次数，减少对母线电压的影响，提升可重构电池组的稳定性和安全性。权利要求书3页说明书13页附图3页 CN 113964897 A 2022.01.21 CN 113964897 A 1.一种基于强化学习的可重构电池组均衡模型的训练方法，其特征在于，所述可重构电池组均衡模型包括多个智能体，所述可重构电池组包括多个电池组串，所述多个电池组串之间并联连接，每个电池组串包括多个串联连接的电池单体支路，每个所述电池单体支路包括电池单体和两个开关器件，所述电池单体与一个开关器件串联形成串联支路，所述串联支路与另一个开关器件并联；每个所述智能体分别被配置成根据所述可重构电池组中不同电池组串的电池单体的荷电状态控制相应电池组串中的所述开关器件的开关动作，以控制所述电池单体的接入状态，实现电池单体接入电池组串或将电池单体从电池组串中切除；所述训练方法包括：在每个迭代训练中，针对每个电池组串，获取所述电池组串中所有的电池单体的荷电状态，并获取所述电池单体在上一个迭代训练以及当前迭代训练的接入状态；根据所述荷电状态获取对应的电池组串的电池单体的荷电状态偏差；根据所述电池单体在上一个迭代训练以及当前迭代训练的接入状态，获取对应电池组串中的所述开关器件的开关动作的次数；根据所述荷电状态偏差和所述开关动作的次数，获取所述电池组串对应的智能体输出的实际奖励值；根据所述实际奖励值与目标奖励值计算所述智能体的损失值，根据所述损失值计算所述智能体的梯度，根据所述梯度反向传播更新所述智能体的参数，以实现对所述智能体的训练。 2.根据权利要求1所述的训练方法，其特征在于， “根据所述荷电状态偏差和所述开关动作的次数，获取所述电池组串对应的智能体输出的实际奖励值 ”的步骤包括通过以下公式获取所述实际奖励值： R＝α1F1+α2F2 其中， R为实际奖励值， α1和α2为预设的奖励系数， F1为所述电池单体的荷电状态偏差， F2 为所述电池组串的开关动作的次数。 3.根据权利要求2所述的训练方法，其特征在于， “根据所述荷电状态获取对应的电池组串的电池单体的荷电状态偏差 ”的步骤包括通过以下公式获取所述电池单体的荷电状态偏差：其中， SOCmax为所述电池组串中荷电状态最大的电池单体的荷电状态， SOCmin为所述电池组串中荷电状态最小的电池单体的荷电状态， SOCmean为所述电池组串中所有电池单体的荷电状态的平均值， SOCend为所述电池单体充电或放电结束时的荷电状态。 4.根据权利要求3所述的训练方法，其特征在于， “根据所述电池单体在上一个迭代训练以及当前迭代训练的接入状态，获取对应电池组串中的所述开关器件的开关动作的次数”的步骤包括通过以下公式获取电池组串中的所述开关器件的开关动作的次数：权　利　要　求　书 1/3 页 2 CN 113964897 A 2其中， N为所述电池组串中所述电池单体的数量，为第t个迭代训练中电池单体i的接入状态，当电池单体i接入所述电池组串时，的取值为1，当所述电池单体i从所述电池组串中被切除时，的取值为0；为第t‑1个迭代训练中电池单体i的接入状态。 5.根据权利要求1所述的训练方法，其特征在于，所述方法还包括在每个迭代训练内，针对每个电池组串，根据下列步骤确定下一个迭代训练内所述电池组串中所述电池单体的接入状态：控制智能体采用贪心算法概率并根据所述实际奖励值，确定在下一个迭代训练内所述电池单体的接入状态，以便在下一个迭代训练内能够根据所述接入状态确定开关器件的开关动作的次数对智能体进行迭代训练；其中，所述开关动作包括将电池单体接入电池组串或将电池单体从电池组串中切除。 6.一种基于强化学习的可重构电池组均衡模型的训练系统，其特征在于，所述可重构电池组均衡模型包括多个智能体，所述可重构电池组包括多个电池组串，所述多个电池组串之间并联连接，每个电池组串包括多个串联连接的电池单体支路，每个所述电池单体支路包括电池单体和两个开关器件，所述电池单体与一个开关器件串联形成串联支路，所述串联支路与另一个开关器件并联；每个所述智能体分别被配置成根据所述可重构电池组中不同电池组串的电池单体的荷电状态控制相应电池组串中的所述开关器件的开关动作，以控制所述电池单体的接入状态，实现电池单体接入电池组串或将电池单体从电池组串中切除；所述训练系统包括：电池单体接入状态获取模块，其被配置为在每个迭代训练中，针对每个电池组串，获取所述电池组串中所有的电池单体的荷电状态，并获取所述电池单体在上一个迭代训练以及当前迭代训练的接入状态；荷电状态偏差获取模块，其被配置为根据所述荷电状态获取对应的电池组串的电池单体的荷电状态偏差；开关动作次数获取模块，其被配置为根据所述电池单体在上一个迭代训练以及当前迭代训练的接入状态，获取对应电池组串中的所述开关器件的开关动作的次数；实际奖励值获取模块，其被配置为根据所述荷电状态偏差和所述开关动作的次数，获取所述电池组串对应的智能体输出的实际奖励值；智能体训练模块，其被配置为根据所述实际奖励值与目标奖励值计算所述智能体的损失值，根据所述损失值计算所述智能体的梯度，根据所述梯度反向传播更新所述智能体的参数，以实现对所述智能体的训练。 7.根据权利要求6所述的训练系统，其特征在于，所述实际奖励值获取模块被进一步配置为通过以下公式获取所述实际奖励值： R＝α1F1+α2F2权　利　要　求　书 2/3 页 3 CN 113964897 A 3

专利 基于强化学习的可重构电池组均衡模型的训练方法及系统

专利基于强化学习的可重构电池组均衡模型的训练方法及系统