专利电池组均衡控制模型的训练方法、装置及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111173027.7 (22)申请日 2021.10.08 (71)申请人中国科学院电工研究所地址 100190 北京市海淀区中关村北二条6 号 (72)发明人叶泽雨　尹靖元　师长立　韦统振　罗彦　韩立博　彭祥华　张桐硕　 (74)专利代理机构北京瀚仁知识产权代理事务所(普通合伙) 11482 代理人屠晓旭　宋宝库 (51)Int.Cl. G06F 30/27(2020.01) H02J 7/00(2006.01) G06F 111/04(2020.01) (54)发明名称电池组均衡控制模型的训练方法、装置及介质 (57)摘要本发明涉及电池控制技术领域，具体提供一种电池组均衡控制模型的训练方法、装置及介质，旨在解决确保电池组正常工作的前提下，有效提升电池单体的寿命和安全性，并确保母线电压的稳定性的问题。为此目的，本发明能够根据电池组中每个电池单体的荷电状态偏差、开关器件的开关动作的次数以及母线电压波动偏差对控制电池单体接入状态的智能体进行有效训练，以使智能体在对电池组中的电池单体的接入状态进行控制时，尽量减少开关器件的开关动作的次数以及开关动作对于母线电压的影响，提升了开关器件的使用寿命以及母线电压的稳定性，也就提升了电池组的性能和安全性。权利要求书3页说明书14页附图4页 CN 113987921 A 2022.01.28 CN 113987921 A 1.一种电池组均衡控制模型的训练方法，其特征在于，所述电池组均衡控制模型包括智能体，所述电池组包括多个串联连接的电池单体支路，每个所述电池单体支路包括电池单体和两个开关器件，所述电池单体与一个开关器件串联形成串联支路，所述串联支路与另一个开关器件并联；所述智能体被配置为根据电池组中电池单体的荷电状态控制所述开关器件的开关动作，以控制所述电池单体的接入状态，实现电池单体接入所述电池组或将电池单体从所述电池组中切除，所述电池组与负载连接，形成为所述负载进行供电的供电回路；所述训练方法包括：在每个迭代训练中，获取所述电池组中所有电池单体的荷电状态，电池单体在当前迭代训练以及下一个迭代训练的接入状态，以及所述供电回路的母线电压；根据所述电池单体的荷电状态，获取所述电池单体的荷电状态偏差；根据所述电池单体在当前迭代训练以及下一个迭代训练的接入状态，获取所述电池组中的所述开关器件的开关动作的次数；根据所述供电回路的母线电压，获取所述供电回路的母线电压波动偏差；根据所述荷电状态偏差、所述开关动作的次数以及所述母线电压波动偏差，获取所述智能体输出的实际奖励值；应用梯度下降法，根据所述实际奖励值计算所述智能体的参数的梯度值，根据所述梯度值反向传播更新所述智能体的参数，以实现对所述智能体的训练。 2.根据权利要求1所述的训练方法，其特征在于， “根据所述荷电状态偏差、所述开关动作的次数以及所述母线电压波动偏差，获取所述智能体输出的实际奖励值 ”的步骤包括通过以下公式获取所述实际奖励值： R＝α1(ΔV‑T1)+α2F+α3(ΔSOC‑T2) 其中， R表示所述实际奖励值， ΔV表示所述母线电压波动偏差， F表示所述开关动作的次数， ΔSOC表示所述荷电状态偏差， T1表示预设的母线电压波动偏差的阈值， T2表示预设的荷电状态偏差的阈值， α1、 α2、 α3表示预设的奖励系数。 3.根据权利要求2所述的训练方法，其特征在于， “根据所述电池单体的荷电状态，获取所述电池单体的荷电状态偏差 ”的步骤包括通过以下公式获取所述电池单体的荷电状态偏差：其中， SOCBAT_max表示所述电池组中荷电状态最大的电池单体的荷电状态， SOCBAT_min表示所述电池组中荷电状态最小的电池单体的荷电状态， SOCend表示所述电池单体充电或放电结束时的荷电状态， SOC ′表示所述电池组中所有电池单体的荷电状态的平均值。 4.根据权利要求3所述的训练方法，其特征在于， “根据所述电池单体在当前迭代训练以及下一个迭代训练的接入状态，获取所述电池组中的所述开关器件的开关动作的次数 ” 的步骤包括通过以下公式获取所述电池组中的所述开关器件的开关动作的次数 F：权　利　要　求　书 1/3 页 2 CN 113987921 A 2其中， N表示所述电池组中所述电池单体的数量，表示第t个迭代训练中电池单体i的接入状态，当电池单体i接入所述电池组时，的取值为1，当所述电池单体i从所述电池组中被切除时，的取值为0；表示第t+1个迭代训练内电池单体i的接入状态。 5.根据权利要求4所述的训练方法，其特征在于， “根据所述供电回路的母线电压，获取所述供电回路的母线电压波动偏差”的步骤包括通过以下公式获取所述母线电压波动偏差 ΔV：其中， VB表示所述供电回路的母线电压， VR表示所述母线电压的额定值。 6.根据权利要求1所述的训练方法，其特征在于， “应用梯度下降法，根据所述实际奖励值计算所述智能体的参数的梯度值，根据所述梯度值反向传播更新所述智能体的参数，以实现对所述智能体的训练 ”的步骤包括通过以下公式更新所述智能体的参数：其中， θt表示第t个迭代训练中所述智能体的参数， θt+1表示第t+1个迭代训练中所述智能体的参数， St表示第t个迭代训练中所述电池单体的状态的集合，所述电池单体的状态包括电池单体的接入状态和荷电状态， At表示第t个迭代训练中所述开关器件的动作集合， Q (St， At； θt)表示第t个迭代训练中动作集合At的价值函数，表示所述智能体输出的奖励的目标值， α 表示预设的学习率，表示第t个迭代训练中根据所述价值函数计算得到的参数θt的梯度值。 7.根据权利要求6所述的训练方法，其特征在于，所述方法还包括通过以下公式获取所述智能体输出的奖励的目标值其中， Rt+1表示第t+1个迭代训练所述智能体输出的实际奖励值， γ表示预设的折扣因子，表示第t个迭代训练中所述开关器件的动作集合中价值最大的开关器件的动作， St+1表示第t+1个迭代训练中所述电池单体的状态的集合， Q(St+1， a； θt) 表示第t+1个迭代训练中所述开关器件执行动作a时的价值函数， θt‑表示第t个迭代训练中所述智能体包含的目标网络的参数。 8.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求 1至7中任一项所述的电池组均衡控制模型的训练方法。 9.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的电池组均衡控制模型的训练权　利　要　求　书 2/3 页 3 CN 113987921 A 3

专利 电池组均衡控制模型的训练方法、装置及介质

专利电池组均衡控制模型的训练方法、装置及介质