专利自抗扰控制器自适应参数整定方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111170976.X (22)申请日 2021.10.08 (71)申请人南开大学地址 300110 天津市南开区卫津路94 号 (72)发明人陶金　郑月敏　孙青林　 (74)专利代理机构成都科海专利事务有限责任公司 51202 代理人刘宁 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/08(2006.01) (54)发明名称自抗扰控制器自适应参数整定方法及装置 (57)摘要本发明涉及一种自抗扰控制器自适应参数整定方法及装置，所述方法包括根据被控系统阶次搭建线性自抗扰控制器初始参数；初始化环境和DQN中的网络参数；根据所述初始参数和网络参数采用ε ‑greedy策略进行经验积累，并将经验样本存放在记忆回放单元；利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；利用训练好的决策网络选择控制器参数。本发明实现了自抗扰控制器的参数自适应优化，提高了控制器控制性能，通过本申请提供的技术方案得到的控制器能够适应不同工况下的控制，提高了控制器的鲁棒性。实现了控制器的智能化，在不依赖模型信息的前提下可以根据系统状态做出决策。权利要求书3页说明书8页附图3页 CN 113919217 A 2022.01.11 CN 113919217 A 1.一种自抗扰控制器自适应参数整定方法，其特征在于，包括：根据被控系统阶次搭建线性自抗扰控制器初始参数；初始化环境和DQ N中的网络参数；根据所述初始参数和网络参数采用 ε ‑greedy策略进行经验积累，并将经验样本存放在记忆回放单元；利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；利用训练好的决策网络选择控制器参数。 2.根据权利要求1所述的方法，其特征在于，所述根据被控系统阶次搭建线性自抗扰控制器初始参数，包括：设所述被控系统阶次为 n阶系统，被控对象为： y(n)＝f+b0u；其中， y， u分别为系统输出和输入； f为总扰动，所述总扰动包含系统内部未建模动态、参数摄动和外部扰动； b0为可调参数，选取状态为可以得到状态空间方程为：式中，对应的线性扩张状态观测器为：其中，为x的估计值； L为观测器的误差反馈控制增益矩阵， L＝[β01 β02 … β0(n+1)]T；当(A‑LC)渐进稳定时，可以实现对系统各状态量的跟踪，即有利用极点配置方法将观测器增益配置到极点‑ωo： |sI‑(A‑LC)|＝sn+1+β01sn+…+β0(n+1)＝(s+ωo)n+1；从而可以得到设计消除扰动的控制率为：式中， K＝[β1 β2 … βn 1]为反馈控制器增益矩阵；利用极点配置法将控制器增益配置到极点‑ωc： |sI‑(A‑BK)|＝s(sn+βnsn‑1+…+β1)＝s(s+ωc)n；权　利　要　求　书 1/3 页 2 CN 113919217 A 2得到从而可以确定线性自抗扰控制器需要调整的初始参数为ωo、 ωc和b0。 3.根据权利要求2所述的方法，其特征在于，所述环境包括：状态空间S，动作空间A以及奖励函数r；所述DQN中网络参数包括当前值神经网络权重，目标值神经网络权重和记忆回放单元 D。 4.根据权利要求3所述的方法，其特征在于，所述根据所述初始参数和网络参数采用 ε ‑ greedy策略进行经验积累，并将经验样本存放在记忆回放单元，包括：初始化贪婪系数 ε；其中， ε∈[0,1)；将当前状态s∈S输入DQN的当前值网络中，输出对应动作空间中每一个动作值a∈A对应的Q值；随机生成一个数alpha∈(0,1)，若alpha≤ε，则随机从动作空间中选择一个动作值，否则，选取最大Q 值对应的动作值；执行得到的动作值，得到下一个状态s ′，并根据奖励函数计算出奖励值r，将向量(s,a, s′,r)保存至记忆回放单元。 5.根据权利要求1所述的方法，其特征在于，所述利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络，包括：从所述记忆回放单元随机抽取m个经验样本，并输入DQ N网络中；当前值网络输出为Q(s,a； θ )，其中θ为网络权重，目标值网络输出为其中θ′为目标网络权重；计算更新当前值网络的损失函数：其中， γ∈[0,1]为折扣因子；利用梯度下降法更新当前值网络的权重θ，每经过Tn回合，令θ ′＝θ，从而实现目标值网络权重的更新；判断当前值神经网络的损失函数值是否小于预设阈值，若是，结束训练，输出决策网络，否则继续训练。 6.根据权利要求5所述的方法，其特征在于，所述利用训练好的决策网络选择控制器参数，包括：输入系统当前状态至决策网络；所述决策网络输出对应动作空间中每个动作的Q值，从而选择出最大Q对应的动作，重复此过程直至达到控制目标。 7.根据权利要求1至 6任一项所述的方法，其特征在于，所述网络为全连接神经网络。 8.一种自抗扰控制器自适应参数整定装置，其特征在于，包括：搭建模块，用于根据被控系统阶次搭建线性自抗扰控制器初始参数；初始化模块，用于初始化环境和DQ N中的网络参数；权　利　要　求　书 2/3 页 3 CN 113919217 A 3

专利 自抗扰控制器自适应参数整定方法及装置

专利自抗扰控制器自适应参数整定方法及装置