全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111170976.X (22)申请日 2021.10.08 (71)申请人 南开大学 地址 300110 天津市南 开区卫津路94 号 (72)发明人 陶金 郑月敏 孙青林  (74)专利代理 机构 成都科海专利事务有限责任 公司 51202 代理人 刘宁 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/08(2006.01) (54)发明名称 自抗扰控制器自适应参数整定方法及装置 (57)摘要 本发明涉及一种自抗扰控制器自适应参数 整定方法及装置, 所述方法包括根据被控系统阶 次搭建线性自抗扰控制器初始参数; 初始化环境 和DQN中的网络参数; 根据所述初始参数和网络 参数采用ε ‑greedy策略进行经验积累, 并将经 验样本存放在记忆回放单元; 利用记忆回放单元 中的经验样本对网络进行训练从而获得决策网 络; 利用训练好的决策网络选择控制器参数。 本 发明实现了自抗扰控制器的参数自适应优化, 提 高了控制器控制性能, 通过本申请提供的技术方 案得到的控制器能够适应不同工况下的控制, 提 高了控制器的鲁棒性。 实现了控制器的智能化, 在不依赖模型信息的前提下可以根据系统状态 做出决策。 权利要求书3页 说明书8页 附图3页 CN 113919217 A 2022.01.11 CN 113919217 A 1.一种自抗扰控制器自适应参数整定方法, 其特 征在于, 包括: 根据被控系统阶次搭建线性自抗扰控制器初始参数; 初始化环境和DQ N中的网络参数; 根据所述初始参数和网络参数采用 ε ‑greedy策略进行经验积累, 并将经验样本存放在 记忆回放单 元; 利用记忆回放单 元中的经验样本对网络进行训练从而获得决策网络; 利用训练好的决策网络 选择控制器参数。 2.根据权利要求1所述的方法, 其特征在于, 所述根据被控系统阶次搭建线性自抗扰控 制器初始参数, 包括: 设所述被控系统阶次为 n阶系统, 被控对象为: y(n)=f+b0u; 其中, y, u分别为系 统输出和输入; f为总扰动, 所述总扰动包含系 统内部未建模动态、 参数摄动和外部扰动; b0为可调参数, 选取状态为 可以得 到状态空间方程 为: 式中, 对应的线性扩张状态 观测器为: 其中, 为x的估计值; L为观测器的误差反馈控制增益矩阵, L=[β01 β02  … β0(n+1)]T; 当(A‑LC)渐进稳定时, 可以实现对系统各状态量的跟踪, 即有 利用极点配置方法 将观测器增益配置 到极点‑ωo: |sI‑(A‑LC)|=sn+1+β01sn+…+β0(n+1)=(s+ωo)n+1; 从而可以得到 设计消除扰动的控制率 为: 式中, K=[β1 β2  … βn 1]为反馈控制器 增益矩阵; 利用极点配置法将控制器增益配置 到极点‑ωc: |sI‑(A‑BK)|=s(sn+βnsn‑1+…+β1)=s(s+ωc)n;权 利 要 求 书 1/3 页 2 CN 113919217 A 2得到 从而可以确定线性自抗扰控制器需要调整的初始参 数为ωo、 ωc和b0。 3.根据权利要求2所述的方法, 其特 征在于, 所述环境包括: 状态空间S, 动作空间A以及奖励函数r; 所述DQN中网络参数包括当前值神经网络权重, 目标值神经网络权重和记忆回放单元 D。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述初始参数和网络参数采用 ε ‑ greedy策略进行 经验积累, 并将经验样本存放在记 忆回放单 元, 包括: 初始化贪婪系数 ε; 其中, ε∈[0,1); 将当前状态s∈S输入DQN的当前值网络中, 输出对应动作空间中每一个动作值a∈A对 应的Q值; 随机生成一个数alpha∈(0,1), 若alpha≤ε, 则随机从动作空间中选择一个动作值, 否 则, 选取最大Q 值对应的动作值; 执行得到的动作 值, 得到下一个状态s ′, 并根据奖励函数计算出奖励值r, 将向量(s,a, s′,r)保存至记 忆回放单 元。 5.根据权利要求1所述的方法, 其特征在于, 所述利用记忆回放单元中的经验样本对 网 络进行训练从而获得决策网络, 包括: 从所述记 忆回放单 元随机抽取m个经验样本, 并输入DQ N网络中; 当前值网络输出为Q(s,a; θ ), 其中θ为网络权重, 目标值网络输出为 其 中θ′为目标网络 权重; 计算更新当前值网络的损失函数: 其中, γ∈[0,1]为 折扣因子; 利用梯度下降法更新当前值网络的权重θ, 每经过Tn回合, 令θ ′=θ, 从而实现目标值网 络权重的更新; 判断当前值神经网络的损失函数值是否小于预设阈值, 若是, 结束训练, 输出决策网 络, 否则继续训练。 6.根据权利要求5所述的方法, 其特征在于, 所述利用训练好的决策网络选择控制器参 数, 包括: 输入系统当前状态至决策网络; 所述决策网络输出对应动作空间中每个动作的Q值, 从而选择出最大Q对应的动作, 重 复此过程直至达到控制目标。 7.根据权利要求1至 6任一项所述的方法, 其特 征在于, 所述网络为全连接神经网络 。 8.一种自抗扰控制器自适应参数整定装置, 其特 征在于, 包括: 搭建模块, 用于根据被控系统阶次搭建线性自抗扰控制器初始参数; 初始化模块, 用于初始化环境和DQ N中的网络参数;权 利 要 求 书 2/3 页 3 CN 113919217 A 3

.PDF文档 专利 自抗扰控制器自适应参数整定方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 自抗扰控制器自适应参数整定方法及装置 第 1 页 专利 自抗扰控制器自适应参数整定方法及装置 第 2 页 专利 自抗扰控制器自适应参数整定方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:46:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。