专利基于深度强化学习的复杂阵列天线智能设计方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111113588.8 (22)申请日 2021.09.23 (71)申请人浙江金乙昌科技股份有限公司地址 314001 浙江省嘉兴市南湖区振业路 398号 (72)发明人陈方园　陈小忠　刘宇峰　李文博　 (74)专利代理机构杭州斯可睿专利事务所有限公司 33241 代理人唐迅 (51)Int.Cl. G06F 30/27(2020.01) G06F 30/23(2020.01) H01Q 1/36(2006.01) H01Q 1/38(2006.01) G06F 111/06(2020.01) (54)发明名称基于深度强化学习的复杂阵列天线智能设计方法 (57)摘要本发明所得到的基于深度强化学习的复杂阵列天线智能设计方法，通过把希望设计的天线将要达到的辐射性能参数目标的设计过程，转换成为一个被优化函数的目标极值寻优过程。利用优化策略，调整被优化函数中多个变量的方法，来实现天线多种物理参数的调整；从而实现被优化函数的最优值，即天线的期望辐射性能。利用该方法，在面对复杂电磁环境和复杂天线设计场景时，可以减小天线设计人员对电磁理论知识和经验的依赖，可以极大的提升复杂阵列天线设计效率和减少天线设计时间。权利要求书3页说明书7页附图6页 CN 114218849 A 2022.03.22 CN 114218849 A 1.一种基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，天线设计步骤为：步骤一：根据所需要的天线辐射频率，天线辐射方向图，以及所处空间环境的要求，确定天线几何尺寸范围，初始化天线模型设计，建立初始天线辐射金属贴片结构，辐射金属贴片为固定尺寸的矩形；步骤二：设定相应求解空间，求解维度，变量约束条件，寻优目标，寻优目标个数，归一化目标因子，状态空间，收敛条件；步骤三：根据所设计初始天线模型，将天线结构进行离散化建模，利用程序进行相应位置的结构序列生成，利用程序代码控制天线相应位置的结构存在与否，通过随机结构位置的生成形成随机结构的天线形状，对天线电流分布以及天线电磁波辐射进行计算求解，得到天线电磁场分布，利用电磁场计算程序或软件进行电磁场辐射场仿真；步骤四：利用Markov Decision Process进行深度算法学习，根据得到的天线电磁场分布和辐射方向图，形成相应数据库，确定归一化的期望目标，采用Bellman Optimality方式进行学习过程，采用随机梯度策略实现目标自动逼近，确定回退策略，每一个序列的优化中，若优化结果不收敛，则回退进行继续优化，直至收敛为止，停止学习；或者优化至最优结果位置，停止学习；步骤五：确定结果收敛情况，判定是否实现目标逼近或满足最大迭代次数，如果是则接着执行步骤六，如果否则重复步骤三、四；步骤六：计算天线参数结果并输出，基于优化参数结果进行参数化建模，确定计算结果并导出3D模型；步骤七：结束学习。 2.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，步骤二中，所述求解维度对应被优化天线的几何尺寸及物理属性参数，所述求解空间对应天线的物理参数变化范围，所述变量约束条件对应优化过程中的天线参数对应关系以及结构参数要求，所述寻优目标对应天线设计的各种辐射性能参数优化目标要求，所述寻优目标个数对应天线设计的辐射性能参数优化目标的个数，所述归一化目标因子表示经过权重处理的多寻优目标归一化期望值，所述状态空间对应相应迭代深度强化学习过程中针对所要优化目标的结果，即所优化出的天线参数情况，所述收敛条件对应深度学习算法学习过程中，所计算的目标函数达到期望的条件；其中所述天线的物理参数变化范围，包括：天线辐射源个数、辐射单元尺寸、辐射单元间距、和整体尺寸，天线介电常数，损耗角正切，频率；整体尺寸取决于所述矩形辐射金属贴片的个数、尺寸和间距。。 3.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，步骤三中，天线的辐射源由所述固定尺寸的矩形辐射金属贴片构成，每一个辐射源的电磁场等效为其中为场强分布， Q为等效电电荷电量，为空间中观察点距离一个辐射源的矢量位置， k为相应空间的状态参量，一系列等效的辐射源辐射组合成为随机结构的不规律辐射单元，计算后得到天线电磁场分布。 4.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在权　利　要　求　书 1/3 页 2 CN 114218849 A 2于，步骤四中所需要的辐射方向图由理论公式得出，其中z表示辐射方向， l为辐射源的长度， θ表示观察点到阵列天线中心点的直线和过天线中心点的法向直线的夹角， In(z′)和φn(z′)分别表示辐射源沿着天线的幅度和相位分布。 5.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，步骤四中，采用所述Mark ov Decision Process进行深度强化学习具体如下： P(St+1， Rt+1|S0， A0， R1....St， At)＝P(St+1， Rt+1|St， At)；即在状态St时，采取动作At后的状态St+1和收益Rt+1只与当前动作和状态有关，与历史状态无关。 6.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，步骤四中，采用加权方式，确定归一化的期望目标，每一种辐射性能参数目标都被赋值为一定权重的期望目标值进行优化，对于N个目标，优化整体目标G， G＝＝w1G1+w2G2+....+wiGi....+wNGN 式子中wi为每种目标的权重系数。 7.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，步骤四中，采用所述Bel lman Optimality等式执行MDP强化学习过程， V(s)＝E[Rt+1+γmax V(st+1)|St＝S]； Q(s， a)＝E[Rt+1+γmax Q(st+1， a′)|St＝S， At＝A]；式子中γ为长期收益的折扣因子， E表示相应空间和状态下的期望值， a为相应状态下采取的动作。 8.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，步骤四中，对于任一状态空间SN，采用所述随机策略梯度方式Stochastic Gradient Descent Method进行多目标逼近计算， Δ表示梯度的变化量的一个值，表示梯度算符，表示导数算符， α 表示迭代步数相关因子， P表示一个给定的概率函数，也就是说，在相应的状态空间S，输出动作服从一个概率分布；对于每次优化的天线场分布结果，逐渐调整结果梯度，朝最优值逼近。 9.根据权利要求1所述的基于深度强化学习的复杂阵列天线智能设计方法，其特征在于，步骤四中，所述回退策略采用如下公式进行收益奖励和惩罚，即奖惩策略：式子中v为响应步骤优化得到的结果，为从第i个结果到第n个结果权　利　要　求　书 2/3 页 3 CN 114218849 A 3

专利 基于深度强化学习的复杂阵列天线智能设计方法

专利基于深度强化学习的复杂阵列天线智能设计方法