专利 基于通道重组和注意力机制的跨模态行人重识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210651623.X (22)申请日 2022.06.10 (71)申请人河南大学地址 450000 河南省郑州市河南大学龙子湖校区 (72)发明人霍东东　杜海顺　李艳阳　 (74)专利代理机构郑州大通专利商标代理有限公司 41111 专利代理师周艳巧 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/74(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于通道重组和注意力机制的跨模态行人重识别方法 (57)摘要本发明属于图像识别技术领域，特别涉及一种基于通道重组和注意力机制的跨模态行人重识别方法，通过构建用于对输入数据进行特征向量提取并进行特征匹配的跨模态行人重识别模型，利用行人图像数据集对模型进行训练，其中，跨模态行人重识别模型利用分组卷积和通道重组操作来挖掘红外模态和可见光模态下行人的图像共享特征，利用注意力机制挖掘行人的局部特征，利用特征向量相似度来进行特征匹配；利用跨模态行人识别模型分别提取红外模态和可见光模态下的目标行人特征向量，通过特征匹配来完成跨模态行人重识别。本发明提取行人两个模态之间的共享特征及不同模态行人图像之间的潜在关系及行人身体不同位置之间的局部特征联系，提升跨模态行人重识别能力。权利要求书2页说明书9页附图3页 CN 115100678 A 2022.09.23 CN 115100678 A 1.一种基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，包含如下内容：构建用于对输入数据进行特征向量提取并进行特征匹配的跨模态行人重识别模型，并利用行人图像数据集对模型进行训练，其中，跨模态行人重识别模型利用分组卷积和通道重组操作来挖掘红外模态和可见光模态下行人的图像共享特征，利用注意力机制挖掘行人的局部特征，并利用特征向量相似度来进行特征匹配；利用已训练的跨模态行人识别模型分别提取红外模态和可见光模态下的目标行人特征向量，并通过两个模态下目标行人特征向量的特征匹配来完成跨模态行人重识别。 2.根据权利要求1所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，跨模态行人重识别模型包含：用于特征提取的ResNet ‑50主干网络，嵌在ResNet ‑50 主干网络中用于分组卷积和通道重组的模态内特征通道分组重组模块，用于挖掘模态内特征通道分组重组模块输出特征向量中局部特征的聚合特征注意力模块，及用于对不同模态下特征信息进行交互融合的跨模态自适应图结构模块。 3.根据权利要求2所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，模态内特征通道分组重组模块中，首先，对ResNet ‑50主干网络获取的特征图进行分组，每组分别进行卷积运算后再进行特征拼接，将拼接后的特征作为分组卷积操作的输出特征；然后，对分组卷积操作输出特征进行通道重组，通过融合多通道特征来获取含有判别力的特征图。 4.根据权利要求1或2或3所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，分组卷积操作处理过程表示如下：其中， yi表示每个分组卷积输出的特征， x表示输入特征， Wj,bj分别表示每个分组卷积的权值和偏置值， f表示ReLU激活函数， N表示输出特征个数， G表示分组数。 5.根据权利要求1或2或3所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，通道重组操作中，将特征分为n组，总通道数设置为n ×m，首先，按照通道维度拆分为[n,m]两个维度，并进行第一次特征维度重塑；随后，将两个维度进行转置操作，得到[m,n]；最后，通过第二次特征维度重塑。 6.根据权利要求5所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，通道重组操作处理过程表示如下： F(x)＝Fr2(FT(Fr1(x)))，其中， Fr1代表第一次特征维度重塑， FT代表转置操作， Fr2代表第二次特征维度重塑。 7.根据权利要求1所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，利用注意力机制挖掘行人局部特征中，利用通道注意力机制及空间注意力机制获取输入特征的第一特征映射，利用位置注意力机制获取输入特征的第二特征映射；将第一特征映射和第二特征映射进行相加来获取作为输出的特征映射。 8.根据权利要求7所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，通道注意力机制生成的通道注意力特征图表示为： Ac＝σ [W1XMP； W2XAP]，其中， [； ]表示沿通道拼接操作， σ(g)表示sigmoid函数， XMP、 XAP分别表示经过两次池化处理后的特征映射， W1、 W2分别表示全连接层参数；空间注意力机制生成的空间注意力特征图表示为：其中，表示进行卷积核为1 ×1的卷积运算；依据输入及通道注权　利　要　求　书 1/2 页 2 CN 115100678 A 2意力特征图和空间注意特征图来获取第一特征映射；位置注意力机制生成的位置注意力特征图表示为：其中， ai ,j表示i位置对j位置的影响，分别表示将特征映射X划分为p个非重叠部分后并通过卷积得到的特征图，表示由与相乘得到的局部注意力特征图， Wp代表不同部分的可学习权重向量；并依据输入及位置注意力特征图来获取第二特征映射。 9.根据权利要求1或2所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，特征匹配中，利用自适应图结构来聚合模态间属于同一个体的行人特征，将具有相同身份的上下文信息和跨模态的图像之间关系进行结合，通过学习两个不同模态间的关系来获取最终输出的特征向量，其中，自适应图结构表示为： Ag为规范化邻接矩阵无向图， li与lj分别为图节点与对应的独热编码， | |K为一个与自身构成的矩阵。 10.根据权利要求2所述的基于通道重组和注意力机制的跨模态行人重识别方法，其特征在于，模型训练中，利用N个不同身份的行人且每个行人包含M各可见光图像和M个红外图像来构建红外模态和可见光模态下的行人图像数据集，训练的目标损失函数表示为： L＝Lb +Le，其中， Lb＝Ltri+Lid， Ltri为跨模态三元组损失， Lid为身份损失， e 为训练次数，代表前一个训练轮次的平均损失值，代表当前轮次模态内聚合特征学习损失值，代表当前轮次跨模态自适应图结构约束数值。权　利　要　求　书 2/2 页 3 CN 115100678 A 3

专利 基于通道重组和注意力机制的跨模态行人重识别方法

专利基于通道重组和注意力机制的跨模态行人重识别方法