(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210651623.X
(22)申请日 2022.06.10
(71)申请人 河南大学
地址 450000 河南省郑州市河南大 学龙子
湖校区
(72)发明人 霍东东 杜海顺 李艳阳
(74)专利代理 机构 郑州大通专利商标代理有限
公司 41111
专利代理师 周艳巧
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/44(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/74(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于通道重组和注意力机制的跨模态行人
重识别方法
(57)摘要
本发明属于图像识别技术领域, 特别涉及一
种基于通道重组和注意力机制的跨模态行人重
识别方法, 通过构建用于对输入 数据进行特征向
量提取并进行特征匹配的跨模态行人重识别模
型, 利用行人图像数据集对模型进行训练, 其中,
跨模态行人重识别模型利用分组卷积和通道重
组操作来挖掘红外模态和可见光模态下行人的
图像共享特征, 利用注意力机制挖掘行人的局部
特征, 利用特征向量相似度来进行特征匹配; 利
用跨模态行人识别模型分别提取红外模态和可
见光模态下的目标行人特征向量, 通过特征匹配
来完成跨模态行人重识别。 本发 明提取行人两个
模态之间的共享特征及不同模态行人图像之间
的潜在关系及行人身体不同位置之间的局部特
征联系, 提升跨模态行 人重识别能力。
权利要求书2页 说明书9页 附图3页
CN 115100678 A
2022.09.23
CN 115100678 A
1.一种基于通道重组和注意力机制的跨模态行人重识别方法, 其特征在于, 包含如下
内容:
构建用于对输入数据进行特征向量提取并进行特征匹配的跨模态行人重识别模型, 并
利用行人图像数据集对模型进行训练, 其中, 跨模态行人重识别模型利用分组卷积和通道
重组操作来挖掘红外模态和可见光模态下行人的图像共享特征, 利用注意力机制挖掘行人
的局部特 征, 并利用特 征向量相似度来进行 特征匹配;
利用已训练的跨模态行人识别模型分别提取红外模态和可见光模态下的目标行人特
征向量, 并通过两个模态下目标 行人特征向量的特 征匹配来完成跨模态行 人重识别。
2.根据权利要求1所述的基于通道重组和注意力机制的跨模态行人重识别方法, 其特
征在于, 跨模态行人重识别模 型包含: 用于特征提取的ResNet ‑50主干网络, 嵌在ResNet ‑50
主干网络中用于分组卷积和通道重组的模态内特征通道分组重组模块, 用于挖掘模态内特
征通道分组重组模块输出特征向量中局部特征的聚合特征注意力模块, 及用于对不同模态
下特征信息进行交 互融合的跨模态自适应图结构模块。
3.根据权利要求2所述的基于通道重组和注意力机制的跨模态行人重识别方法, 其特
征在于, 模态 内特征通道分组重组模块中, 首先, 对ResNet ‑50主干网络获取的特征图进行
分组, 每组分别进行卷积运算后再进行特征拼接, 将拼接后的特征作为分组卷积操作的输
出特征; 然后, 对分组卷积操作输出特征进 行通道重组, 通过融合多通道特征来获取含有判
别力的特征图。
4.根据权利要求1或2或3所述的基于通道重组和注意力机制 的跨模态行人重识别方
法, 其特征在于, 分组卷积操作处理过程表示如下:
其
中, yi表示每个分组卷积输出的特征, x表示输入特征, Wj,bj分别表示每个分组卷积的权值
和偏置值, f表示ReLU激活函数, N表示输出 特征个数, G表示分组数。
5.根据权利要求1或2或3所述的基于通道重组和注意力机制 的跨模态行人重识别方
法, 其特征在于, 通道重组操作中, 将特征分为n组, 总通道数设置为n ×m, 首先, 按照通道维
度拆分为[n,m]两个维度, 并进 行第一次特征维度重塑; 随后, 将 两个维度进 行转置操作, 得
到[m,n]; 最后, 通过第二次特 征维度重塑。
6.根据权利要求5所述的基于通道重组和注意力机制的跨模态行人重识别方法, 其特
征在于, 通道重组操作处理过程表示如下: F(x)=Fr2(FT(Fr1(x))), 其中, Fr1代表第一次特
征维度重塑, FT代表转置操作, Fr2代表第二次特 征维度重塑。
7.根据权利要求1所述的基于通道重组和注意力机制的跨模态行人重识别方法, 其特
征在于, 利用注意力机制挖掘行人局部特征中, 利用通道注意力机制及空间注意力机制获
取输入特征 的第一特征映射, 利用位置注意力机制获取输入特征 的第二特征映射; 将第一
特征映射和第二特 征映射进行相加来获取作为输出的特 征映射。
8.根据权利要求7所述的基于通道重组和注意力机制的跨模态行人重识别方法, 其特
征在于, 通道注意力机制生成的通道注意力特征图表示为: Ac=σ [W1XMP; W2XAP], 其中, [; ]表
示沿通道拼接操作, σ(g)表示sigmoid函数, XMP、 XAP分别表示经过两次池化处理后的特征映
射, W1、 W2分别表示全连接层参数; 空间注意力机制生成的空间注意力特征图表示为:
其中,
表示进行卷积核为1 ×1的卷积运算; 依据输入及通道注权 利 要 求 书 1/2 页
2
CN 115100678 A
2意力特征图和空间注 意特征图来 获取第一特征映射; 位置注意力机制生成的位置注意力特
征图表示为 :
其中 , ai ,j表示i位置对j位置的影响 ,
分别表示将特征映射X划分为p个非重叠部分后并通过卷积得到的特
征图,
表示由
与
相乘得到的局部注意力特征图, Wp代表不同部分的可学习权
重向量; 并依据输入及位置注意力特 征图来获取第二特 征映射。
9.根据权利要求1或2所述的基于通道重组和注意力 机制的跨模态行人重识别方法, 其
特征在于, 特征匹配中, 利用自适应图结构来聚合模态间属于同一个体的行人特征, 将具有
相同身份的上下文信息和跨模态的图像之 间关系进行结合, 通过学习两个不同模态间的关
系来获取最终输出的特征向量, 其中, 自适应图结构表示为:
Ag为规范化邻
接矩阵无向图, li与lj分别为图节点与对应的独热编码, | |K为一个与自身构成的矩阵。
10.根据权利要求2所述的基于通道重组和 注意力机制的跨模态行人重识别方法, 其特
征在于, 模型训练中, 利用N个不同身份的行人且每个行人包含M各可见光图像和M个红外图
像来构建红外模态和可见光模态下的行人图像数据集, 训练的目标损失函数表示为: L=Lb
+Le, 其中, Lb=Ltri+Lid,
Ltri为跨模态三元组损失, Lid为身份损失, e
为训练次数,
代表前一个训练轮次的平均损失值,
代表当前轮次模态内聚合特征
学习损失值,
代表当前轮次跨模态自适应图结构约束数值。权 利 要 求 书 2/2 页
3
CN 115100678 A
3
专利 基于通道重组和注意力机制的跨模态行人重识别方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:59上传分享