专利 基于多模态与对抗学习的多任务目标检测识别方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210534762.4 (22)申请日 2022.05.17 (71)申请人湖南大学地址 410082 湖南省长沙市岳麓区麓山南路2号 (72)发明人张辉　吴刘宸　钟杭　曹意宏　王耀南　刘理　毛建旭　冯冰玉　 (74)专利代理机构湖南盈奥知识产权代理事务所(普通合伙) 43282 专利代理师龚燕妮 (51)Int.Cl. G06V 10/10(2022.01) G06V 10/32(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/56(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多模态与对抗学习的多任务目标检测识别方法及装置 (57)摘要本发明公开了一种基于多模态多任务对抗学习的目标检测识别方法及装置，该方法将整个模型分成了特征提取阶段、区域提案阶段和多任务目标检测阶段三个部分。在特征提取阶段，采用多模态特征融合的方法，对输入数据的RGB图像和语义图像进行特征提取，使模型对于图像中目标的位置信息更加敏感，同时还增强了目标语义信息的提取；区域提案阶段用以生成随机窗口和提案框作为下阶段的输入；在多任务目标检测阶段中，采用多任务学习的方法，通过联合训练三个辅助任务来提高主任务的检测精度。对于目标检测网络，引入了对抗学习的思想，加入两个对抗式生成网络，用来生成多样式样本，提高模型的鲁棒性。权利要求书4页说明书14页附图4页 CN 114821014 A 2022.07.29 CN 114821014 A 1.一种基于多模态与对抗学习的多任务目标检测识别方法，其特征在于，包括：步骤1： RGB图像目标标注与预处理，并获取对应的语义图；步骤2：构建基于多模态与对抗学习的多任务识别网络模型；所述基于多模态与对抗学习的多任务识别网络模型包括依次连接的多模态特征融合网络、区域提案网络以及多任务目标检测网络；步骤3：设置损失函数，用于训练基于多模态与对抗学习的多任务识别网络模型；步骤4：使用训练好的基于多模态与对抗学习的多任务识别网络模型对待识别图像中的目标物体进行检测识别；将RGB图像和对应的语义图输入到训练好的基于多模态与对抗学习的多任务识别网络模型中，获得待识别图像中待识别目标和训练样本图像中目标的相似度值，经softmax分类之后选其中分数最大的类别作为识别结果。 2.根据权利要求1所述的方法，其特征在于，所述多模态特征融合网络是采用两个 Resnet18主干 CNN网络，再连接concat融合网络构成；所述区域提案网络输出随机窗口和提案框；所述多任务目标检测网络中的多任务包括三个辅助任务与一个主任务，其中，主任务为目标检测器，所述目标检测器采用Fast R‑CNN模型，在所述Fast R‑CNN模型的感兴趣池化层后引入对抗生成网络，三个辅助任务依次为颜色标记任务、多目标标记任务以及前景标记任务；其中，所述随机窗口作为多目标标记任务的输入数据，所述提案框作为颜色标记任务和主任务的输入数据，所述多模态特征融合网络输出的融合特征图作为前景标记任务的输入数据。 3.根据权利要求2所述的方法，其特征在于，所述对抗生成网络包括依次串联的对抗空间丢弃网络和对抗空间变换网络；所述对抗空间丢弃网络用于生成对特征图进行遮挡的对抗样本，所述对抗空间变换网络用于在目标的卷积特征空间中，对目标特征产生形变。 4.根据权利要求3所述的方法，其特征在于，所述对抗空间丢弃网络通过掩码分支对提案特征图进行掩码操作，生成对抗样本；其中，掩码分支由两个全连接层和一个掩码子网络组成，掩码子网络包括5个串联的 conv_mask卷积层，用来生成mask值，然后与输入的提案特征图结合，通过Dropout删除激活生成掩码样本；抗空间丢弃网络的损失函数采用二进制交叉熵损失，具体如下：其中，表示第p个提案特征图在给定输入尺寸大小为d ×d的特征映射在位置(i， j)处对抗空间丢弃网络的输出结果；表示第p个提案特征图的掩码矩阵M的增广矩阵的第i行第j列所在的掩码值， n表示提案特征图数量；所述对抗空间变换网络由本地网络、网格生成器、采样器三个部分组成；权　利　要　求　书 1/4 页 2 CN 114821014 A 2其中，本地网络输入特征图像，经过隐藏网络层输出空间变换参数，所述隐藏网络层包括两个卷积层和两个最大池化层，以及一个3 ×2的仿射矩阵回归层；所述网格生成器依据本地网络输出的变换参数，对特征映射进行变换得到采样网格；所述采样器利用采样网格和输入的特征图，得到特征图经过变换之后的结果；给予一个特征映射，假设提案特征图的第i个像素的坐标为，变换后特征图的第i个像素坐标为，特征映射为一个3×2的仿射变换函数，和的对应关系则为：其中，为映射关系矩阵，映射关系矩阵中的参数 θ11、θ12θ13、θ21、θ22、 θ23通过对基于多模态与对抗学习的多任务识别网络模型训练确定，表示变换后特征图的像素坐标。 5.根据权利要求2所述的方法，其特征在于，在多目标标记任务中，以提案框为中心创建Nr个不同尺寸大小的窗口，通过将特征图和提案框之间的空间划分为Nr ‑1个均匀间隔来设置窗口尺寸大小，获取Nr 窗口的多目标标签，记为， Nr为设定值；获得特征图中所有提案框的语义颜色标签，并计算它们的平均值，组合起来作为一个c 向量表示；将主任务中分类分支输出的特征向量更新为：其中， Wr是一个映射矩阵，表示为主任务中分类分支输出得到的特征向量；所述颜色标记任务是指用于获取识别对象语义颜色，并依据语义颜色进行对象类型标记；所述多目标标记任务是指用于获取随机包围框中各目标占所有目标数量的比例；所述前景标记任务是指用于对整幅图像的前景区域和背景区域进行标记；所述主任务是指用于获取对象位置以及识别对象的类型标签。 6.根据权利要求2所述的方法，其特征在于，对各任务和对抗生成网络设置交叉熵损失函数，并将所有交叉熵损失函数之和作为目标交叉熵损失函数；通过ImageNet预训练初始化基于多模态与对抗学习的多任务识别网络模型，将训练样本放入初始化后的基于多模态与对抗学习的多任务识别网络模型中进行学习；其中，训练样本中原始RGB图像和其对应的语义图作为基于多模态与对抗学习的多任务识别网络模型的输入数据，原始RGB图像对应的目标物体标注结果作为基于多模态与对抗学习的多任务识别网络模型的输出数据；在训练过程中使得目标交叉熵损失函数达到最小值，获得训练好的基于多模态与对抗权　利　要　求　书 2/4 页 3 CN 114821014 A 3

专利 基于多模态与对抗学习的多任务目标检测识别方法及装置

专利基于多模态与对抗学习的多任务目标检测识别方法及装置