专利神经网络模型训练、目标检测方法、装置、设备以及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111637751.0 (22)申请日 2021.12.2 9 (71)申请人深圳市商汤科技有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人黄耿石　陈泽人　滕家宁　李威　邵婧　盛律　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 代理人袁忠林 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06V 10/40(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 10/764(2022.01) (54)发明名称神经网络模型训练、目标检测方法、装置、设备以及介质 (57)摘要本公开提供了一种神经网络模型训练、目标检测方法、装置、设备以及介质，其中，该方法包括：获取多个目标图像组；其中，每个目标图像组包含对应原始图像的多个视角图像，每个视角图像均包含该原始图像中的目标对象；确定每个所述目标图像组中与每个编解码器对应的两个视角图像；基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理，得到每个所述编解码器的预测结果；每个预测结果包括：第二图像中目标对象的预测包围框和第一图像中目标对象的特征信息；基于全部所述编解码器的预测结果训练Transformer模型，并基于训练后的 Transformer模型训练目标网络模型。权利要求书3页说明书16页附图6页 CN 114332562 A 2022.04.12 CN 114332562 A 1.一种神经网络模型训练方法，其特征在于，应用于包含多个编解码器的Transformer 模型，包括：获取多个目标图像组；其中，每个目标图像组包含对应原始图像的多个视角图像，每个视角图像均包含该原始图像中的目标对象；确定每个所述目标图像组中与每个编解码器对应的两个视角图像；基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理，得到每个所述编解码器的预测结果；每个预测结果包括：第二图像中目标对象的预测包围框和第一图像中目标对象的预测特征信息；基于全部所述编解码器的预测结果训练Transformer模型，并基于训练后的 Transformer模型训练目标网络模型。 2.根据权利要求1所述的方法，其特征在于，所述获取每个所述目标图像组，包括：获取每个所述目标图像组对应的原始图像，并在所述原始图像中截取包含所述目标对象的初始图像；在所述初始图像中确定多个初始包围框，其中，任意两个初始包围框之间的交并比大于预设阈值；截取所述初始图像中位于每个所述初始包围框中的图像，得到多个视角图像，并基于所述多个视角图像确定所述目标图像组。 3.根据权利要求1或2所述的方法，其特征在于，所述基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理，得到每个所述编解码器的预测结果，包括：通过每个所述编解码器的编码器对相应的第二图像的整体图像特征进行处理，得到第一编码图像特征；将所述第一编码图像特征和相应的局部图像特征输入至该编解码器的解码器中进行处理，得到该编解码器的预测结果。 4.根据权利要求1至 3中任一项所述的方法，其特征在于，所述方法还包括：通过基础骨干网络提取所述第一图像的图像特征，得到第一初始图像特征，以及通过所述基础骨干网络提取所述第二图像的图像特征，得到第二初始图像特征；基于所述第一初始图像特征确定所述局部图像特征，并基于所述第二初始特征图像确定所述整体图像特征。 5.根据权利要求4所述的方法，其特征在于，所述基于所述第一初始图像特征确定所述局部图像特征，包括：确定所述第一初始图像特征中位于所述目标对象的包围框内的图像特征，得到第一子图像特征；截取所述第一图像中位于所述目标对象的包围框内的图像，并将截取到的图像确定为第二子图像特征；将所述第一子图像特征和所述第二子图像特征进行合并，得到所述局部图像特征。 6.根据权利要求4或5所述的方法，其特征在于，所述基于全部所述编解码器的预测结果训练Transformer模型，包括：权　利　要　求　书 1/3 页 2 CN 114332562 A 2基于所述预测结果和初始图像特征确定每个所述编解码器的目标损失函数值；其中，所述初始图像特征包括：所述第一初始图像特征和所述第二初始图像特征；基于各个所述编解码器的目标损失函数值迭代调整所述Transformer模型中的模型参数，得到所述训练后的Transformer模型。 7.根据权利要求6所述的方法，其特征在于，所述基于所述预测结果和初始图像特征确定每个所述编解码器的目标损失函数值，包括：基于所述第一初始图像特征和所述第二初始图像特征计算第一损失函数值，并基于所述预测结果中的预测特征信息和所述第一图像的分类标签计算第二损失函数值；对所述第一损失函数值和所述第二损失函数值进行合并，得到该编解码器的目标损失函数值。 8.根据权利要求1至7中任一项所述的方法，其特征在于，基于训练后的Transformer模型训练目标网络模型，包括：基于所述训练后的Transformer模型的模型参数对所述目标网络模型进行初始化处理；获取目标训练样本；其中，所述目标训练样本包含多个样本图像，每个样本图像包含样本标签；通过所述目标训练样本对初始化处理之后的目标网络模型进行训练，得到训练后目标网络模型。 9.一种目标检测方法，其特征在于，包括：获取待处理图像；通过目标神经网络模型对待处理图像进行目标检测，得到目标检测结果；其中，所述目标神经网络模型为通过上述权利要求1至8 中任一项所述的神经网络模型训练方法训练得到的网络模型。 10.一种神经网络模型训练装置，其特征在于，包括：第一获取单元，用于获取多个目标图像组；其中，每个目标图像组包含对应原始图像的多个视角图像，每个视角图像均包含该原始图像中的目标对象；确定单元，用于确定每个所述目标图像组中与每个编解码器对应的两个视角图像；处理单元，用于基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理，得到每个所述编解码器的预测结果；每个预测结果包括：第二图像中目标对象的预测包围框和第一图像中目标对象的预测特征信息；训练单元，用于基于所述预测结果训练Transformer模型，并基于训练后的 Transformer模型训练目标网络模型。 11.一种目标检测装置，其特征在于，包括：第二获取单元，用于获取待处理图像；检测单元，用于通过目标神经网络模型对待处理图像进行目标检测，得到目标检测结果；其中，所述目标神经网络模型为通过上述权利要求1至8中任一项所述的神经网络模型训练方法训练得到的网络模型。 12.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所权　利　要　求　书 2/3 页 3 CN 114332562 A 3

专利 神经网络模型训练、目标检测方法、装置、设备以及介质

专利神经网络模型训练、目标检测方法、装置、设备以及介质