专利 一种基于自然语言和视觉特征的车辆检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210173817.3 (22)申请日 2022.02.24 (71)申请人济南融瓴科技发展有限公司地址 250000 山东省济南市自由贸易试验区济南片区舜泰北路933号博晶大厦 1409室 (72)发明人高文飞　王瑞雪　王磊　王辉　郭丽丽　 (74)专利代理机构宁波海曙甬睿专利代理事务所(普通合伙) 33330 专利代理师沈强玉 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/783(2019.01) G06F 40/30(2020.01)G06V 20/58(2022.01) G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称一种基于自然语言和视觉特征的车辆检索方法 (57)摘要本发明公开了一种基于自然语言和视觉特征的车辆检索方法，包括如下步骤： S1、构建车辆重识别数据集，通过从不同摄像头采集视频，之后利用检测模型从视频中检测出车辆图片，构建数据集； S2、使用多任务学习框架作为基础模型，训练车辆重识别模型； S3、获得特征提取器； S4、构建基于自然语言和视觉特征的多模态车辆轨迹检索系统，对车辆轨迹进行检索。该种基于自然语言和视觉特征的车辆检索方法，可以通过自然语言方便的找到和语义匹配的车辆，相比之前仅仅基于视觉的车辆检索系统更具灵活性，降低了检索的门槛，同时利用车辆重识别模型提取出辨别能力强的车辆的视觉特征，丰富了特征的细粒度信息。权利要求书2页说明书5页附图1页 CN 114547249 A 2022.05.27 CN 114547249 A 1.一种基于自然语言和视觉特征的车辆检索方法，其特征在于，包括如下步骤： S1、构建车辆重识别数据集，通过从不同摄像头采集视频，之后利用检测模型从视频中检测出车辆图片，构建数据集； S2、使用多任务学习框架作为基础模型，训练车辆重识别模型，具体步骤如下： S2‑1、将车辆图片进行一些数据预处理，包括随机擦除、随机剪切和标准化处理，然后构建批训练数据，具体为从库中不放回的抽取P各类，每个类K张图片，使用这些图片作为训练的批数据； S2‑2、将批数据送入到一个残差网络中，通过卷积操作，得到特征图，然后对这个特征图进行广义平均池化，将特征图转化为一位向量，并定义这个特征为F1，之后利用此一位向量计算度量学习损失； S2‑3、将特征F1经过一个批归一化层，得到特征F2，然后使用这个特征计算分类损失； S2‑4、通过反向传播对网络参数进行优化，通过多次迭代，此时网络具备分辨不同车辆的能力，之后将训练好的网络参数保存； S3、获得特征提取器，去掉Re ‑ID模型的头部即分类层，也就是BN后的所有部分，然后使用BN后的获得的特征即上述的特征F2作为车辆的特征表示，便可得到车辆的特征提取器； S4、构建基于自然语言和视觉特征的多模态车辆轨迹检索系统，对车辆轨迹进行检索，具体步骤如下： S4‑1、视觉特征提取，对每段视频进行视频抽帧，并从每一帧中将车辆的主体部分裁剪出来，之后使用S3中的车辆特征提取器对每张帧图片进行特征提取，并将其转化为特征向量V，最后通过GRU模型挖掘时序信息进行融合，得到视觉特征fv； S4‑2、自然语言特征提取，输入N段自然语言，并对于每一段自然语言，使用在大规模语料数据上预训练的GLove模型提取词向量特征S，之后使用通过GRU模型对词向量特征进行融合，得到自然语言特征fs； S4‑3、对比学习，使用得到的视觉特征fv和自然语言特征fs，在高维空间上计算对比损失，计算自然语言与车辆轨迹视频的匹配度，即余弦相似度，之后将车辆轨迹按照匹配度进行排序，将相似度最高的若干个车辆轨迹进行返回，便可现实通过自然语言对车辆轨迹进行检索。 2.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S1中，构建数据集的具体方式为：将相同车牌号视为一类，顺序给予其ID标签，并将ID数目定义为N。 3.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S2‑2中，计算度量学习损失是利用三元组损失计算，三元组损失如下：式中： Lt代表三元组损失， f(*)代表网络的映射函数，即将图片转化为一维向量的函数， xa， xp， xn分表代表三元组的锚图像、正例图像和反例图像，三元组是通过一种难采样方式获取的，具体为，针对一组批数据，会循环将每一个图片作为锚图像，然后找到距离最远的同权　利　要　求　书 1/2 页 2 CN 114547249 A 2类图片作为正例图像以及距离最近的不同类图片作为反例图像，以此来构建一个三元组。 4.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S2‑3中，计算分类损失，这里的分类损失标签是之前设定的ID标签，使用的损失函数为交叉熵损失：式中： Ls代表分类学习损失，即交叉熵损失， yi是一个指示变量，如果第i个类别和目标类别匹配则yi＝1否则为0， pi为图片属于第i类的预测出来的可能性。 5.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S4‑1中，特征向量其中Tv是一段视频中的帧数， ct是第t帧的特征表示， 2048是特征的维度，之后将Tv个特征通过GRU挖掘时序信息进行融合得到融合后的特征最后通过一个全连接层将特征映射到高维空间并经过批标准化，得到最后的视觉特征fv，这里的Wα和bα代表全连接层的权重和偏差。 6.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S4‑2中，词向量特征其中Ts代表这段自然语言中词语的数目， wt代表第t个词向量，之后使用另一个GRU模块对词向量特征进行融合最后将融合后的特征通过一个全连接和批处理层得到最后的自然语言特征这里的Wγ和bγ代表全连接层的权重和偏差。 7.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法，其特征在于，在S4‑3中，定义对比损失为 L， yd2+(1‑y)max(m‑d,0)2，其中N代表样本对数目， d代表两种特征的欧式距离，即d＝||fs‑fv||2， y代表两种特征是否匹配，当自然语言特征和视觉特征是匹配情况下， y＝1，反之不匹配时， y＝0， m为预设的阈值。权　利　要　求　书 2/2 页 3 CN 114547249 A 3

专利 一种基于自然语言和视觉特征的车辆检索方法

专利一种基于自然语言和视觉特征的车辆检索方法