(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210173817.3
(22)申请日 2022.02.24
(71)申请人 济南融瓴科技发展 有限公司
地址 250000 山东省济南市自由贸易试验
区济南片区舜泰北路933号博晶大厦
1409室
(72)发明人 高文飞 王瑞雪 王磊 王辉
郭丽丽
(74)专利代理 机构 宁波海曙甬睿专利代理事务
所(普通合伙) 33330
专利代理师 沈强玉
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/783(2019.01)
G06F 40/30(2020.01)G06V 20/58(2022.01)
G06V 20/40(2022.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于自然语言和视觉特征的车辆检索
方法
(57)摘要
本发明公开了一种基于自然语言和视觉特
征的车辆检索方法, 包括如下步骤: S1、 构建车辆
重识别数据集, 通过从不同摄像头采集视频, 之
后利用检测模 型从视频中检测出车辆图片, 构建
数据集; S2、 使用多任务学习框架作为基础模型,
训练车辆重识别模型; S3、 获得特征提取器; S4、
构建基于自然语言和视觉特征的多模态车辆轨
迹检索系统, 对车辆轨迹进行检索。 该种基于自
然语言和视觉特征的车辆检索方法, 可以通过自
然语言方便的找到和语义匹配的车辆, 相比之前
仅仅基于视觉的车辆检索系统更具灵活性, 降低
了检索的门槛, 同时利用车辆重识别模型提取出
辨别能力强的车辆的视觉特征, 丰富了特征的细
粒度信息 。
权利要求书2页 说明书5页 附图1页
CN 114547249 A
2022.05.27
CN 114547249 A
1.一种基于自然语言和视 觉特征的车辆检索方法, 其特 征在于, 包括如下步骤:
S1、 构建车辆重识别数据集, 通过从不同摄像头采集视频, 之后利用检测模型从视频中
检测出车辆图片, 构建数据集;
S2、 使用多任务学习框架作为基础模型, 训练车辆 重识别模型, 具体步骤如下:
S2‑1、 将车辆图片进行一些数据预处理, 包括随机擦除、 随机剪切和标准化处理, 然后
构建批训练数据, 具体为从库中不放回的抽取P各类, 每个类K张图片, 使用这些图片作为训
练的批数据;
S2‑2、 将批数据送入到一个残差网络中, 通过卷积操作, 得到特征图, 然后对这个特征
图进行广义平均池化, 将特征图转化为一位向量, 并定义这个特征为F1, 之后利用此一位向
量计算度量学习损失;
S2‑3、 将特征F1经过一个批归一 化层, 得到特 征F2, 然后使用这个特 征计算分类损失;
S2‑4、 通过反向传播对网络参数进行优化, 通过多次迭代, 此 时网络具备分辨不同车辆
的能力, 之后将训练好的网络参数保存;
S3、 获得特征提取器, 去掉Re ‑ID模型的头部即分类层, 也就是BN后的所有部分, 然后使
用BN后的获得的特 征即上述的特 征F2作为车辆的特 征表示, 便可 得到车辆的特 征提取器;
S4、 构建基于自然语言和视觉特征的多模态车辆轨迹检索系统, 对车辆轨迹进行检索,
具体步骤如下:
S4‑1、 视觉特征提取, 对每段视频进行视频抽帧, 并从每一帧中将车辆的主体部分裁剪
出来, 之后使用S3中的车辆特征提取器对每张帧图片进行特征提取, 并将其转化为特征向
量V, 最后通过GRU模型挖掘时序信息进行融合, 得到 视觉特征fv;
S4‑2、 自然语言特征提取, 输入N段自然语言, 并对于每一段自然语言, 使用在大规模语
料数据上预训练的GLove模型提取词向量特征S, 之后使用通过GRU模型对词向量特征进行
融合, 得到自然语言特 征fs;
S4‑3、 对比学习, 使用得到的视觉特征fv和自然语言特征fs, 在高维空间上计算对比损
失, 计算自然语言与车辆轨迹视频的匹配度, 即余弦相似度, 之后将车辆轨迹按照匹配度进
行排序, 将相似度最高的若干个车辆轨迹进行返回, 便可现实通过自然语言对车辆轨迹进
行检索。
2.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于,
在S1中, 构建数据集的具体方式为: 将相同车牌号视为一类, 顺序给予其ID标签, 并将ID数
目定义为N。
3.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于,
在S2‑2中, 计算度量学习损失是利用三元组损失计算, 三元组损失如下:
式中: Lt代表三元组损失, f(*)代表网络的映射函数, 即将图片转化为一维向量的函数,
xa, xp, xn分表代表 三元组的锚图像、 正例图像和反例图像, 三元 组是通过一种难采样方式获
取的, 具体为, 针对一组批数据, 会循环将每一个图片作为锚图像, 然后找到距离最远的同权 利 要 求 书 1/2 页
2
CN 114547249 A
2类图片作为 正例图像以及距离最近的不同类图片作为反例图像, 以此来构建一个三元组。
4.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于,
在S2‑3中, 计算分类损失, 这里的分类损失标签是之前设定的ID标签, 使用的损失函数为交
叉熵损失:
式中: Ls代表分类学习损失, 即交叉熵损失, yi是一个指示变量, 如果第i个类别和目标
类别匹配则yi=1否则为0, pi为图片属于第i类的预测出来的可能性。
5.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于,
在S4‑1中, 特征向量
其中Tv是一段视频中的帧数, ct是第t帧的
特征表示, 2048是特征的维度, 之后将Tv个特征通过GRU挖掘时序信息进行融合
得到融合后的特征
最后通过一个全连接层将特征映射到高维空
间并经过批标准化, 得到最后的视觉特征fv,
这里的Wα和bα代表全连接
层的权重和偏差 。
6.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于,
在S4‑2中, 词向量特征
其中Ts代表这段自然语言中词语的数目,
wt代表第t个词向量, 之后使用另一个GRU模块对词向量特征进行融合
最后将融合后的特征
通过一个全连接和批处理层得到最后的自然语言特
征
这里的Wγ和bγ代表全连接层的权 重和偏差 。
7.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于,
在S4‑3中, 定义对比损失为 L,
yd2+(1‑y)max(m‑d,0)2, 其中N代 表样本对数目,
d代表两种特征的欧式距离, 即d=||fs‑fv||2, y代表两种特征是否匹配, 当自然语 言特征和
视觉特征是匹配情况 下, y=1, 反 之不匹配时, y=0, m为预设的阈值。权 利 要 求 书 2/2 页
3
CN 114547249 A
3
专利 一种基于自然语言和视觉特征的车辆检索方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:05上传分享