说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210173817.3 (22)申请日 2022.02.24 (71)申请人 济南融瓴科技发展 有限公司 地址 250000 山东省济南市自由贸易试验 区济南片区舜泰北路933号博晶大厦 1409室 (72)发明人 高文飞 王瑞雪 王磊 王辉  郭丽丽  (74)专利代理 机构 宁波海曙甬睿专利代理事务 所(普通合伙) 33330 专利代理师 沈强玉 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/783(2019.01) G06F 40/30(2020.01)G06V 20/58(2022.01) G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 一种基于自然语言和视觉特征的车辆检索 方法 (57)摘要 本发明公开了一种基于自然语言和视觉特 征的车辆检索方法, 包括如下步骤: S1、 构建车辆 重识别数据集, 通过从不同摄像头采集视频, 之 后利用检测模 型从视频中检测出车辆图片, 构建 数据集; S2、 使用多任务学习框架作为基础模型, 训练车辆重识别模型; S3、 获得特征提取器; S4、 构建基于自然语言和视觉特征的多模态车辆轨 迹检索系统, 对车辆轨迹进行检索。 该种基于自 然语言和视觉特征的车辆检索方法, 可以通过自 然语言方便的找到和语义匹配的车辆, 相比之前 仅仅基于视觉的车辆检索系统更具灵活性, 降低 了检索的门槛, 同时利用车辆重识别模型提取出 辨别能力强的车辆的视觉特征, 丰富了特征的细 粒度信息 。 权利要求书2页 说明书5页 附图1页 CN 114547249 A 2022.05.27 CN 114547249 A 1.一种基于自然语言和视 觉特征的车辆检索方法, 其特 征在于, 包括如下步骤: S1、 构建车辆重识别数据集, 通过从不同摄像头采集视频, 之后利用检测模型从视频中 检测出车辆图片, 构建数据集; S2、 使用多任务学习框架作为基础模型, 训练车辆 重识别模型, 具体步骤如下: S2‑1、 将车辆图片进行一些数据预处理, 包括随机擦除、 随机剪切和标准化处理, 然后 构建批训练数据, 具体为从库中不放回的抽取P各类, 每个类K张图片, 使用这些图片作为训 练的批数据; S2‑2、 将批数据送入到一个残差网络中, 通过卷积操作, 得到特征图, 然后对这个特征 图进行广义平均池化, 将特征图转化为一位向量, 并定义这个特征为F1, 之后利用此一位向 量计算度量学习损失; S2‑3、 将特征F1经过一个批归一 化层, 得到特 征F2, 然后使用这个特 征计算分类损失; S2‑4、 通过反向传播对网络参数进行优化, 通过多次迭代, 此 时网络具备分辨不同车辆 的能力, 之后将训练好的网络参数保存; S3、 获得特征提取器, 去掉Re ‑ID模型的头部即分类层, 也就是BN后的所有部分, 然后使 用BN后的获得的特 征即上述的特 征F2作为车辆的特 征表示, 便可 得到车辆的特 征提取器; S4、 构建基于自然语言和视觉特征的多模态车辆轨迹检索系统, 对车辆轨迹进行检索, 具体步骤如下: S4‑1、 视觉特征提取, 对每段视频进行视频抽帧, 并从每一帧中将车辆的主体部分裁剪 出来, 之后使用S3中的车辆特征提取器对每张帧图片进行特征提取, 并将其转化为特征向 量V, 最后通过GRU模型挖掘时序信息进行融合, 得到 视觉特征fv; S4‑2、 自然语言特征提取, 输入N段自然语言, 并对于每一段自然语言, 使用在大规模语 料数据上预训练的GLove模型提取词向量特征S, 之后使用通过GRU模型对词向量特征进行 融合, 得到自然语言特 征fs; S4‑3、 对比学习, 使用得到的视觉特征fv和自然语言特征fs, 在高维空间上计算对比损 失, 计算自然语言与车辆轨迹视频的匹配度, 即余弦相似度, 之后将车辆轨迹按照匹配度进 行排序, 将相似度最高的若干个车辆轨迹进行返回, 便可现实通过自然语言对车辆轨迹进 行检索。 2.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于, 在S1中, 构建数据集的具体方式为: 将相同车牌号视为一类, 顺序给予其ID标签, 并将ID数 目定义为N。 3.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于, 在S2‑2中, 计算度量学习损失是利用三元组损失计算, 三元组损失如下: 式中: Lt代表三元组损失, f(*)代表网络的映射函数, 即将图片转化为一维向量的函数, xa, xp, xn分表代表 三元组的锚图像、 正例图像和反例图像, 三元 组是通过一种难采样方式获 取的, 具体为, 针对一组批数据, 会循环将每一个图片作为锚图像, 然后找到距离最远的同权 利 要 求 书 1/2 页 2 CN 114547249 A 2类图片作为 正例图像以及距离最近的不同类图片作为反例图像, 以此来构建一个三元组。 4.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于, 在S2‑3中, 计算分类损失, 这里的分类损失标签是之前设定的ID标签, 使用的损失函数为交 叉熵损失: 式中: Ls代表分类学习损失, 即交叉熵损失, yi是一个指示变量, 如果第i个类别和目标 类别匹配则yi=1否则为0, pi为图片属于第i类的预测出来的可能性。 5.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于, 在S4‑1中, 特征向量 其中Tv是一段视频中的帧数, ct是第t帧的 特征表示, 2048是特征的维度, 之后将Tv个特征通过GRU挖掘时序信息进行融合 得到融合后的特征 最后通过一个全连接层将特征映射到高维空 间并经过批标准化, 得到最后的视觉特征fv, 这里的Wα和bα代表全连接 层的权重和偏差 。 6.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于, 在S4‑2中, 词向量特征 其中Ts代表这段自然语言中词语的数目, wt代表第t个词向量, 之后使用另一个GRU模块对词向量特征进行融合 最后将融合后的特征 通过一个全连接和批处理层得到最后的自然语言特 征 这里的Wγ和bγ代表全连接层的权 重和偏差 。 7.根据权利要求1所述的一种基于自然语言和视觉特征的车辆检索方法, 其特征在于, 在S4‑3中, 定义对比损失为 L, yd2+(1‑y)max(m‑d,0)2, 其中N代 表样本对数目, d代表两种特征的欧式距离, 即d=||fs‑fv||2, y代表两种特征是否匹配, 当自然语 言特征和 视觉特征是匹配情况 下, y=1, 反 之不匹配时, y=0, m为预设的阈值。权 利 要 求 书 2/2 页 3 CN 114547249 A 3

PDF文档 专利 一种基于自然语言和视觉特征的车辆检索方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自然语言和视觉特征的车辆检索方法 第 1 页 专利 一种基于自然语言和视觉特征的车辆检索方法 第 2 页 专利 一种基于自然语言和视觉特征的车辆检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:29:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。