(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210642575.8
(22)申请日 2022.06.08
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 万纬韬 孙冲 李琛
(74)专利代理 机构 深圳市深佳知识产权代理事
务所(普通 合伙) 44285
专利代理师 闵晶晶
(51)Int.Cl.
G06V 10/74(2022.01)
G06V 10/40(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 17/16(2006.01)
(54)发明名称
一种图像数据处 理方法及装置
(57)摘要
本申请提供了一种图像数据处理方法以及
相关装置。 本申请实施例可应用于云技术、 人工
智能、 智慧交通、 辅助驾驶等各种 场景。 其方法包
括: 获取待检测图像以及目标对象图像; 对待检
测图像以及目标对象图像进行特征提取, 得到两
个特征图像数据; 根据特征图像数据生成相关矩
阵; 通过相关矩阵, 生成像素级空间位置矩阵; 根
据像素级空间位置矩 阵在待检测图像中生成包
含目标对象的目标对象检测框。 本申请实施例提
供图像数据处理方法, 通过相关矩阵建立待检测
图像的特征图中的像素与 目标对象图像的特征
图中像素的相似程度, 通过像素级空间位置矩阵
建立待检测图像与 目标对象图像的相似像素的
空间位置关系, 提高了从待检测图像中检测出目
标对象的准确率。
权利要求书4页 说明书19页 附图13页
CN 114926666 A
2022.08.19
CN 114926666 A
1.一种图像数据处 理方法, 其特 征在于, 包括:
获取待检测图像以及目标对象图像;
分别将所述待检测图像以及所述目标对象图像作为单样本检测模型中的特征提取网
络的输入, 通过所述特征提取网络 分别输出第一特征图像以及第二特征图像, 其中, 所述第
一特征图像为所述特征提取网络根据所述待检测图像生成的, 所述第一特征图像包括K个
第一特征像素, 所述第二特征图像为所述特征提取网络根据所述 目标对象图像生成的, 所
述第二特 征图像包括 L个第二特 征像素, K为大于1的整数, L 为大于1的整数;
根据所述第一特征图像以及所述第 二特征图像, 生成相关矩阵, 其中, 所述相关矩阵包
括K×L个相似度值, K ×L个所述相似度值表示K个所述第一特征像素与L个所述第二特征像
素的相似程度;
将所述相关矩阵作为所述单样本检测模型中的变换网络的输入, 通过所述变换网络输
出像素级空间位置矩阵, 其中, 所述像素级空间位置矩阵包括K ×L×2个元素, K ×L×2个所
述元素表示以K个所述第一特征像素中任一个为锚点时, L个所述第二特征像素在所述第一
特征图像中的对应位置坐标;
根据所述像素级空间位置矩阵, 在所述待检测图像 中生成T个目标对象检测框, 其中, T
个所述目标对 象检测框包括T个所述目标对 象, T个所述目标对 象检测框对应的T个置信度
值均满足置信度阈值, T为大于等于1的整数。
2.如权利要求1所述的图像数据处理方法, 其特征在于, K个所述第一特征像素对应K个
以所述第一特 征像素为锚点 生成的检测框;
所述通过所述变换网络 输出像素级空间位置矩阵之后, 还 包括:
根据所述像素级空间位置矩阵对所述相关矩阵进行重采样处理, 生成重采样矩阵, 其
中, 所述重采样矩阵包括U个维度, U为大于等于2的整数;
对所述重采样矩阵中的U个维度进行平均池化处理, 得到置信度矩阵, 其中, 所述置信
度矩阵包括K个置信度值, K个所述置信度值对应于K个所述检测框 。
3.如权利要求1 ‑2任一所述的图像数据处理方法, 其特征在于, 所述根据 所述像素级空
间位置矩阵, 在所述待检测图像中生成T个目标对象检测框, 包括:
根据所述像素级空间位置矩阵, 在所述待检测图像 中生成T个对应网格, 所述对应网格
为所述待检测图像与所述目标对象图像的相似像素的对应网格;
根据T个所述对应网格生成T个所述目标对象检测框, 其中, 每个所述目标对象检测框
为每个所述对应网格的外 接矩形。
4.如权利要求1 ‑2任一所述的图像数据处理方法, 其特征在于, 所述根据 所述像素级空
间位置矩阵, 在所述待检测图像中生成T个目标对象检测框, 包括:
根据所述像素级空间位置矩阵, 在所述待检测图像中确定所述目标对象的顶点 坐标;
根据所述目标对象的顶点 坐标生成所述目标对象检测框 。
5.如权利要求1所述的图像数据处理方法, 其特征在于, 所述特征提取网络包括卷积子
网络以及字典子网络, 所述字典子网络携带字典矩阵;
所述分别将所述待检测图像以及所述目标对象图像作为单样本检测模型中的特征提
取网络的输入, 通过 所述特征提取网络分别输出第一特 征图像以及第二特 征图像, 包括:
将所述待检测图像作为所述卷积子网络的输入, 通过所述卷积子网络输出第 一中间矩权 利 要 求 书 1/4 页
2
CN 114926666 A
2阵;
将第一中间矩阵输入至所述字典子网络, 通过所述字典子网络将所述第 一中间矩阵与
所述字典矩阵进行 特征交叉, 生成待检测图像特 征矩阵;
将所述待检测图像特 征矩阵进行归一 化处理, 得到所述第一特 征矩阵;
根据所述第一特 征矩阵, 生成所述第一特 征图像;
将所述目标对象图像作为所述卷积子网络的输入, 通过所述卷积子网络输出第 二中间
矩阵;
将第二中间矩阵输入至所述字典子网络, 通过所述字典子网络将所述第 二中间矩阵与
所述字典矩阵进行 特征交叉, 生成目标对象图像特 征矩阵;
将所述目标对象图像特 征矩阵进行归一 化处理, 得到所述第二特 征矩阵;
根据所述第二特 征矩阵, 生成所述第二特 征图像。
6.如权利要求1所述的图像数据处 理方法, 其特 征在于, 所述方法还 包括:
获取第一训练样本图像、 第 二训练样本图像以及训练对象图像, 其中, 所述第 一训练样
本图像包括TB个训练对象标注框, TB个训练对象标注框包括TB个训练对象, TB个所述训练对
象标注框对应于TB个标注框数据, 所述第二训练样本图像不包括所述训练对象, 所述训练
对象图像包括所述训练对象, TB为大于等于1的整数;
分别将所述第 一训练样本图像、 所述第 二训练样本图像以及所述训练对象图像作为单
样本检测模型中的特征提取网络的输入, 通过所述特征提取网络分别输出第一训练特征图
像、 第二训练特征图像以及第三训练特征图像, 其中, 所述第一训练特征图像为所述特征提
取网络根据所述第一训练样本图像 生成的, 所述第一训练特征图像包括 KX1个第一训练特征
像素, 所述第二训练特征图像为所述特征提取网络根据所述第二训练样本图像生成的, 所
述第二训练特征图像包括 KX2个第二训练特征像素, 所述第三训练特征图像 为所述特征提 取
网络根据所述训练对象图像生成的, 所述第三训练特征图像包括LX个第三训练特征像素,
KX1为大于1的整数, KX2为大于1的整数, LX为大于1的整数;
根据所述第一训练特征图像以及所述第三训练特征图像, 生成第一训练相关矩阵, 其
中, 所述第一训练相关矩阵包括KX1×LX个相似度值, KX1×LX个所述相似度值为KX1个所述第
一训练特 征像素与LX个第三训练特 征像素的相似程度;
根据所述第二训练特征图像以及所述第三训练特征图像, 生成第二训练相关矩阵, 其
中, 所述第二训练相关矩阵包括KX2×LX个相似度值, KX2×LX个所述相似度值为KX2个所述第
二训练特 征像素与LX个第三训练特 征像素的相似程度;
将所述第一训练相关矩阵作为所述单样本检测模型中的变换网络的输入, 通过所述变
换网络输出第一训练像素级空间位置矩阵, 其中, 所述第一训练像素级空间位置矩阵包括
KX1×LX×2个第一训练元素, KX1×LX×2个第一训练元素表示以KX1个所述第一训练特征像素
中任一个为锚点时, LX个所述第三训练特征像素在所述第一训练特征图像中的对应位置坐
标;
将所述第二训练相关矩阵作为所述单样本检测模型中的变换网络的输入, 通过所述变
换网络输出第二训练像素级空间位置矩阵, 其中, 所述第二训练像素级空间位置矩阵包括
KX2×LX×2个第二训练元素, KX2×LX×2个第二训练元素表示以KX2个所述第二训练特征像素
中任一个为锚点时, LX个所述第三训练特征像素在所述第二训练特征图像中的对应位置坐权 利 要 求 书 2/4 页
3
CN 114926666 A
3
专利 一种图像数据处理方法及装置
文档预览
中文文档
37 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共37页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:05上传分享