专利 一种图像数据处理方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210642575.8 (22)申请日 2022.06.08 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人万纬韬　孙冲　李琛　 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 专利代理师闵晶晶 (51)Int.Cl. G06V 10/74(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 17/16(2006.01) (54)发明名称一种图像数据处理方法及装置 (57)摘要本申请提供了一种图像数据处理方法以及相关装置。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。其方法包括：获取待检测图像以及目标对象图像；对待检测图像以及目标对象图像进行特征提取，得到两个特征图像数据；根据特征图像数据生成相关矩阵；通过相关矩阵，生成像素级空间位置矩阵；根据像素级空间位置矩阵在待检测图像中生成包含目标对象的目标对象检测框。本申请实施例提供图像数据处理方法，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，提高了从待检测图像中检测出目标对象的准确率。权利要求书4页说明书19页附图13页 CN 114926666 A 2022.08.19 CN 114926666 A 1.一种图像数据处理方法，其特征在于，包括：获取待检测图像以及目标对象图像；分别将所述待检测图像以及所述目标对象图像作为单样本检测模型中的特征提取网络的输入，通过所述特征提取网络分别输出第一特征图像以及第二特征图像，其中，所述第一特征图像为所述特征提取网络根据所述待检测图像生成的，所述第一特征图像包括K个第一特征像素，所述第二特征图像为所述特征提取网络根据所述目标对象图像生成的，所述第二特征图像包括 L个第二特征像素， K为大于1的整数， L 为大于1的整数；根据所述第一特征图像以及所述第二特征图像，生成相关矩阵，其中，所述相关矩阵包括K×L个相似度值， K ×L个所述相似度值表示K个所述第一特征像素与L个所述第二特征像素的相似程度；将所述相关矩阵作为所述单样本检测模型中的变换网络的输入，通过所述变换网络输出像素级空间位置矩阵，其中，所述像素级空间位置矩阵包括K ×L×2个元素， K ×L×2个所述元素表示以K个所述第一特征像素中任一个为锚点时， L个所述第二特征像素在所述第一特征图像中的对应位置坐标；根据所述像素级空间位置矩阵，在所述待检测图像中生成T个目标对象检测框，其中， T 个所述目标对象检测框包括T个所述目标对象， T个所述目标对象检测框对应的T个置信度值均满足置信度阈值， T为大于等于1的整数。 2.如权利要求1所述的图像数据处理方法，其特征在于， K个所述第一特征像素对应K个以所述第一特征像素为锚点生成的检测框；所述通过所述变换网络输出像素级空间位置矩阵之后，还包括：根据所述像素级空间位置矩阵对所述相关矩阵进行重采样处理，生成重采样矩阵，其中，所述重采样矩阵包括U个维度， U为大于等于2的整数；对所述重采样矩阵中的U个维度进行平均池化处理，得到置信度矩阵，其中，所述置信度矩阵包括K个置信度值， K个所述置信度值对应于K个所述检测框。 3.如权利要求1 ‑2任一所述的图像数据处理方法，其特征在于，所述根据所述像素级空间位置矩阵，在所述待检测图像中生成T个目标对象检测框，包括：根据所述像素级空间位置矩阵，在所述待检测图像中生成T个对应网格，所述对应网格为所述待检测图像与所述目标对象图像的相似像素的对应网格；根据T个所述对应网格生成T个所述目标对象检测框，其中，每个所述目标对象检测框为每个所述对应网格的外接矩形。 4.如权利要求1 ‑2任一所述的图像数据处理方法，其特征在于，所述根据所述像素级空间位置矩阵，在所述待检测图像中生成T个目标对象检测框，包括：根据所述像素级空间位置矩阵，在所述待检测图像中确定所述目标对象的顶点坐标；根据所述目标对象的顶点坐标生成所述目标对象检测框。 5.如权利要求1所述的图像数据处理方法，其特征在于，所述特征提取网络包括卷积子网络以及字典子网络，所述字典子网络携带字典矩阵；所述分别将所述待检测图像以及所述目标对象图像作为单样本检测模型中的特征提取网络的输入，通过所述特征提取网络分别输出第一特征图像以及第二特征图像，包括：将所述待检测图像作为所述卷积子网络的输入，通过所述卷积子网络输出第一中间矩权　利　要　求　书 1/4 页 2 CN 114926666 A 2阵；将第一中间矩阵输入至所述字典子网络，通过所述字典子网络将所述第一中间矩阵与所述字典矩阵进行特征交叉，生成待检测图像特征矩阵；将所述待检测图像特征矩阵进行归一化处理，得到所述第一特征矩阵；根据所述第一特征矩阵，生成所述第一特征图像；将所述目标对象图像作为所述卷积子网络的输入，通过所述卷积子网络输出第二中间矩阵；将第二中间矩阵输入至所述字典子网络，通过所述字典子网络将所述第二中间矩阵与所述字典矩阵进行特征交叉，生成目标对象图像特征矩阵；将所述目标对象图像特征矩阵进行归一化处理，得到所述第二特征矩阵；根据所述第二特征矩阵，生成所述第二特征图像。 6.如权利要求1所述的图像数据处理方法，其特征在于，所述方法还包括：获取第一训练样本图像、第二训练样本图像以及训练对象图像，其中，所述第一训练样本图像包括TB个训练对象标注框， TB个训练对象标注框包括TB个训练对象， TB个所述训练对象标注框对应于TB个标注框数据，所述第二训练样本图像不包括所述训练对象，所述训练对象图像包括所述训练对象， TB为大于等于1的整数；分别将所述第一训练样本图像、所述第二训练样本图像以及所述训练对象图像作为单样本检测模型中的特征提取网络的输入，通过所述特征提取网络分别输出第一训练特征图像、第二训练特征图像以及第三训练特征图像，其中，所述第一训练特征图像为所述特征提取网络根据所述第一训练样本图像生成的，所述第一训练特征图像包括 KX1个第一训练特征像素，所述第二训练特征图像为所述特征提取网络根据所述第二训练样本图像生成的，所述第二训练特征图像包括 KX2个第二训练特征像素，所述第三训练特征图像为所述特征提取网络根据所述训练对象图像生成的，所述第三训练特征图像包括LX个第三训练特征像素， KX1为大于1的整数， KX2为大于1的整数， LX为大于1的整数；根据所述第一训练特征图像以及所述第三训练特征图像，生成第一训练相关矩阵，其中，所述第一训练相关矩阵包括KX1×LX个相似度值， KX1×LX个所述相似度值为KX1个所述第一训练特征像素与LX个第三训练特征像素的相似程度；根据所述第二训练特征图像以及所述第三训练特征图像，生成第二训练相关矩阵，其中，所述第二训练相关矩阵包括KX2×LX个相似度值， KX2×LX个所述相似度值为KX2个所述第二训练特征像素与LX个第三训练特征像素的相似程度；将所述第一训练相关矩阵作为所述单样本检测模型中的变换网络的输入，通过所述变换网络输出第一训练像素级空间位置矩阵，其中，所述第一训练像素级空间位置矩阵包括 KX1×LX×2个第一训练元素， KX1×LX×2个第一训练元素表示以KX1个所述第一训练特征像素中任一个为锚点时， LX个所述第三训练特征像素在所述第一训练特征图像中的对应位置坐标；将所述第二训练相关矩阵作为所述单样本检测模型中的变换网络的输入，通过所述变换网络输出第二训练像素级空间位置矩阵，其中，所述第二训练像素级空间位置矩阵包括 KX2×LX×2个第二训练元素， KX2×LX×2个第二训练元素表示以KX2个所述第二训练特征像素中任一个为锚点时， LX个所述第三训练特征像素在所述第二训练特征图像中的对应位置坐权　利　要　求　书 2/4 页 3 CN 114926666 A 3

专利 一种图像数据处理方法及装置

专利一种图像数据处理方法及装置