(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210546400.7
(22)申请日 2022.05.20
(65)同一申请的已公布的文献号
申请公布号 CN 114663737 A
(43)申请公布日 2022.06.24
(73)专利权人 浪潮电子信息产业股份有限公司
地址 250101 山东省济南市高新区浪潮路
1036号
(72)发明人 李晓川 赵雅倩 李仁刚 郭振华
范宝余
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 王燕
(51)Int.Cl.
G06V 10/80(2022.01)G06V 10/77(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06V 10/26(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(56)对比文件
CN 111931637 A,2020.1 1.13
CN 112819011 A,2021.0 5.18
审查员 李亚楠
(54)发明名称
物体识别方法、 装置、 电子设备及计算机可
读存储介质
(57)摘要
本发明公开了一种物体识别方法、 装置、 电
子设备及计算机可读存储介质, 涉及模式识别领
域, 其中本方法在获取到包含物体且模态不确定
的目标图像和候选图像时, 可利用自注意力特征
提取方式及跨注意力特征提取方式对各图像进
行交互特征提取, 以得到各图像对应的交互特征
矩阵, 可有效提升注意力机制在应对非确定跨模
态物体重识别问题时的针对性; 此外, 本方法还
可将上述两个交互特征矩阵融入概率空间, 并在
该空间中生成可表征目标图像和候选图像属于
同一物体的概率的预测值, 即能够采用概率预测
方法, 在概率空间中处理非确定跨模态物体的重
识别问题, 进而能够有效提升非确定跨模态物体
重识别的准确度。
权利要求书4页 说明书15页 附图5页
CN 114663737 B
2022.12.02
CN 114663737 B
1.一种物体识别方法, 其特 征在于, 包括:
对获取到的待处理物体图像进行裁切、 特征提取及编码处理, 得到所述待处理物体图
像对应的编码矩阵; 所述待处理物体图像包括 目标图像和 候选图像, 所述编码矩阵包含所
述待处理物体图像的各类特 征;
将所述目标图像的编码矩阵Q和候选图像的编码矩阵G并行输入至两个特征交互支路,
以使所述特征交互支路对所述编码矩阵Q和所述编码矩阵G进行自注意力特征提取和跨注
意力特征提取, 得到所述目标图像的交互特征矩阵Q和所述候选图像的交互特征矩阵G; 其
中, 所述特征 交互支路对所述编 码矩阵Q和所述编 码矩阵G进 行自注意力特征提取和跨注 意
力特征提取, 得到所述目标图像的交互特征矩阵Q和所述候选图像的交互特征矩阵G, 包括:
第一特征交互支路对所述编码矩阵Q进行自注意力特征提取, 并将得到的自注意力特征与
所述编码矩阵Q相加, 得到本端中间特征; 所述第一特征 交互支路将所述本端中间特征发送
至第二特征交互支路, 同时接 收所述第二特征交互支路发送的对端中间特征; 所述第一特
征交互支路对所述本端中间特征及所述对端中间特征进行跨注意力特征提取, 并将得到的
跨注意力特征与所述本端中间特征相加, 得到目标图像的交互特征矩阵Q; 所述第二特征 交
互支路采取与所述第一特征交互支路相同的方式对所述编码矩阵G进行处理, 得到所述候
选图像的交 互特征矩阵G;
将所述交互特征矩阵Q和所述交互特征矩阵G并行输入至两个特征提取支路, 以使所述
特征提取支路对接收到的交互特征矩阵进 行自注意力特征提取, 得到所述目标图像的中间
特征和所述 候选图像的中间特 征;
将利用所述交互特征矩阵Q和所述交互特征矩阵G生成的初始预测向量及所述目标图
像的中间特征和所述候选图像的中间特征输入至预测支路, 以使 所述预测支路对所述初始
预测向量进行自注意力特征提取, 并利用得到的中间预测特征和所述目标图像的中间特征
和所述候选图像的中间特 征进行跨注意力特 征提取, 得到预测向量;
利用由所述预测向量降维得到的预测值判定所述目标图像和所述候选图像是否属于
同一物体;
其中, 在将利用所述交互特征矩阵Q和所述交互特征矩阵G生成的初始预测向量及所述
中间特征输入至预测支路 之前, 还包括:
计算所述交互特征矩阵Q和所述交互特征矩阵G之间的余弦相似度, 并利用所述余弦相
似度生成所述初始预测向量。
2.根据权利要求1所述的物体识别方法, 其特征在于, 所述对所述本端中间特征及所述
对端中间特 征进行跨注意力特 征提取, 包括:
所述特征交互支路对所述本端中间特征及所述对端中间特征采用如下方式进行跨注
意力特征提取:
其中
表示初始跨注意力特征, 所述
表示所述本端中间特
征, 所述
表示所述对端中间特征, 所述
表示归一化函数, 所述
、 所述权 利 要 求 书 1/4 页
2
CN 114663737 B
2和所述
表示预先训练的权重矩阵, 所述
表示转置操作, 所述
表示所述
对端中间特 征的维度;
对所述初始跨注意力特 征进行Dropout处 理及归一 化处理, 得到所述 跨注意力特 征。
3.根据权利要求1所述的物体识别方法, 其特征在于, 所述特征交互支路具有多层结
构, 在得到所述交 互特征矩阵Q和所述交 互特征矩阵G之后, 还 包括:
判断是否存在下一层特 征交互支路;
若是, 则将所述交互特征矩阵Q和所述交互特征矩阵G输入至所述下一层特征交互支路
进行处理;
若否, 则进入将所述交互特征矩阵Q和所述交互特征矩阵G并行输入至两个特征提取支
路的步骤。
4.根据权利要求1所述的物体识别方法, 其特征在于, 所述对获取到的待处理物体图像
进行裁切、 特 征提取及编码处 理, 得到所述待处 理物体图像对应的编码矩阵, 包括:
对所述待处 理物体图像进行 所述裁切, 得到所述待处 理物体图像对应的图像块;
利用所述待处理物体图像和所述图像块生成图像集, 并利用所述待处理物体图像的模
态类别对应的神经网络对所述图像集进行所述特征提取, 得到所述待处理物体图像对应的
特征矩阵;
利用所述模态类别及各所述图像块的裁切特征信息对所述特征矩阵进行所述编码处
理, 得到所述待处 理物体图像对应的编码矩阵。
5.根据权利要求4所述的物体识别方法, 其特征在于, 所述对所述待处理物体图像进行
所述裁切, 得到所述待处 理物体图像对应的图像块, 包括:
根据第一预设裁切行数及横向裁切方式对所述待处理物体图像进行裁切, 得到第 一图
像块;
根据第二预设裁切行数、 预设裁切列数及横竖裁切方式对所述待处理物体图像进行裁
切, 得到第二图像块;
将所述第一图像块和所述第二图像块设置为所述图像块。
6.根据权利要求5所述的物体识别方法, 其特征在于, 所述利用所述模态类别及各所述
图像块的裁切特征信息对所述特征矩阵进 行所述编 码处理, 得到所述待处理物体图像对应
的编码矩阵, 包括:
获取所述图像块对应的裁切方式、 在所述待处理物体图像中的相对位置以及在所述特
征矩阵中对应的特 征向量;
利用所述相对位置和所述特征向量中的特征编码生成位置编码, 以及分别利用所述裁
切方式及所述模态类别生成裁切编码及模态编码;
利用所述特 征编码、 所述 位置编码、 所述裁切编码、 所述模态编码生成所述编码矩阵。
7.根据权利要求4所述的物体识别方法, 其特征在于, 所述利用所述待处理物体图像的
模态类别对应的神经网络对所述图像集进行 所述特征提取, 包括:
将所述图像集中的各图像块缩放至预设尺寸, 并将完成缩放处理 的图像集输入至所述
神经网络中进行 特征提取。
8.根据权利要求1至7任一项所述的物体识别方法, 其特征在于, 所述预测支路对所述权 利 要 求 书 2/4 页
3
CN 114663737 B
3
专利 物体识别方法、装置、电子设备及计算机可读存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:03上传分享