全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111637751.0 (22)申请日 2021.12.2 9 (71)申请人 深圳市商汤科技有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 黄耿石 陈泽人 滕家宁 李威  邵婧 盛律  (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 代理人 袁忠林 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06V 10/40(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 10/764(2022.01) (54)发明名称 神经网络模 型训练、 目标检测方法、 装置、 设 备以及介质 (57)摘要 本公开提供了一种神经网络模 型训练、 目标 检测方法、 装置、 设备以及介质, 其中, 该方法包 括: 获取多个目标图像组; 其中, 每个目标图像组 包含对应原始图像的多个视角图像, 每个视角图 像均包含该原始图像中的目标对象; 确定每个所 述目标图像组中与每个编解码器对应的两个视 角图像; 基于每个所述编解码器对相应两个视角 图像的第一图像中位于目标对象的包围框内的 局部图像特征和该两个视角图像的第二图像的 整体图像特征进行处理, 得到每个所述编解码器 的预测结果; 每个预测结果包括: 第二图像中目 标对象的预测包围框和第一图像中目标对象的 特征信息; 基于全部所述编解码器的预测结果训 练Transformer模型 , 并基于训练后的 Transformer模型训练目标网络模型。 权利要求书3页 说明书16页 附图6页 CN 114332562 A 2022.04.12 CN 114332562 A 1.一种神经网络模型训练方法, 其特征在于, 应用于包含多个编解码器的Transformer 模型, 包括: 获取多个目标图像组; 其中, 每个目标图像组包含对应原始图像的多个视角图像, 每个 视角图像均包 含该原始图像中的目标对象; 确定每个所述目标图像组中与每 个编解码器对应的两个视角图像; 基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内 的局部图像特征和该两个视角图像的第二图像的整体图像特征进 行处理, 得到每个所述编 解码器的预测结果; 每个预测结果包括: 第二图像中目标对 象的预测包围框和第一图像中 目标对象的预测特 征信息; 基于全部所述编解码器的预测结果训练Transformer模型, 并基于训练后的 Transformer模型训练目标网络模型。 2.根据权利要求1所述的方法, 其特 征在于, 所述获取每 个所述目标图像组, 包括: 获取每个所述目标图像组对应的原始图像, 并在所述原始图像中截取包含所述目标对 象的初始图像; 在所述初始图像中确定多个初始包围框, 其中, 任意两个初始包围框之间的交并比大 于预设阈值; 截取所述初始图像中位于每个所述初始包围框中的图像, 得到多个视角图像, 并基于 所述多个视角图像确定所述目标图像组。 3.根据权利要求1或2所述的方法, 其特征在于, 所述基于每个所述编解码器对相应两 个视角图像的第一图像中位于目标对 象的包围框内的局部图像特征和该两个视角图像的 第二图像的整体图像特 征进行处 理, 得到每 个所述编解码器的预测结果, 包括: 通过每个所述编 解码器的编码器对相应的第 二图像的整体图像特征进行处理, 得到第 一编码图像特 征; 将所述第一编码图像特征和相应的局部图像特征输入至该编解码器的解码器中进行 处理, 得到该编解码器的预测结果。 4.根据权利要求1至 3中任一项所述的方法, 其特 征在于, 所述方法还 包括: 通过基础骨干网络提取所述第一图像的图像特征, 得到第一初始图像特征, 以及通过 所述基础 骨干网络提取 所述第二图像的图像特 征, 得到第二初始图像特 征; 基于所述第 一初始图像特征确定所述局部图像特征, 并基于所述第 二初始特征图像确 定所述整体图像特 征。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述第 一初始图像特征确定所述 局部图像特 征, 包括: 确定所述第 一初始图像特征中位于所述目标对象的包围框内的图像特征, 得到第 一子 图像特征; 截取所述第 一图像中位于所述目标对象的包围框 内的图像, 并将截取到的图像确定为 第二子图像特 征; 将所述第一子图像特 征和所述第二子图像特 征进行合并, 得到所述局部图像特 征。 6.根据权利要求4或5所述的方法, 其特征在于, 所述基于全部所述编解码器的预测结 果训练Transformer模型, 包括:权 利 要 求 书 1/3 页 2 CN 114332562 A 2基于所述预测结果和初始图像特征确定每个所述编解码器的目标损 失函数值; 其中, 所述初始图像特 征包括: 所述第一初始图像特 征和所述第二初始图像特 征; 基于各个所述编解码器的目标损失函数值迭代调整所述Transformer模型中的模型参 数, 得到所述训练后的Transformer模型。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述预测结果和初始图像特征确 定每个所述编解码器的目标损失函数值, 包括: 基于所述第 一初始图像特征和所述第 二初始图像特征计算第 一损失函数值, 并基于所 述预测结果中的预测特 征信息和所述第一图像的分类标签 计算第二损失函数值; 对所述第一损失函数值和所述第 二损失函数值进行合并, 得到该编 解码器的目标损失 函数值。 8.根据权利 要求1至7中任一项所述的方法, 其特征在于, 基于训练后的Transformer模 型训练目标网络模型, 包括: 基于所述训 练后的Transformer模型的模型参数对所述目标网络模型进行初始化处 理; 获取目标训练样本; 其中, 所述目标训练样本包含多个样本图像, 每个样本图像包含样 本标签; 通过所述目标训练样本对初始化处理之后的目标网络模型进行训练, 得到训练后目标 网络模型。 9.一种目标检测方法, 其特 征在于, 包括: 获取待处 理图像; 通过目标神经网络模型对待处理图像进行目标检测, 得到目标检测结果; 其中, 所述目 标神经网络模型为通过上述权利要求1至8 中任一项所述的神经网络模型训练方法训练得 到的网络模型。 10.一种神经网络模型训练装置, 其特 征在于, 包括: 第一获取单元, 用于获取多个目标图像组; 其中, 每个目标图像组包含对应原始图像的 多个视角图像, 每 个视角图像均包 含该原始图像中的目标对象; 确定单元, 用于确定每 个所述目标图像组中与每 个编解码器对应的两个视角图像; 处理单元, 用于基于每个所述编 解码器对相应两个视角图像的第 一图像中位于目标对 象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行 处理, 得 到每个所述编解码器的预测结果; 每个预测结果包括: 第二图像中目标对 象的预测包围框 和第一图像中目标对象的预测特 征信息; 训练单元, 用于基于所述预测结果训练Transformer模型, 并基于训练后的 Transformer模型训练目标网络模型。 11.一种目标检测装置, 其特 征在于, 包括: 第二获取 单元, 用于获取待处 理图像; 检测单元, 用于通过目标神经网络模型对待处理图像进行目标检测, 得到目标检测结 果; 其中, 所述目标神经网络模型为通过上述权利要求1至8中任一项所述的神经网络模型 训练方法训练得到的网络模型。 12.一种计算机设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所权 利 要 求 书 2/3 页 3 CN 114332562 A 3

.PDF文档 专利 神经网络模型训练、目标检测方法、装置、设备以及介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 神经网络模型训练、目标检测方法、装置、设备以及介质 第 1 页 专利 神经网络模型训练、目标检测方法、装置、设备以及介质 第 2 页 专利 神经网络模型训练、目标检测方法、装置、设备以及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。