专利一种适用于单目3D目标检测任务的半监督学习方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210166805.8 (22)申请日 2022.02.23 (65)同一申请的已公布的文献号申请公布号 CN 114581350 A (43)申请公布日 2022.06.03 (73)专利权人清华大学地址 100084 北京市海淀区清华园1号 (72)发明人李骏　杨磊　张新钰　王力　吴新刚　 (74)专利代理机构北京三聚阳光知识产权代理有限公司 1 1250 专利代理师张建纲 (51)Int.Cl. G06T 5/50(2006.01) G06T 7/11(2017.01) G06T 7/12(2017.01) G06T 11/40(2006.01) G06V 10/762(2022.01) G06V 10/774(2022.01) (56)对比文件 CN 113536920 A,2021.10.2 2CN 113377888 A,2021.09.10 CN 113269267 A,2021.08.17 CN 113420707 A,2021.09.21 KR 20200057848 A,2020.0 5.27 US 2020394458 A1,2020.12.17 Peixuan Li等.Monocular 3D Detecti on With Geometric Co nstraint Embed ding and Semi-Supervised Trai ning. 《IEEE Robotics and Automati on Letters》 .2021,第0 6卷(第03 期), 姜欣言.基于深度学习的单目深度估计方法研究. 《中国优秀博硕士学位论文全文数据库（硕士）工程科技 Ⅱ辑》 .2021,(第07期), He Wang等.3DI oUMatch: Levera ging IoU Predicti on for Semi-Supervised 3D Object Detection. 《2021 IE EE/CVF Conference o n Computer Visi on and Pat tern Recogn ition (CVPR)》 .2021, Lei Yang等.L ite-FPN for K eypoint- based Mo nocular 3D Object Detecti on. 《arXiv》 .2021, 审查员李佳丽 (54)发明名称一种适用于单目3D目标检测任务的半监督学习方法 (57)摘要本发明公开了一种适用于单目3D目标检测模型的半监督学习方法，所述方法包括：基于标注数据训练初始教师模型，根据得到的教师模型进行面向数据库的伪标签生成和基于合成图像的学生模型训练，将本轮次训练所得到的学生模型作为下一轮次的教师模型，如此迭代进行多轮次训练直至达到训练要求，得到训练好的学生模型即为单目3D目标检测模型；在训练中采用目标边界框位置不确定度估计方法过滤噪声伪标签，进一步提升半监督训练效果。本发明利用额外的无标签数据，有效提升单目3D目标检测相关算法的精度指标；提出了一种目标边界框位置不确定度估计方法，用于有效过滤噪声伪标签，进一步提升半监督学习的训练效果。权利要求书2页说明书5页附图2页 CN 114581350 B 2022.11.04 CN 114581350 B 1.一种适用于单目3D目标检测任务的半监督学习方法，所述方法包括：基于标注数据训练初始教师模型，根据得到的教师模型进行面向数据库的伪标签生成和基于合成图像的学生模型训练，将本轮次训练所得到的学生模型作为下一轮次的教师模型，如此迭代进行多轮次训练直至达到训练要求，得到训练好的学生模型即为单目3D目标检测模型；在训练中采用目标边界框位置不确定度估计方法过滤噪声伪标签，进一步提升半监督训练效果；所述目标边界框位置不确定度估计方法具体包括：步骤s1)对于不同参数相同结构的N个教师模型，针对同一帧图像数据，得到M个检测框；步骤s2)设置列表B包含所有教师模型的M个三维边界框，设置列表S存储与每个三维边界框对应的分类置信度；步骤s3)设置三个空列表G、 H和U，其中，列表G用于保存三维边界框聚类，每个聚类代表 N个同构异参模型对图像上同一的目标对象的检测结果，列表H用于保存每个聚类中置信度分数最高的三维边界框，列表U用于保存列表H中每个三维边界框对应的位置不确定度；步骤s4)依次遍历列表B 中的每一个三维边界框bi，当IoU3D(bi， bm)≥thr，则转至步骤 s5)，当IoU3D(bi， bm)＜thr，若已遍历完毕列表B，转至步骤s6)，否则继续执行步骤s4)，其中， IoU3D表示三维目标框交并比， bm为列表B中置信度最高的边界框， thr为交并比阈值；步骤s5)判定bi属于当前聚类C，将bi由列表B转移到聚类C，列表S作相应更新，当列表B 不为空则转至步骤s4)，否则转至步骤s7)；步骤s6)将当前聚类C加入到列表G，重新选取列表B中置信度最高的边界框bm，将bm由列表B转移至列表H，列表S同步更新，基于框bm初始化新的聚类C，当列表B不为空则转至步骤 s4)，否则转至步骤s7)；步骤s7)计算列表G中每个聚类C的不确定性u，并将计算结果加入至列表U；步骤s8)返回位置不确定度列表U和对应边界框列表H 。 2.根据权利要求1所述的适用于单目3D目标检测任务的半监督学习方法，其特征在于，所述根据得到的教师模型进行面向数据库的伪标签生成具体包括：使用教师模型通过类别执行度和边界框位置不确定度筛选高质量伪标签，创建由实例图像块和对应伪标签组成的实例数据库；筛选不包含任何检测结果的未标注数据作为背景图像，创建背景数据库；基于实例数据库和背景数据库构建合成图像。 3.根据权利要求2所述的适用于单目3D目标检测任务的半监督学习方法，其特征在于，所述基于实例数据库和背景数据库构建合成图像；具体包括：对实例数据库中的图像块进行预处理实现图像增强；将预处理后的图像块以贴图方式融合到有标签图像，或将预处理后的图像块以贴图方式融合到来自背景数据集的背景图像。 4.根据权利要求3所述的适用于单目3D目标检测任务的半监督学习方法，其特征在于，所述预处理具体包括：按一定比例剪切实例图像块的水平边框边缘区域和垂直边框边缘区域；和/或按一定比例用随机颜色填充实例图像块的水平边框边缘区域和垂直边框边缘区权　利　要　求　书 1/2 页 2 CN 114581350 B 2域；和/或将实例图像块与有标签图像之间进行随机权重的加权平均以实现混合；和/或将实例图像块与背景图片之间进行随机权重的加权平均以实现混合。 5.根据权利要求1所述的适用于单目3D目标检测任务的半监督学习方法，其特征在于，所述步骤s7)的不确定性u满足下式：式中， M表示聚类C中的预测框数量， N表示同构异参模型数量， bi表示聚类C中的第i个预测框， bj表示聚类C中的第j个预测框， aij表示每一项的权重， β 为超参数，用于控制聚类C中预测框数量对位置不确定度的影响程度；位置不确定性u取值为0或1，其中，取值为0表示对于同一个实际目标， N个同构异参模型中不存在漏检，且所有N个检测框完全重合；取值为1表示所有模型都无法检测到实际存在的目标。 6.根据权利要求1所述的适用于单目3D目标检测任务的半监督学习方法，其特征在于，半监督训练的损失函数为：其中，为有监督损失，用于人工标注对象，为无监督损失，用于伪标签对象， λ为平衡有监督损失和无监督损失所占比重的超参数；满足下式：其中， L表示一个训练轮次中标注图像索引， Nl表示每张标注图像所包含的人工标注框数量，表示每张标注图像的第m个人工标注框，下标l表示标注对象，表示分类损失函数，表示回归损失函数；满足下式：其中， B表示一个训练轮次中背景图像数量， Nu表示每张标注图像或背景图像所包含的贴图伪标签框的数量，表示在每张图像上的第n个伪标签框，下标u表示未标注对象。权　利　要　求　书 2/2 页 3 CN 114581350 B 3

专利 一种适用于单目3D目标检测任务的半监督学习方法

专利一种适用于单目3D目标检测任务的半监督学习方法