专利 一种基于弱监督学习的交互式图像分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221082345 6.2 (22)申请日 2022.07.13 (71)申请人厦门理工学院地址 361024 福建省厦门市集美区理工路 600号 (72)发明人王大寒　吴芸　龚磊　朱顺痣　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师郭东亮　蔡学俊 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于弱监督学习的交互式图像分割方法 (57)摘要本发明提出一种基于弱监督学习的交互式图像分割方法，包括以下步骤；步骤S1：对具有多个类别标签的数据集建立图像级的多标签分类模型；步骤S2：对多标签分类模型进行分类任务训练，使用深度学习后的多标签分类模型对具有多类别图像级标签的数据集进行分类，从分类结果制作成像素级的伪标签；步骤S3：设计基于点击的交互式模拟点击策略；步骤S4：建立交互式图像分割模型；步骤S5：随机选取伪标签中的前景点与背景点信息，并结合图像的三通道信息，输入到交互式图像分割模型中，训练出分割模型，作为推理阶段的模型依据；步骤S6：人为输入前景点及背景点信息，经交互式图像分割模型得出分割结果本发明有效的集成了弱监督学习与交互式图像分割方法。权利要求书3页说明书6页附图3页 CN 115131563 A 2022.09.30 CN 115131563 A 1.一种基于弱监督学习的交互式图像分割方法，其特征在于：所述分割方法包括以下步骤；步骤S1：对具有多个类别标签的数据集建立图像级的多标签分类模型；步骤S2：对多标签分类模型进行分类任务训练，使用深度学习后的多标签分类模型对具有多类别图像级标签的数据集进行分类，然后利用CAM从分类结果得到热值图像，并对热值图像做归一化处理；再将保留的热值图位置信息和类别信息制作成像素级的伪标签；步骤S3：设计基于点击的交互式模拟点击策略，即基于点击的强监督信息，将用户的点击变成计算机可以识别、计算的像素信息；通过随机随机采样的方法选取真实标签中的前景点、背景点，计算欧几里得距离，获得欧几里得距离图；所述真实标签为步骤S2中的伪标签；在模拟策略中，正点击是随机选取前景点，负点击采取随机选取负样本点，并按预设的概率选取边缘点，最后形成完整的模拟交互信息，得到前景点、背景点两个channel的信息，完成交互式模拟点级策略；步骤S4：建立交互式图像分割模型；即：利用步骤S3中的两个channel信息以及图片的三通道信息组成五通道的输入信息，将此信息输入到分割模型中，建立交互式图像分割模型；步骤S5：为了减少人工成本，在训练阶段将随机选取伪标签中的前景点与背景点信息，并结合图像的三通道信息，一起输入到交互式图像分割模型中，训练出分割模型，作为推理阶段的模型依据；步骤S6：进入模型推理阶段，人为输入前景点及背景点信息，并将此二通道信息和三通道图片信息共同输入到交互式图像分割模型中，得出分割结果。 2.根据权利要求1所述的一种基于弱监督学习的交互式图像分割方法，其特征在于：步骤S2中，继分类结果之后，为了从图像级分类标签获得像素级的分割伪标签，采用resnet作为主干分类网络，降低了最后一个采样层的步幅以防止分辨率下降的太多，其损失函数表述如下：其中， y为图像类中的一个热编码向量，为预测类向量， yi为第i个类的标签， C为类的个数；经过训练生成给定类的CAM，并进一步制作成伪标签，利用CAM将分类结果制作成像素级的伪标签。 3.根据权利要求1所述的一种基于弱监督学习的交互式图像分割方法，其特征在于：在步骤S3中，其交互过程包括用户与模型之间的交互，用户的交互行为A包含正面点击A1和负面点击A0，正面点击为对图像前景的点击，负面点击为对图像背景的点击，在训练阶段通过点击策略来满足模拟点击的需求，利用欧几里德距离变换将 A0、 A1形成二值图像的欧几里得距离图，记为通道C0、 C1；每个通道为一个二维矩阵，高度、宽度与原始图像相同，以公式表述为权　利　要　求　书 1/3 页 2 CN 115131563 A 2表示计算坐标在(i， j)的像素的值， f表示即每个点到背景中最近点的直线距离； Pi， j表示点击点的坐标；将截断为0～255以提高数据存储的效率，并使用随机抽样的方法来生成图像和用户交互的对。 4.根据权利要求3所述的一种基于弱监督学习的交互式图像分割方法，其特征在于：在步骤S4中把从步骤S3中得到的欧几里得距离图和原始图像输入到以DeeplabV3+为主体框架的交互式图像分割模型中，交互式图像分割模型包含三个模块：融合模块、 Resnet、 DeeplabV3+；，融合模块是将图像的三个通道信息和距离图的前景点、背景点两个通道处理成五个通道的输入，最后通过 1x1卷积得到三个通道的数据； ResNet作为编码器，压缩图像和交互信息； Deeplabv3+作为解码器，用于得到最终的分割结果。 5.根据权利要求3所述的一种基于弱监督学习的交互式图像分割方法，其特征在于：步骤S5中，在经步骤S1、步骤S2得到了用于交互训练阶段的伪标签、交互策略后，使用NFL训练交互式图像分割模型，使之能在交互时点击某一个像素点就能分割出目标对象；所述NFL是对Focal Loss的改进，即Normalized Focal Loss，可以度量难分类和易分类样本对总的损失的贡献，并且用目标对象的一个点就可以分割出整个对象，以公式表述为其中 6.根据权利要求5所述的一种基于弱监督学习的交互式图像分割方法，其特征在于：步骤S6中，在以交互式图像分割模型进行交互式图像分割的过程中，对分割区域进行修正、更新，其方法为：引入特征变量z用来表示本次分割和上一次分割的区别；将函数f重新参数化，设f(x,z)表示依赖于x 又依赖于特征变量z，通过获取小的z值使得点击中的f(x,z)的值接近真实标签，其公式化之后如下： λ是一个固定的常量， ΔZ表示提取的部分的特征向量，是表示标签预测值， (ui， vi)表示点击点的坐标，表示了整个利用特征变量做结果更新的一种优化任务，为了更好的收敛，本文使用了无约束的L ‑BFGS优化器寻找最优解。权　利　要　求　书 2/3 页 3 CN 115131563 A 3

专利 一种基于弱监督学习的交互式图像分割方法

专利一种基于弱监督学习的交互式图像分割方法