(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221082345 6.2
(22)申请日 2022.07.13
(71)申请人 厦门理工学院
地址 361024 福建省厦门市集美区理工路
600号
(72)发明人 王大寒 吴芸 龚磊 朱顺痣
(74)专利代理 机构 福州元创专利商标代理有限
公司 35100
专利代理师 郭东亮 蔡学俊
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于弱监督学习的交互式图像分割方
法
(57)摘要
本发明提出一种基于弱监督学习的交互式
图像分割方法, 包括以下步骤; 步骤S1: 对具有多
个类别标签的数据集建立图像级的多标签分类
模型; 步骤S2: 对多标签分类模型进行分类任务
训练, 使用深度学习后的多 标签分类模型对具有
多类别图像级标签的数据集进行分类, 从分类结
果制作成像素级的伪标签; 步骤S3: 设计基于点
击的交互式模拟点击策略; 步骤S4: 建立交互式
图像分割模型; 步骤S5: 随机选取伪标签中的前
景点与背景点信息, 并结合图像的三通道信息,
输入到交互式图像分割模型中, 训练出分割模
型, 作为推理阶段的模型依据; 步骤S6: 人为输入
前景点及 背景点信息, 经交互 式图像分割模型得
出分割结果本发明有效的集成了弱监督学习与
交互式图像分割方法。
权利要求书3页 说明书6页 附图3页
CN 115131563 A
2022.09.30
CN 115131563 A
1.一种基于弱监督学习的交互式图像分割方法, 其特征在于: 所述分割方法包括以下
步骤;
步骤S1: 对具有 多个类别标签的数据集建立图像级的多标签分类模型;
步骤S2: 对多标签分类模型进行分类任务训练, 使用深度学习后的多标签分类模型对
具有多类别图像级 标签的数据集进 行分类, 然后利用CAM从分类结果得到热值图像, 并对热
值图像做归一 化处理; 再将保留的热值图位置信息和类别 信息制作成像素级的伪标签;
步骤S3: 设计基于点击的交互式模拟点击策略, 即基于点击的强监督信息, 将用户的点
击变成计算机可以识别、 计算的像素信息; 通过随机随机采样的方法选取真实标签中的前
景点、 背景点, 计算欧几里得距离, 获得欧几里得距离图; 所述真实标签为步骤S2中的伪标
签;
在模拟策略中, 正点击是随机选取前景点, 负点击采取随机选取负样本点, 并按预设的
概率选取边缘点, 最后形成完整的模拟交互信息, 得到前景点、 背景点两个channel的信息,
完成交互式模拟点级策略;
步骤S4: 建立交互式图像分割模型; 即: 利用步骤S3中的两个channel信息以及图片的
三通道信息组成五通道的输入信息, 将此信息输入到分割模型中, 建立交互式图像分割模
型;
步骤S5: 为了减少人工成本, 在训练 阶段将随机选取伪标签 中的前景点与背景点信息,
并结合图像的三通道信息, 一起输入到交互式图像分割模型中, 训练出分割模型, 作为推理
阶段的模型依据;
步骤S6: 进入模型推理 阶段, 人为输入前景点及背景点信息, 并将此二通道信息和三通
道图片信息共同输入到交 互式图像分割模型中, 得 出分割结果。
2.根据权利要求1所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 步
骤S2中, 继分类结果之后, 为了从图像级分类标签获得像素级的分割伪标签, 采用resnet作
为主干分类网络, 降低了最后一个采样层的步幅以防止分辨率下降的太多, 其损失函数表
述如下:
其中, y为图像类中的一个热编码向量,
为预测类向量, yi为第i个类的标签, C为类的
个数; 经过训练生成给定类的CAM, 并进一步制作成伪标签, 利用CAM将分类结果制作成像素
级的伪标签。
3.根据权利要求1所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 在
步骤S3中, 其交互过程包括用户与模型之间的交互, 用户的交互行为A包含正面点击A1和负
面点击A0, 正面点击为对图像前景的点击, 负面点击为对图像背景的点击, 在训练阶段通过
点击策略来满足模拟点击的需求, 利用欧几里德距离变换将 A0、 A1形成二值图像的欧几里得
距离图, 记为通道C0、 C1; 每个通道为一个 二维矩阵, 高度、 宽度与原始图像相同, 以公式表述
为权 利 要 求 书 1/3 页
2
CN 115131563 A
2表示计算 坐标在(i, j)的像素的值,
f表示
即每个点到背景中最近
点的直线距离; Pi, j表示点击点的坐标; 将
截断为0~255以提高数据存储的效率, 并使
用随机抽样的方法来 生成图像和用户交 互的对。
4.根据权利要求3所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 在
步骤S4中把从步骤S3中得到的欧几里得距离图和原始图像输入到以DeeplabV3+为主体框
架的交互式图像分割模型中,
交互式图像分割模型包含三个模块: 融合模块、 Resnet、 DeeplabV3+; , 融合模块是将图
像的三个通道信息和距离图的前景点、 背景点两个通道处理成五个通道的输入, 最后通过
1x1卷积得到三个通道的数据; ResNet作为编码器, 压缩图像和交互信息; Deeplabv3+作为
解码器, 用于得到最终的分割结果。
5.根据权利要求3所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 步
骤S5中, 在经步骤S1、 步骤S2得到了用于交互训练阶段的伪标签、 交互策略后, 使用NFL训练
交互式图像分割模型, 使之能在交 互时点击某一个 像素点就能分割出目标对象;
所述NFL是对Focal Loss的改进, 即Normalized Focal Loss, 可以度量难分类和易分
类样本对总的损失的贡献, 并且用目标对 象的一个点就可以分割 出整个对 象, 以公式表述
为
其中
6.根据权利要求5所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 步
骤S6中, 在以交互式图像分割模型进 行交互式图像 分割的过程中, 对分割区域进 行修正、 更
新, 其方法为: 引入特征变量z用来表示本次分割和上一次分割的区别; 将函数f重新参数
化, 设f(x,z)表 示依赖于x 又依赖于特征变量z, 通过获取小的z值使得点击中的f(x,z)的值
接近真实标签, 其公式化之后如下:
λ是一个固定的常量, ΔZ表示提取的部 分的特征向量,
是表示标签预测值, (ui, vi)表
示点击点的坐标, 表示了整个利用特征变量做结果更新的一种优化任务, 为了更好的收敛,
本文使用了无约束的L ‑BFGS优化器寻找最优解。权 利 要 求 书 2/3 页
3
CN 115131563 A
3
专利 一种基于弱监督学习的交互式图像分割方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:42:50上传分享