说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221082345 6.2 (22)申请日 2022.07.13 (71)申请人 厦门理工学院 地址 361024 福建省厦门市集美区理工路 600号 (72)发明人 王大寒 吴芸 龚磊 朱顺痣  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 郭东亮 蔡学俊 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于弱监督学习的交互式图像分割方 法 (57)摘要 本发明提出一种基于弱监督学习的交互式 图像分割方法, 包括以下步骤; 步骤S1: 对具有多 个类别标签的数据集建立图像级的多标签分类 模型; 步骤S2: 对多标签分类模型进行分类任务 训练, 使用深度学习后的多 标签分类模型对具有 多类别图像级标签的数据集进行分类, 从分类结 果制作成像素级的伪标签; 步骤S3: 设计基于点 击的交互式模拟点击策略; 步骤S4: 建立交互式 图像分割模型; 步骤S5: 随机选取伪标签中的前 景点与背景点信息, 并结合图像的三通道信息, 输入到交互式图像分割模型中, 训练出分割模 型, 作为推理阶段的模型依据; 步骤S6: 人为输入 前景点及 背景点信息, 经交互 式图像分割模型得 出分割结果本发明有效的集成了弱监督学习与 交互式图像分割方法。 权利要求书3页 说明书6页 附图3页 CN 115131563 A 2022.09.30 CN 115131563 A 1.一种基于弱监督学习的交互式图像分割方法, 其特征在于: 所述分割方法包括以下 步骤; 步骤S1: 对具有 多个类别标签的数据集建立图像级的多标签分类模型; 步骤S2: 对多标签分类模型进行分类任务训练, 使用深度学习后的多标签分类模型对 具有多类别图像级 标签的数据集进 行分类, 然后利用CAM从分类结果得到热值图像, 并对热 值图像做归一 化处理; 再将保留的热值图位置信息和类别 信息制作成像素级的伪标签; 步骤S3: 设计基于点击的交互式模拟点击策略, 即基于点击的强监督信息, 将用户的点 击变成计算机可以识别、 计算的像素信息; 通过随机随机采样的方法选取真实标签中的前 景点、 背景点, 计算欧几里得距离, 获得欧几里得距离图; 所述真实标签为步骤S2中的伪标 签; 在模拟策略中, 正点击是随机选取前景点, 负点击采取随机选取负样本点, 并按预设的 概率选取边缘点, 最后形成完整的模拟交互信息, 得到前景点、 背景点两个channel的信息, 完成交互式模拟点级策略; 步骤S4: 建立交互式图像分割模型; 即: 利用步骤S3中的两个channel信息以及图片的 三通道信息组成五通道的输入信息, 将此信息输入到分割模型中, 建立交互式图像分割模 型; 步骤S5: 为了减少人工成本, 在训练 阶段将随机选取伪标签 中的前景点与背景点信息, 并结合图像的三通道信息, 一起输入到交互式图像分割模型中, 训练出分割模型, 作为推理 阶段的模型依据; 步骤S6: 进入模型推理 阶段, 人为输入前景点及背景点信息, 并将此二通道信息和三通 道图片信息共同输入到交 互式图像分割模型中, 得 出分割结果。 2.根据权利要求1所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 步 骤S2中, 继分类结果之后, 为了从图像级分类标签获得像素级的分割伪标签, 采用resnet作 为主干分类网络, 降低了最后一个采样层的步幅以防止分辨率下降的太多, 其损失函数表 述如下: 其中, y为图像类中的一个热编码向量, 为预测类向量, yi为第i个类的标签, C为类的 个数; 经过训练生成给定类的CAM, 并进一步制作成伪标签, 利用CAM将分类结果制作成像素 级的伪标签。 3.根据权利要求1所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 在 步骤S3中, 其交互过程包括用户与模型之间的交互, 用户的交互行为A包含正面点击A1和负 面点击A0, 正面点击为对图像前景的点击, 负面点击为对图像背景的点击, 在训练阶段通过 点击策略来满足模拟点击的需求, 利用欧几里德距离变换将 A0、 A1形成二值图像的欧几里得 距离图, 记为通道C0、 C1; 每个通道为一个 二维矩阵, 高度、 宽度与原始图像相同, 以公式表述 为权 利 要 求 书 1/3 页 2 CN 115131563 A 2表示计算 坐标在(i, j)的像素的值, f表示 即每个点到背景中最近 点的直线距离; Pi, j表示点击点的坐标; 将 截断为0~255以提高数据存储的效率, 并使 用随机抽样的方法来 生成图像和用户交 互的对。 4.根据权利要求3所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 在 步骤S4中把从步骤S3中得到的欧几里得距离图和原始图像输入到以DeeplabV3+为主体框 架的交互式图像分割模型中, 交互式图像分割模型包含三个模块: 融合模块、 Resnet、 DeeplabV3+; , 融合模块是将图 像的三个通道信息和距离图的前景点、 背景点两个通道处理成五个通道的输入, 最后通过 1x1卷积得到三个通道的数据; ResNet作为编码器, 压缩图像和交互信息; Deeplabv3+作为 解码器, 用于得到最终的分割结果。 5.根据权利要求3所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 步 骤S5中, 在经步骤S1、 步骤S2得到了用于交互训练阶段的伪标签、 交互策略后, 使用NFL训练 交互式图像分割模型, 使之能在交 互时点击某一个 像素点就能分割出目标对象; 所述NFL是对Focal  Loss的改进, 即Normalized  Focal Loss, 可以度量难分类和易分 类样本对总的损失的贡献, 并且用目标对 象的一个点就可以分割 出整个对 象, 以公式表述 为 其中 6.根据权利要求5所述的一种基于弱监督学习的交互式图像分割方法, 其特征在于: 步 骤S6中, 在以交互式图像分割模型进 行交互式图像 分割的过程中, 对分割区域进 行修正、 更 新, 其方法为: 引入特征变量z用来表示本次分割和上一次分割的区别; 将函数f重新参数 化, 设f(x,z)表 示依赖于x 又依赖于特征变量z, 通过获取小的z值使得点击中的f(x,z)的值 接近真实标签, 其公式化之后如下: λ是一个固定的常量, ΔZ表示提取的部 分的特征向量, 是表示标签预测值, (ui, vi)表 示点击点的坐标, 表示了整个利用特征变量做结果更新的一种优化任务, 为了更好的收敛, 本文使用了无约束的L ‑BFGS优化器寻找最优解。权 利 要 求 书 2/3 页 3 CN 115131563 A 3

PDF文档 专利 一种基于弱监督学习的交互式图像分割方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于弱监督学习的交互式图像分割方法 第 1 页 专利 一种基于弱监督学习的交互式图像分割方法 第 2 页 专利 一种基于弱监督学习的交互式图像分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。