全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210809919.X (22)申请日 2022.07.11 (71)申请人 杭州海康威视数字技 术股份有限公 司 地址 310051 浙江省杭州市滨江区阡 陌路 555号 (72)发明人 张冰逸 孟泽民 桂心哲 冷明鑫  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 专利代理师 项京 孙翠贤 (51)Int.Cl. G06V 10/72(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/762(2022.01) (54)发明名称 一种数据筛 选方法及装置 (57)摘要 本申请实施例提供了一种数据筛选方法及 装置, 该方法包括: 获取第一样本图像集, 第一样 本图像集包括多个第一样本图像; 将多个第一样 本图像分别输入待精简模型, 得到每个第一样本 图像的预测结果; 根据每个第一样 本图像的预测 结果以及该第一样本图像的标注结果, 确定每个 第一样本图像的决策距离; 根据每个第一样本图 像的决策距离, 筛选出待精简 模型表现最差的第 一预设数量个第一样本图像。 应用本申请实施例 提供的技术方案, 能够筛选出对模 型精简具有指 导作用的图像数据, 提高图像数据筛选的准确 性。 权利要求书3页 说明书19页 附图5页 CN 115170838 A 2022.10.11 CN 115170838 A 1.一种数据筛 选方法, 其特 征在于, 所述方法包括: 获取第一样本图像集, 所述第一样本图像集包括多个第一样本图像; 将所述多个第一样本图像分别输入待精简模型, 得到每 个第一样本图像的预测结果; 根据每个第 一样本图像的预测结果以及该第 一样本图像的标注结果, 确定每个第 一样 本图像的决策距离; 根据每个第 一样本图像的决策距离, 筛选出所述待精简模型表现最差的第 一预设数量 个第一样本图像。 2.根据权利要求1所述的方法, 其特征在于, 每个第 一样本图像的预测结果包括至少一 个计算单元的预测结果; 所述根据每个第 一样本图像的预测结果以及该第 一样本图像的标注结果, 确定每个第 一样本图像的决策距离的步骤, 包括: 根据每个第 一样本图像中每个计算单元的预测结果以及该第 一样本图像的标注结果, 确定该第一样本图像中的至少一个正确计算单元, 所述正确计算单元为预测结果正确的计 算单元; 确定每个第一样本图像中每 个正确计算单 元的决策距离; 根据每个第 一样本图像中每个正确计算单元的决策距离, 确定该第 一样本图像的决策 距离。 3.根据权利要求2所述的方法, 其特征在于, 所述根据每个第 一样本图像中每个计算单 元的预测结果以及该第一样本图像的标注结果, 确定该第一样本图像中的至少一个正确计 算单元的步骤, 包括: 针对每个第 一样本图像, 确定与 该第一样本图像中的真值单元的交并比最大的预测单 元, 为正确计算单元, 所述真值单元为该第一样本图像的标注结果所指示的计算单元, 所述 预测单元为预测结果与真值单 元的标注结果匹配的计算单 元。 4.根据权利要求3所述的方法, 其特征在于, 所述确定每个第 一样本图像中每个正确计 算单元的决策距离的步骤, 包括: 针对每个第 一样本图像中的每个正确计算单元, 确定该正确计算单元对应的目标交并 比与预设平均精确度的差值, 为该正确计算单元 的决策距离, 所述 目标交并比为该正确计 算单元与对应的真值单 元的交并比。 5.根据权利要求2所述的方法, 其特征在于, 所述确定每个第 一样本图像中每个正确计 算单元的决策距离的步骤, 包括: 针对每个第 一样本图像中的每个正确计算单元, 确定该正确计算单元对应的第 一概率 与第二概率的差值, 为该正确计算单元 的决策距离, 所述第一概率为预测该正确计算单元 为各个类别的概率中的最大概率, 所述第一概率为预测该正确计算单元为各个类别的概率 中的第二大概 率。 6.根据权利要求2所述的方法, 其特征在于, 所述根据每个第 一样本图像中每个正确计 算单元的决策距离, 确定该第一样本图像的决策距离的步骤, 包括: 针对每个第一样本图像, 计算该第一样本图像中每个正确计算单元的决策距离的均 值, 作为该第一样本图像的决策距离; 或者, 针对每个第一样本 图像, 从该第一样本 图像中每个正确计算单元的决策距离中, 选择权 利 要 求 书 1/3 页 2 CN 115170838 A 2最小决策距离, 作为该第一样本图像的决策距离; 或者, 针对每个第 一样本图像, 将该第 一样本图像中每个正确计算单元的决策距离分别作为 该第一样本图像的决策距离 。 7.根据权利要求1所述的方法, 其特征在于, 所述根据每个第一样本 图像的决策距离, 筛选出所述待精简模型表现最差的第一预设数量个第一样本图像的步骤, 包括: 确定决策距离最小的第一预设数量个第一样本图像; 或者, 根据每个第一样本 图像的决策距离, 确定该第一样本 图像的决策评分, 所述决策评分 与所述待精简模型表现正相关; 筛 选出决策评分最大的第一预设数量个第一样本图像。 8.根据权利要求7所述的方法, 其特征在于, 所述根据每个第一样本 图像的决策距离, 确定该第一样本图像的决策评分的步骤, 包括: 确定每个第一样本图像的每 个决策距离的倒数, 得到初始评分; 针对每个第一样本 图像, 确定该第一样本 图像对应的初始评分的均值, 得到该第一样 本图像的决策评分。 9.根据权利要求1所述的方法, 其特 征在于, 所述获取第一样本图像集的步骤, 包括: 获取第二样本图像集, 所述第二样本图像集包括多个第二样本图像; 提取每个第二样本 图像在多个第一预设维度的特征, 得到第一特征向量; 所述第一预 设维度为人工信息维度和/或自然信息维度; 按照预设聚类算法, 基于所述多个第二样本 图像的第一特征向量, 对所述多个第二样 本图像进行聚类处 理, 得到第二预设数量个 类别的第二样本图像; 从每个类别的第二样本图像中, 分别提取距离和最大的第三预设数量个第二样本图 像, 得到第一样本图像集。 10.根据权利要求9所述的方法, 其特征在于, 所述从每个类别的第 二样本图像中, 分别 提取距离和最大的第三预设数量个第二样本图像, 得到第一样本图像集的步骤, 包括: 从每个类别的第二样本图像中, 分别提取距离和最大的第四预设数量个第二样本图 像, 得到第三样本图像集; 提取每个第三样本 图像在多个第二预设维度的特征, 得到第二特征向量, 所述第三样 本图像为所述第三样本图像集包括的第二样本图像; , 所述第二预设维度为人工信息维度 和/或自然信息维度; 按照预设聚类算法, 基于多个第三样本 图像的第二特征向量, 对所述多个第三样本 图 像进行聚类处 理, 得到第五预设数量个 类别的第三样本图像; 从每个类别的第三样本图像中, 分别提取距离和最大的第三预设数量个第三样本图 像, 得到第一样本图像集。 11.根据权利要求9或10所述的方法, 其特征在于, 所述按照预设聚类算法, 基于所述多 个第二样本图像的第一特征向量, 对所述多个第二样本图像进行聚类处理, 得到第二预设 数量个类别的第二样本图像的步骤, 包括: 对所述多个第二样本图像的第一特 征向量进行归一 化处理, 得到归一 化特征向量; 按照预设聚类算法, 基于所述多个第二样本 图像的归一化特征向量, 对所述多个第二 样本图像进行聚类处 理, 得到第二预设数量个 类别的第二样本图像。 12.根据权利要求1 ‑10任一项所述的方法, 其特 征在于, 所述方法还 包括:权 利 要 求 书 2/3 页 3 CN 115170838 A 3

.PDF文档 专利 一种数据筛选方法及装置

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据筛选方法及装置 第 1 页 专利 一种数据筛选方法及装置 第 2 页 专利 一种数据筛选方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:56:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。