全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111394304.7 (22)申请日 2021.11.23 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 秦铎浩  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 代理人 马敬 丁芸 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/27(2019.01) G06N 20/00(2019.01) (54)发明名称 一种数据筛选方法、 装置、 设备以及存储介 质 (57)摘要 本公开提供了一种数据筛选方法、 装置、 设 备以及存储介质, 涉及计算机技术领域, 尤其涉 及人工智能、 大数据、 深度学习、 数据回流技术领 域。 具体实现方案为: 获取业务数据; 基于业务数 据对模型的影 响程度对业务数据进行筛选, 得到 用于对模型进行更新的数据; 其中, 影响程度反 映对模型更新性能的影 响大小。 针对业务数据进 行筛选, 避免针对所有业务数据进行重训以实现 对模型的更新, 能够减少用于模型更新的数据 量。 权利要求书3页 说明书10页 附图2页 CN 114090601 A 2022.02.25 CN 114090601 A 1.一种数据筛 选方法, 包括: 获取业务数据; 基于所述业务数据对模型的影响程度对所述业务数据进行筛选, 得到用于对所述模型 进行更新的数据; 其中, 所述影响程度反映对所述模型 更新性能的影响大小。 2.根据权利要求1所述的方法, 其中, 所述基于所述业务数据对模型的影响程度对所述 业务数据进行筛 选, 得到用于对所述模型进行 更新的数据, 包括: 响应于所述业务数据含有业务标签, 基于所述业务标签以及所述业务数据对应的预测 数据对所述业务数据进行筛选, 得到用于对所述模型进行更新的数据; 所述预测数据是利 用所述模型针对所述 业务数据得到的数据; 响应于所述业务数据 未含有业务标签, 基于所述业务数据对应的信 息增益对所述业务 数据进行筛选, 得到用于对所述模型进行更新的数据, 所述信息增益与所述影响程度成正 比。 3.根据权利要求2所述的方法, 其中, 所述基于所述业务标签以及所述业务数据对应的 预测数据对所述 业务数据进行筛 选, 得到用于对所述模型进行 更新的数据, 包括: 将所述业务标签与所述预测数据进行比对; 响应于所述业务标签与所述预测数据的差异不小于预设差异值, 将所述业务数据作为 用于对所述模型进行 更新的数据。 4.根据权利要求2所述的方法, 其中, 所述基于所述业务数据对应的信 息增益对所述业 务数据进行筛 选, 得到用于对所述模型进行 更新的数据, 包括: 计算所述 业务数据对应的信息增益; 响应于所述信息增益 不小于预设增益 值, 将所述 业务数据作为待标注数据; 对所述待标注数据进行 标注, 得到用于对所述模型进行 更新的数据。 5.根据权利要求 4所述的方法, 其中, 所述计算所述 业务数据对应的信息增益, 包括: 通过如下信息增益 函数计算所述 业务数据对应的信息增益; 其中, Dtrain表示待更新的所述模型, X表示业务数据, 表示X对应的预测数据, ω表示 模型参数, ω|X,Dtrain表示给定X和Dtrain时所对应的ω, 表示ω|X,Dtrain 条件下 的信息增益, 表示给定 X和Dtrain时所对应的 表示 给定X和Dtrain时针对 的熵, p(ω|Dtrain)表示给定Dtrain的基础上ω的概率, 表 示给定X和ω的基础上针对 的熵, 表示p(ω|Dtrain)条件下 的期望值。 6.根据权利要求1至 5任一项所述的方法, 还 包括: 通过增量保存的方式保存所述用于对所述模型进行 更新的数据; 或者, 通过全量保存的方式保存所述用于对所述模型进行 更新的数据。 7.一种数据筛 选装置, 包括:权 利 要 求 书 1/3 页 2 CN 114090601 A 2获取模块, 用于获取业 务数据; 筛选模块, 用于基于所述业务数据对模型的影响程度对所述业务数据进行筛选, 得到 用于对所述模型进行更新的数据; 其中, 所述影响程度反映对所述模型更新性能的影响大 小。 8.根据权利要求7所述的装置, 其中, 所述筛选模块, 还用于: 响应于所述业务数据含有 业务标签, 基于所述业务标签 以及所述业务数据对应的预测数据对所述业务数据进行筛 选, 得到用于对所述模型进行更新的数据; 所述预测数据是利用所述模型针对所述业务数 据得到的数据; 响应于所述业务数据未含有业务标签, 基于所述业务数据对应的信息增益 对所述业务数据进行筛选, 得到用于对所述模型进行更新的数据, 所述信息增益与所述影 响程度成正比。 9.根据权利要求8所述的装置, 其中, 所述筛选模块, 还用于: 将所述业务标签与所述预 测数据进行比对; 响应于所述业务标签与所述预测数据的差异不小于预设差异值, 将所述 业务数据作为用于对所述模型进行 更新的数据。 10.根据权利要求8所述的装置, 其中, 所述筛选模块, 还用于: 计算所述业务数据对应 的信息增益; 响应于所述信息增益不小于预设增益值, 将所述业务数据作为待标注数据; 对 所述待标注数据进行 标注, 得到用于对所述模型进行 更新的数据。 11.根据权利要求10所述的装置, 其中, 所述筛选模块, 还用于: 通过如下信息增益函数 计算所述 业务数据对应的信息增益; 其中, Dtrain表示待更新的所述模型, X表示业务数据, 表示X对应的预测数据, ω表示 模型参数, ω|X,Dtrain表示给定X和Dtrain时所对应的ω, 表示ω|X,Dtrain 条件下 的信息增益, 表示给定X和Dtrain时所对应的 表示 给定X和Dtrain时针对 的熵, p(ω|Dtrain)表示给定Dtrain的基础上ω的概率, 表 示给定X和ω的基础上针对 的熵, 表示p(ω|Dtrain)条件下 的期望值。 12.根据权利要求7至1 1任一项所述的装置, 还 包括: 保存模块, 用于通过增量保存的方式保存所述用于对所述模型进行更新的数据; 或者, 通过全量保存的方式保存所述用于对所述模型进行 更新的数据。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根权 利 要 求 书 2/3 页 3 CN 114090601 A 3

.PDF文档 专利 一种数据筛选方法、装置、设备以及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据筛选方法、装置、设备以及存储介质 第 1 页 专利 一种数据筛选方法、装置、设备以及存储介质 第 2 页 专利 一种数据筛选方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。